À Rouen, le normand entre dans l’ère du graphe de connaissance
Publié le 15 avril par l’INSA Rouen Normandie, un marché porte sur une prestation bien précise : récupérer des ressources sur le patrimoine linguistique normand, les étiqueter et construire un graphe de connaissance dans le cadre du projet EULCAT. La consultation est ouverte jusqu’au 15 mai à 18 heures. Le code de prestation renvoie à la collecte et à la collation de données. Autrement dit, l’acheteur ne cherche pas un habillage culturel de plus, mais un vrai travail de collecte, de structuration et de mise en relation de contenus.
L’enjeu est concret. Un graphe de connaissance sert à relier des mots, des variantes locales, des lieux, des auteurs, des dates et des sources. Pour le normand, cela peut aider à retrouver une forme régionale, rapprocher des corpus dispersés, mieux documenter un territoire et améliorer les réponses d’un outil de recherche ou d’un agent conversationnel. C’est la logique d’EULCAT, projet financé à hauteur de 534 311,50 euros, dont 427 449,20 euros de fonds européens, porté par l’INSA via le laboratoire LITIS avec le CRIANN, REDLAB et JUST AI. Une première version est déjà testée à l’Atrium de Rouen.
Le chantier part d’une base réelle. Depuis 2019, la Région Normandie mène un programme de sauvegarde des parlers normands avec un conseil scientifique et culturel de 16 membres. La Fédération des associations pour la langue normande réunit plus de 10 associations. Le projet Paroles de Normands vise à mettre en ligne plusieurs centaines de textes dialectaux allant du XVe siècle à 1918. L’Atlas linguistique normand, lui, repose sur des enquêtes menées de 1970 à 1976 auprès de 697 informateurs. Le sujet n’est donc pas de découvrir un patrimoine oublié. Il s’agit de le rendre trouvable, croisé et réutilisable à l’échelle numérique.
Pour la Seine-Maritime, le signal est aussi économique. Ce type de marché peut intéresser des équipes capables de faire du moissonnage de données, de l’annotation, de la gestion de connaissances, du web sémantique ou du traitement automatique des langues. Le LITIS, l’un des pivots du projet, travaille déjà sur la représentation de l’information, l’intelligence artificielle et la science des données. On voit ici une commande publique d’un autre genre : moins de béton, plus d’ingénierie de données appliquée à un patrimoine régional.
Le mouvement dépasse la Normandie. En Europe, des infrastructures comme Europeana poussent depuis des années les institutions culturelles à relier leurs données pour les rendre plus faciles à chercher, à croiser et à réutiliser. Rouen applique cette logique à une langue régionale. Un marché ne sauvera pas le normand à lui seul. En revanche, il peut lui donner ce qui manque souvent aujourd’hui : des données propres, reliées entre elles, et réellement utilisables par la recherche, la médiation culturelle et de futurs services numériques.