Programme Salon de l’innovation

Programme Salon de l’innovation

CORIA-TALN – Salon de l’Innovation

  • AugmentIA – Ingénierie augmentée par Intelligence Artificielle générative – Chaire de recherche, d’innovation et d’enseignement
    • Markarit Vartampetian, Diandra Fabre, Philippe Mulhem and Didier Schwab
    • La Chaire AugmentIA, portée par Didier Schwab (PR, Univ. Grenoble Alpes, LIG), vise ‡ explorer les applications de l’intelligence artificielle (IA) dans les domaines de l’ingénierie et de la construction. Son objectif consiste au développement de outils basés sur l’IA pour augmenter les capacités cognitives humaines, dans une approche responsable et éthique. Dans le cadre du Salon de l’Innovation, nous proposerons une présentation générale de la chaire.
  • Pantagruel : Modèles de langue multimodaux et inclusifs pour le français général et clinique
    • Diandra Fabre, Vincent Segonne, Gilles Sérasset and Didier Schwab
    • Le projet Pantagruel est une initiative visant la construction et l’évaluation de grands modèles de langue multimodaux (texte, parole, pictogrammes) et inclusifs pour le français, tant dans des contextes généraux que cliniques. Il repose sur un consortium interdisciplinaire réunissant des expertises en informatique, traitement de la parole, linguistique, sciences sociales et médecine, réparties sur plusieurs laboratoires partenaires. Ce projet, débuté en septembre 2023 pour une durée de 36 mois, s’inscrit dans les priorités nationales en matière d’intelligence artificielle responsable, d’ouverture des données et de souveraineté numérique autour de la langue française.
  • Présentation du projet ANR InExtenso
    • KarÎn Fort, Pierre Zweigenbaum, Fanny Ducel, Clémentine Bleuze, Aurélie Névéol, Caio Corro, Maxime Amblard and Anne-Laure Ligozat
    • Les grands modèles de langue génèrent des biais stéréotypés, que l’on ne sait pas encore détecter précisément, en particulier dans les langues autres que l’anglais. Nous nous proposons dans ce projet de construire des moyens d’évaluation pour observer l’ensemble de la chaÓne de production : le modèle lui-mÍme, la t‚che de pré-entrainement, et des applications aval, en l’occurrence l’aide au diagnostic de la maladie mentale et l’extraction d’informations ‡ partir de dossiers cliniques en français.
  • TEASE: TExt And Schematic for Education
    • Thomas Gerald, Hui-Chi Kuo, Julie Lascar, Paul Lerner, Sahar Ghannay and Anne Vilnat
    • Le but du projet TEASE est d’élaborer un corpus multimodal annoté sur des contenus scolaires. L’objectif fixé est de créer un corpus annoté en question-réponse, en considérant des questions ‡ visée pédagogique axées sur l’exploitation conjointe de texte et diagrammes ou de contenus infographiques (cartes, schémas, frises chronologiques, etc…) contenant eux-mÍmes du texte ‡ exploiter. Aujourd’hui, nous avons extrait depuis plusieurs ressources en ligne, des contenus pédagogiques, et nous travaillons ‡ l’élaboration de questions et réponses en exploitant les capacités des Grands Modèles de Langues (LLM) et de Vision (VLM). Notre projet se focalise sur l’annotation automatique et plus spécifiquement sur les possibilités de filtrage ou d’évaluation d’annotations générées automatiquement en spécifiant les critères valorisant les objectifs pédagogiques.
  • FrenchGen4Health (FG4H)
    • Théo Ryffel, Vincent Vuiblet, Thierry Chanet and Eric De La Clergerie
    • Le projet FrenchGen4Health (FG4H) consiste ‡ développer un modèle génératif de langage (LLM) spécialisé dans le domaine médical, entraÓné spécifiquement sur des données de santé françaises. Ce commun numérique permettra l’innovation et le développement de services avancés dans l’écosystème français de santé numérique.
  • Matos: Machines ‡ Traduire pour Ouvrir la Science
    • François Yvon
    • Cette contribution présente le projet MaTOS (Machines ‡ Traduire pour Ouvrir la Science), qui vise ‡ développer des méthodes pour la traduction automatique (TA) intégrale de documents scientifiques entre le français et l’anglais, ainsi que des métriques automatiques pour évaluer la qualité des traductions produites. Pour ce faire, MaTOS s’intéresse (a) au recueil et ‡ la création de ressources ouvertes pour la TA spécialisée; (b) ‡ la description des marqueurs de cohérence textuelle pour les articles scientifiques; (c) au développement de nouvelles méthodes de traitement multilingue pour les documents; (d) aux métriques mesurant les progrès de la traduction de documents complets. La présentation fera un point d’étape sur les ressources développées et les résultats obtenus pendant les deux premières parties du projet, avec un focus particulier sur les ressources obtenues par post-éditions de traductions automatiques dans le domaine du TAL, et le lancement de nouvelles campagnes de recueil de données.
  • Scribe: Industrialiser l’IA Générative
    • Djamé Seddah, Antoine Couret, Igor Carron and Pierre-François Lavallée
    • Le projet SCRIBE, présenté lors de la deuxième audition d’avril 2024, a pour ambition de construire une intelligence artificielle générative souveraine, spécifiquement pensée pour les besoins des industriels français. Face ‡ une prédominance des modèles anglo-saxons et une absence d’industrialisation réelle de l’IA générative en France, SCRIBE entend proposer une réponse alignée sur la culture, les métiers et les exigences réglementaires locales, en particulier celles du cadre européen. L’objectif est de dépasser les simples démonstrateurs techniques pour proposer des solutions robustes, sécurisées et exploitables ‡ grande échelle. Le projet repose sur le développement de modèles de fondation multilingues, optimisés pour la langue française, ainsi que de trois modèles sectoriels principaux dans les domaines juridique et financier, de l’éducation et de la santé. Ces modèles seront enrichis par des données spécifiques, issues de corpus nationaux de référence et des données métiers. Un des aspects cruciaux est le développement de jeux d’évaluation, d’instruction et d’alignement spécifiques ‡ ces domaines. SCRIBE inclut également une forte dimension d’optimisation de l’infrastructure lors de l’inférence et de sécurisation des modèles.
  • PARTAGES : Développement avancé de communs numériques pour l’intelligence artificielle générative en santé
    • Youness Khalil and Emmanuel Bacry
    • L’IA générative connaÓt un développement rapide ‡ l’international, notamment aux …tats-Unis, tandis que son usage en France dans le domaine de la santé reste limité. Pour y remédier, le Health Data Hub et ses partenaires ont lancé le projet PARTAGES, retenu en octobre 2024 dans le cadre de l’appel ‡ projets ìCommuns numériques pour l’IA générativeî de France 2030. Doté d’un financement de de 6,9 millions d’euros de BPI France, L’exécution opérationnelle du projet s’étale sur 24 mois, d’avril 2025 ‡ avril 2027. PARTAGES réunit plus de 30 partenaires publics et privés, dont l’AP-HP, plusieurs CHU, les centres de lutte contre le cancer, les groupes ELSAN et Ramsay Santé, des laboratoires de recherche (LIA, LIS, LIG, LS2N) ainsi que la start-up Mistral AI. Le projet repose sur quatre piliers : (1) Développement d’un LLM médical open source en français. (2) Création d’une base de comptes rendus médicaux fictifs annotés pour entraÓner les modèles. (3) Déploiement de sept modèles spécialisés (pseudonymisation, codage des actes, résumé, cas cliniques, biomarqueurs, réponse aux traitements, détection d’infections). (4) Mise en place d’une plateforme nationale d’évaluation fédérée développée par le CNRS. L’ensemble des outils sera mis en open source, afin de renforcer un écosystème souverain, sécurisé et collaboratif, au service des professionnels de santé et des patients. L’objectif : démocratiser l’IA générative en santé, en rendant ses usages simples et accessibles ‡ tous. Nature de la présentation : il s’agit d’une présentation générale du projet PARTAGES, sans aborder un sujet spécifique propre ‡ ce mÍme projet.
  • SYNAPSES – Relier l’Intelligence Artificielle, les Médias, les contenus de presse, les journalistes et les lecteurs
    • Thomas Girault, Victor Klˆtzer, Michel Le Nouy and Laurent Amsaleg
    • Le Laboratoire Commun (LabCom) Synapses, financé par l’ANR, réunit l’équipe de recherche LinkMedia et le groupe de presse Ouest-France pour adresser les défis scientifiques posés par l’exploitation d’un patrimoine journalistique. Ces archives, composées de millions de contenus accumulés depuis 1899, constituent un corpus massif, diachronique et multimodal (textes, photographies, PDF, podcasts et vidéos). Ce projet s’articule autour de trois axes de recherche majeurs. Le premier se concentre sur l’analyse et l’indexation sémantique des archives photographiques caractérisées par leur hétérogénéité. Le deuxième axe vise ‡ développer et adapter des modèles de langue pour l’analyse de contenus journalistiques, en tenant compte des spécificités locales et de la dynamique temporelle de l’information. Enfin, le troisième axe porte sur la visualisation interactive et l’exploration de données complexes pour permettre aux journalistes de détecter des signaux faibles, de contextualiser l’actualité et d’assurer la traçabilité de l’information. En confrontant ces recherches ‡ des cas d’usages journalistiques réels, Synapses a pour double ambition de produire des avancées significatives en TAL sur des corpus non standard et de fournir des outils innovants pour le journalisme. Ce cadre garantit une maÓtrise souveraine des données et des algorithmes, tout en assurant le respect des droits des personnes présentes dans ces archives.