Connaissances factuelles dans les modèles de langue : robustesse et anomalies face à des variations simples du contexte temporel – Hichem Ammar Khodja, Frederic Bechet, Quentin Brabant, Alexis Nasr and Gwénolé Lecorvé – papier TALN – résumé
ALF: Un jeu de données d’analogies françaises à grain fin pour l’évaluation de la connaissance lexicale des grands modèles de langue – Alexander Petrov, Antoine Venant, François Lareau, Yves Lepage and Philippe Langlais – papier TALN – résumé
Embeddings, topic models, LLM : un air de famille – Ludovic Tanguy, Cécile Fabre, Nabil Hathout and Lydia-Mai Ho-Dac – papier TALN – résumé
Clarification des Ambiguïtés : Sur le Rôle des Types d’Ambiguïté dans les Méthodes d’Amorçage pour la Génération de Clarifications – Anfu Tang, Laure Soulier and Vincent Guigue – papier CORIA – résumé
SEBRAG: Vers l’Utilisation des LLM pour une Tâche de Questions-Réponses Extractive – Quentin Signé, Thiziri Belkacem, Mohand Boughanem and Jose G Moreno – papier CORIA – résumé
Solver-Aware Training for Logical Constraint Integration in Event Relation Extraction – Baptiste Brunet de la Charie, Abdallah Arioua, Elöd Egyed-Zsigmond and Thomas Veran – papier CORIA – résumé
Analyse Textuelle et Extraction Géospatiale pour la Surveillance des Crises Alimentaires en Afrique de l’Ouest – Charles Abdoulaye Ngom, Maguelonne Teisseire and Sarah Valentin – papier CORIA – résumé
Application de Transformers multimodaux à l’extraction d’informations des documents de sondage des sols – Stanislas Bagnol, Killian Barrere, Véronique Eglin, Elöd Egyed-Zsigmond, Jean-Marie Côme and David Pitaval – papier CORIA – résumé
Clustering de résumés LLM guidés par l’utilisateur : vers une approche constructiviste et réaliste unifiée – Carl Hatoum, Catherine Combes, Virginie Fresse, Christophe Gravier and Mathieu Orzalesi – papier CORIA – résumé
AutoCluster: Un agent pour le clustering basé sur les grands modèles de langue – Erwan Versmée, Youcef Remil, Mehdi Kaytoue and Julien Velcin – papier CORIA – résumé
GeNRe : un système de neutralisation automatique du genre exploitant les noms collectifs – Enzo Doyen and Amalia Todirascu – papier TALN – résumé
Mesurer les inégalités de genre en ligne avec le genre grammatical : Une étude du subreddit r/france – Marie Flesch and Heather Burnett – papier TALN – résumé
« Les femmes ne font pas de crise cardiaque ! » Étude des biais de genre dans les cas cliniques synthétiques en français – Fanny Ducel, Nicolas Hiebel, Olivier Ferret, Karën Fort and Aurélie Névéol – papier TALN – résumé
La trumplang, instrument de destruction de la pensée : analyse de l’impact de la censure trumpiste sur la recherche en santé mentale – Vincent P. Martin, Karën Fort and Jean-Arthur Micoulaud-Franchi – papier TALN – résumé
HISTOIRESMORALES: Un jeu de données français pour évaluer l’alignement moral des modèles de langage – Thibaud Leteno, Irina Proskurina, Antoine Gourru, Julien Velcin, Charlotte Laclau, Guillaume Metzler and Christophe Gravier – papier TALN – résumé
Restructuration de la Littérature Biomédicale dans une Architecture RAG pour la Génération de Réponse – Maël Lesavourey and Gilles Hubert – papier CORIA – résumé
SEval-ex : Un paradigme basé sur les phrases atomiques pour une évaluation explicable de la qualité des résumés – Tanguy Herserant and Vincent Guigue – papier CORIA – résumé
Cadre d’évaluation pour les systèmes de génération augmentée (RAG) : combinaison des performances de recherche d’informations et de LLM – Philippe Mulhem, Eric Gaussier and Jean-Pierre Chevallet – papier CORIA – résumé
Estimation de l’inclusion entre tâches par projection spectrale de vecteurs de tâches. – Loïc Fosse, Benoît Favre, Frédéric Béchet, Géraldine Damnati and Gwénolé Lecorvé – papier TALN – résumé
Projeter pour mieux fusionner : une histoire de bandit et de lit – Olivier Ferret – papier TALN – résumé
SCOPE : un cadre d’entrainement auto-supervisé pour améliorer la fidélité dans la génération conditionnelle de texte – Florian Le Bronnec, Song Duong, Alexandre Allauzen, Laure Soulier, Vincent Guigue, Alberto Lumbreras and Patrick Gallinari – papier TALN – résumé
Détection des contamination de LLM par extraction de données : Une revue de littérature pratique – Pierre Lepagnol, Thomas Gerald, Sahar Ghannay, Christophe Servan and Sophie Rosset – papier TALN – résumé
Une revue sur les hallucinations des LLM – Eleni Metheniti, Swarnadeep Bhar and Nicholas Asher – papier TALN – résumé
Repousser les limites des benchmarks actuels pour une évaluation réaliste des LLMs en migration de code – Samuel Mallet, Joe El Khoury and Elöd Egyed-Zsigmond – papier TALN – résumé
UC-FIRe: Approche efficace pour la recherche d’information non supervisée – Maxime Hanus, Quentin Guignard and Christophe Rodrigues – papier CORIA – résumé
Prédiction des préférences et génération de revue personnalisée basées sur les aspects et attention – Ben Kabongo, Vincent Guigue and Pirmin Lemberger – papier CORIA – résumé
Transfert de modèles de langue pour la classification rhétorique des citations à travers les disciplines – Anne-Sophie Foussat, Vincent Guigue, Nicolas Sauvion, Robert Bossy and Claire Nédellec – papier CORIA – résumé
Approche méthodologique pour la génération de question-réponse portant sur plusieurs documents – Hui Huang, Julien Velcin and Yacine Kessaci – papier CORIA – résumé
Vers un élagage de tokens sans perte dans les modèles de récupération à interaction tardive. – Yuxuan Zong and Benjamin Piwowarski – papier CORIA – résumé
Génération augmentée de récupération multi-niveau pour répondre à des questions visuelles – Omar Adjali, Olivier Ferret, Sahar Ghannay and Hervé Le Borgne – papier CORIA – résumé
Modèles auto-supervisés de traitement de la parole pour le Créole Haitien – William N. Havard, Renauld Govain, Benjamin Lecouteux and Emmanuel Schang – papier TALN – résumé
Améliorer la Traduction Neuronale par Exemple avec des Données Monolingues – Maxime Bouthors, Josep Crego and François Yvon – papier TALN – résumé
Alignements divisifs de textes parallèles: données, algorithme et évaluation – Joanna Rado?a and François Yvon – papier TALN – résumé
Étude de la robustesse des modèles de traduction automatique dans le continuum dialectal de l’occitan – Oriane Nédey – papier RECITAL/RJCRI – résumé
Évaluation de la confidentialité des textes cliniques synthétiques générés par des modèles de langue – Foucauld Estignard, Sahar Ghannay, Julien Girard-Satabin, Nicolas Hiebel and Aurélie Névéol – papier TALN – résumé
Détection de métaphores dans les documents médicaux – Coralie Pottiez, Thierry Hamon and Natalia Grabar – papier TALN – résumé
Adaptation des connaissances médicales pour les grands modèles de langue : Stratégies et analyse comparative – Ikram Belmadani, Richard Dufour, Benoit Favre, Carlos Ramisch and Frédéric Bechet – papier TALN – résumé
Etude multimodale pour la localisation des tours de parole fortement informatifs en conversation – Eliot Maës, Philippe Blache and Leonor Becerra-Bonache – papier TALN – résumé
QUARTZ : Approche abstractive non supervisée par question-réponse pour le résumé de dialogue orienté tâche – Mohamed Imed Eddine Ghebriout, Gaël Guibon, Ivan Lerner and Emmanuel Vincent – papier TALN – résumé
Apprentissage par renforcement pour l’alignement des agents LLMs avec des environnements interactifs : quantification et réduction du surapprentissage aux prompts – Mohamed Salim Aissi, Clement Romac, Thomas Carta, Sylvain Lamprier, Pierre-Yves Oudeyer, Olivier Sigaud, Laure Soulier and Nicolas Thome – papier TALN – résumé
MOSAIC : Mélange d’experts pour la détection de textes artificiels – Matthieu Dubois, Yvon François and Pablo Piantanida – papier TALN – résumé
Graphes, NER et LLMs pour la classification non supervisée de documents – Imed Keraghel and Mohamed Nadif – papier TALN – résumé
Identification de mesures d’évaluation fiables pour la révision de textes scientifiques – Léane Jourdan, Florian Boudin, Richard Dufour and Nicolas Hernandez – papier TALN – résumé
De la Nature des Signaux de Correspondance dans les Modèles Neuronaux pour la RI – Mathias Vast, Basile Van Cooten, Laure Soulier and Benjamin Piwowarski – papier CORIA – résumé
Utilisation de mécanismes inférentiels dans le processus d’explication automatique de la métaphore à une inconnue – Jérémie Roux, Hani Guenoune, Mathieu Lafourcade and Richard Moot – papier CORIA – résumé
Simplification de Textes Scientifiques (et Rien de Plus) Rapport sur l’Action CLEF 2025 SimpleText – Liana Ermakova, Hosein Azarbonyad, Jan Bakker, Benjamin Vendeville and Jaap Kamps – papier CORIA – résumé
Quand les Bots Déjouent l’Apprentissage : Enjeux et Défis de la Détection – Mohsine Aabid, Simon Dumas Primbault and Patrice Bellot – papier CORIA – résumé
Évaluation des capacités des grands modèles de langue à comprendre les dossiers médicaux de patients : Une étude approfondie de l’extraction et la recherche de données des patients – Jesus Lovon-Melgarejo, Martin Mouysset, Jo Oleiwan, Jose G Moreno, Christine Damase-Michel and Lynda Tamine – papier CORIA – résumé
Génération augmentée de récupération pour les journaux historiques – The Trung Tran, Carlos-Emiliano González-Gallardo and Antoine Doucet – papier CORIA – résumé
Optimisation de la Recherche d’Information Juridiques à travers l’Agrégation des Signaux Contextuels Multi-niveaux des Modèles de Langue Préentraînés – Eya Hammami, Mohand Boughanem and Taoufiq Dkaki – papier CORIA – résumé
Le rôle du contexte dans la classification séquentielle de phrases pour les documents longs – Anas Belfathi, Nicolas Hernandez, Laura Monceaux and Richard Dufour – papier TALN – résumé
Intégration des relations inter-référents dans l’annotation de la coréférence : modèle et application – Antoine Boiteau, Yann Mathet and Antoine Widlöcher – papier TALN – résumé
Plongement des constituants pour la représentation sémantique des phrases – Eve Sauvage, Iskandar Boucharenc, Thomas Gerald, Julien Tourille, Sabrina Campano, Cyril Grouin and Sophie Rosset – papier TALN – résumé
État de l’art sur les marqueurs discursifs en Traitement Automatique des Langues – Fatou Sow – papier RECITAL/RJCRI – résumé
Traitement automatique des évènements médiatiques : Détection, classification, segmentation et recherche sémantique – Abdelkrim Beloued – papier TALN – résumé
Utilisation de mécanismes inférentiels dans le processus d’explication automatique de la métaphore à une inconnue – Jérémie Roux, Hani Guenoune, Mathieu Lafourcade and Richard Moot – papier CORIA – résumé
Transfert de modèles de langue pour la classification rhétorique des citations à travers les disciplines – Anne-Sophie Foussat, Vincent Guigue, Nicolas Sauvion, Robert Bossy and Claire Nédellec – papier CORIA – résumé
AdminSet and AdminBERT: un jeu de données et un modèle de langue pré-entraîné pour explorer le dédale non structuré des données administratives françaises – Thomas Sebbag, Solen Quiniou, Niclas Stucky and Emmanuel Morin – papier TALN – résumé
Attention Chaînée et Causale pour un Suivi Efficace des Entités – Erwan Fagnou, Paul Caillon, Blaise Delattre and Alexandre Allauzen – papier TALN – résumé
Atténuer l’impact de la qualité des références sur l’évaluation des systèmes de résumé grâce aux métriques sans référence – Théo Gigant, Camille Guinaudeau, Marc Decombas and Frédéric Dufaux – papier TALN – résumé
Détecter des comportements associés aux troubles alimentaires par l’analyse automatique des conversations textuelles en ligne – Yves Ferstler, Catherine Lavoie and Marie-Jean Meurs – papier TALN – résumé
Évaluer la capacité des transformeurs à distinguer les significations compositionnelles et idiomatiques d’une même expression – Nina Nusbaumer, Guillaume Wisniewski and Benoît Crabbé – papier TALN – résumé
Affinement des représentations des tokens dans les modèles de langue pré-entraînés avec l’apprentissage contrastif : une étude entre modèles et entre langues – Anna Mosolova, Marie Candito and Carlos Ramisch – papier TALN – résumé
ELITEC : un corpus de conversations en microposts français annoté pour le liage d’entités Wikidata – Vivien Leonard, Beatrice Markhoff and Jean-Yves Antoine – papier TALN – résumé
Exploration de la modalité en français parlé et écrit – Anna Colli and Delphine Battistelli – papier TALN – résumé
Analyse de la continuité référentielle dans le corpus d’écrits scolaires français et italien Scolinter – Martina Barletta and Claude Ponton – papier TALN – résumé
Inférence en langue naturelle appliquée au recrutement de patients pour les essais cliniques : le point de vue du patient – Mathilde Aguiar, Pierre Zweigenbaum and Nona Naderi – papier TALN – résumé
Incorporation des Traits de Personnalité dans les Agents Conversationnels basés sur les GML : Étude de Cas de l’Assistance Client en Français – Ahmed Njifenjou, Virgile Sucal, Bassam Jabaian and Fabrice Lefèvre – papier TALN – résumé
VERS : Versification Et Représentation de Séquences – Marceau Hernandez – papier RECITAL/RJCRI – résumé
Normaliser le moyen français : du graphématique au semi-diplomatique – Sonia Solfrini, Mylène Dejouy, Aurélia Marques Oliveira and Pierre-Olivier Beaulnes – papier RECITAL/RJCRI – résumé
Annotation de Marqueurs Discursifs : le cas de la désambiguïsation de après – Paola Herreño Castañeda and Maeva Sillaire – papier RECITAL/RJCRI – résumé
Annotation et modélisation des émotions dans un corpus textuel : une approche évaluative – Jonas Noblet – papier RECITAL/RJCRI – résumé
État de l’art : évaluation, détection et mitigation des hallucinations des LLMs – Aygalic Jara-Mikolajczak – papier RECITAL/RJCRI – résumé
Corpus bilingue sous-titrage et Langue des Signes Française : la problématique de l’alignement automatique des données – Julie Halbout and Diandra Fabre – papier RECITAL/RJCRI – résumé
Comparaison des approches basées sur BERT et sur l’agent LLM pour la classification hiérarchique de narratifs dans les articles de presse multilingues – Yutong Wang and Mohamed-Nour Eldjadiri – papier RECITAL/RJCRI – résumé
De la Nature des Signaux de Correspondance dans les Modèles Neuronaux pour la RI – Mathias Vast, Basile Van Cooten, Laure Soulier and Benjamin Piwowarski – papier CORIA – résumé
Approche méthodologique pour la génération de question-réponse portant sur plusieurs documents – Hui Huang, Julien Velcin and Yacine Kessaci – papier CORIA – résumé
UC-FIRe: Approche efficace pour la recherche d’information non supervisée – Maxime Hanus, Quentin Guignard and Christophe Rodrigues – papier CORIA – résumé
Application de Transformers multimodaux à l’extraction d’informations des documents de sondage des sols – Stanislas Bagnol, Killian Barrere, Véronique Eglin, Elöd Egyed-Zsigmond, Jean-Marie Côme and David Pitaval – papier CORIA – résumé
Sondage des modèles de langue sur leur source de connaissance – Zineddine Tighidet, Andrea Mogini, Jiali Mei, Patrick Gallinari and Benjamin Piwowarski – papier TALN – résumé
Extraction de mots-clés à partir d’articles scientifiques: comparaison entre modèles traditionnels et modèles de langue – Motasem Alrahabi, Nacef Ben Mansour and Hamed Rahimi – papier TALN – résumé
PatientDx : Fusion des grands modèles de langue pour la protection de la confidentialité des données dans le domaine de la santé – Jose G Moreno, Jesus Lovon-Melgarejo, M’Rick Robin-Charlet, Christine Damase-Michel and Lynda Tamine – papier TALN – résumé
Towards training fair self-supervised automatic speech recognition models without demographic labels – Laura Alonzo Canul, Benjamin Lecouteux and François Portet – papier TALN – résumé
Corpus multilingue annoté pour l’étude sémantique des expressions quantifiantes — chinois (mandarin), coréen, français, japonais — Les problèmes de segmentation – Raoul Blin and Jinnam Choi – papier TALN – résumé
Étude critique du corpus CNN/DailyMail pour le résumé automatique – Aurélien Bossard, Christophe Rodrigues and Bachey Fanny – papier TALN – résumé
The Impact of Text Complexity on Reading Behaviour: An Eye-Tracking and Surprisal Analysis of French Texts – Oksana Ivchenko and Natalia Grabar – papier TALN – résumé
ding-01 :ARG0 un corpus AMR pour le français parlé spontané – Jeongwoo Kang, Maria Boritchev and Maximin Coavoux – papier TALN – résumé
Pensez: Less Data, Better Reasoning – Rethinking French LLM – Huy Hoang Ha – papier TALN – résumé
Étude comparative de réponses humaines et de grands modèles de langage à des QCM en pharmacie – Ricardo Rodriguez, Stéphane Huet, Benoit Favre and Mickael Rouvier – papier TALN – résumé
La structure du contenu textuel a-t-elle un impact sur les modèles linguistiques pour le résumé automatique ? – Eve Sauvage, Sabrina Campano, Lydia Ould Ouali and Cyril Grouin – papier TALN – résumé
Incomplete Pictures: A State of the Art Study on Bias in Large Language Models – Trung Hieu Ngo – papier RECITAL/RJCRI – résumé
Amélioration de la lisibilité de textes via l’utilisation de LLM – Baptiste Ramonda, Isabelle Ferrane and Julien Pinquier – papier RECITAL/RJCRI – résumé
Evaluation de la lisibilité des textes biomédicaux selon le profil du lecteur – Anya Nait Djoudi – papier RECITAL/RJCRI – résumé
Vers une taxonomie pour l’analyse des intentions dans les interactions textuelles numériques – Senaid Popovic – papier RECITAL/RJCRI – résumé
Réhabiliter l’écriture Ajami : un levier technologique pour l’alphabétisation en Afrique – Samy Ouzerrout and Idriss Saadallah – papier RECITAL/RJCRI – résumé
Évaluation Automatique Explicable de l’Écriture Argumentative : État de l’Art, Lacunes et Proposition d’Architecture Modulaire Alignée sur des Grilles Éducatives – Marcos Moisés Crisóstomo de Oliveira – papier RECITAL/RJCRI – résumé
Types d’erreurs produits par les systèmes de traduction neuronaux lors de la traduction anglais-français de syntagmes nominaux complexes en langue de spécialité – Maud Bénard – papier RECITAL/RJCRI – résumé
Analyse de la littérature sur les stratégies d’augmentation de données dans des contextes à faible ressources – Benedictus Kent Rachmat – papier RECITAL/RJCRI – résumé
SELEXINI – un grand corpus français, divers et parsé automatiquement – Manon Scholivet, Agata Savary, Louis Estève, Marie Candito and Carlos Ramisch – papier TALN – résumé
De nos jours, ce sont les résultats qui comptent’ : création et étude diachronique d’un corpus de revendications issues d’articles de TAL – Clémentine Bleuze, Fanny Ducel, Maxime Amblard and Karën Fort – papier TALN – résumé
Syntaxe en dépendance avec les grammaires catégorielles abstraites : une application à la théorie sens-texte – Marie Cousin – papier TALN – résumé
Peut-on retrouver votre âge à partir de la transcription de votre parole ? – Vanessa Gaudray Bouju, Mahamdi Menel, Iris Eshkol-Taravella and Angèle Barbedette – papier TALN – résumé
Alignement bi-textuel adaptatif basé sur des plongements multilingues – Olivier Kraif – papier TALN – résumé
Augmentation des données avec LLM pour améliorer la détection automatique d’erreurs de coordination – Chunxiao Yan, Iris Eshkol-Taravella, Sarah De Vogué and Marianne Desmets – papier TALN – résumé
Is Mistral’s Confidence Justified? Assessing Self-Evaluation in Biomedical QA – Laura Zanella and Ambroise Baril – papier TALN – résumé
Exploration de la séparation en langues dans les modèles de traitement de la parole auto-supervisés multilingues préentraînés avec des données écologiques – William N. Havard, Shrita Hassamal, Muhsina Alleesaib, Guilhem Florigny, Guillaume Fon Sing, Anne Abeillé, Benjamin Lecouteux and Emmanuel Schang – papier TALN – résumé
Détection et évaluation de la communication toxique pour la relation client par des LLMs – Guillaume De Murcia, Ludovic Meineri, Laurent Gillard, Thomas Gouritin and Samy Lastmann – papier TALN – résumé
Lost In Variation : extraction non-supervisée de motifs lexico-syntaxiques dans des textes en moyen arabe – Rimane Karam, Julien Bezançon and Gaël Lejeune – papier TALN – résumé
ACL-rlg: Un dataset pour la génération de listes de lecture – Julien Aubert-Béduchaud, Florian Boudin, Béatrice Daille and Richard Dufour – papier TALN – résumé
Faut-il éliminer toutes les hallucinations dans un résumé abstractif pour le domaine juridique ? – Nihed Bendahman, Karen Pinel-Sauvagnat, Gilles Hubert and Mokhtar Boumedyen Billami – papier TALN – résumé
Combler les lacunes de Wikipédia : tirer parti de la génération de texte pour améliorer la couverture encyclopédique des groupes sous-représentés – Simon Mille, Massimiliano Pronesti, Craig Thomson, Michela Lorandi, Sophie Fitzpatrick, Rudali Huidrom, Mohammed Sabry, Amy O’Riordan and Anya Belz – papier TALN – résumé
NuNER: Pré-entraînement d’un encodeur pour la reconnaissance d’entités nommées avec des données annotées automatiquement – Sergei Bogdanov, Alexandre Constantin, Timothée Bernard, Benoît Crabbé and Étienne Bernard – papier TALN – résumé
EmoDynamiX: Prédiction de stratégies de dialogue pour le support émotionnel via la modélisation de mélange d’émotions et de la dynamique du discours – Chenwei Wan, Matthieu Labeau and Chloé Clavel – papier TALN – résumé
Évaluation des LLMs pour l’Attribution de Citations dans les Textes Littéraires: une Étude de LLaMa3 – Gaspard Michel, Elena Epure, Romain Hennequin and Christophe Cerisara – papier TALN – résumé
Interfaces for Supporting Critical User Engagement: A Prototype Using RAG – Petra Dadić and Liana Ermakova – papier CORIA – résumé
Rapido, interopérabilité et fouille de textes : vers un alignement des publications scientifiques en archéologie – Lucas Anki, Pascal Cuxac, Agnieszka Halczuk and Justine Revol – papier CORIA – résumé
?-YALLI : Un nouveau corpus pour des modèles de langue nahuatl / Yankuik nawatlahtolkorpus pampa tlahtolmachiotl – Juan-José Guzman-Landa, Juan-Manuel Torres-Moreno, Martha-Lorena Avendaño-Garrido, Miguel Figueroa-Saavedra, Ligia Quintana-Torres, Graham Ranger, Carlos-Emiliano González-Gallardo, Elvys Linhares Pontes, Patricia Velazquez-Morales and Luis Gil Moreno Jiménez – papier TALN – résumé
Détection des omissions dans les résumés médicaux générés par les LLMs – Achir Oukelmoun, Nasredine Semmar, Gaël de Chalendar, Clement Cormi, Mariame Oukelmoun, Eric Vibert and Marc-Antoine Allard – papier TALN – résumé
Supervision faible pour la classification des relations discursives – Maachou Khalil, Chloé Braud and Philippe Muller – papier TALN – résumé
Vers les Sens et Au-delà : Induire des Concepts Sémantiques Avec des Modèles de Langue Contextuels – Bastien Liétard, Pascal Denis and Mikaela Keller – papier TALN – résumé
Anti-surprise : Une métrique complémentaire pour évaluer l’apprentissage lexical des (grands) modèles de langue – Nazanin Shafiabadi and Guillaume Wisniewski – papier TALN – résumé
Représenter le style au-delà des thématiques : une étude d’impact sur la dispersion vectorielle de différents modèles de langage – Benjamin Icard, Evangelia Zve, Lila Sainero, Alice Breton and Jean-Gabriel Ganascia – papier TALN – résumé
Alignements entre attention et sémantique dans des modèles de langues pré-entraînés – Frédéric Charpentier, Adrien Guille and Jairo Cugliari Duhalde – papier TALN – résumé
Systèmes d’écriture et qualité des données : l’affinage de modèles de translittération dans un contexte de faibles ressources – Emmett Strickland, Ilaine Wang, Damien Nouvel and Bénédicte Parvaz-Ahmad – papier TALN – résumé
Une formule de lisibilité en français adaptée aux personnes en situation d’illettrisme – Wafa Aissa, Thibault Bañeras-Roux, Elodie Vanzeveren, Lingyun Gao, Alice Pintard, Rodrigo Wilkens and Thomas François – papier TALN – résumé
Backtesting Sentiment Signals for Trading: Evaluating the Viability of Alpha Generation from Sentiment Analysis – Elvys Linhares Pontes, Carlos-Emiliano González-Gallardo, Georgeta Bordea, Jose G Moreno, Mohamed Benjannet, Yuxuan Zhao and Antoine Doucet – papier Session Industrielle – résumé
Apprentissage Actif à l’ère des Grands Modèles de Langue (LLMs) – Shami Thirion Sen, Rime Abrougui, Guillaume Lechien and Damien Nouvel – papier Session Industrielle – résumé
SIMI v3 : Une liste de cas patients similaires pour la télé expertise médicale – Pierre Jourlin, Marc-Antoine Sulmon, David Bensoussan and Émilie Mercadal – papier Session Industrielle – résumé
SPARK : Exploiter les échanges techniques passés pour améliorer le support client – Steve Bellart and Arnaud Deleruyelle – papier Session Industrielle – résumé
Les modèles multimodaux peuvent-ils aider à l’interprétation de cartes ? Une étude exploratoire avec GPT-4o – Edith Galy, Ahmed Moubtahij, Azur Handan and Marc Queudot – papier Session Industrielle – résumé
COLaF : Corpus et Outils pour les Langues de France et variétés de français – Benoît Sagot, Slim Ouni, Sam Bigeard, Lucence Ing, Thibault Clérice, Rachel Bawden, Emmanuel Vincent, Malek Yaich, Panagiotis Tsolakis, Juliette Janès, Rasul Dent, Oriane Nedey, Vincent Colotte and Mostafa Sadeghi – papier Session Industrielle – résumé
Résumés des articles
Connaissances factuelles dans les modèles de langue : robustesse et anomalies face à des variations simples du contexte temporel
Hichem Ammar Khodja, Frederic Bechet, Quentin Brabant, Alexis Nasr and Gwénolé Lecorvé
Papier TALN
Mots clés : “Modèles de langue Factualité Temporalité Sondage des connaissances”
Résumé: “Ce papier explore la robustesse des modèles de langue (ML) face aux variations du contexte temporel dans les connaissances factuelles. Il examine si les ML peuvent associer correctement un contexte temporel à un fait passé valide sur une période de temps délimitée, en leur demandant de différencier les contextes corrects des contextes incorrects. La capacité de distinction des ML est analysée sur deux dimensions : la distance du contexte incorrect par rapport à la période de validité et la granularité du contexte. Pour cela, un jeu de données, TimeStress, est introduit, permettant de tester 18 ML variés. Les résultats révèlent que le meilleur ML n’atteint une distinction parfaite que pour 11% des faits étudiés, avec des erreurs critiques qu’un humain ne ferait pas. Ces travaux soulignent les limites des ML actuels en matière de représentation temporelle.”
ALF: Un jeu de données d’analogies françaises à grain fin pour l’évaluation de la connaissance lexicale des grands modèles de langue
Alexander Petrov, Antoine Venant, François Lareau, Yves Lepage and Philippe Langlais
Papier TALN
Mots clés : “Grands modèles de langue Sémantique du langage naturel Ressources et évaluation Théorie Sens-Texte Analogies”
Résumé: “La révolution indéniable apportée par les grands modèles de langue (LLM) provient de l’étonnante fluidité des textes qu’ils génèrent. Cette fluidité soulève une question scientifique essentielle : quelle quantité de connaissance lexicale les LLM capturent-ils réellement afin de produire un langage aussi fluide ? Pour y répondre, nous présentons ALF, un jeu de données analogiqes librement accessible et doté de riches informations lexicographiques fondées sur la théorie Sens-Texte. Il comprend 3810 analogies lexicales à grain fin avec lesquelles nous évaluons la capacité lexicale de quatre LLM standards : ChatGPT-4o mini, Llama3.0-8B, Llama3.1-8B et Qwen2.5-14B. En moyenne, ChatGPT et la série Llama obtiennent une précision d’environ 45%, tandis que Qwen dépasse de peu le seuil de 50%, ce qui montre qu’ALF pose un défi considérable. Nous identifions en outre certains types d’analogies et de méthodes d’invite qui révèlent des disparités de performance.”
Ludovic Tanguy, Cécile Fabre, Nabil Hathout and Lydia-Mai Ho-Dac
Papier TALN
Mots clés : “Plongements de mots topic modeling LLM lexique de la famille”
Résumé: “Cet article présente une étude portant sur les termes exprimant les relations familiales (frère,tante,etc.) à travers trois méthodes : les plongements de mots, le topic modeling et les modèles de langue.Les deux premières représentations sont construites sur la version française de Wikipédia, la troisièmeest obtenue par une interrogation directe de ChatGPT. L’objectif est de comparer les représentationsde ces termes par les trois méthodes, et ce de deux façons : en les confrontant à une définitionstructurelle des relations familiales (en termes de traits comme le genre, l’ascendance, etc.) et encomparant les thématiques associées à chaque terme. Ces méthodes permettent d’identifier différentsmodes de structuration du vocabulaire de la famille, tout en montrant qu’un recours au corpus et à desanalyses contrôlées reste indispensable pour aboutir à des résultats fiables.”
Clarification des Ambiguïtés : Sur le Rôle des Types d’Ambiguïté dans les Méthodes d’Amorçage pour la Génération de Clarifications
Anfu Tang, Laure Soulier and Vincent Guigue
Papier CORIA
Mots clés : “question de clarification système de recherche d’information conversationnel type d’ambiguïté”
Résumé: “En recherche d’information (RI) conversationelle, il est essentiel de fournir des clarifications appropriées pour concevoir un système de dialogue proactif et guider l’utilisateur. Grâce au développement des grands modèles de langage (LLMs), des études récentes explorent des méthodes d’amorçage pour générer des clarifications à l’aide de chaîne de raisonnement (Chain of Thought, CoT). Cependant, l’amorçage CoT ne permet pas de distinguer les caractéristiques des différents besoins en information, impactant la résolution des ambiguïtés. Dans ce travail, nous cherchons à modéliser et intégrer les ambiguïtés liées au besoin en information dans le processus de génération de clarifications. Nous étudions l’impact des schémas d’amorçage en proposant Ambiguity Type-Chain of Thought (AT-CoT), qui impose à CoT de prédire d’abord les types d’ambiguïté, puis de générer les clarifications correspondantes. Des expériences sont menées sur divers jeux de données afin de comparer AT-CoT à plusieurs modèles de référence. Nous réalisons également des simulations utilisateur pour une évaluation extrinsèque.”
SEBRAG: Vers l’Utilisation des LLM pour une Tâche de Questions-Réponses Extractive
Quentin Signé, Thiziri Belkacem, Mohand Boughanem and Jose G Moreno
Papier CORIA
Mots clés : “Génération Augmentée par Recherche d’Information Questions-Réponses Maintenance Technique”
Résumé: “L’émergence des grands modèles de langage (LLM) a révolutionné le domaine des questions-réponses (QR). Cependant, leur tendance à halluciner représente un défi majeur en recherche d’information (RI), notamment en domaines critiques comme la maintenance aéronautique. Pour répondre à cette problématique, cet article explore la capacité des LLM pour des tâches de QR extractives, à l’instar des modèles encodeurs. Ainsi, nous proposons une approche de génération augmentée par recherche d’information (RAG) utilisant un outil d’extraction de chaînes de caractères, permettant au LLM d’extraire une réponse plutôt que de la générer. Les expériences réalisées sur un jeu de données de maintenance aéronautique révèlent que cette approche permet de mieux contrôler l’hallucination par rapport aux méthodes RAG traditionnelles, tout en gardant une précision comparable aux modèles encodeurs extractifs. Cette approche montre son potentiel pour des applications hautement techniques où la précision et la fiabilité sont primordiales.”
Solver-Aware Training for Logical Constraint Integration in Event Relation Extraction
Baptiste Brunet de la Charie, Abdallah Arioua, Elöd Egyed-Zsigmond and Thomas Veran
Papier CORIA
Mots clés : “Event Relation Extraction Logical Constraints Transformer Models Solver-Aware Training Consistency Enforcement”
Résumé: “Event Relation Extraction (ERE) is a crucial task in natural language processing, involving the identification and classification of semantic relations between events described in textual content. Despite recent advancements using joint extraction approaches, current models still face substantial challenges, notably insufficient accuracy in extracting underrepresented but essential relations (such as causality) and significant logical inconsistencies among predicted relations. To address these limitations, we propose an integrated ERE framework explicitly designed to enhance extraction performance and enforce global logical consistency. Our approach combines transformer-based document encoding with a dedicated logical constraint solver that systematically corrects raw predictions to ensure consistency across all extracted event relations. We introduce the concept of fundamental relations, a subset of relations critical for preserving logical consistency, and utilize a solver-aware training strategy to prioritize these relations explicitly. Extensive experimentation on the comprehensive MAVEN-ERE dataset demonstrates that our framework achieves superior extraction accuracy and logical consistency compared to existing joint extraction methods. Our results highlight the efficacy of explicitly integrating logical constraints and targeted training to significantly improve event relation extraction outcomes.”
Analyse Textuelle et Extraction Géospatiale pour la Surveillance des Crises Alimentaires en Afrique de l’Ouest
Charles Abdoulaye Ngom, Maguelonne Teisseire and Sarah Valentin
Papier CORIA
Mots clés : “Crise Alimentaire Reconnaissance d’entités spatiales GliNER CamemBERT Afrique de l’Ouest”
Résumé: “L’Afrique de l’Ouest fait face à une insécurité alimentaire récurrente, exacerbée par les conflits, le changement climatique et les chocs économiques. La collecte d’informations à une échelle spatio-temporelle appropriée est essentielle au suivi des crises liées à la sécurité alimentaire. Dans ce travail, nous nous intéressons à l’extraction géospatiale à partir de données textuelles, tâche qui s’inscrit dans une approche globale de suivi des crises alimentaires à partir d’articles de presse. Nous évaluons deux modèles d’extraction d’entités spatiales, GLiNER et CamemBERT, en configuration zéro-shot et après ajustement(fine-tuning), sur un corpus de 15 000 articles de presse en français couvrant l’actualité du Burkina Faso.”
Application de Transformers multimodaux à l’extraction d’informations des documents de sondage des sols
Stanislas Bagnol, Killian Barrere, Véronique Eglin, Elöd Egyed-Zsigmond, Jean-Marie Côme and David Pitaval
Papier CORIA
Mots clés : “Extraction d’informations de documents Transformers multimodaux Algorithme d’annotation Méthodes de bout-en-bout”
Résumé: “L’extraction d’information de documents complexes est un domaine de recherche qui bénéficie d’une très grande attention tant dans la littérature, que dans l’industrie dans le cadre de la digitalisation des données. Les Transformers et leurs adaptations ont très largement contribué à faire progresser cette recherche en s’appuyant sur des modèles de langue qui ont introduit une compréhension sémantique de l’organisation de la structure des documents. Les coupes de sondage sont des documents industriels complexes et riches en informations, pour lesquels aucune solution d’extraction d’informations n’avait été proposée. Nous montrons les limites des approches de bout-en-bout par des expérimentations avec le modèle DONUT. Comme alternative, nous proposons une chaîne de traitement hybride reposant sur le fine-tuning de Transformers multimodaux et des algorithmes heuristiques. Nous comparons deux architectures de Transformers multimodaux pré-entrainés : BROS et LayoutLMv3.”
Clustering de résumés LLM guidés par l’utilisateur : vers une approche constructiviste et réaliste unifiée
Carl Hatoum, Catherine Combes, Virginie Fresse, Christophe Gravier and Mathieu Orzalesi
Papier CORIA
Mots clés : “Regroupement LLM Résumé Extraction de connaissances Modélisation thématique”
Résumé: “Cet article présente une approche hybride alliant les grands modèles de langage (LLMs) aux techniques de regroupement (clustering) afin d’extraire et d’organiser efficacement les connaissances issues de grandes collections textuelles. La méthode repose sur la génération de résumés modulables contextualisés, suivis par un regroupement pour extraire des thématiques cohérentes. Une étape de raffinement par LLM vient améliorer l’interprétabilité des clusters et valider la qualité des résumés, notamment dans l’analyse d’incidents en aviation. Les résultats expérimentaux attestent d’une meilleure cohérence thématique par rapport à l’analyse de documents bruts, ouvrant ainsi des perspectives pour des applications métiers complexes.”
AutoCluster: Un agent pour le clustering basé sur les grands modèles de langue
Erwan Versmée, Youcef Remil, Mehdi Kaytoue and Julien Velcin
Papier CORIA
Mots clés : “Agent basé sur les LLMs clustering science des données ReAct appel d’outils”
Résumé: “Cette recherche présente AutoCluster, un agent basé sur les grands modèles de langue pour des tâches de classification non supervisée. Nous concevons trois agents dont deux sont basés sur la littérature et l’un, AutoCluster, est une contribution originale. Une analyse détaillée de leur performance sur 26 jeux de données de clustering révèle la supériorité de notre agent par rapport aux solutions de l’état de l’art. Enfin, nous justifions l’efficacité de notre agent à travers les nombreuses améliorations empiriques apportées au fur et à mesure de son développement.”
GeNRe : un système de neutralisation automatique du genre exploitant les noms collectifs
Enzo Doyen and Amalia Todirascu
Papier TALN
Mots clés : “biais de genre réécriture du genre masculin générique noms collectifs”
Résumé: “Les biais de genre dans les outils de traitement automatique des langues (TAL), notamment ceux relatifs à l’utilisation du masculin générique, renforcent voire amplifient les stéréotypes. La tâche de réécriture du genre en TAL, qui vise à remplacer des formes genrées par des formes neutres, inclusives ou contraires, peut permettre de réduire ces biais. Bien que des travaux de neutralisation automatique du genre aient été conduits en anglais, aucun projet similaire n’existe pour le français. Cet article présente GeNRe, le tout premier système de neutralisation automatique du genre, qui exploite les noms collectifs. Nous proposons un modèle à base de règles (SBR) et affinons deux modèles de langue à partir des données générées. Nous nous intéressons aussi aux modèles d’instruction, jusque-là inutilisés pour cette tâche, en particulier Claude 3 Opus. Nous obtenons des résultats similaires pour le SBR et Claude 3 Opus lorsqu’il est utilisé conjointement avec notre dictionnaire.”
Mesurer les inégalités de genre en ligne avec le genre grammatical : Une étude du subreddit r/france
Marie Flesch and Heather Burnett
Papier TALN
Mots clés : “détection du genre genre grammatical Reddit inégalités de genre en ligne”
Résumé: “Cet article présente un système de détection du genre basé sur le genre grammatical, conçu pour le français, créé afin de mesurer les inégalités de genre dans les espaces francophones en ligne. Il décrit tout d’abord la création et le test du système, qui extrait le genre grammatical dans les expressions de type je suis depuis un lexique, sur un corpus étiqueté. Ensuite, il propose une étude de cas en deux parties, avec l’application du système sur un corpus de 11.8 millions de commentaires publiés sur r/france, le plus grand forum francophone de Reddit, suivie d’une étude des dynamiques de participation des femmes et des hommes dans cet espace. Cette recherche montre qu’un système de détection du genre simple, basé sur du pattern-matching, atteint une haute performance (précision de 96% dans le corpus test), et permet de dévoiler d’importantes inégalités de participation sur un forum francophone de premier plan.”
« Les femmes ne font pas de crise cardiaque ! » Étude des biais de genre dans les cas cliniques synthétiques en français
Fanny Ducel, Nicolas Hiebel, Olivier Ferret, Karën Fort and Aurélie Névéol
Papier TALN
Mots clés : “biais stéréotype modèle de langue genre cas cliniques français”
Résumé: “De plus en plus de professionnels de santé utilisent des modèles de langue. Cependant, ces modèles présentent et amplifient des biais stéréotypés qui peuvent mettre en danger des vies. Cette étude vise à évaluer les biais de genre dans des cas cliniques générés automatiquement en français concernant dix pathologies. Nous utilisons sept modèles de langue affinés et un outil de détection automatique du genre pour mesurer les associations entre pathologie et genre. Nous montrons que les modèles sur-génèrent des cas décrivant des patients masculins, allant à l’encontre des prévalences réelles. Par exemple, lorsque les invites ne spécifient pas de genre, les modèles génèrent huit fois plus de cas cliniques décrivant des patients (plutôt que des patientes) pour les crises cardiaques. Nous discutons des possibles dommages induits par les modèles de langue, en particulier pour les femmes et les personnes transgenres, de la définition d’un modèle de langue « idéal » et des moyens d’y parvenir.”
La trumplang, instrument de destruction de la pensée : analyse de l’impact de la censure trumpiste sur la recherche en santé mentale
Vincent P. Martin, Karën Fort and Jean-Arthur Micoulaud-Franchi
Papier TALN
Mots clés : “Censure Santé mentale Bibliométrie Réseau lexical”
Résumé: “Un processus de censure de l’activité scientifique est en cours aux États-Unis. À partir de listes de termes interdits, des dossiers de financements sont réétudiés, des articles scientifiques sont rétractés. Or, le langage structure les tranches du réel descriptibles – et donc celles qui peuvent être étudiées scientifiquement. Dans cet article, nous souhaitons afficher comment la mise en place d’une telle censure pourrait provoquer la disparition de la recherche portant sur la santé mentale. Pour cela, nous avons réalisé une analyse bibliographique des 64 434 articles contenant le terme ‘mental health’ dans leur titre référencé dans PubMed. Nous avons ensuite extrait une liste de termes interdits de leur résumé, identifié les thèmes sous-jacents et généré un réseau lexical. Ces résultats démontrent l’impossibilité de penser la santé mentale sans les termes interdits par les directives trumpistes, dont la censure signerait l’abandon de plus de 50 ans de progrès en santé publique.”
HISTOIRESMORALES: Un jeu de données français pour évaluer l’alignement moral des modèles de langage
Thibaud Leteno, Irina Proskurina, Antoine Gourru, Julien Velcin, Charlotte Laclau, Guillaume Metzler and Christophe Gravier
Papier TALN
Mots clés : “Jeu de données Éthique Moral Alignement des Modèles de Langage”
Résumé: “L’alignement des modèles de langage avec les valeurs humaines est essentiel, à mesure qu’ils s’intègrent dans la vie quotidienne. Ces modèles sont souvent adaptés aux préférences des utilisateurs mais il est important de veiller à ce qu’ils respectent des normes morales en situation réelle. Malgré des avancées dans d’autres langues, le raisonnement moral des modèles en français reste peu étudié. Pour combler cette lacune, nous présentons HistoiresMorales, un jeu de données français dérivé de MoralStories, traduit puis affiné avec des locuteurs natifs pour assurer précision grammaticale et ajustement culturel. Afin de favoriser de futures recherches, nous menons des expériences préliminaires sur l’alignement des modèles multilingues en français et en anglais. Bien que les modèles de langage s’alignent généralement sur les normes morales humaines, nous observons qu’ils restent influençables, tant vers un alignement moral qu’immoral.”
Simplification de Textes Scientifiques (et Rien de Plus) Rapport sur l’Action CLEF 2025 SimpleText
Liana Ermakova, Hosein Azarbonyad, Jan Bakker, Benjamin Vendeville and Jaap Kamps
Papier CORIA
Mots clés : “Accès à l’information recherche d’informations simplification des textes traitement du langage naturel intelligence artificielle”
Résumé: “Ces dernières années, l’action SimpleText a rassemblé une communauté active de chercheurs en traitement du langage naturel (TLN) et en recherche d’information (RI) autour d’un objectif commun : améliorer l’accessibilité des textes scientifiques. Ses références en matière de recherche d’extraits scientifiques, de détection et d’explication de terminologies scientifiques, ainsi que de simplification de textes scientifiques sont désormais des standards. En 2025, nous introduisons cette année des changements majeurs dans l’organisation et les missions de la l’action. L’action CLEF 2025 Sim- pleText proposera trois tâches principales. Tâche 1 sur Simplification de texte : simplification de texte scientifique. Tâche 2 sur Créativité contrôlée : identifier et éviter les hallucinations. Tâche 3 surSimpleText 2024 Revisité : tâches sélectionnées sur demande populaire.”
SEval-ex : Un paradigme basé sur les phrases atomiques pour une évaluation explicable de la qualité des résumés
Tanguy Herserant and Vincent Guigue
Papier CORIA
Mots clés : “Évaluation de résumés Explicabilité Alignement de phrases Traitement Automatique du Langage”
Résumé: “évaluation de la qualité des résumés de texte demeure un défi critique en Traitement Automatique du Langage Naturel. Les approches actuelles font face à un compromis entre performance et interprétabilité. Nous présentons SEval-Ex, un framework qui comble cette lacune en décomposant l’évaluation des résumés en phrases atomiques, permettant à la fois une haute performance et une explicabilité. SEval-Ex emploie un pipeline en deux étapes : extraction des phrases atomiques à partir du texte source et du résumé via un LLM, puis mise en correspondance des énoncés. Contrairement aux approches existantes qui ne fournissent que des scores globaux, notre méthode génère un parcours détaillé des décisions grâce aux alignements de phrases. Les expériences sur SummEval démontrent que SEval-Ex atteint des performances état de l’art avec une corrélation de 0.580 sur la cohérence avec les jugements humains, surpassant GPT-4 (0.521) tout en maintenant l’interprétabilité et la robustesse contre l’hallucination.”
Cadre d’évaluation pour les systèmes de génération augmentée (RAG) : combinaison des performances de recherche d’informations et de LLM
Philippe Mulhem, Eric Gaussier and Jean-Pierre Chevallet
Papier CORIA
Mots clés : “RAG SRI Evaluation”
Résumé: “Cet article introduit un nouveau cadre d’évaluation pour les systèmes RAG, en comblant les lacunes des approches précédentes. La première phase consiste à concevoir un ensemble de données avec des parties pertinentes extraites pour chaque exemple, représentant les informations nécessaires pour répondre à une question donnée, et à proposer une métrique d’évaluation pour les systèmes IR basée sur la présence de ces parties dans le contenu récupéré. La deuxième phase explore la relation entre le système de RI et les évaluations RAG globales et utilise cette relation pour prédire les performances globales du RAG à partir des performances du SRI. Cette approche élimine le besoin de réponses coûteuses générées par LLM et d’évaluations ultérieures, réduisant ainsi les coûts et fournissant un cadre d’évaluation plus complet et plus robuste pour les systèmes RAG.”
Mots clés : “vecteurs de tâches spectres inclusion entités nommées résumé”
Résumé: “L’affinage des modèles a permis la plupart des avancées significatives récentes dans les tâches de TALN. Des études ont exploré les raisons de ces succès en étudiant le mécanisme d’attention, la manière dont les connaissances linguistiques et factuelles sont encodées, {\it etc}… . Il est cependant difficile d’interpréter les changements causés par l’affinage dans les poids des modèles. Pour mieux comprendre cela, nous proposons une méthode fondée théoriquement pour projeter et comparer les changements de poids ({\it i.e.} vecteurs de tâches) dans un espace à faible dimension. Cette approche permet de mieux comprendre les connaissances encodées dans un vecteur de tâches, relativement à un autre vecteur de tâche. Nous validons notre méthode en montrant que un modèle affiné sur une tâche de résumé encode des informations sur la reconnaissance d’entités nommées.”
Projeter pour mieux fusionner : une histoire de bandit et de lit
Olivier Ferret
Papier TALN
Mots clés : “Modèles de langue neuronaux Fusion de modèles Alignement d’espaces de représentation”
Résumé: “La mise à disposition d’un nombre important de modèles de langue neuronaux affinés pour différentes tâches conduit assez naturellement à se poser la question de l’intérêt de les combiner, en particulier par le biais de la fusion de paramètres, option aboutissant au résultat demandant le moins de ressources. Parmi les nombreuses méthodes existantes, un certain nombre se focalisent sur l’alignement des paramètres en amont de la fusion proprement dite. Dans cet article, nous proposons une nouvelle méthode entrant dans ce champ de recherche, fondé sur l’analyse procustéenne. Nous évaluons cette méthode pour la fusion de modèles affinés pour une même tâche à partir d’un même modèle de base, de type encodeur. En considérant neuf tâches du jeu de données GLUE et six méthodes de fusion de référence, nous montrons que notre proposition est capable d’améliorer les méthodes de fusion existantes dans la plupart des configurations testées.”
SCOPE : un cadre d’entrainement auto-supervisé pour améliorer la fidélité dans la génération conditionnelle de texte
Florian Le Bronnec, Song Duong, Alexandre Allauzen, Laure Soulier, Vincent Guigue, Alberto Lumbreras and Patrick Gallinari
Papier TALN
Mots clés : “Génération conditionnelle de texte Fidélité Hallucinations Auto-supervision”
Résumé: “Les modèles de langage (LLM) produisent souvent des hallucinations lors de la génération conditionnelle de texte, introduisant des informations non fidèles ou non ancrées dans le contexte. Ce phénomène est particulièrement problématique en résumé automatique et en génération texte-à-partir-de-données, où les sorties doivent refléter précisément l’entrée. Nous proposons SCOPE, une méthode auto-supervisée innovante générant automatiquement des exemples non fidèles plausibles pour affiner les modèles par apprentissage par préférences. SCOPE pousse ainsi les modèles à préférer les sorties fidèles. Nous évaluons notre approche sur divers jeux de données de génération texte-à-partir-de-données et de résumé. Simple à implémenter, notre méthode nettement les alternatives existantes selon des métriques automatiques et des évaluations humaines ainsi qu’avec GPT-4.”
Détection des contamination de LLM par extraction de données : Une revue de littérature pratique
Pierre Lepagnol, Thomas Gerald, Sahar Ghannay, Christophe Servan and Sophie Rosset
Papier TALN
Mots clés : “contamination des données grands modèles de langue inférence d’appartenance extraction de données détection de contamination”
Résumé: “Cet état de l’art examine le problème de la contamination des données d’entraînement dans les grands modèles de langue (LLM). Ce phénomène se produit quand les modèles sont évalués sur des données qu’ils ont déjà rencontrées durant leur entraînement, créant une fausse impression de performance. Cette étude propose une synthèse pratique pour la communauté scientifique TAL. Nous présentons un cadre d’analyse qui distingue différent niveau de contamination ainsi que différentes méthodes classées selon l’accès au modèle (White/Gray/Black-Box) et les techniques utilisées (Similarité/Probabilité/Extraction). Nous explorons particulièrement les méthodes d’extraction de données de LLM, les approches techniques, les mesure de performances et leurs limites. Dans une perspective pratique, nous avons synthétiser ces méthodes sous la forme d’un arbre de décision pour sélectionner la méthode de détection de contamination adéquate.”
Eleni Metheniti, Swarnadeep Bhar and Nicholas Asher
Papier TALN
Mots clés : “hallucinations des LLM détection des hallucinations atténuation des hallucinations”
Résumé: “On présente une taxonomie des hallucinations dans les LLM, classées en trois catégories: hallucinations infidèles, contradictions factuelles et fabrications factuelles. Ces hallucinations peuvent se produire à cause des données de pré-entraînement et d’alignement, conduisant à des informations erronées, des préjugés et des erreurs de connaissance. Les méthodes d’entraînement peuvent introduire des problèmes tels que l’ajustement excessif, les effets boule de neige ou la sycophantie. Les stratégies de décodage peuvent également rendre les modèles trop confiants et enclins à attribuer des probabilités aux résultats incorrects. Une bibliographie sur la détection des hallucinations est présentée: des méthodes de TALN, telles que la vérification des faits et la classification, de même que les méthodes basées sur les LLM. Les solutions d’atténuation des hallucinations comprennent l’amélioration de la qualité des données, l’injection de nouvelles connaissances (par ex. avec RAG), l’optimisation, SFT et RLHF, ainsi que les méthodes de décodage.”
Repousser les limites des benchmarks actuels pour une évaluation réaliste des LLMs en migration de code
Samuel Mallet, Joe El Khoury and Elöd Egyed-Zsigmond
Papier TALN
Mots clés : “Grand Modèles de Langage migration de code évaluations benchmarks”
Résumé: “Les grands modèles de langage (LLMs) offrent un potentiel important pour la migration de code, mais les benchmarks actuels créent une illusion de maîtrise ne se traduisant pas par de bonnes performances sur des projets industriels complexes. Bien que des avancées comme RepoTransBench incluent des tâches à l’échelle de dépôts complets, ces benchmarks restent irréalistes: taille de projet trop limitée, gestion simplifiée des dépendances, faible diversité technologique et absence de génération ou adaptation automatique des tests. Dans cet article, nous analysons ces limites et nous suggérons de s’inspirer d’approches existantes dans des contextes monolingues, notamment la gestion des contextes longs et la génération automatique de tests, pour concevoir des benchmarks de migration plus réalistes. Notre contribution vise à encourager la communauté à développer des évaluations plus représentatives des défis industriels.”
UC-FIRe: Approche efficace pour la recherche d’information non supervisée
Maxime Hanus, Quentin Guignard and Christophe Rodrigues
Papier CORIA
Mots clés : “Unsupervised Information Retrieval Information Retrieval Lexical Gap Reduction Lexical Gap BM25 Enhancement Embeddings Word Clustering Cost-effective Retrieval Models Recherche d’information non supervisée Recherche d’information Réduction du gap lexical Amélioration de BM25 Plongements de mot regroupements de mots modèles de recherche efficient”
Résumé: “Nous présentons un modèle de recherche d’information non supervisé conciliant efficacité et faible coût computationnel, fonctionnant uniquement sur CPU. Plutôt que de remplacer BM25, nous l’améliorons en réduisant l’écart lexical. Notre méthode repose sur l’entraînement de vecteurs de mots FastText et la construction de matrices de coexistence et de similarité pour regrouper des mots interchangeables en clusters. Documents et requêtes sont réécrits avec ces clusters, améliorant la pertinence des résultats sans alourdir l’inférence. Expérimenté sur plusieurs corpus de BEIR, notre modèle surpasse des approches plus coûteuses en calcul et obtient de meilleures performances que BM25 sur diverses métriques, tout en conservant une vitesse d’inférence similaire. Cette recherche démontre que notre méthode offre une alternative pratique, scalable et économique aux modèles denses et hybrides, facilitant son adoption dans des systèmes de recherche réels. UC-FIRe est disponible publiquement à : https://anonymous.4open.science/r/UC-FIRe-CORIA/README.md (dossier anonymisé le temps de la révision).”
Prédiction des préférences et génération de revue personnalisée basées sur les aspects et attention
Ben Kabongo, Vincent Guigue and Pirmin Lemberger
Papier CORIA
Mots clés : “Systèmes de Recommandation Grands Modèles de Langue Génération d’Explication Attention Neuronale”
Résumé: “Le filtrage collaboratif alimente de nombreux systèmes de recommandation performants, mais il peine à saisir les interactions fines entre utilisateurs et articles et à fournir des explications claires. Face à la demande croissante de transparence, la génération d’explications textuelles via des modèles de langage est devenue un axe de recherche majeur. Nous proposons AURA, un modèle multi-tâches combinant prédiction de notes et génération de revues personnalisées. AURA apprend simultanément des représentations globales et spécifiques aux aspects en optimisant les notes globales, les notes par aspect et la génération de revues, avec une attention personnalisée. Ces représentations produisent une invite personnalisée qui guide un modèle de langage pour générer la revue finale. Implémenté avec le modèle T5 pré-entraîné et une stratégie de réglage par invite, AURA a été testé sur TripAdvisor et RateBeer. Les résultats montrent qu’il surpasse nettement les modèles de référence, surtout en génération de revues, renforçant ainsi la transparence des recommandations et la satisfaction des utilisateurs.”
Transfert de modèles de langue pour la classification rhétorique des citations à travers les disciplines
Anne-Sophie Foussat, Vincent Guigue, Nicolas Sauvion, Robert Bossy and Claire Nédellec
Papier CORIA
Mots clés : “classification de citations modèle de langue interactions biologiques”
Résumé: “La classification automatique des fonctions rhétoriques des citations contribue à l’étude des stratégies discursives d’un auteur lorsqu’il, cite et plus généralement, de son intention. Dans l’objectif d’estimer la fiabilité des découvertes citées en écologie, cet article analyse les capacités de transfert des modèles de langue affinés en linguistique computationnelle pour cette tâche, en les comparant aux méthodes par amorçage (prompting). Nous introduisons PD100cit, un nouveau corpus annoté, ainsi qu’un guide d’annotation, afin d’explorer la typologie rhétorique des citations relatives aux interactions biologiques. Nous explorons également la sensibilité des modèles aux longueurs des contextes des passages de citations. Nos résultats montrent de bonnes performances des modèles de langue transférés en écologie et l’intérêt de réviser la typologie pour évaluer la fiabilité des découvertes de la linguistique computationnelle à l’écologie.”
Approche méthodologique pour la génération de question-réponse portant sur plusieurs documents
Hui Huang, Julien Velcin and Yacine Kessaci
Papier CORIA
Mots clés : “Questions-réponses multi-documents Réseau de citations Détection de communautés Grande modèles de langage”
Résumé: “Les systèmes de questions-réponses (QA pour Question Answering) actuels ont du mal à synthétiser les preuves dispersées dans les documents. Alors que les jeux de données QA scientifiques existants se concentrent sur le raisonnement portant sur un document seul, la tâche de recherche peut exiger l’intégration de contenus provenant de plusieurs articles. Pour répondre à cette limitation, nous proposons un cadre pour créer un jeu de données QA multi-documents qui s’appuie sur l’analyse de graphes de citations afin de regrouper des articles connexes et utilise un grand modèle de langage (LLM) pour générer des questions complexes.Des expériences préliminaires réalisées sur 23 882 articles démontrent la faisabilité de ce cadre, produisant 238 paires QA qui nécessitent une synthèse sur plusieurs articles. D’autres expériences indiquent que la recherche d’information dense actuelle obtient un rappel limité pour ces questions multi-documents, soulignant le besoin de mécanismes de recherche d’information et de raisonnement plus avancés. Il s’agit d’un projet en cours d’élaboration. Nous visons à terme à fournir un jeu de données QA robuste qui capture la complexité et la nature interconnectée des publications scientifiques, ouvrant la voie à des évaluations plus réalistes des systèmes de QA.”
Vers un élagage de tokens sans perte dans les modèles de récupération à interaction tardive.
Yuxuan Zong and Benjamin Piwowarski
Papier CORIA
Mots clés : “Recherche d’information Recherche dense Recherche multi-vecteur Compromis entre efficience et efficacité”
Résumé: “Les modèles de RI neuronaux à interaction tardive comme ColBERT offrent un compromis compétitif entre efficacité et efficience sur de nombreuses bases de référence. Cependant, ils nécessitent un espace mémoire considérable pour stocker les représentations contextuelles de tous les tokens des documents. Certains travaux ont proposé d’utiliser soit des heuristiques, soit des techniques basées sur les statistiques pour élaguer des tokens dans chaque document. Cependant, cela ne garantit pas que les tokens supprimés n’aient aucun impact sur le score de récupération. Notre travail utilise une approche méthodique pour définir comment élaguer des tokens sans affecter le score entre un document et une requête. Nous introduisons trois pertes de régularisation, qui induisent une solution avec des taux d’élagage élevés, ainsi que deux stratégies d’élagage. Nous les étudions expérimentalement (en domaine interne et externe), démontrant que nous pouvons préserver les performances de ColBERT tout en n’utilisant que 30\% des tokens.”
Génération augmentée de récupération multi-niveau pour répondre à des questions visuelles
Omar Adjali, Olivier Ferret, Sahar Ghannay and Hervé Le Borgne
Papier CORIA
Mots clés : “questions visuelles multimodalité recherche cross-modale entités nommées”
Résumé: “The Knowledge-Aware Visual Question Answering about Entity task aims to disambiguate entities using textual and visual information, as well as knowledge. It usually relies on two independent steps, information retrieval then reading comprehension, that do not benefit each other. Retrieval Augmented Generation (RAG) offers a solution by using generated answers as feedback for retrieval training. RAG usually relies solely on pseudo-relevant passages retrieved from external knowledge bases which can lead to ineffective answer generation. In this work, we propose a multi-level information RAG approach that enhances answer generation through entity retrieval and query expansion. We formulate a joint-training RAG loss such that answer generation is conditioned on both entity and passage retrievals. We show through experiments new state-of-the-art performance on the ViQuAE KB-VQA benchmark and demonstrate that our approach can help retrieve more actual relevant knowledge to generate accurate answers.”
Modèles auto-supervisés de traitement de la parole pour le Créole Haitien
William N. Havard, Renauld Govain, Benjamin Lecouteux and Emmanuel Schang
Papier TALN
Mots clés : “créole haïtien modèles auto-supervisés traitement de la parole”
Résumé: “Nous développons des modèles de traitement de la parole sur mesure pour le créole haïtien (kreyòl), le positionnant ainsi comme une langue bien dotée en termes de modèles auto-supervisés de traitement de la parole. Pour ce faire, nous pré-entraînons des modèles monolingues WAV2VEC2-BASE, WAV2VEC2-LARGE et DATA2VEC-AUDIO-BASE à partir de zéro, qui sont ensuite affinés pour une tâche de reconnaissance automatique de la parole. Nous comparons la performance de ces modèles avec des modèles affinés à partir de modèles multilingues (XLSR-53, XLSR2-300M, MMS-1B) et monolingues basés sur le français (LEBENCHMARK 1 à 7K). Nos résultats démontrent l’efficacité du pré-entraînement monolingue, avec des performances pouvant rivaliser, voire surpasser, celle de grands modèles multilingues. Ce travail propose ainsi des modèles robustes de transcription de la parole pour le kreyòl, adaptables à d’autres créoles français des Caraïbes, contribuant ainsi au développement technologique de ces langues peu dotées.”
Améliorer la Traduction Neuronale par Exemple avec des Données Monolingues
Maxime Bouthors, Josep Crego and François Yvon
Papier TALN
Mots clés : “traduction neuronale recherche d’information recherche cross-lingue traduction à base d’exemples”
Résumé: “Les systèmes de traduction neuronale augmentée par des exemples (RANMT) utilisent des corpus bilingues dits mémoires de traduction (TM). Pourtant, dans de nombreux cas, des corpus du domaine d’intérêt dans la langue cible sont disponibles. Nos travaux explorent des manières d’intégrer de telles ressources en récupérant des segments pertinents directement dans la langue cible, conditionnellement à une phrase source en requête. Ainsi, nous introduisons des améliorations des systèmes de recherche cross-lingue selon un entraînement avec des objectifs lexicaux additionnels. Nos expériences avec deux architectures d’encodeur montrent l’avantage de notre méthode dans un cas contrôlé, obtenant des performances de traduction qui peuvent surpasser les méthodes basées sur une mémoire de traduction (TM). Enfin, nous évaluons notre méthode dans une configuration réaliste pour laquelle la quantité de données monolingues excède celle des données parallèles. Nous observons une grande amélioration grâce à notre méthode, surpassant la baseline ainsi que les encodeurs pré-entraînés.”
Alignements divisifs de textes parallèles: données, algorithme et évaluation
Joanna Rado?a and François Yvon
Papier TALN
Mots clés : “corpus parallèles alignements de mots alignements hiérarchiques similarité lexicale plongements lexicaux”
Résumé: “Nous introduisons un corpus d’alignements hiérarchiques sous-phrastiques français-anglais, annoté manuellement à l’aide d’une stratégie divisive. Nous comparons globalement les alignements ainsi obtenus avec plusieurs corpus parallèles alignés mot-à-mot et étalonnons sa difficulté en réalisant des alignements automatiques par des méthodes de l’état de l’art. Nous proposons également un algorithme exploitant des représentations neuronales des mots et des groupes de mots afin de reproduire les alignements hiérarchiques de référence. Enfin, nous proposons une métrique d’évaluation des arbres d’alignement avec laquelle nous comparons les performances de plusieurs variantes de l’algorithme d’alignement, obtenues en faisant varier les mesures d’appariemment de groupes de mots. Nos résultats montrent que (a) les arbres d’alignements de référence sont très ambigus et difficiles à reproduire automatiquement, cependant, les alignements mot-à-mot sont prédits de manière fiable ; (b) l’utilisation d’alternatives à la similarité cosinus pour évaluer l’appariemment de blocs permet d’améliorer significativement les résultats du système de base.”
Étude de la robustesse des modèles de traduction automatique dans le continuum dialectal de l’occitan
Oriane Nédey
Papier RECITAL/RJCRI
Mots clés : “traduction automatique occitan évaluation langues peu dotées dialectes”
Résumé: “Cet article dresse un état de l’art de la traduction automatique et de son évaluation pour les langues à variation dialectale, et en particulier pour les continuum dialectaux. Pour illustrer cet état de l’art, nous proposons une série d’expériences préliminaires sur le continuum occitan, afin de dresser un état des performances des systèmes existants pour la traduction depuis et vers différentes variétés d’occitan. Nos résultats indiquent d’une part des performances globalement satisfaisantes pour la traduction vers le français et l’anglais. D’autre part, des analyses mélangées à des outils d’identification de langues sur les prédictions vers l’occitan mettent en lumière la capacité de la plupart des systèmes évalués à générer des textes dans cette langue (y compris en zero-shot), mais révèlent aussi des limitations en termes d’évaluation de la diversité dialectale dans les traductions proposées.”
Évaluation de la confidentialité des textes cliniques synthétiques générés par des modèles de langue
Foucauld Estignard, Sahar Ghannay, Julien Girard-Satabin, Nicolas Hiebel and Aurélie Névéol
Papier TALN
Mots clés : “Confidentialité Textes cliniques synthétiques LLM”
Résumé: “Les grands modèles de langue (LLM) peuvent être utilisés pour produire des documents synthétiques similaires à des documents réels dont la disponibilité est limitée pour des raisons de confidentialité ou de droits d’auteur. Dans cet article, nous étudions les risques en lien avec la confidentialité dans les documents générés automatiquement. Nous utilisons des textes synthétiques générés à partir d’un modèle pré-entraîné et affiné sur des cas cliniques en français afin d’évaluer ces risques selon trois critères : (1) la similarité entre un corpus d’entraînement réel et le corpus synthétique (2) les corrélations entre les caractéristiques cliniques dans le corpus d’entraînement et le corpus synthétique et (3) une attaque par inférence d’appartenance (MIA, en anglais) utilisant un modèle affiné sur le corpus synthétique. Nous identifions des associations de caractéristiques cliniques qui suggèrent que le filtrage du corpus d’entraînement qui pourraient contribuer à la préservation de la confidentialité. Les attaques par inférence d’appartenance n’ont pas été concluantes.”
Détection de métaphores dans les documents médicaux
Coralie Pottiez, Thierry Hamon and Natalia Grabar
Papier TALN
Mots clés : “métaphore typologie domaine médical détection giga-modèle de langue”
Résumé: “La métaphore est une figure de style, qui permet de transférer le sens d’un terme source vers un terme cible, comme dans ‘le temps c’est de l’argent’. De cette manière, la métaphore identifie des similarités cachées entre deux idées. La métaphore peut jouer plusieurs rôles dans la langue, comme l’embellir, structurer la pensée ou expliquer des notions complexes. Nous nous intéressons à la métaphore utilisée dans le domaine médical. Nous proposons d’abord une typologie de métaphores et un corpus de cas cliniques annoté avec des emplois métaphoriques. Nous effectuons également des expériences de détection automatique des métaphores avec un giga-modèle génératif. Plusieurs types de prompts sont testés. Les meilleurs résultats atteignent 74 % de rappel et 67,50 de F-mesure. Le typage de métaphores montre que 45,51 % de métaphores sont typés correctement.”
Adaptation des connaissances médicales pour les grands modèles de langue : Stratégies et analyse comparative
Ikram Belmadani, Richard Dufour, Benoit Favre, Carlos Ramisch and Frédéric Bechet
Papier TALN
Mots clés : “Grands modèles de langue (LLMs) Pré-entraînement continu (CPT) Affinage supervisé (SFT) Médical Français”
Résumé: “Cet article présente une étude sur l’adaptation des grands modèles de langue (LLMs) à des domaines spécialisés disposant de données limitées. Bien que certaines recherches remettent en question le pré-entraînement adaptatif (DAPT) dans le contexte médical en anglais, nous montrons que l’adaptation au domaine peut être efficace sous certaines conditions. En prenant comme exemple l’adaptation au domaine médical en français, nous comparons de manière systématique le pré-entraînement continu (CPT), l’affinage supervisé (SFT) et une approche combinée (CPT suivi de SFT). Nos résultats indiquent que l’adaptation d’un modèle généraliste à de nouvelles données dans le domaine médical offre des améliorations notables (taux de réussite de 87%), tandis que l’adaptation supplémentaire de modèles déjà familiarisés avec ce domaine procure des bénéfices limités. Bien que CPT+SFT offre les meilleures performances globales, SFT seul présente des résultats solides et requiert moins de ressources matérielles.”
Etude multimodale pour la localisation des tours de parole fortement informatifs en conversation
Eliot Maës, Philippe Blache and Leonor Becerra-Bonache
Papier TALN
Mots clés : “informativité apprentissage multimodal acte de dialogue prédiction”
Résumé: “Les théories de l’interaction avancent que la compréhension mutuelle entre des locuteurs en conversation provient de la construction d’un savoir partagé (common ground). Aucun modèle ne précise cependant quelles sont les informations retenues ni dans quelles conditions elles le sont. Des études antérieures ont utilisé des métriques issues de la théorie de l’information pour quantifier la dynamique des informations échangées entre participants, mais sans aboutir à une méthode efficace pour identifier les informations qui entrent dans le common ground. Ces tentatives se sont en outre limitées à l’étude des transcriptions de conversations, négligeant les indices non verbaux comme les éléments visuels et l’intonation. Pour y remédier, nous proposons une méthode d’annotation de nouveaux corpus utilisant des modèles entraînés sur un sous-ensemble d’énoncés annotés. Les résultats montrent une applicabilité convenable entre les corpus, bien que celle-ci soit fortement modulée par la tâche conversationnelle étudiée.”
QUARTZ : Approche abstractive non supervisée par question-réponse pour le résumé de dialogue orienté tâche
Mohamed Imed Eddine Ghebriout, Gaël Guibon, Ivan Lerner and Emmanuel Vincent
Papier TALN
Mots clés : “Résumé de dialogues Apprentissage non supervisé Grands modèles de langue”
Résumé: “Le résumé de dialogues condense les conversations en un texte concis, réduisant la complexité des applications riches en interactions. Les approches existantes reposent souvent sur l’entraînement de modèles de langue à imiter des résumés humains. Cependant, cette supervision est coûteuse et les résumés obtenus manquent souvent de pertinence, entraînant des performances sous-optimales, notamment en médecine. Dans cet article, nous introduisons QUARTZ, une méthode non supervisée pour le résumé de dialogues orienté tâche. QUARTZ génère plusieurs résumés et paires de questions-réponses à l’aide de grands modèles de langue (LLMs). Les résumés sont évalués en demandant aux LLMs de répondre à ces questions avant (i) de sélectionner les meilleures réponses et (ii) d’identifier le résumé le plus informatif. Enfin, nous affinons le meilleur LLM sur les résumés sélectionnés. Validé sur plusieurs ensembles de données, QUARTZ atteint des performances compétitives en zéro-shot, rivalisant avec les approches supervisées de pointe.”
Apprentissage par renforcement pour l’alignement des agents LLMs avec des environnements interactifs : quantification et réduction du surapprentissage aux prompts
Mohamed Salim Aissi, Clement Romac, Thomas Carta, Sylvain Lamprier, Pierre-Yves Oudeyer, Olivier Sigaud, Laure Soulier and Nicolas Thome
Papier TALN
Mots clés : “LLM Apprentissage par renforcement Prise de décision séquentielle”
Résumé: “L’apprentissage par renforcement constitue une approche prometteuse pour aligner les connaissances des Grands Modèles de Langue (LLMs) avec des tâches de prise de décision séquentielle. Cependant, peu d’études ont analysé en profondeur l’impact de l’ajustement des LLMs par apprentissage par renforcement dans un environnement spécifique. Dans cet article, nous proposons un nouveau cadre d’analyse pour évaluer la sensibilité des LLMs aux formulations de prompt après un entraînement par renforcement dans un environnement textuel. Nos résultats montrent que la performance des LLMs se dégrade lorsqu’ils sont confrontés à des formulations de prompt différentes de celles utilisées durant la phase d’entraînement par renforcement. Par ailleurs, nous analysons l’origine de cette sensibilité en examinant les représentations internes du modèle ainsi que les tokens saillants. Enfin, nous proposons l’utilisation d’une fonction de coût contrastive afin d’atténuer cette sensibilité et d’améliorer la robustesse et les capacités de généralisation des LLMs.”
MOSAIC : Mélange d’experts pour la détection de textes artificiels
Matthieu Dubois, Yvon François and Pablo Piantanida
Papier TALN
Mots clés : “Mélange d’experts Détection de textes artificiels Théorie de l’information”
Résumé: “La diffusion auprès du public des grands modèles de langue a facilité la production de contenus potentiellement nuisibles. En réponse, plusieurs solutions ont été proposées pour identifier les textes ainsi produits, en traitant le problème comme une tâche de classification binaire. Les premières approches reposent sur l’analyse d’un document par un modèle détecteur, avec l’hypothèse qu’un faible score de perplexité indique que le contenu est artificiel. Des méthodes plus récentes proposent de comparer les distributions de probabilité calculées par deux modèles. Cependant, s’appuyer sur une paire fixe de modèles peut fragiliser les performances. Nous étendons ces méthodes en combinant plusieurs modèles et en développant une approche théorique pour exploiter au mieux chacun d’entre eux.”
Graphes, NER et LLMs pour la classification non supervisée de documents
Imed Keraghel and Mohamed Nadif
Papier TALN
Mots clés : “Entité nommée Classification non supervisée LLMs”
Résumé: “La reconnaissance d’entités nommées (NER) capture des relations sémantiques profondes en identifiant les entités clés, mais elle reste sous-exploitée dans le clustering de documents. Les méthodes traditionnelles ignorent souvent les similarités basées sur les entités, limitant ainsi la performance du clustering. Nous proposons une méthode combinant la NER et les embeddings de grands modèles de langage (LLMs) dans un cadre basé sur les graphes. Notre approche construit un graphe reliant les documents selon la similarité de leurs entités, puis optimise cette structure avec un réseau de convolution de graphes (GCN) (Keraghel \& Nadif, ECIR, 2025). Nos résultats expérimentaux montrent que cette approche améliore la représentation des documents et surpasse les méthodes traditionnelles, en particulier pour ceux riches en entités nommées.”
Identification de mesures d’évaluation fiables pour la révision de textes scientifiques
Léane Jourdan, Florian Boudin, Richard Dufour and Nicolas Hernandez
Papier TALN
Mots clés : “révision de texte article scientifique évaluation métriques”
Résumé: “L’évaluation de la révision des textes scientifiques reste un défi, car les métriques traditionnelles telles que ROUGE et BERTScore se concentrent sur la similarité à une référence plutôt que sur les améliorations réalisées. Nous analysons et identifions les limites de ces métriques et explorons des méthodes d’évaluation alternatives qui s’alignent mieux sur le jugement humain. Nous évaluons d’abord manuellement différentes révisions pour estimer leur qualité. Ensuite, nous examinons la possibilité d’utiliser des métriques d’évaluation sans référence provenant de domaines connexes du traitement automatique des langues (TAL) ainsi que des approches LLM en tant que juge. Nos résultats montrent que LLMs évaluent efficacement le suivi des instructions mais peinent à évaluer l’acceptabilité, alors que les métriques spécifiques au domaine fournissent des informations complémentaires. Nous recommandons une approche hybride combinant l’évaluation LLM en tant que juge et les mesures spécifiques à la tâche offrant l’évaluation la plus fiable de la qualité de la révision.”
De la Nature des Signaux de Correspondance dans les Modèles Neuronaux pour la RI
Mathias Vast, Basile Van Cooten, Laure Soulier and Benjamin Piwowarski
Papier CORIA
Mots clés : “Interprétabilité Encodeurs Croisés Attention Pertinence”
Résumé: “Les architectures de recherche d’information (RI) neuronale, en particulier les encodeurs croisés, sont des modèles très performants dont les mécanismes restent largement méconnus. La plupart des travaux visant à expliquer leur comportement se sont attachés à décrire des processus en surface (par exemple, quels éléments de l’entrée influencent la prédiction, si le modèle respecte les axiomes connus de la RI) mais ne décrivent pas précisément le processus d’appariement. Dans cet article apportons de nouveaux éléments de compréhension du mécansime de correspondance par l’analyse du processus d’attention, mettant en évidence le rôle crucial de certaines têtes d’attention ainsi que la nature des signaux qui sont capturés.”
Utilisation de mécanismes inférentiels dans le processus d’explication automatique de la métaphore à une inconnue
Jérémie Roux, Hani Guenoune, Mathieu Lafourcade and Richard Moot
Papier CORIA
Mots clés : “inférence métaphore analogie contenu figuré traitement automatique du langage naturel base de connaissances”
Résumé: “Considérons la métaphore comme une analogie à une inconnue. L’expliquer revient à résoudre l’unique variable du carré analogique qui en résulte et dont les trois autres termes sont fixés. Nous proposons ici une méthode détaillée pour arriver à cet objectif en utilisant la base de connaissances \textit{JeuxDeMots}. Nous procédons par reconnaissance de schémas de relations préalablement identifiés et qui permettent d’évaluer la force de la similarité relationnelle et celles des deux similarités attributionnelles pour en déduire celle de l’analogie dans sa globalité. Le terme candidat qui permet d’obtenir la meilleure force d’analogie entre les quatre termes de l’analogie à trou ainsi complétée est élu. Enfin, on cherche à démontrer que l’utilisation d’inférences dans ce processus permet d’aboutir à de meilleurs résultats, c’est à dire augmenter le nombre de fois où un bon candidat est élu.”
Restructuration de la Littérature Biomédicale dans une Architecture RAG pour la Génération de Réponse
Maël Lesavourey and Gilles Hubert
Papier CORIA
Mots clés : “Retrieval-Augmented Generation Biomedical Question Answering Information Retrieval”
Résumé: “Le Question Answering Biomédical (BQA) présente des défis spécifiques lié au vocabulaire spécialisé et aux structures sémantiques complexes de la littérature biomédicale. Les grands modèles de langage (LLMs) ont montré d’excellentes performances dans plusieurs tâches de compréhension et de génération du langage naturel. Cependant, leur efficacité tend à diminuer dans des domaines spécifiques, comme la biomédecine. Pour remédier à ce problème, les architectures de génération augmentée de récupération (RAG) sont devenus une approche prometteuse, combinant les avantages des méthodes de recherche d’information et des LLMs afin d’intégrer des connaissances spécifiques au domaine dans le processus de génération. Dans cet article, nous étudions le rôle du contexte dans l’amélioration des performances des pipelines RAG pour le BQA. Nous montrons que l’intégration d’un contexte basé sur une restructuration appropriée de la littérature influence positivement la qualité des réponses générées, en améliorant à la fois les métriques sémantiques et lexicales.”
Quand les Bots Déjouent l’Apprentissage : Enjeux et Défis de la Détection
Mohsine Aabid, Simon Dumas Primbault and Patrice Bellot
Papier CORIA
Mots clés : “Détection des bots Apprentissage supervisé Bibliothèque numérique Filtrage des sessions Internet”
Résumé: “Identifier les bots dans une bibliothèque numérique est un défi crucial pour analyser avec précision le comportement des utilisateurs afin de mieux répondre à leurs besoins. Mais que se passe-t-il lorsque les modèles de détection sont confrontés à des données provenant d’une période différente de leur période d’entraînement ? Cet article explore cette question en extrayant des caractéristiques clés (durée de l’activité, nombre de requêtes etc.), nous comparons plusieurs modèles d’apprentissage supervisé et évaluons la robustesse de cette approche face aux variations temporelles. Nos observations préliminaires montrent que les modèles de détection tendent à être plus confiant sur les données issues de leur période d’entraînement, ce qui soulève des questions sur leur capacité à généraliser à des périodes différentes. Cette dépendance met en lumière la nécessité de stratégies adaptatives, telles que des mises à jour régulières des modèles et de nouvelles approches d’apprentissage, afin de mieux capturer l’évolution des comportements automatisés et améliorer la robustesse de la détection.”
Évaluation des capacités des grands modèles de langue à comprendre les dossiers médicaux de patients : Une étude approfondie de l’extraction et la recherche de données des patients
Jesus Lovon-Melgarejo, Martin Mouysset, Jo Oleiwan, Jose G Moreno, Christine Damase-Michel and Lynda Tamine
Papier CORIA
Mots clés : “grands modèles de langue dossier médical de patient (DMP) données tabulaires recherche d’information extraction des données”
Résumé: “Les dossiers médicaux de patients (DMP) posent des défis uniques, notamment la présence de dépendances contextuelles cachées entre les caractéristiques médicales avec un niveau élevé de dimensionnalité et de disparité des données. Ce papier présente la première étude sur les capacités des grands modèles de langague à comprendre les DMP en vue d’en extraire ou rechercher des données. Nous menons des expérimentations approfondies en utilisant l’ensemble de données MIMICSQL pour explorer l’impact de la structure des prompts, des instructions, du contexte et des démonstrations de deux grands modèles de langue, Llama2 et Meditron, sur la performance des tâches d’extraction et recherche d’information. À travers des analyses quantitatives et qualitatives, nos résultats montrent que les méthodes optimales de sélection et de sérialisation des dossiers de patients peuvent améliorer la performance des tâches jusqu’à 26,79% par rapport aux approches naïves. De même, les scénarios d’apprentissage en contexte avec sélection d’exemples pertinents améliorent la performance d’extraction de données de 5,95%. Sur la base des résultats de notre étude, nous proposons des lignes directrices destinées à faciliter la conception de modèles basés sur les grands modèles de langue pour supporter la recherche d’information en santé. Les jeux de données et le code sont disponibles. Ceci est le résumé de l’article ‘Evaluating LLM Abilities to Understand Tabular Electronic Health Records: A Comprehensive Study of Patient Data Extraction and Retrieval’ publié comme papier long à ECIR 2025”
Génération augmentée de récupération pour les journaux historiques
The Trung Tran, Carlos-Emiliano González-Gallardo and Antoine Doucet
Papier CORIA
Mots clés : “Humanités numériques Génération augmentée de récupération Grands modèles de langage”
Résumé: “La numérisation des archives historiques permet d’améliorer leur accessibilité et leur préservation à long terme, ouvrant ainsi de nouvelles perspectives de recherche interdisciplinaire. Cependant, l’ampleur des données disponibles pose des défis considérables. Diverses tâches de traitement automatique du langage naturel, telles que la reconnaissance d’entités nommées (REN) et la segmentation en articles, ont permis de faciliter l’accès du public en extrayant et structurant l’information. Néanmoins, l’agrégation des articles de presse historiques demeure largement inexplorée. Ce travail met en évidence le potentiel d’un cadre de génération augmentée de récupération (RAG), combinant des grands modèles de langage, un module de recherche sémantique et des bases de connaissances, pour agréger des articles de journaux historiques. Nous proposons également des métriques d’évaluation des systèmes génératifs ne nécessitant pas de vérité de terrain. Les premiers résultats de notre chaîne de traitement RAG sont prometteurs, démontrant que la récupération sémantique, renforcée par le reranking et la REN, peut atténuer les erreurs d’océrisation et les fautes de frappe dans les requêtes.”
Optimisation de la Recherche d’Information Juridiques à travers l’Agrégation des Signaux Contextuels Multi-niveaux des Modèles de Langue Préentraînés
Eya Hammami, Mohand Boughanem and Taoufiq Dkaki
Papier CORIA
Mots clés : “Information Retrieval Pre-trained Language Models Legal Domain Natural Language Processing Machine Learning”
Résumé: “The increasing availability of legal documents in digital format creates opportunities and challenges for legal professionals and artificial intelligence researchers. However, although Pretrained Language Models (PLMs) excel in various NLP tasks, their effectiveness in the legal domain remains limited due to the length and complexity of legal texts. To address this issue, we propose an approach that leverages the intermediate layers of transformer-based models to enhance the representation of legal documents. In particular, this method captures richer syntactic and semantic relationships while preserving contextual interactions within the text. To evaluate our approach, we conducted experiments on publicly available legal datasets. The obtained results demonstrate its effectiveness across various tasks, including information retrieval and document classification.”
Le rôle du contexte dans la classification séquentielle de phrases pour les documents longs
Anas Belfathi, Nicolas Hernandez, Laura Monceaux and Richard Dufour
Papier TALN
Mots clés : “Classification séquentielle de phrases Extraction d’information Documents longs Modèles de langue préentraînés”
Résumé: “La classification séquentielle de phrases étend la classification traditionnelle en intégrant un contexte plus large. Cependant, les approches de pointe rencontrent deux défis majeurs dans le traitement automatique des documents longs : les modèles de langue préentraînés sont limités par des contraintes de longueur d’entrée, tandis que les modèles hiérarchiques proposés introduisent souvent du contenu non pertinent. Pour surmonter ces limitations, nous proposons une approche de recherche d’information au niveau du document visant à extraire uniquement le contexte le plus pertinent. Plus précisément, nous introduisons deux types d’heuristiques : Séquentiel, qui capture l’information locale, et Sélectif, qui sélectionne les phrases les plus sémantiquement similaires. Nos expériences sur des corpus juridiques montrent que ces heuristiques améliorent les performances. Les heuristiques séquentielles surpassent les modèles hiérarchiques sur deux des trois jeux de données, démontrant l’apport du contexte ciblé.”
Intégration des relations inter-référents dans l’annotation de la coréférence : modèle et application
Antoine Boiteau, Yann Mathet and Antoine Widlöcher
Papier TALN
Mots clés : “Modélisation de la coréférence Campagne d’annotation Outil d’annotation”
Résumé: “La disponibilité de corpus annotés en coréférence demeure une nécessité pour de nombreux travaux en linguistique et en TAL. Toutefois, si de tels corpus sont bien disponibles, une part importante repose sur des modèles d’annotation ne permettant d’encoder qu’une partie des informations liées aux phénomènes coréférentiels. Après avoir redéfini un modèle élargi de la coréférence, nous montrerons les bénéfices d’une annotation menée à deux niveaux, celui de l’inscription des occurrences dans le texte (le repérage des maillons des chaînes de coréférence, niveau largement exploré) et celui des structures du modèle référentiel inféré (la clarification des rapports entre les entités désignées, domaine largement passé sous silence). Nous présenterons ensuite l’environnement XXXXX destiné à l’annotation selon ce modèle repensé, et une campagne menée pour le tester.”
Plongement des constituants pour la représentation sémantique des phrases
Eve Sauvage, Iskandar Boucharenc, Thomas Gerald, Julien Tourille, Sabrina Campano, Cyril Grouin and Sophie Rosset
Papier TALN
Mots clés : “Modèle pré-entraînés Apprentissage profond Représentation latente Analyse en constituants Tokénisation”
Résumé: “Les méthodes d’apprentissage profond en traitement automatique des langues reposent souvent sur une segmentation des textes en tokens avant leur vectorisation. Cette segmentation produit des sous-unités lexicales offrant une grande flexibilité. Toutefois, la réutilisation de tokens identiques dans des mots de sens différents peut favoriser des représentations basées sur la forme plutôt que sur la sémantique. Ce décalage entre la forme de surface et le sens peut induire des effets indésirables dans le traitement de la langue. Afin de limiter l’influence de la forme sur la sémantique des représentations vectorielles, nous proposons une représentation intermédiaire plus compacte et plus fidèle au sens des mots.”
État de l’art sur les marqueurs discursifs en Traitement Automatique des Langues
Fatou Sow
Papier RECITAL/RJCRI
Mots clés : “marqueurs discursifs état de l’art multilingue”
Résumé: “Les marqueurs discursifs sont des éléments linguistiques qui peuvent être employés pour construire la cohérence d’un discours car ils expriment les relations entre les unités discursives. Ils constituent ainsi des indices utiles pour la résolution de problèmes de traitement de langue en rapport avec la sémantique du texte, le discours ou la compréhension de systèmes. Dans cet article, nous présentons un état de l’art des marqueurs discursifs en traitement automatique des langues (TAL). Nous introduisons les représentations textuelles des marqueurs discursifs puis nous nous intéressons à la détection des marqueurs et l’utilisation de leurs sens pour améliorer ou évaluer des tâches de TAL.”
Résumé: “Cet article présente une méthodologie pour l’analyse automatique des évènements médiatiques. Il s’appuie sur des techniques de traitement automatique des langues telles que la segmentation thématique, l’extraction d’évènements et le clustering par représentations vectorielles issues de modèles comme Sentence-BERT et SimCSE. L’approche combine des modèles supervisés (Bi-Encoder, Cross-Encoder) et non supervisés (SimCSE), ainsi que des architectures adaptées aux contextes étendus. Des corpus variés (AFP, INA, DBpedia) sont utilisés pour l’entraînement et l’évaluation des modèles. Les résultats obtenus montrent une efficacité élevée dans la détection, le regroupement, la classification thématique et la recherche sémantique des évènements médiatiques. Cette approche offre des perspectives significatives pour structurer les faits réels, analyser leurs représentations médiatiques et comprendre l’influence exercée par les médias sur le traitement de ces faits.”
AdminSet and AdminBERT: un jeu de données et un modèle de langue pré-entraîné pour explorer le dédale non structuré des données administratives françaises
Thomas Sebbag, Solen Quiniou, Niclas Stucky and Emmanuel Morin
Papier TALN
Mots clés : “documents administratifs modèle de langue reconnaissance d’entité nommées corpus français”
Résumé: “Les modèles de langue pré-entraînés (PLM) sont largement utilisés en traitement automatique du langage naturel (TALN), mais peu adaptés aux textes administratifs, souvent non standardisés et spécialisés. En France, l’absence de réglementation uniforme et l’hétérogénéité des sources compliquent le traitement des documents administratifs. Pour pallier ce problème, nous proposons AdminBERT, le premier modèle de langue pré-entraîné en français dédié aux documents administratifs. Nous évaluons AdminBERT sur la tâche de reconnaissance des entités nommées (REN), en le comparant à des modèles génériques, un grand modèle de langue (LLM) et une variante du modèle BERT. Nos résultats montrent qu’un pré-entraînement sur des textes administratifs améliore significativement la reconnaissance des entités nommées. Nous mettons à disposition AdminBERT, AdminSet (un corpus de pré-entraînement) et AdminSet-NER, le premier jeu de données annoté pour la REN sur des textes administratifs français.”
Résumé: “Ce travail met en évidence une limitation théorique des transformers pour les tâches de suivi d’entités, montrant qu’ils nécessitent $\log_{2}(n + 1)$ couches pour gérer n changements d’état. Pour surmonter cette contrainte, nous proposons ChaCAL (Chain and Causal Attention Layer), une modification de l’attention standard qui l’interprète comme une matrice d’adjacence, permettant de capturer efficacement les dépendances longues avec une seule couche. Les expériences menées sur un jeu de données synthétique et un autre de suivi d’objets démontrent que ChaCAL surpasse les transformers classiques en réduisant la profondeur du modèle, tout en maintenant des performances compétitives sur une tâche de modélisation du langage. Cette approche optimise l’efficacité des modèles tout en réduisant leur coût computationnel.”
Atténuer l’impact de la qualité des références sur l’évaluation des systèmes de résumé grâce aux métriques sans référence
Théo Gigant, Camille Guinaudeau, Marc Decombas and Frédéric Dufaux
Papier TALN
Mots clés : “évaluation résumé abstractif métrique”
Résumé: “Les métriques d’évaluation sont utilisées comme des indicateurs pour évaluer les systèmes de résumé abstractif lorsque les annotations sont trop coûteuses. Pour être utiles, ces métriques doivent permettre une évaluation fine, présenter une forte corrélation avec les annotations humaines, et idéalement ne pas dépendre de la qualité des références. Cependant la plupart des métriques d’évaluation standard pour le résumé sont basées sur des références, et les métriques sans références sont faiblement corrélées à la pertinence des résumés, en particulier pour des documents longs. Dans cet article, nous introduisons une métrique sans référence qui corrèle bien avec la pertinence telle qu’évaluée par des humains, tout en étant très peu coûteuse à calculer. Nous montrons également que cette métrique peut être utilisée en complément de métriques basées sur des références afin d’améliorer leur robustesse dans des situations où la qualité des références est faible.”
Détecter des comportements associés aux troubles alimentaires par l’analyse automatique des conversations textuelles en ligne
Yves Ferstler, Catherine Lavoie and Marie-Jean Meurs
Papier TALN
Mots clés : “Modèle de sujet Troubles alimentaires Représentation d’historique conversationnel”
Résumé: “Cet article présente une méthode pour détecter des aspects du comportement liés aux troubles alimentaires à partir de messages textuels échangés sur le réseau social Reddit. Nos travaux comparent différentes représentations d’historiques de messages permettant d’entraîner un modèle neuronal pour la prédiction. Les approches étudiées sont~: (1) la représentation de sujet par fréquence, en calculant le nombre de sujets apparus dans un historique, (2) une représentation par plongement, en calculant la moyenne des représentations de sujets présents dans l.historique de message, 3) une représentation par documents représentatifs, qui cherche à représenter un sujet par un document sémantiquement proche. Un filtrage de sujets est également étudié, pour sélectionner les sujets reliés aux troubles alimentaires. Les résultats montrent que l’utilisation de filtrage permet d’améliorer les performances des systèmes de détection. La méthode basée sur un document représentatif obtient les meilleurs résultats, parmi les autres représentations évaluées mais également parmi d’autres méthodes appliquées à la même tâche lors de la campagne d’évaluation eRisk 2024.”
Évaluer la capacité des transformeurs à distinguer les significations compositionnelles et idiomatiques d’une même expression
Nina Nusbaumer, Guillaume Wisniewski and Benoît Crabbé
Papier TALN
Mots clés : “expressions polylexicales compositionalité idiomaticité transformeurs représentations sémantiques”
Résumé: “Cet article explore comment les modèles de langue fondés sur les transformeurs encodent les si- gnifications compositionnelles et non-compositionnelles de séquences comme « big fish », qui, selon le contexte, peuvent signifier soit « grand poisson », soit « personne importante ». Nous avons mené des expériences pour évaluer : (1) la distinction entre les plongements lexicaux des groupes nominaux compositionnels et non compositionnels à travers les couches du modèle de langue, (2) leur séparabilité linéaire, et (3) l’unité lexicale des séquences non compositionnelle. Nos résultats montrent que le modèle différencie bien les deux significations, et ce dès les premières couches, avec néanmoins une variabilité selon les expressions. De plus, s’appuyant sur des informations contextuelles plus larges, le modèle ne traite pas les expressions idiomatiques comme lexicalement plus unifiées que leurs équivalents compositionnels.”
Affinement des représentations des tokens dans les modèles de langue pré-entraînés avec l’apprentissage contrastif : une étude entre modèles et entre langues
Anna Mosolova, Marie Candito and Carlos Ramisch
Papier TALN
Mots clés : “sémantique lexicale word-in-context affinage”
Résumé: “Les modèles de langue pré-entraînés ont apporté des avancements singifcatifs dans les représentations contextuelles des phrases et des mots. Cependant, les tâches au niveau lexical restent un défi pour ces représentations en raison de problèmes tels que la faible auto-similarité (Ethayarajh, 2019). Dans cet article, nous examinons si les améliorations apportées aux tâches lexicales par l’apprentissage contrastif au niveau des tokens (Mosolova et al., 2024) peuvent être généralisées à d’autres modèles de langue, langues et parties de discours. Nous démontrons que cette méthode de l’apprentissage contrastif améliore systématiquement la performance sur les tâches de Word-in-Context et surpasse celle des modèles de langage pré-entraînés standards. L’analyse de l’espace des plongements lexicaux montre que l’affinement des modèles rapproche les exemples ayant le même sens et éloigne ceux avec des sens différents, ce qui indique une meilleure discrimination des sens dans l’espace vectoriel final.”
ELITEC : un corpus de conversations en microposts français annoté pour le liage d’entités Wikidata
Vivien Leonard, Beatrice Markhoff and Jean-Yves Antoine
Papier TALN
Mots clés : “conversations de microposts corpus annoté français liage d’entité Wikidata”
Résumé: “Nous présentons un corpus de microposts en français pour l’évaluation de la tâche de liage des mentions présentes dans le texte à des entités de Wikidata. Ce corpus est annoté à la fois pour la reconnaissance des mentions (Named Entity Recognition – NER) et leur liaison à des entités de Wikidata (Entity Linking – EL). Il s’agit d’une collection de 2 500 microposts, ciblés sur des termes liés à la vie en ville et regroupés en 618 conversations. Construit en suivant les conventions d’annotation de Impresso-Quaero, ce corpus a été pseudo-anonymisé afin d’être mis librement à disposition de la communauté. Nommé ELITEC (EL for mIcroposTs in FrEnCh), son objectif est de compléter les ressources spécifiques au français. ELITEC sert de base de tests pour les tâches NER et EL, il favorise ainsi le développement d’algorithmes efficaces et frugaux pour ces tâches.”
Exploration de la modalité en français parlé et écrit
Anna Colli and Delphine Battistelli
Papier TALN
Mots clés : “modalité polysémie profil modal oral écrit”
Résumé: “Dans cet article, nous présentons une méthodologie pour comparer entre eux les profils modaux de corpus en français. Nous montrons quelles différences émergent ou non entre l’écrit et l’oral et pointons l’importance et la place des marqueurs polysémiques dans les deux cas. L’analyse de la polysémie du verbe pouvoir retient notre attention dans la mesure où ce verbe s’avère être un marqueur très présent dans l’ensemble des corpus.”
Analyse de la continuité référentielle dans le corpus d’écrits scolaires français et italien Scolinter
Martina Barletta and Claude Ponton
Papier TALN
Mots clés : “Cohérence textuelle continuité référentielle écrits scolaires corpus annoté”
Résumé: “Cet article présente une étude sur la continuité référentielle dans des écrits scolaires en français et en italien, en s’appuyant sur le corpus Scolinter. L’objectif est d’analyser les mécanismes de cohérence textuelle à l’école primaire et de comparer les stratégies utilisées dans les deux langues à travers l’annotation et l’analyse des chaines de continuité référentielle. Une campagne d’annotation a été menée sur 150 textes par langue (CE1 et CE2), et l’adjudication a fait l’objet d’une analyse présentée ici. Les résultats montrent des différences notables. Par exemple, en français, les pronoms personnels sont privilégiés, tandis qu’en italien, l’anaphore zéro est plus fréquente. L’étude met également en évidence une tendance commune dans l’introduction des référents, souvent par des syntagmes nominaux indéfinis suivis d’une reprise pronominale. En revanche, la densité référentielle ne varie pas significativement entre les niveaux scolaires. Ces analyses apportent un éclairage sur le développement des compétences rédactionnelles et les spécificités linguistiques influençant la gestion de la référence dans chaque langue.”
Inférence en langue naturelle appliquée au recrutement de patients pour les essais cliniques : le point de vue du patient
Mathilde Aguiar, Pierre Zweigenbaum and Nona Naderi
Papier TALN
Mots clés : “Inférence en Langue Naturelle Essais cliniques Recrutement de patients Grands Modèles de Langue”
Résumé: “Recruter des patients pour les essais cliniques est long et complexe. Habituellement, le processus de recrutement est initié par un professionnel de santé qui propose à un patient de participer à l’essai clinique. Promouvoir les essais directement aux patients via des plateformes en ligne pourrait aider à en atteindre un plus grand nombre. Dans cette étude, nous nous intéressons au cas où le patient est l’initiateur de la démarche et veut savoir s’il est éligible à un essai clinique, tout cela en utilisant son propre langage patient. Pour déterminer si l’utilisation d’un tel langage permet tout de même au modèle de langue de déterminer l’égilibilité du patient pour l’essai clinique, nous construisons la tâche Natural Language Inference for Patient Recrutement (NLI4PR). Pour cela nous adaptons le jeu de données TREC 2022 Clinical Trial Track en réécrivant manuellement les profils médicaux en langage patient. Nous extrayons également les essais cliniques où les patients étaient labellisés « éligible » ou « exclu ». Nous soumettons des amorces à plusieurs grands modèles de langue, et obtenons un score F1 compris entre 56,6 et 71,8 avec le langage patient, contre 64,7 à 73,1 pour du langage médical. Nous observons que l’utilisation du langage patient ne mène qu’à une dégradation de performance relativement petite pour notre meilleur modèle. Cela suggère qu’avoir le patient en tant que point de départ du recrutement pourrait être réalisable. Nos scripts ainsi que nos jeux de données sont disponibles sur Github et HuggingFace.”
Incorporation des Traits de Personnalité dans les Agents Conversationnels basés sur les GML : Étude de Cas de l’Assistance Client en Français
Ahmed Njifenjou, Virgile Sucal, Bassam Jabaian and Fabrice Lefèvre
Papier TALN
Mots clés : “Agent Conversationnel Personnalité Big Five Vecteur de Personnalité Grands Modèles de Langue (GML)”
Résumé: “Parmi les diverses théories élaborées pour capturer la complexité multidimensionnelle de la personnalité humaine, particulièrement en psychologie, le modèle des Big Five, aussi appelé << OCEAN >>, en raison de ses cinq dimensions principales, s’est affirmé comme un cadre analytique prééminent. Ce modèle a été incorporé dans le développement de chatbots mais les méthodologies actuelles, telles que l’emploi de paires binaires de traits ou l’analyse isolée de chaque trait, ne parviennent pas à englober pleinement la richesse nuancée de la personnalité humaine. Dans cette recherche, nous introduisons une approche fondée sur une représentation vectorielle, où chacune des dimensions représente l’intensité d’un trait OCEAN sur une échelle continue allant de 0 à 1. Cette nouvelle méthode accroît la flexibilité et améliore la fidélité du modèle dans la capture de la diversité des personnalités. L’application aux scénarios d’assistance client en français démontre que, sur la base de conversations humains-bots ainsi que bots-bots, les vecteurs de personnalité attribués sont distinguables à la fois par les humains et par des GML. Leurs évaluations subjectives confirment les impacts mesurables de la personnalité attribuée sur l’expérience utilisateur, l’efficacité de l’agent et la qualité des conversations.”
Résumé: “L’analyse métrique est une étape importante pour le traitement des textes versifiés. Le résultat d’une telle analyse permet, par exemple, de comparer les textes entre eux, ou, dans le cas de textes chantés, de les comparer avec différents airs. Nous proposons une méthode pour la création d’un modèle produisant diverses analyses métriques pour un vers donné, ainsi qu’une application en diachronie longue de cette méthode sur des données en français produites à partir du 16ème siècle et jusqu’au début du 20ème siècle. Cette méthode, repose sur la prédiction des noyaux vocaliques d’un vers. Nous offrirons également un point de comparaison et nous poserons la question de la robustesse à la variation de ces méthodes selon l’état de langue considéré et le bruitage provenant de l’application de reconnaissance optique de caractères en amont.”
Normaliser le moyen français : du graphématique au semi-diplomatique
Sonia Solfrini, Mylène Dejouy, Aurélia Marques Oliveira and Pierre-Olivier Beaulnes
Papier RECITAL/RJCRI
Mots clés : “Humanités Numériques Normalisation automatique Français du XVIe siècle Moyen français Règles de normalisation Pré-éditorialisation des textes Traitement Automatique du Langage”
Résumé: “La pré-éditorialisation des documents anciens, comprise comme une automatisation partielle de la préparation de ces données textuelles, est récemment devenu l’un de nouveaux fronts de la recherche en philologie computationnelle. Parmi les tâches qu’elle comprend, on trouve celle de la normalisation linguistique, qui correspond au toilettage philologique du texte, pour le rendre plus aisément lisible tant par les chercheurs que par les machines. Dans un premier temps, nous définissons cette tâche de TAL pour le moyen français et sa place dans une chaîne de traitement numérique qui permet, depuis les sorties de l’OCR, la création de données textuelles machine actionable. Ensuite, nous présentons et rendons disponible un ensemble de données d’environ 40 000 lignes, tirées d’un corpus d’imprimés du XVIe siècle, et nos règles de normalisation. Enfin, nous proposons un premier modèle de normalisation automatique, avec un ChrF de 95.02%, afin de confirmer la faisabilité de la tâche.”
Annotation de Marqueurs Discursifs : le cas de la désambiguïsation de après
Paola Herreño Castañeda and Maeva Sillaire
Papier RECITAL/RJCRI
Mots clés : “Marqueur discursif annotation corpus méthodologie”
Résumé: “Les marqueurs discursifs (désormais MD) sont des expressions souvent polysémiques, voire polyfonctionnelles dans la langue (quoi, enfin, bon, mais, voilà, là, etc.). Dans ce dernier cas, une tâche consiste d’abord à distinguer leurs emplois comme MD et non-MD, en fonction notamment du contexte d’apparition. Dans le cadre de XXX, un corpus de français a été constitué et annoté semi-automatiquement pour identifier les expressions potentiellement employées comme MD, non-MD, ou MD-CAND (étiquette regroupant les cas ambigus qui n’ont pas pu être déterminés par l’annotation). Nous cherchons à enrichir le processus d’annotation pour les cas où après a été classé comme MD-CAND. Pour cela, nous proposons un protocole d’annotation manuelle supplémentaire visant à trier, parmi ces candidats, les emplois contrastifs et non contrastifs de après. Nos résultats initient des réflexions plus larges sur les enjeux théoriques et méthodologiques liés à l’annotation des MD.”
Annotation et modélisation des émotions dans un corpus textuel : une approche évaluative
Jonas Noblet
Papier RECITAL/RJCRI
Mots clés : “Annotation Émotion Accord inter-juges Modèles de langue”
Résumé: “L’émotion est un phénomène capital dans le fonctionnement de l’être humain en société. Elle reste pourtant un sujet encore largement ouvert, notamment dans ses manifestations textuelles. La présente communication examine un corpus industriel manuellement annoté selon une approche évaluative de l’émotion. Cette conception théorique aujourd’hui peu exploitée propose une perspective différente, en complément des approches traditionnelles. Partant du constat que les annotations que nous avons collectées présentent un fort désaccord, nous avons émis l’hypothèse que celles-ci suivent néanmoins des tendances statistiques stables. Par le biais de modèles de langue entraînés sur ces annotations, nous montrons qu’il est possible de modéliser le processus d’étiquetage, et que la variabilité est guidée par des caractéristiques linguistiques sous-jacentes. Réciproquement, nos résultats indiquent que les modèles de langue semblent en mesure de distinguer les situations émotionnelles sur la base des critères évaluatifs et ce d’autant mieux que les modèles sont récents et volumineux.”
État de l’art : évaluation, détection et mitigation des hallucinations des LLMs
Aygalic Jara-Mikolajczak
Papier RECITAL/RJCRI
Mots clés : “hallucinations état de l’art évaluation détection mitigation”
Résumé: “Cet article présente un état de l’art sur les hallucinations produites par les grands modèles de langue (LLMs). L’objectif de ce travail est double : dresser un panorama des recherches actuelles dans ce domaine et souligner l’importance de prendre en considération les hallucinations lors de la conception des systèmes incorporant des LLMs. Pour ce faire, nous commençons par la définition du problème. Nous présentons ensuite les différentes méthodes d’évaluation, suivis des techniques de détection et de mitigation des hallucinations, tout en discutant leurs forces et limites méthodologiques.”
Corpus bilingue sous-titrage et Langue des Signes Française : la problématique de l’alignement automatique des données
Julie Halbout and Diandra Fabre
Papier RECITAL/RJCRI
Mots clés : “Langue de Signes Française LSF corpus interprétation alignement”
Résumé: “Dans cet article, nous présentons une étude sur la problématique de l’alignement automatique des données dans un corpus constitué de discours en français parlé, sous-titrés en français écrit et interprétés en langue des signes française (LSF). Après une introduction précisant le processus bien particulier de l’interprétation en langue des signes, nous dressons un tour d’horizon des ensembles de données existants pour la LSF ainsi que les spécificités du corpus Matignon-LSF, constitué à partir des comptes-rendus vidéos hebdomadaires du conseil des ministres. Nous montrons ensuite sur quelques exemples certains des phénomènes observés sur la problématique de l’alignement temporel entre les sous-titres synchronisés avec l’audio, et la LSF interprétée qui subit un décalage temporel. Nous en concluons que le niveau d’alignement ne peut pas être celui des phrases en français écrit et proposons quelques pistes pour la suite.”
Comparaison des approches basées sur BERT et sur l’agent LLM pour la classification hiérarchique de narratifs dans les articles de presse multilingues
Yutong Wang and Mohamed-Nour Eldjadiri
Papier RECITAL/RJCRI
Mots clés : “classification de texte multi-classes multi-labels catégorisation des narratifs LLM système d’agents LLM BERT AutoGen”
Résumé: “Nous présentons une étude comparative de deux paradigmes de classification hiérarchique multi-labels de texte dans le contexte de l’extraction des narratifs d’articles de presse. La première approche utilise un cadre séquentiel basé sur BERT qui identifie les narratifs et leurs sous-narratifs correspondants. La seconde utilise des agents LLM spécialisés, chacun effectuant une classification binaire pour des catégories narratives spécifiques. En évaluant les deux approches sur l’ensemble de données SemEval-2025 Task 10 dans cinq langues, nous constatons que l’approche basée sur BERT offre une efficacité de calcul et des performances interlinguistiques cohérentes (moyenne $F1\ macro : 0,475$), tandis que la méthode basée sur les agents démontre une meilleure gestion des narratifs nuancés et de meilleures performances sur les données en anglais ($F1\ macro : 0,513$). Notre analyse révèle des forces complémentaires entre ces paradigmes. Nous discutons des implications pratiques et proposons des orientations pour des systèmes hybrides potentiels.”
Sondage des modèles de langue sur leur source de connaissance
Zineddine Tighidet, Andrea Mogini, Jiali Mei, Patrick Gallinari and Benjamin Piwowarski
Papier TALN
Mots clés : “Interprétabilité Transformers Connaissance des modèles de langue”
Résumé: “Les grands modèles de langue (GML) sont souvent confrontés à des conflits entre leurs connaissance interne (connaissance paramétrique, CP) et la connaissance externe fournie pendant l’inférence (connaissance contextuelle, CC). Comprendre comment les GML priorisent une source de connaissance par rapport à l’autre reste un défi. Dans cet article, nous proposons un nouveau cadre de sondage pour explorer les mécanismes régissant la sélection entre CP et CC dans les GML. En utilisant des prompts contrôlées conçues pour contredire la CP du modèle, nous démontrons que des activations spécifiques du modèle sont indicatives de la source de connaissance employée. Nous évaluons ce cadre sur divers GML de différentes tailles et démontrons que les activations des couches intermédiaires, en particulier celles liées aux relations dans l’entrée, sont cruciales pour prédire la sélection de la source de connaissances, ouvrant la voie à des modèles plus fiables capables de gérer efficacement les conflits de connaissances. Lien ACL Anthology de l’article publié à EMNLP 2024 Workshop BlackboxNLP : https://aclanthology.org/2024.blackboxnlp-1.35/”
Extraction de mots-clés à partir d’articles scientifiques: comparaison entre modèles traditionnels et modèles de langue
Motasem Alrahabi, Nacef Ben Mansour and Hamed Rahimi
Papier TALN
Mots clés : “Extraction de mots-clés évaluation modèles de langage corpus HAL”
Résumé: “L’extraction automatique des mots-clés est cruciale pour résumer le contenu des documents et affiner la recherche d’informations. Dans cette étude, nous comparons les performances de plusieurs modèles d’extraction et de génération de mots-clés appliqués aux résumés d’articles issus des archives HAL : des approches basées sur des statistiques et des modèles vectoriels, ainsi que des approches génératives modernes utilisant les LLMs. Les résultats montrent que les LLMs surpassent largement les méthodes traditionnelles en termes de précision et de pertinence, même en configuration zero-shot, et que l’inclusion des titres d’articles améliore significativement les scores F1. Nous introduisons également une nouvelle métrique pour évaluer les performances des LLMs en tenant compte des coûts de traitement, offrant ainsi une perspective équilibrée entre efficacité et coût.”
PatientDx : Fusion des grands modèles de langue pour la protection de la confidentialité des données dans le domaine de la santé
Jose G Moreno, Jesus Lovon-Melgarejo, M’Rick Robin-Charlet, Christine Damase-Michel and Lynda Tamine
Papier TALN
Mots clés : “grands modèles de langue fusion des modèles confidentialité des données”
Résumé: “L’affinage des grands modèles de langue (GML) est devenu la pratique courante pour améliorer la performance des modèles sur une tâche donnée. Cependant, cette amélioration de performance s’accompagne d’un coût : l’entraînement sur de vastes quantités de données annotées potentiellement sensibles, ce qui soulève d’importantes préoccupations en matière de confidentialité des données. Le domaine de la santé constitue l’un des domaines les plus sensibles exposés aux problèmes de confidentialité des données. Dans cet article, nous présentons “PatientDx”, une architecture de fusion de modèles permettant de concevoir des GML efficaces pour les tâches prédictives en santé sans nécessiter d’affinage ni d’adaptation sur les données des patients. Notre proposition repose sur des techniques récemment proposées connues sous le nom de fusion de GML et vise à optimiser une stratégie de fusion modulaire. “PatientDx” utilise un modèle pivot adapté au raisonnement numérique et ajuste les hyperparamètres sur des exemples en fonction d’une métrique de performance, mais sans entraîner le GML sur ces données. Les expériences utilisant les tâches de prédiction de mortalité de l’ensemble de données MIMIC-IV montrent des améliorations jusqu’à 7% en termes d’AUROC par rapport aux modèles initiaux. De plus, nous confirmons que, comparée aux modèles affinés, notre proposition est moins sujette aux problèmes de fuite de données sans nuire à la performance. Enfin, nous démontrons qualitativement les capacités de notre proposition à travers une étude de cas. Notre meilleur modèle est publiquement disponible. Ceci est le résumé de l’article publié “PatientDx: Merging Large Language Models for Protecting Data-Privacy in Healthcare” dans l’atelier CL4Health, NAACL 2025.”
Towards training fair self-supervised automatic speech recognition models without demographic labels
Laura Alonzo Canul, Benjamin Lecouteux and François Portet
Papier TALN
Mots clés : “équité apprentissage auto-supervisé reconnaissance automatique de la parole”
Résumé: “Malgré des avancés importantes dans le domaine de la Reconnaissance Automatique de la Parole (RAP), les performances de reconnaissance reste inégales selon les groupes de locuteurs, ce qui pose des problèmes d’équité. Bien qu’ils existe des méthodes pour réduire ces inégalités, elles dépendent de ressources externes au signal vocal, tels que des modèles de locuteur (speaker embeddings) ou des étiquettes démographiques textuelles, qui peuvent être indisponibles ou peu fiables. Dans ce travail, nous proposons une méthode pour améliorer l’équité dans la RAP qui ne dépend d’aucune de ces ressources. Notre approche utilise une méthode de clustering non supervisé à partir de représentations acoustiques classiques, auto-supervisées et hybrides. Nos expériences avec CommonVoice 16.1 démontrent que les modèles entraînés sur les clusters découverts améliorent les performances des groupes démographiques désavantagés tout en conservant des performances compétitives et en utilisant deux fois moins de données d’entraînement.”
Corpus multilingue annoté pour l’étude sémantique des expressions quantifiantes — chinois (mandarin), coréen, français, japonais — Les problèmes de segmentation
Raoul Blin and Jinnam Choi
Papier TALN
Mots clés : “corpus comparable quantification coréen français japonais SUD”
Résumé: “Nous présentons un projet de constitution d’un corpus comparable, annoté pour l’étude sémantique de la quantification en coréen, français, japonais et chinois mandarin. Nous nous concentrons ici sur les trois première langues. Nous présentons une annotation sémantique destinée à compléter une description en dépendance au format (S)UD. Nous défendons la nécessité d’adopter une segmentation plus fine que celle en usage habituellement pour le coréen et le japonais. Cette segmentation améliore la description de la quantification dans environ 5\% des phrases par rapport à la segmentation usuelle. Elle permettrait aussi une analyse morpho-syntaxique globalement plus fine.”
Étude critique du corpus CNN/DailyMail pour le résumé automatique
Aurélien Bossard, Christophe Rodrigues and Bachey Fanny
Papier TALN
Mots clés : “Résumé automatique Analyse de corpus Analyse critique Qualité des données CNN/DailMail”
Résumé: “De nombreux modèles de génération et d’évaluation sont entraînés sur des corpus sans qu’il ait été démontré qu’ils étaient appropriés pour cette tâche. C’est pourquoi nous proposons l’étude critique des données de l’un des corpus les plus utilisés dans le domaine du résumé automatique : CNN/DailyMail. Nous montrons, par une analyse théorique, puis en comparant les résumés de référence du corpus et à des résumés écrits par des humains, que les résumés de référence de CNN/DailyMail ne correspondent pas à ce que doit être un résumé, et que le corpus n’est donc pas adapté à la tâche de résumé automatique.”
The Impact of Text Complexity on Reading Behaviour: An Eye-Tracking and Surprisal Analysis of French Texts
Oksana Ivchenko and Natalia Grabar
Papier TALN
Mots clés : “eye-tracking medical and general texts French cognitive processing”
Résumé: “This study investigates how text complexity affects reading processes across different text types by combining eye-tracking methodology with surprisal analysis. We created a corpus of French general, clinical, and medical texts in both original and simplified versions, annotated with comprehensive eye-tracking measurements from 23 participants. Linear mixed effects modelling reveals that surprisal significantly predicts reading times across all text types, with medical texts showing heightened sensitivity to unexpected words. Importantly, simplification has differential effects depending on text type : while it does not significantly reduce reading times for clinical texts, it substantially decreases reading times for medical texts. Moreover, simplification mitigates the effect of surprisal specifically in medical texts, reducing the cognitive cost associated with processing unexpected words.”
ding-01 :ARG0 un corpus AMR pour le français parlé spontané
Jeongwoo Kang, Maria Boritchev and Maximin Coavoux
Papier TALN
Mots clés : “Annotation Sémantique AMR Parole Corpus”
Résumé: “Nous présentons notre travail en cours sur l’annotation d’un corpus sémantique en français. Nous annotons le corpus DinG, constitué de transcriptions de dialogues spontanés en français enregistrées pendant des parties du jeu Catane, en Abstract Meaning Representation (AMR), un formalisme de représentation sémantique. Comme AMR a une couverture insuffisante de la dynamique de la parole spontanée, nous étendons le formalisme pour mieux représenter la parole spontanée et les structures de phrases spécifiques au français. En outre, nous diffusons un guide d’annotation détaillant ces extensions. Enfin, nous publions notre corpus sous license libre (CC-SA-BY). Notre travail contribue au développement de ressources sémantiques pour le dialogue en français.”
Pensez: Less Data, Better Reasoning – Rethinking French LLM
Huy Hoang Ha
Papier TALN
Mots clés : “Multilingual LLMs Efficient Training Reasoning Data curation”
Résumé: “Large language models (LLMs) have demonstrated remarkable capabilities in various natural language processing tasks. However, achieving strong performance in specialized domains like mathematical reasoning and non-English languages often requires extensive training on massive datasets. This paper investigates a contrasting approach: strategic fine-tuning on a small, high-quality, bilingual (English-French) dataset to enhance both the reasoning capabilities and French language proficiency of a large language model. Rather than relying on scale, we explore the hypothesis that targeted data curation and optimized training can achieve competitive, or even superior, performance. We demonstrate, through targeted supervised fine-tuning (SFT) on only 2,000 carefully selected samples, significant improvements in mathematical reasoning. Specifically, Pensez 7B exhibits an increase in accuracy of the base model up to 20% on the AIME25 and a 12% increase on a French MATH level 5 benchmark. These results challenge the prevailing assumption that massive datasets are prerequisite for strong reasoning performance in LLMs, highlighting the potential of strategic data curation and optimized fine-tuning for enhancing both specialized skills and multilingual capabilities. Our findings have implications for the efficient development of high-performing, multilingual LLMs, especially in resource-constrained scenarios.”
Étude comparative de réponses humaines et de grands modèles de langage à des QCM en pharmacie
Ricardo Rodriguez, Stéphane Huet, Benoit Favre and Mickael Rouvier
Papier TALN
Mots clés : “question à choix multiples grands modèles de langage frenchmedmcqa médical pharmacologie”
Résumé: “Cet article propose d’étudier les réponses générées par plusieurs Grands Modèles de Langage à un ensemble de Questions à Choix Multiple en pharmacie. Ces réponses sont comparées aux réponses données par des étudiants, afin de comprendre quelles sont les questions difficiles pour les modèles par rapport aux humains et pour quelles raisons. Nous utilisons les poids internes des modèles aux réponses pour construire des distributions de probabilité et analyser les caractéristiques principales qui déterminent la difficulté des questions via une approche statistique. Nous apportons aussi une extension du jeu de données FrenchMedMCQA avec des paires question-réponses en pharmacie, enrichies avec les réponses des étudiants, la ponctuation assignée aux réponses et les thématiques cliniques correspondantes.”
La structure du contenu textuel a-t-elle un impact sur les modèles linguistiques pour le résumé automatique ?
Eve Sauvage, Sabrina Campano, Lydia Ould Ouali and Cyril Grouin
Papier TALN
Mots clés : “Résumé automatique Séquences Longues Structure des textes”
Résumé: “Le traitement de séquences longues par des modèles de langues reste un sujet à part entière, y compris pour le résumé automatique, malgré des améliorations récentes. Dans ce travail, nous présentons des expériences de résumé automatique d’articles scientifiques à l’aide de modèles BART, prenant en compte les informations textuelles provenant de passages distincts des textes à résumer. Nous démontrons que la prise en compte de la structure du document améliore les performances des modèles et se rapproche des performances de LongFormer en anglais.”
Incomplete Pictures: A State of the Art Study on Bias in Large Language Models
Trung Hieu Ngo
Papier RECITAL/RJCRI
Mots clés : “Bias Large Language Model Medical field”
Résumé: “Pretrained Large Language Models (LLMs) have transformed Natural Language Processing (NLP) and daily tasks, outperforming traditional methods in text classification, sentiment analysis, and translation. Their conversational interfaces such as ChatGPT have democratized access, aiding writing, coding, and health advice. As they are trained on vast internet texts, LLMs inherit biases, perpetuating stereotypes that may skew language representations and cause representational or allocational harm. In the medical domain, where LLMs assist in medical communication and documentation, these biases pose significant risks, potentially amplifying disparities. While studies have extensively explored gender and racial biases, they often neglect the other Social Determinants of Health (SDoH) that can shape health outcomes. This review examines LLM bias research, identifies gaps in the research and SDoH coverage, and discusses the need for a more comprehensive framework to address these biases, enhancing the safe integration of LLMs into healthcare.”
Amélioration de la lisibilité de textes via l’utilisation de LLM
Baptiste Ramonda, Isabelle Ferrane and Julien Pinquier
Papier RECITAL/RJCRI
Mots clés : “Lisibilité de textes Simplification de textes LLM Sémantique”
Résumé: “La lisibilité d’un texte est essentielle pour garantir un accès équitable à l’information. Cet article propose une méthodologie visant à simplifier des textes complexes tout en préservant leur sens. Un indice global de lisibilité a été défini en combinant plusieurs scores normalisés. Ensuite, une chaîne de traitement automatique, basée sur l’API de Gemini (LLM de Google), a généré des versions simplifiées des textes. Les résultats montrent une amélioration significative de la lisibilité, selon l’indice global et les critères spécifiques. Pour vérifier la conservation des idées clés, des résumés ont été extraits des versions initiales et simplifiées. Une mesure de la distance sémantique confirme que les concepts essentiels sont préservés. Cette approche prouve qu’il est possible d’automatiser efficacement la simplification textuelle tout en maintenant la cohérence et la pertinence des contenus, améliorant ainsi l’accessibilité de l’information.”
Evaluation de la lisibilité des textes biomédicaux selon le profil du lecteur
Anya Nait Djoudi
Papier RECITAL/RJCRI
Mots clés : “Lisibilité Transformeurs Texte biomédical”
Résumé: “La perception de la lisibilité des textes biomédicaux varie selon l’expertise du lecteur, ce qui limite l’accès à l’information pour les non-spécialistes, bien que 72 % des internautes recherchent des contenus médicaux en ligne. Les formules classiques de lisibilité, conçues pour des textes généraux, ne tiennent pas compte de cette diversité de profils. Nous proposons une méthode d’évaluation automatique de la lisibilité adaptée à trois catégories de lecteurs : adultes experts, adultes non experts et enfants. À cette fin, nous avons constitué un corpus biomédical bilingue structuré de 20 008 documents (11 154 en anglais, 8 854 en français), répartis selon le profil des lecteurs, qui constitue une de nos contributions principales. Ce corpus a permis d’entraîner divers classificateurs, des modèles traditionnels (XGBoost, SVM) aux modèles de langue (BERT, CamemBERT, BioBERT, DrBERT). Sur la base de ces résultats, nous avons conçu une architecture hybride combinant embeddings de transformers et caractéristiques linguistiques, aboutissant à un score F1 macro-moyen de 0,987. Cette approche ouvre des perspectives pour la simplification de textes, la personnalisation de la recherche d’information et l’évaluation de résumés générés automatiquement.”
Vers une taxonomie pour l’analyse des intentions dans les interactions textuelles numériques
Senaid Popovic
Papier RECITAL/RJCRI
Mots clés : “Détection d’intention taxonomie annotation de corpus ingénierie sociale llm”
Résumé: “Cet article propose une taxonomie pour la détection d’intention dans les communications numériques, distinguant les intentions explicites des intentions implicites, basée sur des principes psychologiques de persuasion. Notre approche se distingue par sa capacité à analyser aussi bien les communications numériques légitimes que celles potentiellement malveillantes. Elle repose sur l’identification des intentions sous-jacentes, facilitant ainsi la détection de menaces telles que les arnaques par email (scams) ou les fraudes sur les réseaux sociaux. Chaque catégorie de la taxonomie est justifiée et illustrée par des exemples de communications correspondant à l’intention associée. Ce travail répond à un manque de ressources dans la recherche sur la détection automatique d’intentions. Il vise à fournir une taxonomie applicable à l’identification des menaces textuelles, notamment les tentatives d’hammeçonnage, tout en servant d’outil pédagogique pour sensibiliser le grand public aux stratégies employées dans les communications malveillantes”
Réhabiliter l’écriture Ajami : un levier technologique pour l’alphabétisation en Afrique
Samy Ouzerrout and Idriss Saadallah
Papier RECITAL/RJCRI
Mots clés : “Écriture Ajami Translittération Reconnaissance Optique de Caractères (OCR) Langues peu dotées Illettrisme fonctionnel Inclusion numérique Corpus à faibles ressources Patrimoine linguistique Langues africaines Traitement intergraphique Technologies linguistiques inclusives Digraphie”
Résumé: “Cet article explore le potentiel de l’écriture Ajami, un système basé sur l’alphabet arabe, comme levier pour réduire l’analphabétisation en Afrique subsaharienne et au Maghreb. Malgré sa large diffusion religieuse, l’Ajami reste marginalisé dans les politiques éducatives au profit de l’alphabet latin. Nous présentons une approche technologique combinant translittération automatique LatinAjami et reconnaissance optique de caractères (OCR) à partir d’un corpus multilingue annoté. Une plateforme collaborative que nous avons crée permettant l’enrichissement automatique de ces ressources par des locuteurs natifs. L’objectif est double : améliorer l’accès à l’écrit pour les populations maîtrisant l’alphabet arabe et préserver un patrimoine scriptural menacé. L’article discute les défis techniques, linguistiques et sociétaux liés à cette réintégration scripturale, et propose des perspectives transdisciplinaires pour l’éducation, la numérisation et les politiques linguistiques. Notre contribution s’inscrit dans une dynamique de justice linguistique et d’inclusion numérique des langues peu dotées.”
Évaluation Automatique Explicable de l’Écriture Argumentative : État de l’Art, Lacunes et Proposition d’Architecture Modulaire Alignée sur des Grilles Éducatives
Marcos Moisés Crisóstomo de Oliveira
Papier RECITAL/RJCRI
Mots clés : “automatique de l’écriture Argumentation Fouille d’arguments TALN”
Résumé: “Cet article propose une architecture modulaire explicable pour l’évaluation automatique de l’écriture argumentative, alignée sur des grilles éducatives comme celles de l’ENEM. Les systèmes actuels, axés sur des scores prédictifs basés sur des métriques superficielles, manquent d’explicabilité et de pertinence pédagogique. En intégrant la théorie de l’argumentation, l’évaluation formative et les avancées en fouille d’arguments et modèles de langage (LLMs), l’architecture comprend quatre modules : segmentation des unités argumentatives, classification des relations discursives, alignement avec les grilles et génération de feedback. Les résultats préliminaires montrent une identification précise des composants argumentatifs et des retours compréhensibles. L’architecture, adaptable à d’autres examens multilingues comme le DELF/DALF et le TOEFL, vise une évaluation automatisée plus juste, transparente et utile pédagogiquement.”
Types d’erreurs produits par les systèmes de traduction neuronaux lors de la traduction anglais-français de syntagmes nominaux complexes en langue de spécialité
Maud Bénard
Papier RECITAL/RJCRI
Mots clés : “traduction automatique évaluation linguistique syntagmes nominaux complexes langue de spécialité discours scientifique”
Résumé: “Nos travaux s’inscrivent dans une analyse linguistique des erreurs de traduction produites par les systèmes de traduction automatique (TA) afin de faciliter leur prise en main par les utilisateurs finaux, comme les postéditeurs professionnels. Il s’agit d’évaluer les types d’erreurs produits par les systèmes lors de la traduction anglais-français de syntagmes nominaux complexes à prémodification nominale en langue de spécialité. Au cur du discours scientifique, ces syntagmes présentent des particularités d’usage et de construction qui constituent un obstacle important à leur traduction, même pour des traducteurs professionnels. Dans ce contexte, une analyse de la capacité des systèmes de TA à traiter ces syntagmes tirés de textes spécialisés authentiques se justifie pour garantir que les textes scientifiques traduits automatiquement et postédités répondent aux exigences linguistiques de la communauté de discours à laquelle ils sont destinés.”
Analyse de la littérature sur les stratégies d’augmentation de données dans des contextes à faible ressources
Benedictus Kent Rachmat
Papier RECITAL/RJCRI
Mots clés : “Grands modèles de langue Faible ressources Adaptation au domaine Méthodes d’évaluation”
Résumé: “Les grands modèles de langage (LLMs) ont révolutionné le traitement automatique des langues (TAL), mais leur succès demeure largement limité aux domaines généralistes disposant de ressources abondantes. En revanche, l’application des LLMs à des domaines spécialisés à faibles ressources soulève des défis majeurs liés à la rareté des données d’entraînement, à la dérive de domaine et aux contraintes terminologiques strictes. Cette revue propose un état de l’art des approches actuelles pour le question-réponse (QA) en contexte spécialisé et à faibles ressources avec les LLMs. Nous commençons par analyser la couverture et la représentativité des jeux de données de QA spécialisés en les comparant à de grands ensembles de référence, que nous appelons ParentQA. Sur la base de cette analyse, nous passons en revue les stratégies centrées sur les données visant à accroître la diversité des entrées, notamment à travers des techniques d’augmentation. Nous abordons également les métriques d’évaluation adaptées aux tâches spécialisées et les considérations éthiques associées. En cartographiant les méthodologies existantes et en identifiant les questions de recherche ouvertes, cette étude vise à orienter les futurs travaux sur l’adaptation des LLMs pour une utilisation robuste et responsable dans des environnements contraints en ressources et spécifiques à un domaine.”
Résumé: “L’annotation de grands corpus de texte est essentielle pour de nombreuses tâches de Traitement Automatique des Langues. Dans cet article, nous présentons SELEXINI, un grand corpus français annoté automatiquement en syntaxe. Ce corpus est composé de deux parties : la partie BigScience, et la partie HPLT. Les documents de la partie HPLT ont été sélectionnés dans le but de maximiser la diversité lexicale du corpus total SELEXINI. Une analyse de l’impact de cette sélection sur la diversité syntaxique a été réalisée, ainsi qu’une étude de la qualité des nouveaux mots issus de la partie HPLT du corpus SELEXINI. Nous avons pu montrer que malgré l’introduction de nouveaux mots considérés comme intéressants (formes de conjugaison rares, néologismes, mots rares,…), les textes issus de HPLT sont extrêmement bruités. De plus, l’augmentation de la diversité lexicale n’a pas permis d’augmenter la diversité syntaxique.”
De nos jours, ce sont les résultats qui comptent’ : création et étude diachronique d’un corpus de revendications issues d’articles de TAL
Clémentine Bleuze, Fanny Ducel, Maxime Amblard and Karën Fort
Papier TALN
Mots clés : “zonage argumentatif revendications éthique TAL pour le TAL”
Résumé: “Nous constituons un corpus de phrases issues de pré-tirages et d’articles de TAL, publiés en anglais entre 1952 et 2024, dont nous annotons manuellement un échantillon avec des catégories de revendications reflétant leur fonction rhétorique au sein des articles. Nous affinons un modèle SciBERT (Beltagy et al., 2019) pour prédire les étiquettes restantes, que nous mettons, avec le corpus annoté, à la disposition de la communauté. Nous illustrons l’intérêt du corpus par des analyses exploratoires sur les caractéristiques des revendications relevées, ainsi qu’une étude diachronique de l’évolution de la structure des résumés. Nous observons une importance croissante des séquences de contexte précédant l’exposé des contributions, lequel est également de plus en plus suivi de séquences de résultats.”
Syntaxe en dépendance avec les grammaires catégorielles abstraites : une application à la théorie sens-texte
Marie Cousin
Papier TALN
Mots clés : “Grammaires Catégorielles Abstraites Théorie Sens-Texte Syntaxe de Dépendance”
Résumé: “L’implémentation de Cousin (2024) de la théorie sens-texte dans les grammaires catégorielles abstraites, un formalisme grammatical basé sur le lambda-calcul, présente différentes limitations, en particulier l’articulation des dépendances au sein des structures, et le comportement des adjectifs et adverbes (rôle prédicatif des adjectifs et adverbes au niveau sémantique, nombre de modifieurs, etc.). Tout en utilisant la composition de grammaires catégorielles abstraites de Cousin (2024), nous proposons une représentation des structures syntaxiques en dépendances inspirée de de Groote (2023b) qui lève ces limitations.”
Peut-on retrouver votre âge à partir de la transcription de votre parole ?
Vanessa Gaudray Bouju, Mahamdi Menel, Iris Eshkol-Taravella and Angèle Barbedette
Papier TALN
Mots clés : “âge sociolinguistique classification traits linguistiques LLM”
Résumé: “L’identification et la classification des groupes sociaux à partir du langage constitue une préoccupation sociolinguistique majeure. Dans cet article, nous présentons une recherche de classification des locuteurs basée sur leur âge. Pour ce faire, nous exploitons un corpus de données du français oral, où chaque locuteur est associé à des métadonnées, dont son âge au moment de l’enregistrement. Notre objectif est de développer des méthodes d’apprentissage automatique capables de prédire la tranche d’âge d’un locuteur à partir de son discours transcrit de l’oral, allant de l’apprentissage supervisé à l’ingénierie de prompts sur des grands modèles de langage. Cette tâche n’est pas seulement un défi technique, elle soulève également des questions fondamentales sur la nature de la variation linguistique et sur les liens entre le langage et la société. En effet, en identifiant les corrélations entre certains traits linguistiques et l’âge, notre projet contribue à enrichir notre compréhension des mécanismes sous-jacents à la variation du langage et à ses implications dans la construction de l’identité sociale. Son autre apport est de questionner les traits linguistiques classiquement imputés à une tranche d’âge afin de montrer leurs limites.”
Alignement bi-textuel adaptatif basé sur des plongements multilingues
Olivier Kraif
Papier TALN
Mots clés : “alignement bi-textuel corpus parallèle plongement de phrases”
Résumé: “Nous présentons dans cet article un système d’alignement bi-textuel adaptatif nommé AIlign. Cet aligneur s’appuie sur les embeddings de phrases pour extraire des points d’ancrage fiables susceptibles de guider le chemin d’alignement, même pour des textes dont le parallélisme est fragmentaire et non strictement monotone. Dans une expérimentation sur plusieurs jeux de données, nous montrons qu’AIlign obtient des résultats équivalents à l’état de l’art, avec une complexité quasi linéaire. En outre, AIlign est capable de traiter des textes dont les propriétés de parallélisme et de monotonie ne sont satisfaites que localement, contrairement à des systèmes tels que Vecalign ou Bertalign.”
Augmentation des données avec LLM pour améliorer la détection automatique d’erreurs de coordination
Chunxiao Yan, Iris Eshkol-Taravella, Sarah De Vogué and Marianne Desmets
Papier TALN
Mots clés : “Erreur de coordination Apprentissage profond Corpus synthétique LLM”
Résumé: “Afin d’améliorer les performances d’un outil de détection automatique des erreurs de coordination, cette étude explore l’utilisation des grands modèles de langage (LLM) pour remédier au déséquilibre des classes et à la limitation des données. En générant des phrases erronées simulées par un LLM pour former un corpus synthétique, nous améliorons la détection des classes sous-représentées ainsi que la performance globale du modèle. Nous étudions également l’application des LLM à l’annotation des données, avec pour objectif d’intégrer ces annotations dans l’entraînement afin d’optimiser l’apprentissage du modèle.”
Is Mistral’s Confidence Justified? Assessing Self-Evaluation in Biomedical QA
Laura Zanella and Ambroise Baril
Papier TALN
Mots clés : “Mistral LLM calibration LLM self-assessment RAG”
Résumé: “Assessing the reliability of LLMs in biomedical QA is crucial for their safe deployment in medical contexts. In this study, we investigate whether Mistral-7B can accurately estimate the confidence of its own responses by comparing its self-assigned similarity scores to the cosine similarity with reference answers. Our results show that Mistral exhibits a strong tendency toward overconfidence, consistently assigning high similarity scores even when response quality varies. The introduction of retrieval-augmented generation (RAG) improves the accuracy of responses, as reflected in higher cosine similarity values, but does not meaningfully enhance confidence calibration. While RAG reduces overconfidence and improves correlation between predicted and actual similarity scores, the model still systematically overestimates answer quality. These findings highlight the need for improved confidence estimation mechanisms to align model self-assessments with actual response accuracy. Our study underscores the importance of refining calibration techniques for LLMs in biomedical applications to enhance their reliability in AI-assisted decision-making.”
Exploration de la séparation en langues dans les modèles de traitement de la parole auto-supervisés multilingues préentraînés avec des données écologiques
William N. Havard, Shrita Hassamal, Muhsina Alleesaib, Guilhem Florigny, Guillaume Fon Sing, Anne Abeillé, Benjamin Lecouteux and Emmanuel Schang
Papier TALN
Mots clés : “analyse des représentations latentes modèles multilingues traitement de la parole”
Résumé: “Les modèles auto-supervisés omnilingues de traitement de la parole sont adaptables mais manquent de plausibilité écologique et cognitive. Entraînés sur des corpus monolingues, ils négligent le multilinguisme réel et le code-switching. De précédents travaux suggèrent que de tels modèles procèdent à des regroupements en langues dans l’espace latent, mais cela pourrait être dû à des biais acoustiques ou paralinguistiques plutôt qu’à de véritables traitements linguistiques. Nous avons entraîné un modèle wav2vec2 sur des données multilingues de Maurice, incluant des locuteurs plurilingues et du code-switching, et avons étudié les représentations latentes du modèle. Nos analyses montre que les facteurs acoustiques et paralinguistiques sont encodés sans apprentissage actif, tandis que le regroupement par langue émerge avec un réel apprentissage. Ces résultats éclairent ainsi sur les véritable capacités linguistiques et paralinguistiques des modèles auto-supervisés de la parole.”
Détection et évaluation de la communication toxique pour la relation client par des LLMs
Guillaume De Murcia, Ludovic Meineri, Laurent Gillard, Thomas Gouritin and Samy Lastmann
Papier TALN
Mots clés : “toxicité conversationnelle évaluation LLM relation client taxonomie corpus annoté multilingue”
Résumé: “Cet article propose une méthode de détection de la toxicité dans les interactions et dialogues client avant des générations par un LLM. En proposant une taxonomie fine de la toxicité conversationnelle, nous avons conçu un processus d’évaluation rigoureux, accompagné de deux corpus annotés : Toximini-fr et ToxiMaxi-multilingual. Nos expérimentations comparent différents modèles, dont GPT-4o-mini et Mistral Moderation, sur des requêtes multilingues issues de contextes variés. Les résultats montrent que notre approche permet une détection robuste, notamment sur les contenus bruités ou implicites. Cette étude ouvre la voie à une meilleure maîtrise des risques liés aux comportements toxiques dans les échanges automatisés tels ceux mis en oeuvre dans le cadre de chatbots pour la relation client.”
Lost In Variation : extraction non-supervisée de motifs lexico-syntaxiques dans des textes en moyen arabe
Rimane Karam, Julien Bezançon and Gaël Lejeune
Papier TALN
Mots clés : “fouille de textes variation moyen arabe similarité alignement de séquences”
Résumé: “Contrairement à l’arabe standard moderne ou à certains dialectes de l’arabe, le moyen arabe a peu été étudié en TAL. Pourtant, cette famille de variétés présente un défi majeur : il mêle des traits de standard, de dialecte et possède des caractéristiques qui lui sont propres. Nous présentons ici une méthode pour identifier, extraire et classer les variantes de 13 formules du moyen arabe relevées manuellement. Ces formules proviennent des neuf premiers tomes du corpus SIRAT AL-MALIK AL-ZAHIR BAYBARS, un corpus de littérature populaire rédigé dans une variété de moyen arabe proche du dialecte damascène. Nous classons 20 386 séquences en se fondant sur leur similarité à plusieurs niveaux avec les formules étudiées. Cette classification nous permet d’observer que ces formules varient sur les plans lexical, morphologique et graphique tout en restant strictement invariables sémantiquement et syntaxiquement.”
ACL-rlg: Un dataset pour la génération de listes de lecture
Julien Aubert-Béduchaud, Florian Boudin, Béatrice Daille and Richard Dufour
Papier TALN
Mots clés : “listes de lecture jeu de données recherche d’information recommandation d’articles contamination des données”
Résumé: “Se familiariser avec un nouveau domaine scientifique et sa littérature associée peut s’avérer complexe en raison du nombre considérable d’articles disponibles. Les listes de références académiques compilées par des experts, également appelées listes de lecture, offrent un moyen structuré et efficace d’acquérir une vue d’ensemble approfondie d’un domaine scientifique. Dans cet article, nous présentons ACL-rlg, le plus grand ensemble de données ouvertes rassemblant des listes de lecture annotées par des experts. Nous proposons également plusieurs bases de référence pour évaluer la génération de listes de lecture, que nous formalisons comme une tâche de récupération d’information. Notre étude qualitative met en évidence les performances limitées des moteurs de recherche académiques traditionnels et des méthodes d’indexation dans ce contexte, tandis que GPT-4o, bien que produisant de meilleurs résultats, présente des signes potentiels de contamination des données.”
Faut-il éliminer toutes les hallucinations dans un résumé abstractif pour le domaine juridique ?
Nihed Bendahman, Karen Pinel-Sauvagnat, Gilles Hubert and Mokhtar Boumedyen Billami
Papier TALN
Mots clés : “Résumé abstractif Evaluation Factualité Domaine juridique”
Résumé: “La génération automatique de résumés dans le domaine juridique requiert une compréhension approfondie des spécificités du domaine, notamment en ce qui concerne le vocabulaire employé par les experts. En effet, ces derniers s’appuient largement sur leurs connaissances externes lors de la rédaction des résumés, afin de contextualiser les principales entités juridiques (lois) du document. Cela conduit à des résumés de référence contenant de nombreuses abstractions, que les modèles de l’état de l’art peinent à reproduire. Dans cet article, nous proposons une approche de génération de résumé basée sur les entités, visant à apprendre au modèle à générer des hallucinations factuelles, aussi proches que possible des abstractions présentes dans les résumés de référence. Nous évaluons notre approche sur deux corpus juridiques différents, contenant des documents en anglais et en français. Les résultats montrent que notre approche permet de réduire les hallucinations non factuelles tout en maximisant la couverture des résumés et les hallucinations factuelles. De plus, la qualité globale des résumés est également améliorée, démontrant ainsi la pertinence de la génération de résumé guidée par les entités dans le domaine juridique.”
Combler les lacunes de Wikipédia : tirer parti de la génération de texte pour améliorer la couverture encyclopédique des groupes sous-représentés
Simon Mille, Massimiliano Pronesti, Craig Thomson, Michela Lorandi, Sophie Fitzpatrick, Rudali Huidrom, Mohammed Sabry, Amy O’Riordan and Anya Belz
Papier TALN
Mots clés : “TAL Génération de texte Wikipedia Multilinguisme”
Résumé: “Wikipédia a des lacunes systématiques dans sa couverture des langues peu dotées ainsi que des groupes sous-représentés (par exemple, les femmes). Cet article présente un nouvel outil pour soutenir les efforts visant à combler ces lacunes en générant automatiquement des débuts d’articles en anglais, français et irlandais, et en facilitant la post-édition et la mise en ligne sur Wikipédia. Un générateur basé sur des règles et un LLM sont utilisés pour générer deux articles alternatifs à partir de graphes de connaissances DBpedia ou Wikidata sélectionnés par l’utilisateur, permettant à l’article généré via LLM, souvent plus fluide mais plus sujet aux erreurs, d’être vérifié en termes de contenu par rapport à l’article généré par des règles, plus fiable, mais moins fluide.”
NuNER: Pré-entraînement d’un encodeur pour la reconnaissance d’entités nommées avec des données annotées automatiquement
Sergei Bogdanov, Alexandre Constantin, Timothée Bernard, Benoît Crabbé and Étienne Bernard
Papier TALN
Mots clés : “named entity recognition data labelling few-shot learning relation extraction zero-shot learning representation learning distillation NLP datasets”
Résumé: “This text is the French translation of the abstract of an article published in the proceedings of the EMNLP 2024 conference (Bogdanov et al., 2024).”
EmoDynamiX: Prédiction de stratégies de dialogue pour le support émotionnel via la modélisation de mélange d’émotions et de la dynamique du discours
Chenwei Wan, Matthieu Labeau and Chloé Clavel
Papier TALN
Mots clés : “Systèmes de dialogue et interactifs Discours et pragmatique Analyse de sentiments”
Résumé: “Concevoir des systèmes conversationnels dotés d’une intelligence émotionnelle pour apporter du réconfort et des conseils aux personnes en détresse constitue un domaine de recherche particulièrement prometteur. Récemment, grâce aux avancées des grands modèles de langue (LLMs), les agents conversationnels entraînés de bout en bout sans étapes explicites de prédiction de stratégie de dialogue sont devenus plus courants. Cependant, la planification implicite de stratégie manque de transparence, et des études récentes montrent que la préférence inhérente des LLMs pour certaines stratégies socio-émotionnelles nuit à la qualité du soutien émotionnel fourni. Pour relever ce défi, nous proposons de dissocier la prédiction de stratégies de la génération du langage et introduisons un nouveau cadre de prédiction de stratégie conversationnelle, EmoDynamiX, qui modélise la dynamique du discours entre les émotions fines du côté de l’utilisateur et les stratégies du système au moyen d’un graphe hétérogène, afin d’améliorer à la fois les performances et la transparence. Les résultats expérimentaux sur deux jeux de données de conversations pour le support émotionnel (ESC) montrent qu’EmoDynamiX surpasse de manière significative les méthodes antérieures à l’état de l’art (avec une meilleure maîtrise et un biais de préférence plus faible). Notre approche offre également une meilleure transparence en permettant de retracer le processus de prise de décision.”
Évaluation des LLMs pour l’Attribution de Citations dans les Textes Littéraires: une Étude de LLaMa3
Gaspard Michel, Elena Epure, Romain Hennequin and Christophe Cerisara
Papier TALN
Mots clés : “attribution de citation littérature anglaise humanité numériques”
Résumé: “Les grands modèles de langage (LLMs) ont montré des résultats prometteurs dans diverses tâches littéraires, souvent liés la mémorisation de détails complexes sur la narration et les personnages fictifs. Dans cet article, nous évaluons la capacité de Llama-3 à attribuer les citations à leur locuteur dans les romans Anglais du 18ème au 20ème siècle. Le LLM obtient des résultats impressionnants sur un corpus de 28 romans, surpassant largement les performances publiées de ChatGPT et de modèles basés sur de puissants encodeurs de texte. Nous validons ensuite ces résultats en analysant l’impact de la mémorisation des passages de livres et d’une éventuelle contamination des annotations. Nos analyses montrent que ces formes de mémorisation n’expliquent pas l’important gain de performance, établissant ainsi Llama-3 comme le nouvel état de l’art pour l’attribution des citations dans la littérature anglaise.”
Interfaces for Supporting Critical User Engagement: A Prototype Using RAG
Petra Dadić and Liana Ermakova
Papier CORIA
Mots clés : “Search interfaces RAG critical thinking”
Résumé: “AI-based chatbots using Large Language Models (LLMs) have become central to daily life. Still, they sometimes generate misleading information, known as ‘hallucinations,’ that can be hard for users to detect. This demo paper presents a prototype interface designed to help users identify and verify critical information in AI-generated content. Within the Retrieval-Augmented Generation (RAG) setting, the interface highlights key information and provides real-time access to supporting or contradictory sources. We conducted a study with 80 participants to gather feedback and refine the design, focusing on improving information sourcing and user trust. This paper demonstrates how thoughtful interface design can guide users to spot misinformation and enhance the utility of LLMs in information retrieval.”
Rapido, interopérabilité et fouille de textes : vers un alignement des publications scientifiques en archéologie
Lucas Anki, Pascal Cuxac, Agnieszka Halczuk and Justine Revol
Papier CORIA
Mots clés : “Reconnaissance entités nommées Référentiels OCR Fouille de textes Apprentissage automatique Archéologie”
Résumé: “Le projet RAPIDO vise à enrichir les publications scientifiques en les reliant à des référentiels et données de recherche ouvertes grâce à des outils de reconnaissance d’entités nommées (NER). L’objectif est d’aligner automatiquement les toponymes issus de corpus archéologiques en s’appuyant sur des plateformes documentaires et des référentiels d’autorité. L’approche repose sur l’annotation manuelle et l’entraînement d’un modèle basé sur des techniques d’apprentissage automatique, notamment Flair et BERT. L’algorithme extrait et aligne les toponymes issus d’articles scientifiques et calcule un score de confiance pour valider les correspondances. Dans cet article, nous présentons cette chaîne de traitement, analysons les résultats de la phase d’apprentissage et discutons des pistes d’amélioration.”
?-YALLI : Un nouveau corpus pour des modèles de langue nahuatl / Yankuik nawatlahtolkorpus pampa tlahtolmachiotl
Juan-José Guzman-Landa, Juan-Manuel Torres-Moreno, Martha-Lorena Avendaño-Garrido, Miguel Figueroa-Saavedra, Ligia Quintana-Torres, Graham Ranger, Carlos-Emiliano González-Gallardo, Elvys Linhares Pontes, Patricia Velazquez-Morales and Luis Gil Moreno Jiménez
Papier TALN
Mots clés : “Nahuatl Similarité sémantique Accord entre annotateurs Modèles de Langue ?-langues”
Résumé: “Le nahuatl dispose de peu de ressources informatiques, bien qu’il soit une langue vivante parlée par environ deux millions de personnes. Nous avons construit ?-YALLI, corpus qui permet de mener des recherches et de développer des Modèles de Langue (ML) dynamiques et statiques. Nous avons mesuré la perplexité de ?-YALLI, évalué la performance de ML état-de-l’art sur un corpus de similitude sémantique annoté manuellement, et l’accord des annotateurs. Les résultats montrent la difficulté de travailler avec cette ?-langue, mais à la fois ouvrent des perspectives intéressantes pour l’étude d’autres tâches de Traitement Automatique des Langues (TAL) sur le nahuatl.”
Détection des omissions dans les résumés médicaux générés par les LLMs
Achir Oukelmoun, Nasredine Semmar, Gaël de Chalendar, Clement Cormi, Mariame Oukelmoun, Eric Vibert and Marc-Antoine Allard
Papier TALN
Mots clés : “LLM détection d’omissions résumé médical évaluation boîte noire plongements lexicaux TAL détection d’anomalies IA frugale aide à la décision médicale”
Résumé: “Les LLMs sont de plus en plus utilisés pour résumer des textes médicaux, mais ils risquent d’omettre des informations critiques, compromettant ainsi la prise de décision. Contrairement aux hallucinations, les omissions concernent des faits essentiels absents. Cet article introduit un jeu de données validé en français pour détecter ces omissions et propose EmbedKDECheck, une approche frugale et sans référence. à l’opposé des méthodes basées sur les LLMs, elle utilise des plongements lexicaux issus d’un modèle NLP léger combinant FastText et Word2Vec selon un algorithme précis couplé à un modèle non-supervisé fournissant un score d’anomalie. Cette approche permet d’identifier efficacement les omissions à faible coût computationnel. EmbedKDECheck a été évalué face aux frameworks de pointe (SelfCheckGPT, ChainPoll, G-Eval) et a montré de bonnes performances. Notre méthode renforce l’évaluation de la fiabilité des LLMs et contribue à une prise de décision médicale plus sûre.”
Supervision faible pour la classification des relations discursives
Maachou Khalil, Chloé Braud and Philippe Muller
Papier TALN
Mots clés : “relation de discours supervision faible apprentissage avec peu de données”
Résumé: “L’identification des relations discursives est importante pour comprendre les liens sémantiques qui structurent un texte, mais cette tâche souffre d’un manque de données qui limite les performances. D’un autre côté, de nombreux corpus discursifs existent : les divergences entre les projets d’annotation empêchent cependant de combiner directement ces jeux de données à l’entraînement. Nous proposons de résoudre ce problème en exploitant le cadre de la supervision faible, dont l’objectif est de générer des annotations à partir de sources variées, comme des heuristiques ou des modèles pré-entraînés. Ces annotations bruitées et partielles sont ensuite combinées pour entraîner un modèle sur la tâche. En combinant cette méthode avec des stratégies permettant de gérer les différences dans les jeux d’étiquettes, nous démontrons qu’il est possible d’obtenir des performances proches d’un système entièrement supervisé en s’appuyant sur une très petite partie des données d’origine, ouvrant ainsi des perspectives d’amélioration pour des domaines ou des langages à faibles ressources.”
Vers les Sens et Au-delà : Induire des Concepts Sémantiques Avec des Modèles de Langue Contextuels
Bastien Liétard, Pascal Denis and Mikaela Keller
Papier TALN
Mots clés : “Sémantique Lexicale Induction de Sens Synonymie Polysémie”
Résumé: “La polysémie et la synonymie sont deux facettes cruciales et interdépendantes de l’ambiguïté lexicale. Bien que ces deux phénomènes soient largement documentés dans les ressources lexicales et qu’ils aient fait l’objet d’études approfondies dans le domaine du TAL, conduisant à des systèmes dédiés, ils sont souvent considérés indépendamment dans les problèmes pratiques. Alors que de nombreuses tâches traitant de la polysémie (par exemple la désambiguïsation ou l’induction du sens des mots (‘Word Sense Disambiguation/Induction’ en anglais)) soulignent le rôle des sens des mots, l’étude de la synonymie est ancrée dans l’étude des concepts, c’est-à-dire des significations partagées à travers le lexique. Dans cet article, nous introduisons l’induction de concepts sémantiques, une tâche non-supervisée consistant à apprendre un partitionnement diffus de mots définissant un ensemble de concepts directement à partir de données. Cette tâche généralise l’induction du sens des mots (au travers les multiples groupes auxquels un mot appartiendra). Nous proposons une approche à deux niveaux pour l’induction de concepts, qui s’appuie à la fois sur une vue locale centrée sur les lemmes et sur une vue globale du lexique pour induire des concepts partagés. Nous évaluons le regroupement obtenu sur les données annotées de SemCor et obtenons de bonnes performances (BCubed F1 supérieur à 0,60). Nous constatons que les niveaux local et global sont mutuellement bénéfiques pour induire les concepts et les sens dans notre contexte. Enfin, nous créons des plongements dits « statiques » représentant nos concepts induits et les utilisons dans une tâche de ‘Word-in-Context’, obtenant des performances compétitives par rapport à l’état de l’art.”
Anti-surprise : Une métrique complémentaire pour évaluer l’apprentissage lexical des (grands) modèles de langue
Nazanin Shafiabadi and Guillaume Wisniewski
Papier TALN
Mots clés : “acquisition lexicale surprise anti-surprise”
Résumé: “Un grand nombre de travaux s’appuient sur l’analyse des courbes de surprise pour évaluer la manière dont les modèles de langue capture le sens des mots au cours de leur apprentissage. Toutefois, cette approche ne considère que la capacité d’un modèle à prédire un mot dans des contextes appropriés, sans prendre en compte sa capacité à ne pas produire ce mot dans des contextes inappropriés. Pour combler cette lacune, nous introduisons une nouvelle mesure complémentaire, que nous appelons l’anti-surprise, qui évalue la capacité d’un modèle à ne pas utiliser un mot dans des contextes où il serait surprenant voire erroné. Nous montrons que l’analyse conjointe des courbes de surprise et d’anti-surprise permet de mieux caractériser l’acquisition du lexique par les modèles de langue.”
Représenter le style au-delà des thématiques : une étude d’impact sur la dispersion vectorielle de différents modèles de langage
Benjamin Icard, Evangelia Zve, Lila Sainero, Alice Breton and Jean-Gabriel Ganascia
Papier TALN
Mots clés : “modèles de langage plongements vectoriels modélisation thématique style dispersion spatiale explicabilité analyse stylistique”
Résumé: “Cet article vise à étudier comment le style d’écriture influence la dispersion des plongements vectoriels de divers grands modèles de langage. Alors que les premiers modèles de type transformeur étaient principalement axés sur la modélisation thématique, cette étude examine le rôle du style d’écriture dans la configuration de l’espace vectoriel. À partir d’un corpus littéraire faisant varier thématiques et styles, nous comparons la sensibilité des modèles de langage en français et en anglais. En analysant ainsi l’impact spécifique du style sur la dispersion vectorielle, nous cherchons à mieux comprendre comment les modèles de langage traitent l’information stylistique, contribuant ainsi à leur interprétabilité globale. Ceci est un résumé de l’article ‘Embedding Style Beyond Topics: Analyzing Dispersion Effects Across Different Language Models’ publié dans les actes de la conférence COLING 2025 (Icard et al., 2025) et accessible à l’URL : https://aclanthology.org/2025.coling-main.236/.”
Alignements entre attention et sémantique dans des modèles de langues pré-entraînés
Frédéric Charpentier, Adrien Guille and Jairo Cugliari Duhalde
Papier TALN
Mots clés : “Semantics SRL AMR Attention GNN”
Résumé: “Aligning attention with semantics in pre-trained LLMs Abstract Meaning Representations (AMRs) encode the semantics of sentences in the form of graphs. Words in the corresponding sentences can be aligned to vertices in the AMR, in such a way that semantic relations between words can be mapped from semantic roles read on the arcs of the AMR. The attention mechanism of a Language Model (LM) can be modelled as the computation of vectors describing edges on a complete graph whose vertices are words in a sentence or a whole paragraph. In this work, we map AMR graphs to Attention Graphs and devise supervised methods to detect the semantic relations labelling the edges from the attention weights. To do so, we implement methods operating either on single edges or on the whole attention graph in order to compare semantic capacities of several pretrained LMs. This study shows that the RoBERTA-base bidirectional encoder outperforms causal decoders up to Llama 3 8B.”
Systèmes d’écriture et qualité des données : l’affinage de modèles de translittération dans un contexte de faibles ressources
Emmett Strickland, Ilaine Wang, Damien Nouvel and Bénédicte Parvaz-Ahmad
Papier TALN
Mots clés : “Translittération automatique Langues peu dotées Affinage”
Résumé: “Cet article présente une expérience visant à construire des modèles de romanisation affinés pour onze langues. Nous démontrons qu’un modèle de romanisation efficace peut être créé en affinant un modèle de base entraîné sur un corpus important d’une ou plusieurs autres langues. Le système orthographique semblerait jouer un rôle dans l’efficacité de certains modèles affinés. Nous présentons également des méthodes pour évaluer la qualité des données train et test, et comparons notre modèle arabe le plus performant à un modèle de référence.”
Une formule de lisibilité en français adaptée aux personnes en situation d’illettrisme
Wafa Aissa, Thibault Bañeras-Roux, Elodie Vanzeveren, Lingyun Gao, Alice Pintard, Rodrigo Wilkens and Thomas François
Papier TALN
Mots clés : “lisibilité illettrisme français modèles hybrides modèles génératifs”
Résumé: “Nous présentons une nouvelle formule de lisibilité en français spécifiquement conçue pour les personnes en situation d’illettrisme. À cette fin, nous avons construit un corpus de 462 textes annotés selon une échelle de difficulté spécialisée à ce public. Dans un second temps, nous avons systématiquement comparé les principales approches en lisibilité, incluant l’apprentissage automatisée reposant sur des variables linguistiques, le fine-tuning de CamemBERT, une approche hybride combinant BERT et des variables linguistiques et des modèles de langue génératifs (LLMs). Une analyse approfondie de ces modèles et de leurs performances est menée afin d’évaluer leur applicabilité dans des contextes réels.”
Résumé: “Sentiment analysis, widely used in product reviews, also impacts financial markets by influencing asset prices through microblogs and news articles. Despite research in sentiment-driven finance, many studies focus on sentence-level classification, overlooking its practical application in trading. This study bridges that gap by evaluating sentiment-based trading strategies for generating positive alpha. We conduct a backtesting analysis using sentiment predictions from three models (two classification and one regression) applied to news articles on Dow Jones 30 stocks, comparing them to the benchmark Buy&Hold strategy. Results show all models produced positive returns, with the regression model achieving the highest return of 50.63%, outperforming the benchmark Buy&Hold strategy. This highlights the potential of sentiment in enhancing investment strategies and financial decision-making.”
Apprentissage Actif à l’ère des Grands Modèles de Langue (LLMs)
Shami Thirion Sen, Rime Abrougui, Guillaume Lechien and Damien Nouvel
Papier Session Industrielle
Mots clés : “Apprentissage actif annotation automatique Reconnaissance d’Entités Nommées Grands Modèles de Langue (LLMs) Augmentation des Données”
Résumé: “En TAL, la performance des modèles dépend fortement de la qualité et de la quantité des données annotées. Lorsque ces ressources sont limitées, l’apprentissage actif (Active Learning) offre une solution efficace en sélectionnant les échantillons les plus pertinents à annoter. Traditionnellement, cette tâche est réalisée par des annotateurs humains, mais nous explorons ici le potentiel du grand modèle de langue Mixtral-8x7B pour générer automatiquement ces annotations. Nous analysons l’influence de l’augmentation des données dans un processus d’apprentissage actif pour la reconnaissance d’entités nommées, ainsi que l’impact du prompt et des hyper-paramètres sur la qualité des annotations. Les évaluations conduites sur le corpus WiNER montrent que, malgré l’absence d’annotations manuelles, cette approche permet d’obtenir des performances comparables à notre baseline, tout en réduisant de 80 % la quantité des données.”
SIMI v3 : Une liste de cas patients similaires pour la télé expertise médicale
Pierre Jourlin, Marc-Antoine Sulmon, David Bensoussan and Émilie Mercadal
Papier Session Industrielle
Mots clés : “Extraction d’information Fouille de texte Recherche d’information Classification de documents médicaux Approches hybrides en TALN Textes biomédicaux Information extraction Text mining Information retrieval Medical document clustering NLP hybrid approach Biomedical texts”
Résumé: “RÉSUMÉ ====== Cet article présente SIMI v3, une brique logicielle hybridant deux approches d’IA, l’une symbolique et l’autre connexionniste intégrée dans la plateforme web ROFIM, une solution de télé-expertise, e?RCP et téléconsultation médicale. Lors d’une télé-expertise, SIMI v3 permet de rechercher automatiquement des cas patients issus de la littérature scientifique, similaires à celui décrit par le requérant. Une fois cette recherche documentaire accomplie, il propose au médecin requis de les consulter avant de produire son expertise. Ce logiciel, dont les aspect fondamentaux ont été développés au Laboratoire d’Informatique d’Avignon et qui a fait l’objet d’un programme de transfert technologique soutenu par la SATT Sud-Est est aujourd’hui en phase de déploiement sur la plateforme. Nous espérons qu’il permette en définitive de réduire l’errance diagnostique, de raccourcir les échanges entre médecin requérant et médecin requis et d’alerter ce dernier sur la possible existence de maladies rares dont les symptômes pourraient être confondus avec ceux de pathologies plus courantes. ======== Title : SIMI v3 : A list of similar patient cases for medical tele-expertise ABSTRACT This article presents SIMI v3, a software brick that combines two AI approaches, one symbolic andthe other connectionist, integrated into the ROFIM web platform, a tele-expertise, e-RCP and tele-consultation solution. During a tele-expertise, SIMI v3 automatically searches for patient cases from the scientific literature that are similar to the one described by the requester. Once this documentary research has been completed, it suggests that the requested doctor consult them before producing his expertise. This software, whose fundamental aspects were developed at the Avignon Computer Science Laboratory and which was the subject of a technology transfer program supported by SATT Sud-Est, is now in the process of being deployed on the platform. We hope that it will ultimately reduce diagnostic errors, shorten exchanges between the requesting doctor and the requested doctor and alert the latter to the possible existence of rare diseases whose symptoms could be confused with those of more common pathologies.”
SPARK : Exploiter les échanges techniques passés pour améliorer le support client
Steve Bellart and Arnaud Deleruyelle
Papier Session Industrielle
Mots clés : “RAG SAP Embeddings Protection des données”
Résumé: “S.P.A.R.K. (SAP Process Augmented Response Knowledge) est un projet qui vise à concevoir une architecture de génération augmentée par récupération (RAG) adaptée aux dialogues techniques issus de requêtes clients. L’objectif est d’améliorer l’efficacité des consultants SAP dans la résolution des demandes clients en exploitant les connaissances contenues dans des échanges antérieurs similaires. Chaque ticket résolu contient un dialogue entre un client décrivant un problème et un consultant proposant une solution technique détaillée. L’accès rapide à ces solutions déjà éprouvées constitue un atout majeur. Cet article aborde les défis spécifiques liés à l’exploitation des données conversationnelles techniques, présente les solutions proposées pour optimiser la récupération et la génération de réponses pertinentes, et traite des perspectives futures du projet.”
Les modèles multimodaux peuvent-ils aider à l’interprétation de cartes ? Une étude exploratoire avec GPT-4o
Edith Galy, Ahmed Moubtahij, Azur Handan and Marc Queudot
Papier Session Industrielle
Mots clés : “Modèles de langage multimodaux Interprétation de cartes Risque d’inondation Question-réponse visuelle (VQA) Hallucinations Données géospatiales Communication de crise climatique Génération structurée GPT-4o”
Résumé: “Cet article explore l’utilisation des modèles de langage multimodaux, en particulier GPT-4o, pour l’interprétation automatisée de cartes de risque d’inondation. Un prototype a été développé afin de permettre à des utilisateurs non-experts de poser des questions en langage naturel et d’obtenir des réponses ancrées sur des données géospatiales visuelles. Un jeu de données ad hoc a été constitué pour évaluer la capacité du modèle à répondre à des questions fermées, selon différentes stratégies de génération. Malgré certaines améliorations grâce à l’usage de schémas de génération structurée et de raisonnements intermédiaires, les résultats révèlent une forte tendance aux hallucinations et des performances insuffisantes pour une application en contexte critique. Cette étude met en évidence les limites actuelles des modèles multimodaux pour l’analyse cartographique, et souligne la nécessité de recherches fondamentales et de corpus plus étendus pour fiabiliser ces approches.”
COLaF : Corpus et Outils pour les Langues de France et variétés de français
Benoît Sagot, Slim Ouni, Sam Bigeard, Lucence Ing, Thibault Clérice, Rachel Bawden, Emmanuel Vincent, Malek Yaich, Panagiotis Tsolakis, Juliette Janès, Rasul Dent, Oriane Nedey, Vincent Colotte and Mostafa Sadeghi
Papier Session Industrielle
Mots clés : “Français Langues régionales Langues d’outre-mer Langues non territoriales Langue des signes française Langues peu dotées Corpus Normalisation Open source”
Résumé: “Nous présentons COLaF, un projet dédié à la collecte et au développement d’outils et de ressources de traitement automatique des langues (TAL) pour le français et les autres langues de France, avec une attention particulière sur les langues et variétés moins dotées. Le projet concerne les données textuelles, audio et vidéo, afin de fournir des corpus et des outils pour le langage écrit, parlé et signé. Le projet inclut la collecte, la normalisation et la documentation de données préexistantes, y compris des données actuellement non accessibles ou non exploitables à des fins de recherche, ainsi que le développement d’outils de TAL adaptés à ces langues, comme des outils pour l’annotation linguistique et pour la traduction automatique. Cet article permet la présentation des principaux défis posés par le projet et de premiers résultats.”