Articles acceptés

CORIA

Articles longs

Vers un élagage de tokens sans perte dans les modèles de récupération à interaction tardive. Yuxuan Zong and Benjamin Piwowarski
Prédiction des préférences et génération de revue personnalisée basées sur les aspects et attention Ben Kabongo, Vincent Guigue and Pirmin Lemberger
Clarification des Ambiguïtés : Sur le Rôle des Types d’Ambiguïté dans les Méthodes d’Amorçage pour la Génération de Clarifications Anfu Tang, Laure Soulier and Vincent Guigue
SEval-ex : Un paradigme basé sur les phrases atomiques pour une évaluation explicable de la qualité des résumés Tanguy Herserant and Vincent Guigue
Restructuration de la Littérature Biomédicale dans une Architecture RAG pour la Génération de Réponse Maël Lesavourey and Gilles Hubert
Optimisation de la Recherche d’Information Juridiques à travers l’Agrégation des Signaux Contextuels Multi-niveaux des Modèles de Langue Préentraînés Eya Hammami, Mohand Boughanem and Taoufiq Dkaki
UC-FIRe: Approche efficace pour la recherche d’information non supervisée Maxime Hanus, Quentin Guignard and Christophe Rodrigues
AutoCluster: Un agent pour le clustering basé sur les grands modèles de langue Erwan Versmée, Youcef Remil, Mehdi Kaytoue and Julien Velcin
Solver-Aware Training for Logical Constraint Integration in Event Relation Extraction Baptiste Brunet de la Charie, Abdallah Arioua, Elöd Egyed-Zsigmond and Thomas Veran
SEBRAG: Vers l’Utilisation des LLM pour une Tâche de Questions-Réponses Extractive Quentin Signé, Thiziri Belkacem, Mohand Boughanem and Jose G Moreno
Utilisation de mécanismes inférentiels dans le processus d’explication automatique de la métaphore à une inconnue Jérémie Roux, Hani Guenoune, Mathieu Lafourcade and Richard Moot
Clustering de résumés LLM guidés par l’utilisateur : vers une approche constructiviste et réaliste unifiée Carl Hatoum, Catherine Combes, Virginie Fresse, Christophe Gravier and Mathieu Orzalesi
Transfert de modèles de langue pour la classification rhétorique des citations à travers les disciplines Anne-Sophie Foussat, Vincent Guigue, Nicolas Sauvion, Robert Bossy and Claire Nédellec

Articles courts

De la Nature des Signaux de Correspondance dans les Modèles Neuronaux pour la RI Mathias Vast, Basile Van Cooten, Laure Soulier and Benjamin Piwowarski
Approche méthodologique pour la génération de question-réponse portant sur plusieurs documents Hui Huang, Julien Velcin and Yacine Kessaci
Analyse Textuelle et Extraction Géospatiale pour la Surveillance des Crises Alimentaires en Afrique de l’Ouest Charles Abdoulaye Ngom, Maguelonne Teisseire and Sarah Valentin
Quand les Bots Déjouent l’Apprentissage : Enjeux et Défis de la Détection Mohsine Aabid, Simon Dumas Primbault and Patrice Bellot
Cadre d’évaluation pour les systèmes de génération augmentée (RAG) : combinaison des performances de recherche d’informations et de LLM Philippe Mulhem, Eric Gaussier and Jean-Pierre Chevallet
Application de Transformers multimodaux à l’extraction d’informations des documents de sondage des sols Stanislas Bagnol, Killian Barrere, Véronique Eglin, Elöd Egyed-Zsigmond, Jean-Marie Côme and David Pitaval
Interfaces for Supporting Critical User Engagement: A Prototype Using RAG Petra Dadić and Liana Ermakova
Rapido, interopérabilité et fouille de textes : vers un alignement des publications scientifiques en archéologie Lucas Anki, Pascal Cuxac, Agnieszka Halczuk and Justine Revol

Résumés

Génération augmentée de récupération pour les journaux historiques The Trung Tran, Carlos-Emiliano González-Gallardo and Antoine Doucet
Évaluation des capacités des grands modèles de langue à comprendre les dossiers médicaux de patients : Une étude approfondie de l’extraction et la recherche de données des patients Jesus Lovon-Melgarejo, Martin Mouysset, Jo Oleiwan, Jose G Moreno, Christine Damase-Michel and Lynda Tamine
Simplification de Textes Scientifiques (et Rien de Plus) Rapport sur l’Action CLEF 2025 SimpleText Liana Ermakova, Hosein Azarbonyad, Jan Bakker, Benjamin Vendeville and Jaap Kamps
Génération augmentée de récupération multi-niveau pour répondre à des questions visuelles Omar Adjali, Olivier Ferret, Sahar Ghannay and Hervé Le Borgne

TALN

Travaux de recherche originaux

Modèles auto-supervisés de traitement de la parole pour le Créole Haitien William N. Havard, Renauld Govain, Benjamin Lecouteux and Emmanuel Schang
GeNRe : un système de neutralisation automatique du genre exploitant les noms collectifs Enzo Doyen and Amalia Todirascu
Connaissances factuelles dans les modèles de langue : robustesse et anomalies face à des variations simples du contexte temporel Hichem Ammar Khodja, Frederic Bechet, Quentin Brabant, Alexis Nasr and Gwénolé Lecorvé
Améliorer la Traduction Neuronale par Exemple avec des Données Monolingues Maxime Bouthors, Josep Crego and François Yvon
Le rôle du contexte dans la classification séquentielle de phrases pour les documents longs Anas Belfathi, Nicolas Hernandez, Laura Monceaux and Richard Dufour
ALF: Un jeu de données d’analogies françaises à grain fin pour l’évaluation de la connaissance lexicale des grands modèles de langue Alexander Petrov, Antoine Venant, François Lareau, Yves Lepage and Philippe Langlais
π-YALLI : Un nouveau corpus pour des modèles de langue nahuatl / Yankuik nawatlahtolkorpus pampa tlahtolmachiotl Juan-José Guzman-Landa, Juan-Manuel Torres-Moreno, Martha-Lorena Avendaño-Garrido, Miguel Figueroa-Saavedra, Ligia Quintana-Torres, Graham Ranger, Carlos-Emiliano González-Gallardo, Elvys Linhares Pontes, Patricia Velazquez-Morales and Luis Gil Moreno Jiménez
Adaptation des connaissances médicales pour les grands modèles de langue : Stratégies et analyse comparative Ikram Belmadani, Richard Dufour, Benoit Favre, Carlos Ramisch and Frédéric Bechet
Estimation de l’inclusion entre tâches par projection spectrale de vecteurs de tâches Loïc Fosse, Benoît Favre, Frédéric Béchet, Géraldine Damnati and Gwénolé Lecorvé
QUARTZ : Approche abstractive non supervisée par question-réponse pour le résumé de dialogue orienté tâche Mohamed Imed Eddine Ghebriout, Gaël Guibon, Ivan Lerner and Emmanuel Vincent
Plongement des constituants pour la représentation sémantique des phrases Eve Sauvage, Iskandar Boucharenc, Thomas Gerald, Julien Tourille, Sabrina Campano, Cyril Grouin and Sophie Rosset
Intégration des relations inter-référents dans l’annotation de la coréférence : modèle et application Antoine Boiteau, Yann Mathet and Antoine Widlöcher
Une formule de lisibilité en français adaptée aux personnes en situation d’illettrisme Wafa Aissa, Thibault Bañeras-Roux, Elodie Vanzeveren, Lingyun Gao, Alice Pintard, Rodrigo Wilkens and Thomas François
Une revue sur les hallucinations des LLM Eleni Metheniti, Swarnadeep Bhar and Nicholas Asher
De nos jours, ce sont les résultats qui comptent : création et étude diachronique d’un corpus de revendications issues d’articles de TAL Clémentine Bleuze, Fanny Ducel, Maxime Amblard and Karën Fort
Détection des omissions dans les résumés médicaux générés par les LLMs Achir Oukelmoun, Nasredine Semmar, Gaël de Chalendar, Clement Cormi, Mariame Oukelmoun, Eric Vibert and Marc-Antoine Allard
Identification de mesures d’évaluation fiables pour la révision de textes scientifiques Léane Jourdan, Florian Boudin, Richard Dufour and Nicolas Hernandez
Mesurer les inégalités de genre en ligne avec le genre grammatical : Une étude du subreddit r/france Marie Flesch and Heather Burnett
Détection des contamination de LLM par extraction de données : Une revue de littérature pratique Pierre Lepagnol, Thomas Gerald, Sahar Ghannay, Christophe Servan and Sophie Rosset
MOSAIC : Mélange d’experts pour la détection de textes artificiels Matthieu Dubois, Yvon François and Pablo Piantanida
Systèmes d’écriture et qualité des données : l’affinage de modèles de translittération dans un contexte de faibles ressources Emmett Strickland, Ilaine Wang, Damien Nouvel and Bénédicte Parvaz-Ahmad
Embeddings, topic models, LLM : un air de famille Ludovic Tanguy, Cécile Fabre, Nabil Hathout and Lydia-Mai Ho-Dac
Alignements divisifs de textes parallèles: données, algorithme et évaluation Joanna Radoła and François Yvon
Traitement automatique des évènements médiatiques : Détection, classification, segmentation et recherche sémantique Abdelkrim Beloued
Alignements entre attention et sémantique dans des modèles de langues pré-entraînés Frédéric Charpentier, Adrien Guille and Jairo Cugliari Duhalde
Projeter pour mieux fusionner : une histoire de bandit et de lit Olivier Ferret
Syntaxe en dépendance avec les grammaires catégorielles abstraites : une application à la théorie sens-texte Marie Cousin
Peut-on retrouver votre âge à partir de la transcription de votre parole ? Vanessa Gaudray Bouju, Mahamdi Menel, Iris Eshkol-Taravella and Angèle Barbedette
Alignement bi-textuel adaptatif basé sur des plongements multilingues Olivier Kraif
Augmentation des données avec LLM pour améliorer la détection automatique d’erreurs de coordination Chunxiao Yan, Iris Eshkol-Taravella, Sarah De Vogué and Marianne Desmets
Évaluation de la confidentialité des textes cliniques synthétiques générés par des modèles de langue Foucauld Estignard, Sahar Ghannay, Julien Girard-Satabin, Nicolas Hiebel and Aurélie Névéol
Supervision faible pour la classification des relations discursives Maachou Khalil, Chloé Braud and Philippe Muller
Towards training fair self-supervised automatic speech recognition models without demographic labels Laura Alonzo Canul, Benjamin Lecouteux and François Portet
Corpus multilingue annoté pour l’étude sémantique des expressions quantifiantes — chinois (mandarin), coréen, français, japonais — Les problèmes de segmentation Raoul Blin and Jinnam Choi
Détection de métaphores dans les documents médicaux Coralie Pottiez, Thierry Hamon and Natalia Grabar
Étude critique du corpus CNN/DailyMail pour le résumé automatique Aurélien Bossard, Christophe Rodrigues and Bachey Fanny
The Impact of Text Complexity on Reading Behaviour: An Eye-Tracking and Surprisal Analysis of French Texts Oksana Ivchenko and Natalia Grabar
ding-01 :ARG0 un corpus AMR pour le français parlé spontané Jeongwoo Kang, Maria Boritchev and Maximin Coavoux
Pensez: Less Data, Better Reasoning – Rethinking French LLM Huy Hoang Ha
Étude comparative de réponses humaines et de grands modèles de langage à des QCM en pharmacie Ricardo Rodriguez, Stéphane Huet, Benoit Favre and Mickael Rouvier
Is Mistral’s Confidence Justified? Assessing Self-Evaluation in Biomedical QA Laura Zanella and Ambroise Baril
Exploration de la séparation en langues dans les modèles de traitement de la parole auto-supervisés multilingues préentraînés avec des données écologiques William N. Havard, Shrita Hassamal, Muhsina Alleesaib, Guilhem Florigny, Guillaume Fon Sing, Anne Abeillé, Benjamin Lecouteux and Emmanuel Schang
Détection et évaluation de la communication toxique pour la relation client par des LLMs Guillaume De Murcia, Ludovic Meineri, Laurent Gillard, Thomas Gouritin and Samy Lastmann
Détecter des comportements associés aux troubles alimentaires par l’analyse automatique des conversations textuelles en ligne Yves Ferstler, Catherine Lavoie and Marie-Jean Meurs
Évaluer la capacité des transformeurs à distinguer les significations compositionnelles et idiomatiques d’une même expression Nina Nusbaumer, Guillaume Wisniewski and Benoît Crabbé
Affinement des représentations des tokens dans les modèles de langue pré-entraînés avec l’apprentissage contrastif : une étude entre modèles et entre langues Anna Mosolova, Marie Candito and Carlos Ramisch
ELITEC : un corpus de conversations en microposts français annoté pour le liage d’entités Wikidata Vivien Leonard, Beatrice Markhoff and Jean-Yves Antoine
Exploration de la modalité en français parlé et écrit Anna Colli and Delphine Battistelli
Analyse de la continuité référentielle dans le corpus d’écrits scolaires français et italien Scolinter Martina Barletta and Claude Ponton

Prise de position

Repousser les limites des benchmarks actuels pour une évaluation réaliste des LLMs en migration de code Samuel Mallet, Joe El Khoury and Elöd Egyed-Zsigmond
La trumplang, instrument de destruction de la pensée : analyse de l’impact de la censure trumpiste sur la recherche en santé mentale Vincent P. Martin, Karën Fort and Jean-Arthur Micoulaud-Franchi

Travaux déjà publiés récemment

Représenter le style au-delà des thématiques : une étude d’impact sur la dispersion vectorielle de différents modèles de langage Benjamin Icard, Evangelia Zve, Lila Sainero, Alice Breton and Jean-Gabriel Ganascia
Lost In Variation : extraction non-supervisée de motifs lexico-syntaxiques dans des textes en moyen arabe Rimane Karam, Julien Bezançon and Gaël Lejeune
AdminSet and AdminBERT: un jeu de données et un modèle de langue pré-entraîné pour explorer le dédale non structuré des données administratives françaises Thomas Sebbag, Solen Quiniou, Niclas Stucky and Emmanuel Morin
Évaluation des LLMs pour l’Attribution de Citations dans les Textes Littéraires: une Étude de LLaMa3 Gaspard Michel, Elena Epure, Romain Hennequin and Christophe Cerisara
EmoDynamiX: Prédiction de stratégies de dialogue pour le support émotionnel via la modélisation de mélange d’émotions et de la dynamique du discours Chenwei Wan, Matthieu Labeau and Chloé Clavel
HISTOIRESMORALES: Un jeu de données français pour évaluer l’alignement moral des modèles de langage Thibaud Leteno, Irina Proskurina, Antoine Gourru, Julien Velcin, Charlotte Laclau, Guillaume Metzler and Christophe Gravier
ACL-rlg: Un dataset pour la génération de listes de lecture Julien Aubert-Béduchaud, Florian Boudin, Béatrice Daille and Richard Dufour
« Les femmes ne font pas de crise cardiaque ! » Étude des biais de genre dans les cas cliniques synthétiques en français Fanny Ducel, Nicolas Hiebel, Olivier Ferret, Karën Fort and Aurélie Névéol
Incorporation des Traits de Personnalité dans les Agents Conversationnels basés sur les GML : Étude de Cas de l’Assistance Client en Français Ahmed Njifenjou, Virgile Sucal, Bassam Jabaian and Fabrice Lefèvre
SELEXINI – un grand corpus français, divers et parsé automatiquement Manon Scholivet, Agata Savary, Louis Estève, Marie Candito and Carlos Ramisch
NuNER: Pré-entraînement d’un encodeur pour la reconnaissance d’entités nommées avec des données annotées automatiquement Sergei Bogdanov, Alexandre Constantin, Timothée Bernard, Benoît Crabbé and Étienne Bernard
Inférence en langue naturelle appliquée au recrutement de patients pour les essais cliniques : le point de vue du patient Mathilde Aguiar, Pierre Zweigenbaum and Nona Naderi
Apprentissage par renforcement pour l’alignement des agents LLMs avec des environnements interactifs : quantification et réduction du surapprentissage aux prompts Mohamed Salim Aissi, Clement Romac, Thomas Carta, Sylvain Lamprier, Pierre-Yves Oudeyer, Olivier Sigaud, Laure Soulier and Nicolas Thome
PatientDx : Fusion des grands modèles de langue pour la protection de la confidentialité des données dans le domaine de la santé Jose G Moreno, Jesus Lovon-Melgarejo, M’Rick Robin-Charlet, Christine Damase-Michel and Lynda Tamine
Atténuer l’impact de la qualité des références sur l’évaluation des systèmes de résumé grâce aux métriques sans référence Théo Gigant, Camille Guinaudeau, Marc Decombas and Frédéric Dufaux
Attention Chaînée et Causale pour un Suivi Efficace des Entités Erwan Fagnou, Paul Caillon, Blaise Delattre and Alexandre Allauzen
Vers les Sens et Au-delà : Induire des Concepts Sémantiques Avec des Modèles de Langue Contextuels Bastien Liétard, Pascal Denis and Mikaela Keller
Extraction de mots-clés à partir d’articles scientifiques: comparaison entre modèles traditionnels et modèles de langue Motasem Alrahabi, Nacef Ben Mansour and Hamed Rahimi
Faut-il éliminer toutes les hallucinations dans un résumé abstractif pour le domaine juridique ? Nihed Bendahman, Karen Pinel-Sauvagnat, Gilles Hubert and Mokhtar Boumedyen Billami
La structure du contenu textuel a-t-elle un impact sur les modèles linguistiques pour le résumé automatique ? Eve Sauvage, Sabrina Campano, Lydia Ould Ouali and Cyril Grouin
Combler les lacunes de Wikipédia : tirer parti de la génération de texte pour améliorer la couverture encyclopédique des groupes sous-représentés Simon Mille, Massimiliano Pronesti, Craig Thomson, Michela Lorandi, Sophie Fitzpatrick, Rudali Huidrom, Mohammed Sabry, Amy O’Riordan and Anya Belz
SCOPE : un cadre d’entrainement auto-supervisé pour améliorer la fidélité dans la génération conditionnelle de texte Florian Le Bronnec, Song Duong, Alexandre Allauzen, Laure Soulier, Vincent Guigue, Alberto Lumbreras and Patrick Gallinari
Graphes, NER et LLMs pour la classification non supervisée de documents Imed Keraghel and Mohamed Nadif
Sondage des modèles de langue sur leur source de connaissance Zineddine Tighidet, Andrea Mogini, Jiali Mei, Patrick Gallinari and Benjamin Piwowarski
Anti-surprise : Une métrique complémentaire pour évaluer l’apprentissage lexical des (grands) modèles de langue Nazanin Shafiabadi and Guillaume Wisniewski

RJC

Articles RJC

Étude de la robustesse des modèles de traduction automatique dans le continuum dialectal de l’occitan Oriane Nédey
État de l’art sur les marqueurs discursifs en Traitement Automatique des Langues Fatou Sow
VERS : Versification Et Représentation de Séquences Marceau Hernandez
Normaliser le moyen français : du graphématique au semi-diplomatique Sonia Solfrini, Mylène Dejouy, Aurélia Marques Oliveira and Pierre-Olivier Beaulnes
Annotation de Marqueurs Discursifs : le cas de la désambiguïsation de après Paola Herreño Castañeda and Maeva Sillaire
Annotation et modélisation des émotions dans un corpus textuel : une approche évaluative Jonas Noblet
État de l’art : évaluation, détection et mitigation des hallucinations des LLMs Aygalic Jara-Mikolajczak
Corpus bilingue sous-titrage et Langue des Signes Française : la problématique de l’alignement automatique des données Julie Halbout and Diandra Fabre
Incomplete Pictures: A State of the Art Study on Bias in Large Language Models Trung Hieu Ngo
Amélioration de la lisibilité de textes via l’utilisation de LLM Baptiste Ramonda, Isabelle Ferrane and Julien Pinquier
Evaluation de la lisibilité des textes biomédicaux selon le profil du lecteur Anya Nait Djoudi
Vers une taxonomie pour l’analyse des intentions dans les interactions textuelles numériques Senaid Popovic
Réhabiliter l’écriture Ajami : un levier technologique pour l’alphabétisation en Afrique Samy Ouzerrout and Idriss Saadallah
Évaluation Automatique Explicable de l’Écriture Argumentative : État de l’Art, Lacunes et Proposition d’Architecture Modulaire Alignée sur des Grilles Éducatives Marcos Moisés Crisóstomo de Oliveira
Types d’erreurs produits par les systèmes de traduction neuronaux lors de la traduction anglais-français de syntagmes nominaux complexes en langue de spécialité Maud Bénard
Analyse de la littérature sur les stratégies d’augmentation de données dans des contextes à faible ressources Benedictus Kent Rachmat
Comparaison des approches basées sur BERT et sur l’agent LLM pour la classification hiérarchique de narratifs dans les articles de presse multilingues Yutong Wang, Mohamed-Nour Eljadiri

Session Industrielle

Articles Session Industrielle

Backtesting Sentiment Signals for Trading: Evaluating the Viability of Alpha Generation from Sentiment Analysis Elvys Linhares Pontes, Carlos-Emiliano González-Gallardo, Georgeta Bordea, Jose G Moreno, Mohamed Benjannet, Yuxuan Zhao and Antoine Doucet
Apprentissage Actif à l’ère des Grands Modèles de Langue (LLMs) Shami Thirion Sen, Rime Abrougui, Guillaume Lechien and Damien Nouvel
SIMI v3 : Une liste de cas patients similaires pour la télé expertise médicale Pierre Jourlin, Marc-Antoine Sulmon, David Bensoussan and Émilie Mercadal
SPARK : Exploiter les échanges techniques passés pour améliorer le support client Steve Bellart and Arnaud Deleruyelle
Les modèles multimodaux peuvent-ils aider à l’interprétation de cartes ? Une étude exploratoire avec GPT-4o Edith Galy, Ahmed Moubtahij, Azur Handan and Marc Queudot
COLaF : Corpus et Outils pour les Langues de France et variétés de français Benoît Sagot, Slim Ouni, Sam Bigeard, Lucence Ing, Thibault Clérice, Rachel Bawden, Emmanuel Vincent, Malek Yaich, Panagiotis Tsolakis, Juliette Janès, Rasul Dent, Oriane Nedey, Vincent Colotte and Mostafa Sadeghi