Articles acceptés

Articles acceptés

CORIA

Articles longs
  1. Vers un élagage de tokens sans perte dans les modèles de récupération à interaction tardive. Yuxuan Zong and Benjamin Piwowarski
  2. Prédiction des préférences et génération de revue personnalisée basées sur les aspects et attention Ben Kabongo, Vincent Guigue and Pirmin Lemberger
  3. Clarification des Ambiguïtés : Sur le Rôle des Types d’Ambiguïté dans les Méthodes d’Amorçage pour la Génération de Clarifications Anfu Tang, Laure Soulier and Vincent Guigue
  4. SEval-ex : Un paradigme basé sur les phrases atomiques pour une évaluation explicable de la qualité des résumés Tanguy Herserant and Vincent Guigue
  5. Restructuration de la Littérature Biomédicale dans une Architecture RAG pour la Génération de Réponse Maël Lesavourey and Gilles Hubert
  6. Optimisation de la Recherche d’Information Juridiques à travers l’Agrégation des Signaux Contextuels Multi-niveaux des Modèles de Langue Préentraînés Eya Hammami, Mohand Boughanem and Taoufiq Dkaki
  7. UC-FIRe: Approche efficace pour la recherche d’information non supervisée Maxime Hanus, Quentin Guignard and Christophe Rodrigues
  8. AutoCluster: Un agent pour le clustering basé sur les grands modèles de langue Erwan Versmée, Youcef Remil, Mehdi Kaytoue and Julien Velcin
  9. Solver-Aware Training for Logical Constraint Integration in Event Relation Extraction Baptiste Brunet de la Charie, Abdallah Arioua, Elöd Egyed-Zsigmond and Thomas Veran
  10. SEBRAG: Vers l’Utilisation des LLM pour une Tâche de Questions-Réponses Extractive Quentin Signé, Thiziri Belkacem, Mohand Boughanem and Jose G Moreno
  11. Utilisation de mécanismes inférentiels dans le processus d’explication automatique de la métaphore à une inconnue Jérémie Roux, Hani Guenoune, Mathieu Lafourcade and Richard Moot
  12. Clustering de résumés LLM guidés par l’utilisateur : vers une approche constructiviste et réaliste unifiée Carl Hatoum, Catherine Combes, Virginie Fresse, Christophe Gravier and Mathieu Orzalesi
  13. Transfert de modèles de langue pour la classification rhétorique des citations à travers les disciplines Anne-Sophie Foussat, Vincent Guigue, Nicolas Sauvion, Robert Bossy and Claire Nédellec
Articles courts
  1. De la Nature des Signaux de Correspondance dans les Modèles Neuronaux pour la RI Mathias Vast, Basile Van Cooten, Laure Soulier and Benjamin Piwowarski
  2. Approche méthodologique pour la génération de question-réponse portant sur plusieurs documents Hui Huang, Julien Velcin and Yacine Kessaci
  3. Analyse Textuelle et Extraction Géospatiale pour la Surveillance des Crises Alimentaires en Afrique de l’Ouest Charles Abdoulaye Ngom, Maguelonne Teisseire and Sarah Valentin
  4. Quand les Bots Déjouent l’Apprentissage : Enjeux et Défis de la Détection Mohsine Aabid, Simon Dumas Primbault and Patrice Bellot
  5. Cadre d’évaluation pour les systèmes de génération augmentée (RAG) : combinaison des performances de recherche d’informations et de LLM Philippe Mulhem, Eric Gaussier and Jean-Pierre Chevallet
  6. Application de Transformers multimodaux à l’extraction d’informations des documents de sondage des sols Stanislas Bagnol, Killian Barrere, Véronique Eglin, Elöd Egyed-Zsigmond, Jean-Marie Côme and David Pitaval
  7. Interfaces for Supporting Critical User Engagement: A Prototype Using RAG Petra Dadić and Liana Ermakova
  8. Rapido, interopérabilité et fouille de textes : vers un alignement des publications scientifiques en archéologie Lucas Anki, Pascal Cuxac, Agnieszka Halczuk and Justine Revol
Résumés
  1. Génération augmentée de récupération pour les journaux historiques The Trung Tran, Carlos-Emiliano González-Gallardo and Antoine Doucet
  2. Évaluation des capacités des grands modèles de langue à comprendre les dossiers médicaux de patients : Une étude approfondie de l’extraction et la recherche de données des patients Jesus Lovon-Melgarejo, Martin Mouysset, Jo Oleiwan, Jose G Moreno, Christine Damase-Michel and Lynda Tamine
  3. Simplification de Textes Scientifiques (et Rien de Plus) Rapport sur l’Action CLEF 2025 SimpleText Liana Ermakova, Hosein Azarbonyad, Jan Bakker, Benjamin Vendeville and Jaap Kamps
  4. Génération augmentée de récupération multi-niveau pour répondre à des questions visuelles Omar Adjali, Olivier Ferret, Sahar Ghannay and Hervé Le Borgne

TALN

Travaux de recherche originaux
  1. Modèles auto-supervisés de traitement de la parole pour le Créole Haitien William N. Havard, Renauld Govain, Benjamin Lecouteux and Emmanuel Schang
  2. GeNRe : un système de neutralisation automatique du genre exploitant les noms collectifs Enzo Doyen and Amalia Todirascu
  3. Connaissances factuelles dans les modèles de langue : robustesse et anomalies face à des variations simples du contexte temporel Hichem Ammar Khodja, Frederic Bechet, Quentin Brabant, Alexis Nasr and Gwénolé Lecorvé
  4. Améliorer la Traduction Neuronale par Exemple avec des Données Monolingues Maxime Bouthors, Josep Crego and François Yvon
  5. Le rôle du contexte dans la classification séquentielle de phrases pour les documents longs Anas Belfathi, Nicolas Hernandez, Laura Monceaux and Richard Dufour
  6. ALF: Un jeu de données d’analogies françaises à grain fin pour l’évaluation de la connaissance lexicale des grands modèles de langue Alexander Petrov, Antoine Venant, François Lareau, Yves Lepage and Philippe Langlais
  7. π-YALLI : Un nouveau corpus pour des modèles de langue nahuatl / Yankuik nawatlahtolkorpus pampa tlahtolmachiotl Juan-José Guzman-Landa, Juan-Manuel Torres-Moreno, Martha-Lorena Avendaño-Garrido, Miguel Figueroa-Saavedra, Ligia Quintana-Torres, Graham Ranger, Carlos-Emiliano González-Gallardo, Elvys Linhares Pontes, Patricia Velazquez-Morales and Luis Gil Moreno Jiménez
  8. Adaptation des connaissances médicales pour les grands modèles de langue : Stratégies et analyse comparative Ikram Belmadani, Richard Dufour, Benoit Favre, Carlos Ramisch and Frédéric Bechet
  9. Estimation de l’inclusion entre tâches par projection spectrale de vecteurs de tâches Loïc Fosse, Benoît Favre, Frédéric Béchet, Géraldine Damnati and Gwénolé Lecorvé
  10. QUARTZ : Approche abstractive non supervisée par question-réponse pour le résumé de dialogue orienté tâche Mohamed Imed Eddine Ghebriout, Gaël Guibon, Ivan Lerner and Emmanuel Vincent
  11. Plongement des constituants pour la représentation sémantique des phrases Eve Sauvage, Iskandar Boucharenc, Thomas Gerald, Julien Tourille, Sabrina Campano, Cyril Grouin and Sophie Rosset
  12. Intégration des relations inter-référents dans l’annotation de la coréférence : modèle et application Antoine Boiteau, Yann Mathet and Antoine Widlöcher
  13. Une formule de lisibilité en français adaptée aux personnes en situation d’illettrisme Wafa Aissa, Thibault Bañeras-Roux, Elodie Vanzeveren, Lingyun Gao, Alice Pintard, Rodrigo Wilkens and Thomas François
  14. Une revue sur les hallucinations des LLM Eleni Metheniti, Swarnadeep Bhar and Nicholas Asher
  15. De nos jours, ce sont les résultats qui comptent : création et étude diachronique d’un corpus de revendications issues d’articles de TAL Clémentine Bleuze, Fanny Ducel, Maxime Amblard and Karën Fort
  16. Détection des omissions dans les résumés médicaux générés par les LLMs Achir Oukelmoun, Nasredine Semmar, Gaël de Chalendar, Clement Cormi, Mariame Oukelmoun, Eric Vibert and Marc-Antoine Allard
  17. Identification de mesures d’évaluation fiables pour la révision de textes scientifiques Léane Jourdan, Florian Boudin, Richard Dufour and Nicolas Hernandez
  18. Mesurer les inégalités de genre en ligne avec le genre grammatical : Une étude du subreddit r/france Marie Flesch and Heather Burnett
  19. Etude multimodale pour la localisation des tours de parole fortement informatifs en conversation Eliot Maës, Philippe Blache and Leonor Becerra-Bonache
  20. Détection des contamination de LLM par extraction de données : Une revue de littérature pratique Pierre Lepagnol, Thomas Gerald, Sahar Ghannay, Christophe Servan and Sophie Rosset
  21. MOSAIC : Mélange d’experts pour la détection de textes artificiels Matthieu Dubois, Yvon François and Pablo Piantanida
  22. Systèmes d’écriture et qualité des données : l’affinage de modèles de translittération dans un contexte de faibles ressources Emmett Strickland, Ilaine Wang, Damien Nouvel and Bénédicte Parvaz-Ahmad
  23. Embeddings, topic models, LLM : un air de famille Ludovic Tanguy, Cécile Fabre, Nabil Hathout and Lydia-Mai Ho-Dac
  24. Alignements divisifs de textes parallèles: données, algorithme et évaluation Joanna Radoła and François Yvon
  25. Traitement automatique des évènements médiatiques : Détection, classification, segmentation et recherche sémantique Abdelkrim Beloued
  26. Alignements entre attention et sémantique dans des modèles de langues pré-entraînés Frédéric Charpentier, Adrien Guille and Jairo Cugliari Duhalde
  27. Projeter pour mieux fusionner : une histoire de bandit et de lit Olivier Ferret
  28. Syntaxe en dépendance avec les grammaires catégorielles abstraites : une application à la théorie sens-texte Marie Cousin
  29. Peut-on retrouver votre âge à partir de la transcription de votre parole ? Vanessa Gaudray Bouju, Mahamdi Menel, Iris Eshkol-Taravella and Angèle Barbedette
  30. Alignement bi-textuel adaptatif basé sur des plongements multilingues Olivier Kraif
  31. Augmentation des données avec LLM pour améliorer la détection automatique d’erreurs de coordination Chunxiao Yan, Iris Eshkol-Taravella, Sarah De Vogué and Marianne Desmets
  32. Évaluation de la confidentialité des textes cliniques synthétiques générés par des modèles de langue Foucauld Estignard, Sahar Ghannay, Julien Girard-Satabin, Nicolas Hiebel and Aurélie Névéol
  33. Supervision faible pour la classification des relations discursives Maachou Khalil, Chloé Braud and Philippe Muller
  34. Towards training fair self-supervised automatic speech recognition models without demographic labels Laura Alonzo Canul, Benjamin Lecouteux and François Portet
  35. Corpus multilingue annoté pour l’étude sémantique des expressions quantifiantes — chinois (mandarin), coréen, français, japonais — Les problèmes de segmentation Raoul Blin and Jinnam Choi
  36. Détection de métaphores dans les documents médicaux Coralie Pottiez, Thierry Hamon and Natalia Grabar
  37. Étude critique du corpus CNN/DailyMail pour le résumé automatique Aurélien Bossard, Christophe Rodrigues and Bachey Fanny
  38. The Impact of Text Complexity on Reading Behaviour: An Eye-Tracking and Surprisal Analysis of French Texts Oksana Ivchenko and Natalia Grabar
  39. ding-01 :ARG0 un corpus AMR pour le français parlé spontané Jeongwoo Kang, Maria Boritchev and Maximin Coavoux
  40. Pensez: Less Data, Better Reasoning – Rethinking French LLM Huy Hoang Ha
  41. Étude comparative de réponses humaines et de grands modèles de langage à des QCM en pharmacie Ricardo Rodriguez, Stéphane Huet, Benoit Favre and Mickael Rouvier
  42. Is Mistral’s Confidence Justified? Assessing Self-Evaluation in Biomedical QA Laura Zanella and Ambroise Baril
  43. Exploration de la séparation en langues dans les modèles de traitement de la parole auto-supervisés multilingues préentraînés avec des données écologiques William N. Havard, Shrita Hassamal, Muhsina Alleesaib, Guilhem Florigny, Guillaume Fon Sing, Anne Abeillé, Benjamin Lecouteux and Emmanuel Schang
  44. Détection et évaluation de la communication toxique pour la relation client par des LLMs Guillaume De Murcia, Ludovic Meineri, Laurent Gillard, Thomas Gouritin and Samy Lastmann
  45. Détecter des comportements associés aux troubles alimentaires par l’analyse automatique des conversations textuelles en ligne Yves Ferstler, Catherine Lavoie and Marie-Jean Meurs
  46. Évaluer la capacité des transformeurs à distinguer les significations compositionnelles et idiomatiques d’une même expression Nina Nusbaumer, Guillaume Wisniewski and Benoît Crabbé
  47. Affinement des représentations des tokens dans les modèles de langue pré-entraînés avec l’apprentissage contrastif : une étude entre modèles et entre langues Anna Mosolova, Marie Candito and Carlos Ramisch
  48. ELITEC : un corpus de conversations en microposts français annoté pour le liage d’entités Wikidata Vivien Leonard, Beatrice Markhoff and Jean-Yves Antoine
  49. Exploration de la modalité en français parlé et écrit Anna Colli and Delphine Battistelli
  50. Analyse de la continuité référentielle dans le corpus d’écrits scolaires français et italien Scolinter Martina Barletta and Claude Ponton
Prise de position
  1. Repousser les limites des benchmarks actuels pour une évaluation réaliste des LLMs en migration de code Samuel Mallet, Joe El Khoury and Elöd Egyed-Zsigmond
  2. La trumplang, instrument de destruction de la pensée : analyse de l’impact de la censure trumpiste sur la recherche en santé mentale Vincent P. Martin, Karën Fort and Jean-Arthur Micoulaud-Franchi
Travaux déjà publiés récemment
  1. Représenter le style au-delà des thématiques : une étude d’impact sur la dispersion vectorielle de différents modèles de langage Benjamin Icard, Evangelia Zve, Lila Sainero, Alice Breton and Jean-Gabriel Ganascia
  2. Lost In Variation : extraction non-supervisée de motifs lexico-syntaxiques dans des textes en moyen arabe Rimane Karam, Julien Bezançon and Gaël Lejeune
  3. AdminSet and AdminBERT: un jeu de données et un modèle de langue pré-entraîné pour explorer le dédale non structuré des données administratives françaises Thomas Sebbag, Solen Quiniou, Niclas Stucky and Emmanuel Morin
  4. Évaluation des LLMs pour l’Attribution de Citations dans les Textes Littéraires: une Étude de LLaMa3 Gaspard Michel, Elena Epure, Romain Hennequin and Christophe Cerisara
  5. EmoDynamiX: Prédiction de stratégies de dialogue pour le support émotionnel via la modélisation de mélange d’émotions et de la dynamique du discours Chenwei Wan, Matthieu Labeau and Chloé Clavel
  6. HISTOIRESMORALES: Un jeu de données français pour évaluer l’alignement moral des modèles de langage Thibaud Leteno, Irina Proskurina, Antoine Gourru, Julien Velcin, Charlotte Laclau, Guillaume Metzler and Christophe Gravier
  7. ACL-rlg: Un dataset pour la génération de listes de lecture Julien Aubert-Béduchaud, Florian Boudin, Béatrice Daille and Richard Dufour
  8. « Les femmes ne font pas de crise cardiaque ! » Étude des biais de genre dans les cas cliniques synthétiques en français Fanny Ducel, Nicolas Hiebel, Olivier Ferret, Karën Fort and Aurélie Névéol
  9. Incorporation des Traits de Personnalité dans les Agents Conversationnels basés sur les GML : Étude de Cas de l’Assistance Client en Français Ahmed Njifenjou, Virgile Sucal, Bassam Jabaian and Fabrice Lefèvre
  10. SELEXINI – un grand corpus français, divers et parsé automatiquement Manon Scholivet, Agata Savary, Louis Estève, Marie Candito and Carlos Ramisch
  11. NuNER: Pré-entraînement d’un encodeur pour la reconnaissance d’entités nommées avec des données annotées automatiquement Sergei Bogdanov, Alexandre Constantin, Timothée Bernard, Benoît Crabbé and Étienne Bernard
  12. Inférence en langue naturelle appliquée au recrutement de patients pour les essais cliniques : le point de vue du patient Mathilde Aguiar, Pierre Zweigenbaum and Nona Naderi
  13. Apprentissage par renforcement pour l’alignement des agents LLMs avec des environnements interactifs : quantification et réduction du surapprentissage aux prompts Mohamed Salim Aissi, Clement Romac, Thomas Carta, Sylvain Lamprier, Pierre-Yves Oudeyer, Olivier Sigaud, Laure Soulier and Nicolas Thome
  14. PatientDx : Fusion des grands modèles de langue pour la protection de la confidentialité des données dans le domaine de la santé Jose G Moreno, Jesus Lovon-Melgarejo, M’Rick Robin-Charlet, Christine Damase-Michel and Lynda Tamine
  15. Atténuer l’impact de la qualité des références sur l’évaluation des systèmes de résumé grâce aux métriques sans référence Théo Gigant, Camille Guinaudeau, Marc Decombas and Frédéric Dufaux
  16. Attention Chaînée et Causale pour un Suivi Efficace des Entités Erwan Fagnou, Paul Caillon, Blaise Delattre and Alexandre Allauzen
  17. Vers les Sens et Au-delà : Induire des Concepts Sémantiques Avec des Modèles de Langue Contextuels Bastien Liétard, Pascal Denis and Mikaela Keller
  18. Extraction de mots-clés à partir d’articles scientifiques: comparaison entre modèles traditionnels et modèles de langue Motasem Alrahabi, Nacef Ben Mansour and Hamed Rahimi
  19. Faut-il éliminer toutes les hallucinations dans un résumé abstractif pour le domaine juridique ? Nihed Bendahman, Karen Pinel-Sauvagnat, Gilles Hubert and Mokhtar Boumedyen Billami
  20. La structure du contenu textuel a-t-elle un impact sur les modèles linguistiques pour le résumé automatique ? Eve Sauvage, Sabrina Campano, Lydia Ould Ouali and Cyril Grouin
  21. Combler les lacunes de Wikipédia : tirer parti de la génération de texte pour améliorer la couverture encyclopédique des groupes sous-représentés Simon Mille, Massimiliano Pronesti, Craig Thomson, Michela Lorandi, Sophie Fitzpatrick, Rudali Huidrom, Mohammed Sabry, Amy O’Riordan and Anya Belz
  22. SCOPE : un cadre d’entrainement auto-supervisé pour améliorer la fidélité dans la génération conditionnelle de texte Florian Le Bronnec, Song Duong, Alexandre Allauzen, Laure Soulier, Vincent Guigue, Alberto Lumbreras and Patrick Gallinari
  23. Graphes, NER et LLMs pour la classification non supervisée de documents Imed Keraghel and Mohamed Nadif
  24. Sondage des modèles de langue sur leur source de connaissance Zineddine Tighidet, Andrea Mogini, Jiali Mei, Patrick Gallinari and Benjamin Piwowarski
  25. Anti-surprise : Une métrique complémentaire pour évaluer l’apprentissage lexical des (grands) modèles de langue Nazanin Shafiabadi and Guillaume Wisniewski

RJC

Articles RJC
  1. Étude de la robustesse des modèles de traduction automatique dans le continuum dialectal de l’occitan Oriane Nédey
  2. État de l’art sur les marqueurs discursifs en Traitement Automatique des Langues Fatou Sow
  3. VERS : Versification Et Représentation de Séquences Marceau Hernandez
  4. Normaliser le moyen français : du graphématique au semi-diplomatique Sonia Solfrini, Mylène Dejouy, Aurélia Marques Oliveira and Pierre-Olivier Beaulnes
  5. Annotation de Marqueurs Discursifs : le cas de la désambiguïsation de après Paola Herreño Castañeda and Maeva Sillaire
  6. Annotation et modélisation des émotions dans un corpus textuel : une approche évaluative Jonas Noblet
  7. État de l’art : évaluation, détection et mitigation des hallucinations des LLMs Aygalic Jara-Mikolajczak
  8. Corpus bilingue sous-titrage et Langue des Signes Française : la problématique de l’alignement automatique des données Julie Halbout and Diandra Fabre
  9. Incomplete Pictures: A State of the Art Study on Bias in Large Language Models Trung Hieu Ngo
  10. Amélioration de la lisibilité de textes via l’utilisation de LLM Baptiste Ramonda, Isabelle Ferrane and Julien Pinquier
  11. Evaluation de la lisibilité des textes biomédicaux selon le profil du lecteur Anya Nait Djoudi
  12. Vers une taxonomie pour l’analyse des intentions dans les interactions textuelles numériques Senaid Popovic
  13. Réhabiliter l’écriture Ajami : un levier technologique pour l’alphabétisation en Afrique Samy Ouzerrout and Idriss Saadallah
  14. Évaluation Automatique Explicable de l’Écriture Argumentative : État de l’Art, Lacunes et Proposition d’Architecture Modulaire Alignée sur des Grilles Éducatives Marcos Moisés Crisóstomo de Oliveira
  15. Types d’erreurs produits par les systèmes de traduction neuronaux lors de la traduction anglais-français de syntagmes nominaux complexes en langue de spécialité Maud Bénard
  16. Analyse de la littérature sur les stratégies d’augmentation de données dans des contextes à faible ressources Benedictus Kent Rachmat
  17. Comparaison des approches basées sur BERT et sur l’agent LLM pour la classification hiérarchique de narratifs dans les articles de presse multilingues Yutong Wang, Mohamed-Nour Eljadiri