Articles acceptés
CORIA
Articles longs
- Vers un élagage de tokens sans perte dans les modèles de récupération à interaction tardive.
- Prédiction des préférences et génération de revue personnalisée basées sur les aspects et attention
- Clarification des Ambiguïtés : Sur le Rôle des Types d’Ambiguïté dans les Méthodes d’Amorçage pour la Génération de Clarifications
- SEval-ex : Un paradigme basé sur les phrases atomiques pour une évaluation explicable de la qualité des résumés
- Restructuration de la Littérature Biomédicale dans une Architecture RAG pour la Génération de Réponse
- Optimisation de la Recherche d’Information Juridiques à travers l’Agrégation des Signaux Contextuels Multi-niveaux des Modèles de Langue Préentraînés
- UC-FIRe: Approche efficace pour la recherche d’information non supervisée
- AutoCluster: Un agent pour le clustering basé sur les grands modèles de langue
- Solver-Aware Training for Logical Constraint Integration in Event Relation Extraction
- SEBRAG: Vers l’Utilisation des LLM pour une Tâche de Questions-Réponses Extractive
- Utilisation de mécanismes inférentiels dans le processus d’explication automatique de la métaphore à une inconnue
- Clustering de résumés LLM guidés par l’utilisateur : vers une approche constructiviste et réaliste unifiée
- Transfert de modèles de langue pour la classification rhétorique des citations à travers les disciplines
Articles courts
- De la Nature des Signaux de Correspondance dans les Modèles Neuronaux pour la RI
- Approche méthodologique pour la génération de question-réponse portant sur plusieurs documents
- Analyse Textuelle et Extraction Géospatiale pour la Surveillance des Crises Alimentaires en Afrique de l’Ouest
- Quand les Bots Déjouent l’Apprentissage : Enjeux et Défis de la Détection
- Cadre d’évaluation pour les systèmes de génération augmentée (RAG) : combinaison des performances de recherche d’informations et de LLM
- Application de Transformers multimodaux à l’extraction d’informations des documents de sondage des sols
- Interfaces for Supporting Critical User Engagement: A Prototype Using RAG
- Rapido, interopérabilité et fouille de textes : vers un alignement des publications scientifiques en archéologie
Résumés
- Génération augmentée de récupération pour les journaux historiques
- Évaluation des capacités des grands modèles de langue à comprendre les dossiers médicaux de patients : Une étude approfondie de l’extraction et la recherche de données des patients
- Simplification de Textes Scientifiques (et Rien de Plus) Rapport sur l’Action CLEF 2025 SimpleText
- Génération augmentée de récupération multi-niveau pour répondre à des questions visuelles
TALN
Travaux de recherche originaux
- Modèles auto-supervisés de traitement de la parole pour le Créole Haitien
- GeNRe : un système de neutralisation automatique du genre exploitant les noms collectifs
- Connaissances factuelles dans les modèles de langue : robustesse et anomalies face à des variations simples du contexte temporel
- Améliorer la Traduction Neuronale par Exemple avec des Données Monolingues
- Le rôle du contexte dans la classification séquentielle de phrases pour les documents longs
- ALF: Un jeu de données d’analogies françaises à grain fin pour l’évaluation de la connaissance lexicale des grands modèles de langue
- π-YALLI : Un nouveau corpus pour des modèles de langue nahuatl / Yankuik nawatlahtolkorpus pampa tlahtolmachiotl
- Adaptation des connaissances médicales pour les grands modèles de langue : Stratégies et analyse comparative
- Estimation de l’inclusion entre tâches par projection spectrale de vecteurs de tâches
- QUARTZ : Approche abstractive non supervisée par question-réponse pour le résumé de dialogue orienté tâche
- Plongement des constituants pour la représentation sémantique des phrases
- Intégration des relations inter-référents dans l’annotation de la coréférence : modèle et application
- Une formule de lisibilité en français adaptée aux personnes en situation d’illettrisme
- Une revue sur les hallucinations des LLM
- De nos jours, ce sont les résultats qui comptent : création et étude diachronique d’un corpus de revendications issues d’articles de TAL
- Détection des omissions dans les résumés médicaux générés par les LLMs
- Identification de mesures d’évaluation fiables pour la révision de textes scientifiques
- Mesurer les inégalités de genre en ligne avec le genre grammatical : Une étude du subreddit r/france
- Etude multimodale pour la localisation des tours de parole fortement informatifs en conversation
- Détection des contamination de LLM par extraction de données : Une revue de littérature pratique
- MOSAIC : Mélange d’experts pour la détection de textes artificiels
- Systèmes d’écriture et qualité des données : l’affinage de modèles de translittération dans un contexte de faibles ressources
- Embeddings, topic models, LLM : un air de famille
- Alignements divisifs de textes parallèles: données, algorithme et évaluation
- Traitement automatique des évènements médiatiques : Détection, classification, segmentation et recherche sémantique
- Alignements entre attention et sémantique dans des modèles de langues pré-entraînés
- Projeter pour mieux fusionner : une histoire de bandit et de lit
- Syntaxe en dépendance avec les grammaires catégorielles abstraites : une application à la théorie sens-texte
- Peut-on retrouver votre âge à partir de la transcription de votre parole ?
- Alignement bi-textuel adaptatif basé sur des plongements multilingues
- Augmentation des données avec LLM pour améliorer la détection automatique d’erreurs de coordination
- Évaluation de la confidentialité des textes cliniques synthétiques générés par des modèles de langue
- Supervision faible pour la classification des relations discursives
- Towards training fair self-supervised automatic speech recognition models without demographic labels
- Corpus multilingue annoté pour l’étude sémantique des expressions quantifiantes — chinois (mandarin), coréen, français, japonais — Les problèmes de segmentation
- Détection de métaphores dans les documents médicaux
- Étude critique du corpus CNN/DailyMail pour le résumé automatique
- The Impact of Text Complexity on Reading Behaviour: An Eye-Tracking and Surprisal Analysis of French Texts
- ding-01 :ARG0 un corpus AMR pour le français parlé spontané
- Pensez: Less Data, Better Reasoning – Rethinking French LLM
- Étude comparative de réponses humaines et de grands modèles de langage à des QCM en pharmacie
- Is Mistral’s Confidence Justified? Assessing Self-Evaluation in Biomedical QA
- Exploration de la séparation en langues dans les modèles de traitement de la parole auto-supervisés multilingues préentraînés avec des données écologiques
- Détection et évaluation de la communication toxique pour la relation client par des LLMs
- Détecter des comportements associés aux troubles alimentaires par l’analyse automatique des conversations textuelles en ligne
- Évaluer la capacité des transformeurs à distinguer les significations compositionnelles et idiomatiques d’une même expression
- Affinement des représentations des tokens dans les modèles de langue pré-entraînés avec l’apprentissage contrastif : une étude entre modèles et entre langues
- ELITEC : un corpus de conversations en microposts français annoté pour le liage d’entités Wikidata
- Exploration de la modalité en français parlé et écrit
- Analyse de la continuité référentielle dans le corpus d’écrits scolaires français et italien Scolinter
Prise de position
- Repousser les limites des benchmarks actuels pour une évaluation réaliste des LLMs en migration de code
- La trumplang, instrument de destruction de la pensée : analyse de l’impact de la censure trumpiste sur la recherche en santé mentale
Travaux déjà publiés récemment
- Représenter le style au-delà des thématiques : une étude d’impact sur la dispersion vectorielle de différents modèles de langage
- Lost In Variation : extraction non-supervisée de motifs lexico-syntaxiques dans des textes en moyen arabe
- AdminSet and AdminBERT: un jeu de données et un modèle de langue pré-entraîné pour explorer le dédale non structuré des données administratives françaises
- Évaluation des LLMs pour l’Attribution de Citations dans les Textes Littéraires: une Étude de LLaMa3
- EmoDynamiX: Prédiction de stratégies de dialogue pour le support émotionnel via la modélisation de mélange d’émotions et de la dynamique du discours
- HISTOIRESMORALES: Un jeu de données français pour évaluer l’alignement moral des modèles de langage
- ACL-rlg: Un dataset pour la génération de listes de lecture
- « Les femmes ne font pas de crise cardiaque ! » Étude des biais de genre dans les cas cliniques synthétiques en français
- Incorporation des Traits de Personnalité dans les Agents Conversationnels basés sur les GML : Étude de Cas de l’Assistance Client en Français
- SELEXINI – un grand corpus français, divers et parsé automatiquement
- NuNER: Pré-entraînement d’un encodeur pour la reconnaissance d’entités nommées avec des données annotées automatiquement
- Inférence en langue naturelle appliquée au recrutement de patients pour les essais cliniques : le point de vue du patient
- Apprentissage par renforcement pour l’alignement des agents LLMs avec des environnements interactifs : quantification et réduction du surapprentissage aux prompts
- PatientDx : Fusion des grands modèles de langue pour la protection de la confidentialité des données dans le domaine de la santé
- Atténuer l’impact de la qualité des références sur l’évaluation des systèmes de résumé grâce aux métriques sans référence
- Attention Chaînée et Causale pour un Suivi Efficace des Entités
- Vers les Sens et Au-delà : Induire des Concepts Sémantiques Avec des Modèles de Langue Contextuels
- Extraction de mots-clés à partir d’articles scientifiques: comparaison entre modèles traditionnels et modèles de langue
- Faut-il éliminer toutes les hallucinations dans un résumé abstractif pour le domaine juridique ?
- La structure du contenu textuel a-t-elle un impact sur les modèles linguistiques pour le résumé automatique ?
- Combler les lacunes de Wikipédia : tirer parti de la génération de texte pour améliorer la couverture encyclopédique des groupes sous-représentés
- SCOPE : un cadre d’entrainement auto-supervisé pour améliorer la fidélité dans la génération conditionnelle de texte
- Graphes, NER et LLMs pour la classification non supervisée de documents
- Sondage des modèles de langue sur leur source de connaissance
- Anti-surprise : Une métrique complémentaire pour évaluer l’apprentissage lexical des (grands) modèles de langue
RJC
Articles RJC
- Étude de la robustesse des modèles de traduction automatique dans le continuum dialectal de l’occitan
- État de l’art sur les marqueurs discursifs en Traitement Automatique des Langues
- VERS : Versification Et Représentation de Séquences
- Normaliser le moyen français : du graphématique au semi-diplomatique
- Annotation de Marqueurs Discursifs : le cas de la désambiguïsation de après
- Annotation et modélisation des émotions dans un corpus textuel : une approche évaluative
- État de l’art : évaluation, détection et mitigation des hallucinations des LLMs
- Corpus bilingue sous-titrage et Langue des Signes Française : la problématique de l’alignement automatique des données
- Incomplete Pictures: A State of the Art Study on Bias in Large Language Models
- Amélioration de la lisibilité de textes via l’utilisation de LLM
- Evaluation de la lisibilité des textes biomédicaux selon le profil du lecteur
- Vers une taxonomie pour l’analyse des intentions dans les interactions textuelles numériques
- Réhabiliter l’écriture Ajami : un levier technologique pour l’alphabétisation en Afrique
- Évaluation Automatique Explicable de l’Écriture Argumentative : État de l’Art, Lacunes et Proposition d’Architecture Modulaire Alignée sur des Grilles Éducatives
- Types d’erreurs produits par les systèmes de traduction neuronaux lors de la traduction anglais-français de syntagmes nominaux complexes en langue de spécialité
- Analyse de la littérature sur les stratégies d’augmentation de données dans des contextes à faible ressources
- Comparaison des approches basées sur BERT et sur l’agent LLM pour la classification hiérarchique de narratifs dans les articles de presse multilingues