Treffer:
Jargon: A Suite of Language Models and Evaluation Tasks for French Specialized Domains ; Jargon : Une suite de modèles de langues et de référentiels d'évaluation pour les domaines spécialisés du français
Gespeichert in:
Title:
Jargon: A Suite of Language Models and Evaluation Tasks for French Specialized Domains ; Jargon : Une suite de modèles de langues et de référentiels d'évaluation pour les domaines spécialisés du français
Expressiveness in Human Centered Data/Media (EXPRESSION), SIGNAL, IMAGE ET LANGAGE (IRISA-D6), Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom Paris (IMT)-Institut Mines-Télécom Paris (IMT)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut Mines-Télécom Paris (IMT)-Institut Mines-Télécom Paris (IMT)-Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Institut Mines-Télécom Paris (IMT)-Institut Mines-Télécom Paris (IMT), Laboratoire d'Informatique de Grenoble (LIG), Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP), Université Grenoble Alpes (UGA), Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole (GETALP), Université Grenoble Alpes (UGA)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP), Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision (LAMSADE), Université Paris Dauphine-PSL, Université Paris Sciences et Lettres (PSL)-Université Paris Sciences et Lettres (PSL)-Centre National de la Recherche Scientifique (CNRS), Université Catholique de Louvain = Catholic University of Louvain (UCL), Université de Genève = University of Geneva (UNIGE), Algorithms, Principles and TheorIes for collaborative Knowledge acquisition And Learning (APTIKAL), Modèles, Dynamiques, Corpus (MoDyCo), Université Paris Nanterre (UPN)-Centre National de la Recherche Scientifique (CNRS), Modélisation et Recherche d’Information Multimédia Grenoble (MRIM), Exploration et exploitation de données textuelles (LIRMM, Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Université de Perpignan Via Domitia (UPVD)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Université de Montpellier Paul-Valéry (UMPV)-Université de Perpignan Via Domitia (UPVD)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Université de Montpellier Paul-Valéry (UMPV), Catholic University of Leuven = Katholieke Universiteit Leuven (KU Leuven), Corine Astésano, Christine Sénac, Isabelle Ferrané, Jérôme Farinas, Anna Marczyk, Mathieu Balaguer, Julie Mauclair, Thomas Pellegrini, Julien Pinquier, ANR-23-IAS1-0001,Pantagruel,Construction et d'évaluation de grands modèles de langue multimodaux et inclusifs (écrit, oral, pictogrammes) pour le français général et clinique(2023), ANR-19-P3IA-0003,MIAI,MIAI @ Grenoble Alpes(2019)
JEP-TALN-RECITAL : 35esJournées d'Études sur la Parole (JEP 2024) 31e Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024) 26e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL 2024) ; National audience ; Pretrained Masked Language Models (PLMs) are the de facto backbone of most state-of-the-art NLP systems. In this paper, we introduce a family of domain-specific pretrained PLMs for French, focusing on three important applications : the domains of transcribed speech, medicine, and law. We use a transformer architecture based on efficient methods (LinFormer) to maximise their utility, since these domains often involve processing long documents. We evaluate and compare our models to state-of-the-art models on a diverse set of tasks and datasets, some of which are introduced in this paper. We gather the datasets into a new French-language evaluation benchmark for these three domains. We also compare various training configurations : continued pretraining, pretraining from scratch, as well as single- and multi-domain pretraining. Extensive domain-specific experiments show that it is possible to attain competitive downstream performance even when pre-training with the approximative LinFormer attention mechanism. For full reproducibility, we release the models and pretraining data, as well as contributed datasets. ; Les modèles de langue préentraînés (PLM) constituent aujourd’hui de facto l’épine dorsale de la plupart des systèmes de traitement automatique des langues. Dans cet article, nous présentons Jargon, une famille de PLMs pour des domaines spécialisés du français, en nous focalisant sur trois domaines : la parole transcrite, le domaine clinique / biomédical, et le domaine juridique. Nous utilisons une architecture de transformeur basée sur des méthodes computationnellement efficaces(LinFormer) puisque ces domaines impliquent souvent le traitement de longs documents. Nous évaluons et comparons nos modèles à des modèles de l’état de ...