Treffer: Jargon: A Suite of Language Models and Evaluation Tasks for French Specialized Domains

Title:
Jargon: A Suite of Language Models and Evaluation Tasks for French Specialized Domains
Contributors:
Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA), Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-Université de Bretagne Sud (UBS)-École normale supérieure - Rennes (ENS Rennes)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS)-IMT Atlantique (IMT Atlantique), Institut Mines-Télécom [Paris] (IMT)-Institut Mines-Télécom [Paris] (IMT), Modélisation et Recherche d’Information Multimédia [Grenoble] (MRIM), Laboratoire d'Informatique de Grenoble (LIG), Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP), Université Grenoble Alpes (UGA)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP), Université Grenoble Alpes (UGA), Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole (GETALP), Algorithms, Principles and TheorIes for collaborative Knowledge acquisition And Learning (APTIKAL), Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université Paris-Saclay-Centre National de la Recherche Scientifique (CNRS), Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision (LAMSADE), Université Paris Dauphine-PSL, Université Paris Sciences et Lettres (PSL)-Université Paris Sciences et Lettres (PSL)-Centre National de la Recherche Scientifique (CNRS), Université Catholique de Louvain = Catholic University of Louvain (UCL), Université de Genève = University of Geneva (UNIGE), Modèles, Dynamiques, Corpus (MoDyCo), Université Paris Nanterre (UPN)-Centre National de la Recherche Scientifique (CNRS), Exploration et exploitation de données textuelles (LIRMM | TEXTE), Laboratoire d'Informatique de Robotique et de Microélectronique de Montpellier (LIRMM), Université de Perpignan Via Domitia (UPVD)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Université de Montpellier Paul-Valéry (UMPV)-Université de Perpignan Via Domitia (UPVD)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Université de Montpellier (UM)-Université de Montpellier Paul-Valéry (UMPV), Catholic University of Leuven = Katholieke Universiteit Leuven (KU Leuven), ANR-23-IAS1-0001,Pantagruel,Construction et d'évaluation de grands modèles de langue multimodaux et inclusifs (écrit, oral, pictogrammes) pour le français général et clinique(2023), ANR-19-P3IA-0003,MIAI,MIAI @ Grenoble Alpes(2019), ANR-20-CE93-0005,PROPICTO,PRojection du langage Oral vers des unités PICTOgraphiques(2020), ANR-20-CE38-0013,LAWBOT,APPRENTISSAGE PROFOND POUR LA MODELISATION PREDICTIVE DE LA JURISPRUDENCE(2020)
Source:
The 2024 Joint International Conference on Computational Linguistics. :9463-9476
Publisher Information:
CCSD, 2024.
Publication Year:
2024
Collection:
collection:UNIV-RENNES1
collection:UGA
collection:CNRS
collection:UNIV-MONTP3
collection:UNIV-PERP
collection:UNIV-DAUPHINE
collection:UNIV-PARIS10
collection:UNIV-UBS
collection:INSA-RENNES
collection:INPG
collection:IRISA
collection:MODYCO
collection:LIG
collection:IRISA_SET
collection:LIG_TDCGE_GETALP
collection:TEXTE
collection:LIRMM
collection:CENTRALESUPELEC
collection:LAMSADE-DAUPHINE
collection:UR1-HAL
collection:UPN
collection:PSL
collection:UR1-MATH-STIC
collection:UNIV-PARIS-SACLAY
collection:UR1-UFR-ISTIC
collection:UNIV-MONTPELLIER
collection:TEST-UR-CSS
collection:UNIV-RENNES
collection:INSA-GROUPE
collection:UNIV-PARIS-LUMIERES
collection:INSTITUTS-TELECOM
collection:MIAI
collection:PNRIA
collection:UNIV-DAUPHINE-PSL
collection:UNIVERSITE-PARIS-SACLAY
collection:UGA-EPE
collection:ANR
collection:UR1-MATH-NUM
collection:LISN
collection:UNIV-PARIS-NANTERRE
collection:GS-COMPUTER-SCIENCE
collection:UPVM-TI
collection:LIG_SIDCH
collection:LIG_SIDCH_APTIKAL
collection:UM-2015-2021
collection:UM-EPE
collection:IA
collection:PSACLAY-TEST
collection:ANR-IA-19
collection:ANR-IA-23
collection:ANR-IA
collection:ISTEX
collection:TEST-UGA
Subject Geographic:
Original Identifier:
HAL: hal-04535557
Document Type:
Konferenz conferenceObject<br />Conference papers
Language:
English
Rights:
info:eu-repo/semantics/OpenAccess
Accession Number:
edshal.hal.04535557v1
Database:
HAL

Weitere Informationen

Pretrained Language Models (PLMs) are the de facto backbone of most state-of-the-art NLP systems. In this paper, we introduce a family of domain-specific pretrained PLMs for French, focusing on three important domains: transcribed speech, medicine, and law. We use a transformer architecture based on efficient methods (LinFormer) to maximise their utility, since these domains often involve processing long documents. We evaluate and compare our models to state-of-the-art models on a diverse set of tasks and datasets, some of which are introduced in this paper. We gather the datasets into a new French-language evaluation benchmark for these three domains. We also compare various training configurations: continued pretraining, pretraining from scratch, as well as single- and multi-domain pretraining. Extensive domain-specific experiments show that it is possible to attain competitive downstream performance even when pre-training with the approximative LinFormer attention mechanism. For full reproducibility, we release the models and pretraining data, as well as contributed datasets.