Treffer: Annotating scientific data using artificial intelligence
Annotation de données scientifiques à l'aide de l'intelligence artificielle
collection:INC-CNRS
collection:SORBONNE-UNIVERSITE
collection:SORBONNE-UNIV
collection:UNIV-PARIS
collection:UNIVERSITE-PARIS
collection:LBT
collection:SU-TI
collection:ALLIANCE-SU
collection:UNIV-UT3
collection:UT3-TOULOUSEINP
collection:CBI
URL: http://creativecommons.org/licenses/by-sa/
Weitere Informationen
In the context of Open Science, large volumes of research data are now publicly available across scientific domains. However, their reuse remains difficult, due to missing or inconsistent metadata. Within the European project LUMEN (https://lumenproject.eu/), we propose an Artificial Intelligence (AI)-based methodology to automatically annotate molecular dynamics simulation descriptions using large language models (LLMs). Our approach relies on Named Entity Recognition (NER) to extract key metadata entities from natural-language dataset descriptions, such as those found in dataset repositories, or the Materials and Methods sections of scientific publications. The extracted entities include molecule names, simulation times , force fields, temperatures, and software information. We benchmarked several open-source Python libraries and state-of-the-art LLMs (such as GPT-5, Gemini, DeepSeek…) in terms of performance and robustness. The proposed methodology relies on a structured validation layer to ensure more reliable LLM outputs.These annotations will be integrated into MDverse, a FAIR (findability, accessibility, interoperability, and reusability) data catalogue for molecular simulations datasets, awarded in 2024 by the French Ministry of Higher Education and Research for Open Science in research data. While demonstrated on molecular simulations data, the methodology is domain-agnostic and can be easily transferred to other scientific disciplines.
Dans le contexte de la science ouverte, de grands volumes de données de recherche sont désormais accessibles publiquement dans de nombreux domaines scientifiques. Toutefois, leur réutilisation reste difficile en raison de métadonnées manquantes ou incohérentes. Dans le cadre du projet européen LUMEN (https://lumenproject.eu/), nous proposons une méthodologie basée sur l’intelligence artificielle (IA) visant à annoter automatiquement des descriptions de simulations de dynamique moléculaire à l’aide de grands modèles de langage (Large Language Models, LLM). Notre approche repose sur la reconnaissance d’entités nommées (Named Entity Recognition, NER) afin d’extraire des métadonnées clés à partir de descriptions de jeux de données écrites en langage naturel, telles que celles présentes dans les entrepôts de données ou dans les sections Matériels et méthodes des publications scientifiques. Les entités extraites incluent notamment les noms de molécules, les temps de simulation, les champs de force, les températures et les informations logicielles. Nous avons évalué plusieurs bibliothèques Python open source ainsi que des LLM récents (tels que GPT-5, Gemini, DeepSeek, etc.) en termes de performances et de robustesse. La méthodologie proposée s'appuie sur une validation structurée pour garantir des résultats LLM plus fiables.Ces annotations seront intégrées à MDverse, un catalogue de données FAIR (findability, accessibility, interoperability, and reusability) dédié aux jeux de données de simulations moléculaires, lauréat en 2024 d’un prix du ministère français de l’Enseignement supérieur et de la Recherche pour la science ouverte et les données de la recherche. Bien que démontrée sur des données de simulations moléculaires, cette méthodologie est indépendante du domaine et peut être facilement transposée à d’autres disciplines scientifiques.