Treffer: Using Knowledge Graphs to Measure and Characterize the Interpretability of Deep Learning Interpretations

Title:
Using Knowledge Graphs to Measure and Characterize the Interpretability of Deep Learning Interpretations
Utilisation de graphes de connaissances pour mesurer et caractériser l’interprétabilité des interprétations de l’apprentissage profond
Contributors:
K team (Data Science, Knowledge, Reasoning and Engineering), Department of Natural Language Processing & Knowledge Discovery (LORIA - NLPKD), Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS)-Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), Institut National de Recherche en Informatique et en Automatique (Inria)-CentraleSupélec-Université de Lorraine (UL)-Centre National de la Recherche Scientifique (CNRS), ACM CIKM
Source:
HCAI Workshop, ACM CIKM, Nov 2025, Seoul (Korea), South Korea
Publisher Information:
CCSD, 2025.
Publication Year:
2025
Collection:
collection:CNRS
collection:LORIA2
collection:CENTRALESUPELEC
collection:UNIV-LORRAINE
collection:LORIA
collection:LORIA-NLPKD
collection:MAT-PULSE
collection:AM2I-UL
Subject Geographic:
Original Identifier:
HAL: hal-05419426
Document Type:
Konferenz conferenceObject<br />Conference papers
Language:
English
Rights:
info:eu-repo/semantics/OpenAccess
Accession Number:
edshal.hal.05419426v1
Database:
HAL

Weitere Informationen

Mechanistic interpretability is a family of methods that try to derive interpretable features from deep learning models. The idea is that they exploit patterns in the activation vectors or connections of a neural network to extract values that can be expected to represent particular concepts, notions, measures, or mechanisms on which the network relies to derive its predictions. However, a key issue with these methods is that establishing the supposed meaning of those features, and therefore evaluating their actual interpretability, is generally a manual and subjective task. Based on the idea that the process of interpretation can be seen as one relating emergent features of the model to the knowledge of the domain, in this article, we propose a method relying on knowledge graphs to build and assess possible definitions of those features. We achieve that by creating decision trees classifying input data as having or not having the candidate interpretable feature and that are built using the properties of a related knowledge graph. The accuracy of those decision trees therefore gives us a measure of the interpretability of the extracted features with respect to a given knowledge graph, and the decision tree itself provides an approximate definition of the feature using the knowledge graph's vocabulary. We illustrate the approach by using two different interpretability methods with a simple example relying on DBpedia, and show results obtained on a more complex case study in material science, using a more specialized knowledge graph.
L’interprétabilité mécanistique regroupe un ensemble de méthodes visant à extraire des caractéristiques interprétables à partir de modèles d’apprentissage profond. L’idée est qu’elles exploitent des motifs présents dans les vecteurs d’activation ou dans les connexions d’un réseau de neurones afin d’en extraire des valeurs susceptibles de représenter des concepts, des notions, des mesures ou des mécanismes particuliers sur lesquels le réseau s’appuie pour produire ses prédictions. Toutefois, un problème majeur de ces méthodes réside dans le fait que l’établissement du sens supposé de ces caractéristiques, et donc l’évaluation de leur interprétabilité réelle, constituent généralement une tâche manuelle et subjective.Partant de l’idée que le processus d’interprétation peut être envisagé comme une mise en relation entre les caractéristiques émergentes du modèle et les connaissances du domaine, nous proposons dans cet article une méthode s’appuyant sur des graphes de connaissances pour construire et évaluer des définitions possibles de ces caractéristiques. Pour ce faire, nous construisons des arbres de décision qui classent les données d’entrée selon qu’elles possèdent ou non la caractéristique interprétable candidate, et qui sont élaborés à partir des propriétés d’un graphe de connaissances associé. La précision de ces arbres de décision fournit ainsi une mesure de l’interprétabilité des caractéristiques extraites par rapport à un graphe de connaissances donné, tandis que l’arbre de décision lui-même offre une définition approximative de la caractéristique en utilisant le vocabulaire du graphe de connaissances.Nous illustrons cette approche en utilisant deux méthodes d’interprétabilité différentes sur un exemple simple reposant sur DBpedia, et présentons ensuite les résultats obtenus sur une étude de cas plus complexe en science des matériaux, faisant appel à un graphe de connaissances plus spécialisé.<\p><\div