Treffer: A comparison of machine learning algorithms for survival with missing data

Title:
A comparison of machine learning algorithms for survival with missing data
Une comparaison des algorithmes d'apprentissage pour la survie avec données manquantes
Contributors:
Aix Marseille Université (AMU), Méthodes computationnelles pour la prise en charge thérapeutique en oncologie : Optimisation des stratégies par modélisation mécaniste et statistique (COMPO), Centre Inria d'Université Côte d'Azur, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre de Recherche en Cancérologie de Marseille (CRCM), Aix Marseille Université (AMU)-Institut Paoli-Calmettes (IPC), Fédération nationale des Centres de lutte contre le Cancer (FNCLCC)-Fédération nationale des Centres de lutte contre le Cancer (FNCLCC)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS)-Aix Marseille Université (AMU)-Institut Paoli-Calmettes (IPC), Fédération nationale des Centres de lutte contre le Cancer (FNCLCC)-Fédération nationale des Centres de lutte contre le Cancer (FNCLCC)-Institut National de la Santé et de la Recherche Médicale (INSERM)-Centre National de la Recherche Scientifique (CNRS), Institut Laënnec, Laënnec Institute, ITMO Cancer AVIESAN and French Institut National du Cancer (grant #19CM148-00), SFdS
Source:
JDS 2023 - 54e Journées de Statistique de la SFds, SFdS, Jul 2023, Bruxelles (BEL), Belgique. ⟨10.48550/arXiv.2303.13590⟩
Publisher Information:
CCSD, 2023.
Publication Year:
2023
Collection:
collection:CNRS
collection:INRIA
collection:UNIV-AMU
collection:INRIA-SOPHIA
collection:INRIASO
collection:INRIA_TEST
collection:TESTALAIN1
collection:INRIA2
collection:UNIV-COTEDAZUR
collection:CRCM
collection:LAENNEC
Subject Geographic:
Original Identifier:
HAL: hal-04384220
Document Type:
Konferenz conferenceObject<br />Conference papers
Language:
French
Relation:
info:eu-repo/semantics/altIdentifier/doi/10.48550/arXiv.2303.13590
DOI:
10.48550/arXiv.2303.13590
Rights:
info:eu-repo/semantics/OpenAccess
URL: http://creativecommons.org/licenses/by/
Accession Number:
edshal.hal.04384220v1
Database:
HAL

Weitere Informationen

Survival analysis is an essential tool for the study of health data. An inherent component of such data is the presence of missing values. In recent years, researchers proposed new learning algorithms for survival tasks based on neural networks. Here, we studied the predictive performance of such algorithms coupled with different methods for handling missing values on simulated data that reflect a realistic situation, i.e., when individuals belong to unobserved clusters. We investigated different patterns of missing data. The results show that, without further feature engineering, no single imputation method is better than the others in all cases. The proposed methodology can be used to compare other missing data patterns and/or survival models. The Python code is accessible via the package survivalsim. -- L'analyse de survie est un outil essentiel pour l'étude des données de santé. Une composante inhérente à ces données est la présence de valeurs manquantes. Ces dernières années, de nouveaux algorithmes d'apprentissage pour la survie, basés sur les réseaux de neurones, ont été conçus. L'objectif de ce travail est d'étudier la performance en prédiction de ces algorithmes couplés à différentes méthodes pour gérer les valeurs manquantes, sur des données simulées qui reflètent une situation rencontrée en pratique, c'est-à dire lorsque les individus peuvent être groupés selon leurs covariables. Différents schémas de données manquantes sont étudiés. Les résultats montrent que, sans l'ajout de variables supplémentaires, aucune méthode d'imputation n'est meilleure que les autres dans tous les cas. La méthodologie proposée peut être utilisée pour comparer d'autres modèles de survie. Le code en Python est accessible via le package survivalsim.
L'analyse de survie est un outil essentiel pour l'étude des données de santé. Une composante inhérente à ces données est la présence de valeurs manquantes. Ces dernières années, de nouveaux algorithmes d'apprentissage pour la survie, basés sur les réseaux de neurones, ont été conçus. L'objectif de ce travail est d'étudier la performance en prédiction de ces algorithmes couplés à différentes méthodes pour gérer les valeurs manquantes, sur des données simulées qui reflètent une situation rencontrée en pratique, c'est-à dire lorsque les individus peuvent être groupés selon leurs covariables. Différents schémas de données manquantes sont étudiés. Les résultats montrent que, sans l'ajout de variables supplémentaires, aucune méthode d'imputation n'est meilleure que les autres dans tous les cas. La méthodologie proposée peut être utilisée pour comparer d'autres modèles de survie. Le code en Python est accessible via le package survivalsim.