Treffer: Machine learning for multivariate analysis of high-dimensional count data

Title:
Machine learning for multivariate analysis of high-dimensional count data
Apprentissage statistique pour l'analyse multivariée de données de comptage de grande dimension
Contributors:
Institut National de Recherche pour l’Agriculture, l’Alimentation et l’Environnement (INRAE), AgroParisTech, Université Paris-Saclay, Julien Chiquet, Joon Kwon, ANR-18-CE45-0023,SingleStatOmics,Statistique et Apprentissage pour la génomique en cellules uniques(2018)
Source:
Mathematics [math]. Université Paris-Saclay, 2024. English. ⟨NNT : 2024UPASM047⟩
Publisher Information:
CCSD, 2024.
Publication Year:
2024
Collection:
collection:AGROPARISTECH
collection:UNIV-PARIS-SACLAY
collection:AGREENIUM
collection:INRAE
collection:UNIVERSITE-PARIS-SACLAY
collection:ANR
collection:RESEAU-EAU
collection:PSACLAY-TEST
Original Identifier:
NNT: 2024UPASM047
HAL:
Document Type:
Dissertation doctoralThesis<br />Theses
Language:
English
Rights:
info:eu-repo/semantics/OpenAccess
URL: http://creativecommons.org/licenses/by-nc-sa/
Accession Number:
edshal.tel.04839726v2
Database:
HAL

Weitere Informationen

This thesis deals with the modeling and analysis of high-dimensional count data through the framework of latent variable models, as well as the optimization of such models. Latent variable models have demonstrated their efficacy in modeling count data with complex dependency structures, with the Poisson Log-Normal (PLN) model serving as a prime example. However, the PLN model does not meet the characteristics of real-world count datasets, primarily due to its inability to produce a high number of zeros. We propose the Zero-Inflated PLN (ZIPLN) extension to meet these characteristics. The latter and other variants of PLN are implemented in a Python package using variational inference to maximize the log-likelihood. In the second part, we focus on the finite-sum maximization problem, a common challenge when optimizing a wide range of latent variable models. We introduce an adaptive method named AdaLVR, scaling effectively with both the dimensionality and the sample size of the dataset, designed explicitly for this finite-sum optimization problem. A theoretical analysis of AdaLVR is conducted, and the convergence rate of O(T ⁻¹) is obtained in the convex setting, where T denotes the number of iterations. In the third part, we discuss the optimization of latent variable models using Monte Carlo methods, with a particular emphasis on the PLN model. The optimization occurs in a non-convex setting and necessitates the computation of the gradient, which is expressed as an intractable integral. In this context, we propose a first-order algorithm where the gradient is estimated using self-normalized importance sampling. Convergence guarantees are obtained under certain easily verifiable assumptions despite the inherent bias in the gradient estimator. Importantly, the applicability of the convergence theorem extends beyond the scope of optimization in latent variable models. In the fourth part, we focus on the implementation of the inference for PLN models, with a particular emphasis on the details of variational inference designed for these models. In the appendix, we derive confidence intervals for the PLN model, and an extension to the ZIPLN model, integrating Principal Component Analysis, is proposed. A semi-parametric approach is also introduced. Concurrently, an analysis of a real-world genomic dataset is conducted, revealing how different types of cells in plant leaves respond to a bacterial pathogen.
Cette thèse traite de la modélisation et de l’analyse de données de comptage de haute dimension dans le cadre des modèles à variables latentes, ainsi que de l’optimisation de tels modèles. Les modèles à variables latentes ont démontré leur efficacité dans la modélisation de structures de dépendance complexes pour les données de comptage, avec le modèle Poisson Log-Normal (PLN) comme exemple principal. Cependant, le modèle PLN ne répond pas aux caractéristiques des jeux de données de comptage réels, principalement en raison de son incapacité à produire un grand nombre de zéros. Nous proposons une extension, appelée PLN zéro inflaté (ZIPLN) pour répondre à ce problème. Ce dernier et d’autres variantes de PLN sont implémentés dans un package Python utilisant l’inférence variationnelle pour maximiser la log-vraisemblance. Dans la deuxième partie, nous nous concentrons sur le problème de maximisation d’une somme finie de fonctions, un problème couramment rencontré lors de l’optimisation d’une vaste catégorie de modèles à variables latentes. Nous introduisons une méthode adaptative nommée AdaLVR, qui évolue efficacement à la fois avec la dimensionnalité et la taille de l’échantillon du jeu de données, conçue explicitement pour ce problème d’optimisation. Une analyse théorique est menée, et une vitesse de convergence de O(T ⁻¹) est obtenue dans le cadre convexe, où T désigne le nombre d’itérations. Dans la troisième partie, nous discutons de l’optimisation des modèles à variables latentes par méthodes de Monte-Carlo, avec un accent particulier sur le modèle PLN. L’optimisation se fait dans un cadre non convexe et nécessite le calcul du gradient, qui est exprimé comme une intégrale intractable. Dans ce contexte, nous proposons un algorithme de premier ordre où le gradient est estimé par échantillonnage préférentiel auto-normalisé. Des garanties de convergence sont obtenues sous certaines hypothèses facilement vérifiables malgré le biais inhérent à l’estimateur du gradient. Il est important de noter que l’applicabilité du théorème de convergence va au-delà du cadre de l’optimisation dans les modèles à variables latentes. Dans la quatrième partie, nous nous concentrons sur la mise en œuvre de l’inférence pour les modèles PLN, avec un accent particulier sur les détails de l’inférence variationnelle conçue pour ces modèles. Dans l’annexe, nous dérivons des intervalles de confiance pour le modèle PLN et proposons une extension au modèle ZI-PLN intégrant l’Analyse en Composantes Principales. Une approche semi-paramétrique est également introduite. Parallèlement, une analyse d’un jeu de données génomiques réel est menée, révélant comment différents types de cellules dans les feuilles de plantes répondent à un pathogène bactérien.