Arnak DalalyanEnseignant-chercheur
La recherche d’Arnak Dalalyan porte sur la complexité statistique et les fondements théoriques de l’apprentissage automatique, en particulier dans le contexte des données de grande dimension. Il s’intéresse notamment aux conditions permettant à un algorithme de produire des résultats à la fois fiables, originaux et économes en ressources — une problématique centrale à l’ère des modèles génératifs, utilisés dans des domaines allant de la création artistique à la recherche pharmaceutique. Diplômé de l’Université d’État d’Erevan, il poursuit sa formation en France, où il soutient une thèse en statistique à l’Université du Mans en 2001, puis une HDR à l’Université Pierre et Marie Curie en 2007. Après un post-doctorat à l’Université Humboldt de Berlin, il devient maître de conférences à l’UPMC, puis professeur à l’École nationale des ponts et chaussées. Il rejoint ensuite l’ENSAE Paris et le laboratoire CREST 1 , qu’il dirige depuis 2020.
Le CREST est une unité mixte de recherche regroupant des chercheuses et chercheurs en sciences sociales quantitatives et mathématiques appliquées. Le laboratoire attache une forte importance aux méthodes quantitatives, à la culture des données, à la modélisation mathématique et à la synergie entre les modèles scientifiques et les faits empiriques pour analyser des problèmes économiques et sociaux concrets. C’est dans cette dynamique majeure entre sciences sociales et mathématiques que s’inscrivent les travaux d’Arnak Dalalyan.
STAGMOS (Statistical Analysis of Generative Models: Sampling Guarantees and Robustness)
Les algorithmes de modélisation générative permettent de produire automatiquement des objets tels que textes, images, molécules ou morceaux de musique, similaires à ceux observés dans un jeu de données. Bien que très puissants, ces algorithmes reposent souvent sur d’importantes quantités de données et de ressources de calcul. Le projet ERC « StatLearnGen » porté par Arnak Dalalyan vise à analyser les propriétés mathématiques de ces méthodes afin de mieux comprendre leurs forces et leurs limites, d’améliorer leur efficacité et d’en concevoir de nouvelles. Cette analyse mobilise des outils issus de plusieurs domaines des statistiques et des probabilités, notamment la réduction de dimension, l’estimation non paramétrique, l’apprentissage de variétés, le transport optimal et le calcul stochastique. L’objectif est d’obtenir des garanties statistiques interprétables sur la précision, la robustesse, la créativité et la frugalité de ces algorithmes, en tenant compte de facteurs tels que la taille de l’échantillon, le niveau de bruit, la dimension du problème ou la présence de données aberrantes. Une attention particulière est portée à la stabilité face aux perturbations et aux erreurs de spécification du modèle, afin de contribuer au développement d’algorithmes d’intelligence artificielle plus fiables, explicables et économes.
Notes
- CNRS/Ecole polytechnique/Groupe des Ecoles Nationales d'Economie et Statistique