Sorbonne Université
Master de Sciences & Technologies
Flots de gradient et particules en interaction en théorie de l’apprentissage
Borjan Geshkovski
Résumé :
Ce cours a pour objectif d’étudier le comportement asymptotique en temps long des flots de gradient qui apparaissent dans certaines applications spécifiques en théorie de l'apprentissage machine. Les exemples d’intérêt sont formulés en dimension finie sous la forme de systèmes de particules en interaction (des équations différentielles ordinaires couplées). Il s'agit d'un flot de gradient euclidien, typiquement en grande dimension, avec un grand nombre de particules. L'abstraction ou le nombre de particules tendant vers l’infini (limite dite de « champ moyen ») donne lieu à un flot de gradient pour une mesure de probabilité, connu sous le nom de « flots de gradient de Wasserstein », et s'avère souvent utile dans ces contextes. Après avoir établi l’existence et l’unicité des solutions dans les cas particuliers qui nous intéressent, nous verrons que les résultats de convergence connus dans le contexte euclidien et. convexe (qui seront rappelés) trouvent leurs analogues naturels dans le contexte Wasserstein, sous une bonne notion de convexité. Nous aborderons ensuite deux exemples dans le cas non-convexe : la méthode de descente de gradient pour un réseau de neurones à deux couches, et les Transformers avec un nombre infini de couches.