Séminaire du LJLL
Borjan Geshkovski (Inria, Paris)
Le terme « transformer » désigne une architecture de réseaux de neurones profonds qui est très utilisée dans le traitement automatique des langues. Un transformer peut être modélisé comme un système de particules en interaction sur la sphère dans lequel apparaissent des contrôles multiplicatifs. Nous montrerons d’abord comment des agrégats apparaissent au fil du temps quand les contrôles sont judicieusement choisis. Nous montrerons ensuite que, grâce à ces contrôles, il est possible d’utiliser le flot généré par un transformer comme un couplage (non optimal) de plusieurs mesures