Apprentissage non supervisé de représentations de mots à l'aide de réseaux de convolution bilinéaires sur des caractères

Thomas Luka
Laure Soulier
David Picard
DOI
10.24348/coria.2021.long_1
Résumé

Dans cet article, nous proposons une nouvelle méthode non-supervisée pour apprendre des représentations de mots avec des convolutions directement sur des caractères. Nous évitons ainsi les problèmes inhérents à l’utilisation d’un dictionnaire. Pour y parvenir, nous avons traduit l’hypothèse de distribution par une fonction de coût d’apprentissage de métrique. Cela permet d’avoir un unique encodeur au lieu des architectures comportant un encodeur et un décodeur. Enfin, nous proposons d’utiliser un réseau convolutif comportant des connections résiduelles et des produits bilinéaires pour être en mesure d’encoder des motifs de co-occurences. Nous démontrons l’éfficacité de notre approche en la comparant avec les méthodes classiques comme fastText et GloVe sur différents jeux de données.