L’IA de Facebook travaille à améliorer la reconnaissance vocale non supervisée

Spread the love
  • Yum

L'IA de Facebook travaille à améliorer la reconnaissance vocale non supervisée

La reconnaissance vocale, c’est-à-dire les programmes capables de détecter les phonèmes parlés, est une discipline assez bien établie en informatique, qui a été considérablement améliorée au cours des vingt dernières années par l’intelligence artificielle.

Ce domaine a été fortement tributaire de bibliothèques d’échantillons de locuteurs dont chaque phonème est explicitement indiqué, ou “étiqueté”. Cela a limité une partie du travail à des langues, comme l’anglais, où les échantillons sont facilement disponibles.

Vendredi dernier, les chercheurs en intelligence artificielle de Facebook ont annoncé qu’ils avaient réussi à contourner cette limitation en améliorant considérablement le taux d’erreur de ce que l’on appelle la reconnaissance vocale non supervisée, où les phonèmes sont détectés sans aucun exemple préalable.

publicité

Un taux d’erreur inférieur à certains modèles supervisés

Leur travail, appelé “wav2vec Unsupervised” ou “wav2vec-U”, est décrit dans un article intitulé “Unsupervised Speech Recognition“, rédigé par l’auteur principal Alexei Baevski et ses collègues. Il existe également un billet de blog complémentaire.

Dans le cadre du corpus de référence TIMIT, une collection de cinq heures de paroles enregistrées, où un réseau neuronal doit correspondre au standard pour analyser un fichier audio en ses phonèmes constitutifs, les auteurs ont réduit le taux d’erreur moyen de 26,1 à 11,3, en termes de pourcentage de phonèmes devinés correctement. Ce taux est meilleur que celui des programmes les mieux supervisés, dans lesquels le programme reçoit des indices sous la forme d’échantillons de formes d’onde audio explicitement étiquetés avec le phonème exact.

Sur un test de référence plus important, Librispeech, qui comporte 960 heures de parole, le programme a obtenu de bien meilleurs résultats en termes de taux d’erreur sur les mots dans ses prédictions que de nombreux modèles supervisés, mais pas aussi bons que les meilleurs modèles supervisés.

Le gain est important pour certaines langues qui ne disposent pas de données d’entraînement spécialement préparées et étiquetées. Les auteurs comparent wav2vec-u avec quatre langues, l’amharique, le swahili, le kirghiz et le tatar, qui sont toutes des langues à “faibles ressources”. En utilisant les échantillons audio non étiquetés des quatre langues, leurs résultats montrent dans certains cas qu’ils peuvent faire encore mieux que les programmes d’apprentissage supervisé de référence qui ont utilisé le peu de données étiquetées disponibles.


Le programme wav2vec-u est une combinaison de fonctions de réseaux neuronaux.

Réseau adversarial génératif

Les travaux actuels s’appuient sur plusieurs années de recherches publiées par Alexei Baevski et ses collègues de l’unité d’IA de Facebook. En 2019, Alexei Baevski et son équipe ont introduit un moyen de prédire la séquence d’après dans une forme d’onde audio d’un énoncé parlé, un programme qu’ils ont appelé “wav2vec”, un jeu sur une précédente percée dans le traitement de texte en langage naturel de Google, appelée “word2vec“. Dans les deux cas, la tâche consiste à transformer un signal, qu’il soit discret, comme dans le texte, ou continu, comme dans l’audio, en un vecteur manipulable.

Dans les travaux de 2019, Alexei Baevski et ses collègues ont montré comment transformer une forme d’onde audio en un modèle de prédiction de la prochaine forme d’onde audio probable dans le temps. L’astuce consistait à appliquer le modèle d’attention rendu populaire par le Transformer de Google et ses descendants tels que BERT. Une forme d’onde audio transformée en vecteur par un réseau neuronal convolutif peut ensuite être comparée à d’autres formes d’onde dans un système clé-valeur pour obtenir la distribution de probabilité des formes d’onde et ainsi prédire des séquences de formes d’onde.

L’étape suivante, sur des tests tels que TIMIT, consiste à transformer la forme d’onde audio en une probabilité sur les phonèmes. Il s’agit en fait de convertir une distribution de probabilité en une autre, c’est ainsi qu’il faut voir les choses. Dans le travail précédent, les auteurs ont pris leur wav2vec et l’ont entraîné à résoudre TIMIT en utilisant des étiquettes de phonèmes facilement disponibles qui annotent les heures d’audio. Dans le présent travail, les auteurs utilisent wav2vec sans les étiquettes. La clé est qu’ils ajoutent un réseau adversarial génératif, un GAN.

La perturbation de la probabilité audio de wav2vec pour un extrait audio donné est transformée en une distribution de probabilité sur les phonèmes dans la partie du programme appelée le générateur. Le programme de discrimination compagnon évalue la probabilité de la sortie du générateur en la comparant à tout un tas de texte réel qui a été décomposé en phonèmes. Le va-et-vient améliore les calculs de probabilité du générateur, qui cherche à maximiser le score donné par le discriminateur.

La version semi-supervisée de wav2sec de l’année dernière, appelée wav2sec 2.0, occupe toujours la première place sur TIMIT. L’étiquetage explicite offre toujours un avantage avec un modèle d’attention pré-entraîné comme wav2sec. Mais le fait est que les programmes de pré-entraînement comme wav2vec sont toujours quelque chose sur lequel on peut s’appuyer. L’équipe de Facebook semble avoir créé une base impressionnante, et on peut donc s’attendre à ce que les résultats de wav2vec-u s’améliorent au fur et à mesure que la composante contradictoire est intégrée à la partie de pré-entraînement, ou que d’autres approches sont ajoutées à wav2vec.

Source : ZDNet.com

Leave a Reply

%d bloggers like this: