Open source : Google lance son codec audio Lyra

Spread the love
  • Yum

Open source : Google lance son codec audio Lyra

Pour mettre fin à des appels vocaux trop souvent hachés et robotisés liés à une faible bande passante, Google vient de lancer Lyra, son nouveau codec audio qui exploite le machine learning pour produire des appels de haute qualité, même en cas de connexion douteuse.

L’équipe d’IA de Google a annoncé cette semaine mettre Lyra à la disposition des développeurs pour qu’ils l’intègrent à leurs applications de communication, en promettant que ce nouvel outil permettra de réaliser des appels audio d’une qualité similaire à celle obtenue avec les codecs existants les plus populaires, tout en nécessitant 60 % de bande passante en moins.

Pour rappel, les codecs audio sont largement utilisés aujourd’hui pour les communications en temps réel sur internet. Cette technologie consiste à compresser un fichier audio d’entrée en un paquet plus petit qui nécessite moins de bande passante pour la transmission, puis à décoder le fichier en une forme d’onde qui peut être diffusée par le haut-parleur du téléphone d’un auditeur. Plus le fichier est compressé, moins il faut de données pour envoyer le son à l’auditeur.

publicité

Un algorithme particulier

Seul compromis : les fichiers les plus compressés sont généralement aussi plus difficiles à reconstruire et ont tendance à être décompressés en signaux vocaux moins intelligibles et robotiques. « L’un des défis permanents du développement des codecs, tant pour la vidéo que pour l’audio, est de proposer une qualité croissante en utilisant moins de données et de minimiser la latence pour les communications en temps réel », expliquent Andrew Storus et Michael Chinen, tous deux ingénieurs logiciels chez Google, dans un billet de blog.

Les ingénieurs de Google ont présenté Lyra en février dernier comme une solution potentielle à cette équation. Fondamentalement, Lyra fonctionne de la même manière que les codecs audio classiques : le système est construit en deux parties, avec un encodeur et un décodeur. Lorsqu’un utilisateur parle dans son téléphone, l’encodeur identifie et extrait les attributs de sa parole, appelés caractéristiques, par tranches de 40 millisecondes, puis compresse les données et les envoie sur le réseau pour que le décodeur les lise au récepteur.

Toutefois, pour donner un coup de pouce au décodeur, les ingénieurs en IA de Google ont insufflé au système un type particulier de modèle de machine learning. Appelé modèle génératif et entraîné sur des milliers d’heures de données, ce type d’algorithme est capable de reconstruire un fichier audio complet, même à partir d’un nombre limité de caractéristiques. Alors que les codecs traditionnels se contentent d’extraire des informations des paramètres pour recréer un morceau d’audio, un modèle génératif peut donc lire les caractéristiques et générer de nouveaux sons à partir d’un petit ensemble de données.

Des résultats notables

Les modèles génératifs ont fait l’objet de nombreuses recherches ces dernières années, et différentes entreprises se sont intéressées à cette technologie. Des ingénieurs ont déjà mis au point des systèmes de pointe, à commencer par le WaveNet de DeepMind, qui peut générer des paroles imitant la voix humaine. Equipés d’un modèle qui reconstruit l’audio en utilisant une quantité minimale de données, Lyra peut donc maintenir des fichiers très compressés à bas débit, tout en obtenant un décodage de haute qualité à l’autre bout de la ligne.

Les équipes de Google ont évalué les performances de Lyra par rapport à celles d’Opus, un codec open source largement utilisé pour la plupart des applications de voix off sur internet. Lorsqu’il est utilisé dans un environnement à large bande passante, avec un débit audio de 32 kb/s, Opus est connu pour permettre un niveau de qualité audio indiscernable de l’original ; mais lorsqu’il est utilisé dans des environnements à bande passante limitée, jusqu’à 6 kb/s, le codec commence à présenter une qualité audio dégradée.

En comparaison, Lyra compresse l’audio brut jusqu’à 3 kb/s. D’après les commentaires d’experts et d’auditeurs, les chercheurs ont constaté que la qualité audio de sortie se compare favorablement à celle d’Opus. Dans le même temps, d’autres codecs capables de fonctionner à des débits comparables à ceux de Lyra, comme Speex, ont tous donné les pires résultats, marqués par des voix peu naturelles et robotiques.

« Lyra peut être utilisé partout où les conditions de bande passante sont insuffisantes pour des débits plus élevés et où les codecs à faible débit existants ne fournissent pas une qualité adéquate », indiquent les équipes de Google. L’idée séduira la plupart des internautes confrontés à une bande passante insuffisante alors qu’ils télétravaillent, dans le contexte de la crise sanitaire actuelle.

Source : ZDNet.com

Leave a Reply

%d bloggers like this: