Nous ne savons pas pourquoi les formes d’apprentissage profond des réseaux neuronaux connaissent un grand succès pour de nombreuses tâches. Concrètement, la discipline manque de théorie pour expliquer ses succès empiriques. Comme l’a dit Yann LeCun de Facebook, l’apprentissage profond est comme la machine à vapeur, qui a précédé de nombreuses années la théorie fondamentale de la thermodynamique.

L’équipe d’Amnon Shashua et ses collègues ont créé un “CAC”, ou “circuit arithmétique convolutif”, qui réplique la réutilisation de l’information dans un CNN traditionnel, tout en le faisant fonctionner avec les modèles “Tensor Network” couramment utilisés en physique. Crédit : Mobileye.

Mais certains se posent cependant la question de la théorie depuis plusieurs années maintenant.

Mercredi dernier, un groupe de recherche a présenté une preuve de la capacité de l’apprentissage profond à simuler les calculs de l’informatique quantique. Selon ces chercheurs, la redondance de l’information qui se produit dans deux des types de réseaux neuronaux les plus réussis, les réseaux neuronaux convolutifs, ou CNN (convolutional neural nets), et les réseaux neuronaux récurrents, ou RNNN (recurrent neural networks), fait toute la différence.

Amnon Shashua, président et directeur général de Mobileye, l’entreprise de conduite autonome rachetée par Intel l’an dernier pour 14,1 milliards de dollars, a présenté ses résultats mercredi lors d’une conférence à Washington organisée par la National Academy of Sciences.

Et en plus d’être VP chez Intel, Amnon Shashua est professeur d’informatique à l’Université hébraïque de Jérusalem. Et le document est co-écrit avec ses collègues de Jérusalem. Le rapport intitulé “Quantum Entanglement in Deep Learning Architectures”, a été publié cette semaine dans le prestigieux journal Physical Review Letters.

Ce travail constitue à la fois une preuve de certains problèmes dans lequel l’apprentissage approfondi peut exceller, et en même temps une proposition pour une voie prometteuse dans le domaine de l’informatique quantique.

En informatique quantique, le problème est un peu l’inverse de ce que l’on rencontre avec l’apprentissage profond : beaucoup de théorie convaincante, mais encore peu d’exemples pratiques de la réalité. Pendant de nombreuses années, Amnon Shashua et ses collègues, entre autres, se sont demandé comment utiliser l’informatique quantique pour résoudre qu’on appelle le problème à plusieurs corps.

Le physicien Richard Mattuck a défini le problème à plusieurs corps comme “l’étude des effets de l’interaction entre les corps sur le comportement d’un système à corps multiples”. Compliqué à comprendre ? On parle ici de “corps” tels que des électrons, des atomes, des molécules ou diverses autres entités microscopique.

Ce que Amnon Shashua et son équipe ont découvert, et ce qu’ils disent avoir prouvé, c’est que les CNN et les RNN sont meilleurs que les approches traditionnelles d’apprentissage machine telles que la “Machine de Boltzmann restreinte” (dite RBM pour Restricted Boltzmann Machine). Soit une approche de réseau neuronal développée dans les années 1980 qui a été un pilier de la recherche physique, particulièrement la simulation quantique.

“Les architectures d’apprentissage profond, écrivent-ils, sous la forme de réseaux convolutifs et récurrents profonds, peuvent représenter efficacement des systèmes quantiques très enchevêtrés”.

Les enchevêtrements sont des corrélations entre les interactions des corps qui se produisent dans les systèmes quantiques. L’informatique quantique a le grand avantage de pouvoir calculer les enchevêtrements avec une efficacité redoutable. Et simuler cela à l’aide de l’informatique conventionnelle peut s’avérer extrêmement difficile, voire insoluble.

“Nos travaux quantifient la puissance de l’apprentissage profond pour les représentations de la fonction ondulatoire hautement enchevêtrées, écrivent-ils, motivant théoriquement un changement vers l’utilisation d’architectures d’apprentissage profond de pointe dans la recherche en physique des corps.

Les auteurs ont pris une version du réseau neuronal récurrent, ou “RNN”, et l’ont modifiée en ajoutant la réutilisation des données à un “circuit arithmétique récurrent”, ou RAC. Crédit : Mobileye.

Les auteurs ont pris les CNN et les RNN et leur ont appliqué les “extensions” qu’ils ont conçues. Ils appellent cela un “simple tour de passe-passe” qui implique la redondance mentionnée plus haut. Il s’avère, selon Amnon Shashua et ses collègues, que la structure des CNN et des RNN implique une “réutilisation” essentielle de l’information.

Dans le cas des CNN, le “noyau”, la fenêtre coulissante qui traverse une image, se chevauche à chaque instant, de sorte que des parties de l’image sont ingérées plusieurs fois par le CNN. Dans le cas des RNN, l’utilisation récurrente de l’information à chaque couche du réseau est un type de réutilisation similaire, dans ce cas pour les points de données séquentiels.

Dans les deux cas, “il a été démontré que ce trait architectural (…) produit une amélioration exponentielle de l’expressivité du réseau malgré l’admission d’une simple croissance linéaire du nombre de paramètres et du coût informatique”. En d’autres termes, les CNN et les RNNS, par des vertus de redondance, obtenues par empilement de plusieurs couches, ont une “représentation” plus efficace des choses en termes informatiques.

Par exemple, un réseau neuronal traditionnel “entièrement connecté” – ce que les auteurs appellent un réseau neuronal “vétéran” – nécessite un temps de calcul qui s’échelonne comme le carré du nombre de corps représentés. Un RBM (ou “Machine de Boltzmann restreinte”), écrivent-ils, est dans ce domaine bien meilleur, avec un temps de calcul qui s’échelonne linéairement en termes de nombre de corps. Mais les CNN et les RNN peuvent être encore meilleurs, avec un temps de calcul requis qui colle avec la racine carrée du nombre de corps.

Ces propriétés “indiquent un avantage significatif dans la modélisation de l’enchevêtrement à l’échelle des lois de volume des réseaux de convection profonde par rapport aux approches concurrentes basées sur les réseaux de neurones dits vétérans” écrivent-ils. “Pratiquement, les réseaux convolutifs qui se chevauchent (…) peuvent supporter l’enchevêtrement de n’importe quel système 2D jusqu’aux tailles 100 × 100, qui sont impossibles à atteindre par des approches concurrentes.”

Pour que cela fonctionne, les auteurs ont dû utiliser leur “astuce” : la façon traditionnelle de représenter l’informatique quantique, un “réseau tenseur”, ne permet pas la réutilisation de l’information. Les auteurs ont donc créé des versions modifiées de CNN et de la RNN. Le premier est appelé “circuit arithmétique convolutif”, ou CAC.

C’est une approche qu’ils ont développé dans leur travail de ces dernières années et qui porte ses fruits. L’astuce est la “duplication des données d’entrée elles-mêmes” dans le CAC, ce qui reproduit effectivement la réutilisation observée dans le chevauchement des CNN. Dans le cas du RNN, ils ont créé un “circuit arithmétique récurrent” (dit RAC) pour “circuit arithmétique récurrent”), dans lequel ils dupliquent les informations d’entrée.

“Il est important de noter que puisque le vecteur de sortie de chaque couche du RAC profond est utilisé deux fois (comme entrée de la couche suivante vers le haut, mais aussi comme vecteur caché pour le temps suivant), il y a une réutilisation inhérente des données pendant le calcul du réseau” écrivent-ils. “Par conséquent, nous dupliquons les entrées comme dans le cas d’un réseau convolutif à chevauchement (CNN), et obtenons le TN (Tensor Network) du RAC profond.”

Les résultats de tout cela sont doubles : des preuves de l’efficacité de l’apprentissage profond et une voie nouvelle et d’avenir pour les simulations quantiques.

Les preuves formelles de l’efficacité des CAC et des RAC, incluses dans les documents supplémentaires, prouvent que les approches d’apprentissage profond peuvent s’attaquer plus efficacement à l’intrication quantique.

Les auteurs concluent sur une note optimiste. Ils concluent sur le fait que leurs travaux “peuvent aider à rapprocher la physique quantique à multiples corps et les approches de pointe de l’apprentissage automatique”.  De fait, à la suite de la publication de ses travaux, l’informatique quantique et l’apprentissage profond ne seront peut-être plus jamais les mêmes. 

Article “Intel offers AI breakthrough in quantum computing” traduit et adapté par ZDNet.fr