Le monde du processeur s'attaque aux promesses et aux défis de l'IA

L’industrie de l’informatique est confrontée à des changements épiques, car les exigences des formes “d’apprentissage profond” (Deep Learning) de l’apprentissage automatique imposent de nouvelles exigences au silicium, au moment même où s’effondre la loi de Moore, la règle du progrès vieille de plusieurs décennies dans le domaine des puces.

Cette semaine, certains des meilleurs cerveaux de l’industrie de la puce se sont réunis à San Francisco pour parler de ce que cela signifie.

Applied Materials, le principal fabricant d’outils pour fabriquer des transistors, proposait le “A.I. Design Forum”, en conjonction avec l’un des grands salons annuels de l’industrie de la puce, Semicon West.

Pas de nouvelle puce

Les présentations et les discussions annonçaient de bonnes et de mauvaises nouvelles. Du côté positif, de nombreux outils sont à la disposition d’entreprises telles que Advanced Micro Devices et Xilinx pour faire des arrangements “hétérogènes” de puces pour répondre aux exigences de l’apprentissage profond. Par contre, il n’est pas tout à fait clair que cela atténuera l’épuisement potentiel des centres de données sous le poids d’une demande informatique toujours plus accrue.

Aucune nouvelle puce n’a été présentée au salon Semicon, ce genre d’annonce étant depuis longtemps passé à d’autres salons professionnels et conférences. Mais la discussion au forum de l’I.A. a donné une bonne idée de la façon dont l’industrie des puces envisage l’explosion de l’apprentissage automatique (machine learning) et ce que cela signifie pour les ordinateurs.

Gary Dickerson, directeur général de Applied Materials.

Gary Dickerson, directeur général d’Applied Materials, a commencé sa présentation en notant le “ralentissement spectaculaire de la loi de Moore” citant des données du professeur David Patterson, professeur à l’Université de Berkeley, et du président de Alphabet, John Hennessy, qui montrent que les nouveaux processeurs ne s’améliorent de seulement 3,5 % par an. (Le chiffre est légèrement dépassé ; un texte de Patterson et Hennessy en février dernier a établi que le ralentissement se traduirait par une amélioration de 3 % par an.)

Explorer les puces analogiques

M. Dickerson a ajouté que les charges de travail liées à l’I.A. dans les centres de données du monde entier pourraient représenter jusqu’à 80 % de tous les cycles de calcul et 10 % de la consommation mondiale d’électricité au cours de la prochaine décennie environ.

Cela signifie que l’industrie doit chercher de nombreuses solutions, a dit Dickerson, y compris de “nouvelles architectures” pour la conception des puces et de nouveaux types de puces mémoire. Pour ce faire, il a cité plusieurs types de mémoire, y compris “MRAM,” “ReRAM,” (RAM résistive), “PCRAM,” (RAM à changement de phase), et “FeRAM”.

L’industrie devrait également explorer les puces analogiques, les puces qui manipulent les données sous forme de signaux continus à valeur réelle, plutôt que sous forme d’unités discrètes, et les nouveaux types de matériaux autres que le silicium.

Rendre possibles des types hétérogènes de calcul

Le boss d’Advanced Micro Devices, Lisa Su, et le PDG de Xilinx, Victor Peng, ont tous deux plaidé en faveur de leurs rôles respectifs pour rendre possibles des types hétérogènes de calcul. 

Su a parlé de la puce serveur “Epyc”, qui contourne le goulot d’étranglement de la loi de Moore en rassemblant plusieurs dés de silicium, appelés “chiplets”, en un seul paquet, avec un bus mémoire haute vitesse reliant les chiplets, pour construire une sorte de puce qui est son propre système informatique.

Les nouveaux types de mémoire devraient permettre à l’industrie de faire face à la forte augmentation des charges de travail d’I.A.

M. Peng a dit que les puces programmables “FPGA” de Xilinx peuvent gérer non seulement les multiplications matricielles de l’I.A. mais aussi les parties de l’exécution logicielle traditionnelle qui doivent avoir lieu avant et après les opérations de machine learning.

“Si tout le monde parle à son téléphone deux minutes par jour, nous n’avons pas assez d’ordinateurs.”

Un ingénieur principal de Google, Cliff Young, est entré dans les détails de Tensor Processing Unit, ou “TPU”, la puce que Google a développé à partir de 2013. L’effort a été déclenché, a-t-il dit, par une sorte de panique.

L’entreprise a constaté qu’avec la multiplication des services d’apprentissage automatique chez Google, “les multiplications matricielles devenaient une fraction notable des cycles de calcul” dans les centres de données de Google. “Et si tout le monde parle à son téléphone deux minutes par jour, ou veut analyser des clips vidéo pendant deux minutes par jour” a-t-il dit “nous n’avons pas assez d’ordinateurs.”

“Il y avait là un potentiel à la fois de succès et de désastre” a-t-il dit au sujet de l’explosion de la demande de services d’I.A.. “Nous avons commencé un projet de 15 mois pour obtenir une amélioration de 10 fois les performances.”

La demande de calcul augmente “cubiquement”

Bien qu’il en soit maintenant à la troisième itération de la TPU, Young a laissé entendre que la crise n’est pas terminée. La demande de calcul augmente “cubiquement”, a-t-il dit, parlant de multiplications matricielles. Google a des bâtiments de la taille d’un entrepôt plein de “pods”, des conteneurs qui ont plusieurs racks remplis de TPU. Ce n’est toutefois pas suffisant. “Même Google atteindra les limites de l’échelle des centres de données.”

En d’autres termes, préparez-vous à un goulot d’étranglement dans l’entrepôt de données.

Cliff Young, ingénieur Google  – Kelsey Floyd

Selon M. Young, il faudra beaucoup de collaboration entre les concepteurs de matériel et les programmeurs de logiciels, ce qu’il a appelé le “co-design”, mais aussi le co-design avec des physiciens des matériaux, a-t-il suggéré.

“Quand vous faites du co-design, c’est un travail interdisciplinaire, et vous êtes un étranger dans un pays étranger” a-t-il observé. “Nous devons sortir de notre zone de confort.”

“Peut-on utiliser des émetteurs-récepteurs optiques” pour manipuler les réseaux neuronaux, se demandait-il. L’informatique optique est “impressionnante pour la multiplication matricielle”, a-t-il observé, mais elle n’est pas très bonne pour une autre partie critique des réseaux neuronaux, les fonctions d’activation non linéaires de chaque neurone artificiel.

“Faire le calcul très près de l’endroit où se trouvent les données”

“Le packaging est une chose, que pouvons-nous faire de plus avec le packaging et les chiplets ?” a-t-il demandé. L’industrie a besoin d’alternatives au CMOS, le matériau de base des puces en silicium, a-t-il dit, faisant écho à Dickerson. L’informatique en mémoire sera également importante, a-t-il dit, car les calculs se feront à proximité des cellules de mémoire plutôt que d’aller et venir, d’un processeur à l’autre le long d’un bus mémoire classique.

Young a dit que l’apprentissage machine (machine learning) pourrait ouvrir de nouvelles possibilités pour l’informatique analogique. “C’est bizarre qu’il y ait cette couche numérique entre les réseaux neuronaux et les dispositifs analogiques sous-jacents” dit-il, établissant un lien entre la nature statistique ou stochastique de l’I.A. et du silicium. “Peut-être que nous n’avons pas toujours besoin de revenir aux bits tout le temps” s’est demandé Young.

Young a été suivi sur scène par le responsable de la technologie des processus chez le géant des puces Qualcomm, PR “Chidi” Chidambaram. Qualcomm a déclaré fabriquer cette année des puces pour l’I.A. en mode cloud, mais Chidambaram s’est concentré sur l’étape d'”inférence” de l’apprentissage automatique, en faisant des prédictions pour les appareils en mode “edge” tels que le smartphone.

Comme Dickerson, il a souligné l’importance de la mémoire et a dit que ce qu’il a appelé “CIM”, ou calculer en mémoire (compute in memory), “va faire le calcul très près de l’endroit où se trouvent les données”, et que cela constituera un “changement de paradigme en calcul”.

Article “Chip world tries to come to grips with promise and peril of AI” traduit et adapté par ZDNet.fr