Facebook entraîne un nouvel algorithme d’IA surpuissant sur le catalogue d’Instagram

Spread the love
  • Yum

Facebook entraîne un nouvel algorithme d'IA surpuissant sur le catalogue d'Instagram

Les chercheurs de Facebook viennent de dévoiler un nouveau modèle d’IA capable d’apprendre à partir de n’importe quel groupe aléatoire d’images non étiquetées sur internet. Il s’agit d’une percée majeure qui, bien qu’elle soit encore à ses débuts, donne l’espoir à l’équipe de générer une « révolution » dans la vision par ordinateur.

Baptisé SEER (SElf-SupERvised), ce modèle a été alimenté par un milliard d’images Instagram disponibles au public, qui n’avaient pas été traitées manuellement auparavant. Mais, même sans les étiquettes et les annotations qui accompagnent généralement la formation des algorithmes, SEER a pu se frayer un chemin de manière autonome dans l’ensemble des données, en apprenant au fur et à mesure et en atteignant finalement des niveaux de précision élevés pour des tâches comme la détection d’objets.

Cette méthode, judicieusement baptisée « apprentissage autodidacte », est déjà bien établie dans le domaine de l’IA. Elle consiste à créer des systèmes qui peuvent apprendre directement à partir des informations qui leur sont données, sans avoir à s’appuyer sur des ensembles de données soigneusement étiquetés pour leur apprendre à effectuer une tâche comme la reconnaissance d’un objet dans une photo ou la traduction d’un bloc de texte.

publicité

Une révolution majeure

L’apprentissage autodidacte suscite beaucoup d’intérêt ces derniers temps. Il permet en effet de réduire considérablement le nombre de données à étiqueter manuellement – une tâche qui prend beaucoup de temps et dont la plupart des chercheurs et des organisations préféreraient se passer. Dans le même temps, sans avoir besoin d’un ensemble de données conservé, un modèle d’autosurveillance peut fonctionner avec des ensembles de données plus importants et plus diversifiés.

Dans certains domaines, en particulier le traitement du langage naturel, la méthode a déjà permis de réaliser des percées majeures : des algorithmes formés sur des quantités toujours plus importantes de texte non étiqueté ont permis de faire progresser des applications comme la réponse aux questions, la traduction automatique, l’inférence en langage naturel.

En revanche, la vision par ordinateur n’a pas encore fait le grand saut dans la révolution de l’apprentissage autodidacte. Comme l’explique Priya Gopal, ingénieure logiciel chez Facebook AI Research, le SEER constitue une première dans ce domaine. « Le SEER est le premier modèle de vision par ordinateur entièrement auto-surveillé qui est formé sur des images aléatoires sur internet, par rapport aux travaux auto-surveillés existants en vision par ordinateur qui ont été formés sur l’ensemble de données hautement curées d’ImageNet », explique cette dernière, interrogée par ZDNet.

ImageNet est une base de données à grande échelle contenant des millions d’images qui ont été étiquetées par les chercheurs et ouvertes à la communauté de la vision par ordinateur pour faire progresser les développements en matière d’IA. La base de données du projet a été utilisée comme référence par les chercheurs de Facebook pour évaluer les performances du modèle SEER, qui ont constaté que ce dernier surpassait les systèmes d’IA supervisés de pointe pour des tâches telles que les prises de vue en rase-mottes, la détection d’objets, la segmentation et la classification d’images.

Un entraînement hors du commun

« Le SEER surpasse les modèles autodidactes existants en s’entraînant sur des images aléatoires », explique Priya Goyal. « Ce résultat indique essentiellement que nous n’avons pas besoin d’ensembles de données aussi bien conservés qu’ImageNet en vision par ordinateur, et que l’auto-surveillance sur des images aléatoires produit des modèles de très haute qualité. »

Au vu du degré de sophistication qu’exige l’apprentissage autodidacte, le travail des chercheurs n’a pas été sans difficulté. En ce qui concerne le texte, les modèles d’IA ont pour tâche d’attribuer un sens aux mots ; mais pour les images, l’algorithme doit décider comment chaque pixel correspond à un concept – tout en tenant compte des différents angles, vues et formes qu’un même concept peut prendre dans différentes images. En d’autres termes, les chercheurs avaient besoin de beaucoup de données, et d’un modèle capable de dériver tous les concepts visuels possibles à partir de ce réservoir d’informations complexe.

Pour mener à bien cette tâche, les équipes de Facebook ont adapté un nouvel algorithme issu des travaux existants de l’IA de Facebook sur l’apprentissage autodidacte. Baptisé SwAV, ce dernier regroupe les images montrant des concepts similaires dans des groupes séparés. Les scientifiques ont également conçu un réseau convolutionnel – un algorithme de deep learning qui modélise les schémas de connectivité des neurones du cerveau humain pour attribuer de l’importance à différents objets dans une image.

Un usage nouveau des GPU

Avec un ensemble de données basé sur Instagram et comptant un milliard d’éléments, l’échelle du système était pour le moins importante. L’équipe de Facebook a utilisé des GPU V100 Nvidia avec 32 Go de RAM, et comme la taille du modèle augmentait, elle a dû l’adapter à la RAM disponible. Priya Goyal fait valoir que des recherches supplémentaires seront utiles pour s’assurer que les capacités de calcul sont adaptées au nouveau système.

« Comme nous formons le modèle sur de plus en plus de GPU, la communication entre ces GPU doit être rapide pour une formation plus rapide. Un tel défi pourrait être relevé en développant des logiciels et des techniques de recherche clairs et efficaces pour la mémoire et le budget d’exécution donnés », explique cette dernière. Bien qu’il reste donc du pain sur la planche avant que le SEER puisse être utilisé dans des cas d’utilisation réels, celle-ci soutient qu’il ne faut pas sous-estimer l’impact de cette technologie.

« Avec le SEER, nous pouvons maintenant faire de nouvelles avancées dans le domaine de la vision par ordinateur en formant de grands modèles sur une grande quantité d’images aléatoires sur internet », fait-elle valoir. « Cette percée pourrait permettre une révolution de l’apprentissage autodidacte en vision par ordinateur, similaire à ce que nous avons vu dans le traitement du langage naturel avec du texte. »

Au sein de Facebook, le SEER pourrait être utilisé pour un large éventail de tâches de vision par ordinateur, allant de la génération automatique de descriptions d’images à l’aide à l’identification de contenus violant les politiques. En dehors de l’entreprise, la technologie pourrait également être utile dans des domaines où les images et les métadonnées sont limitées, comme l’imagerie médicale. Facebook entend encore accélérer dans ses recherches et vient de développer une bibliothèque polyvalente basée sur PyTorch pour l’apprentissage autodidacte. Baptisée VISSL, celle-ci doit encourager la communauté élargie de l’IA à tester la technologie.

Source : ZDNet.com

Leave a Reply

%d bloggers like this: