Tendances 2021 : IA et entreposage de données dans le cloud : quoi de neuf cette année ?

Spread the love
  • Yum

Tendances 2021 : IA et entreposage de données dans le cloud : quoi de neuf cette année ?

S’il y a une prédiction évidente qui s’est avérée réelle au cours de l’an passé, c’est l’accélération de l’adoption de l’informatique dématérialisée. Il suffit de regarder les taux de croissance à deux chiffres de chacun des principaux cloud. Pour les entreprises, il s’agissait de s’adapter à l’environnement virtuel et aux chaînes d’approvisionnement limitées d’un monde soudainement confiné.

Il y a un an, nous considérions l’adoption du cloud comme une série d’étapes logiques, évoluant du DevTest au développement de nouvelles applications “in the cloud”, à l’adoption opportuniste de nouveaux services SaaS, la dernière étape étant maintenant envisagée avec le replatformage et/ou la transformation des applications dorsales de l’entreprise. Mais avec le recul, il n’est pas surprenant que l’adoption du cloud ait fait la une des journaux en 2020, avec des cas d’utilisation permettant aux entreprises de basculer dans ce qui est devenu la nouvelle norme, à savoir la nécessité de changer ou de développer de nouveaux services dans un paysage où le travail et la consommation sont de plus en plus virtuels et où les chaînes d’approvisionnement traditionnelles sont soumises à des tensions.

En 2020, le thème prédominant en matière de données, d’analyse et de services dans le cloud a donc été l’extension. Nous avons vu relativement peu de lancements de nouveaux services de base de données dans le cloud (Amazon Timestream et les services Oracle MySQL étant les principales nouveautés de l’année écoulée), mais plutôt l’extension des services existants avec de nouveaux caches, la fédération de requêtes, et les lancements de deuxième génération (ou dans certains cas, les relances) de bases de données en tant que services managés et cloud native.

Pour 2021, voici ce que je trouve essentiel concernant l’informatique dématérialisée et l’entreposage de données.

publicité

L’IA responsable et l’IA explicable seront liées en 2021

La question de l’IA responsable est mise en avant parce que l’IA devient de plus en plus omniprésente. Les entreprises suivent désormais l’exemple des services en ligne destinés au grand public qui intègrent de plus en plus l’IA dans chaque transaction banale. Et les rampes d’accès s’élargissent maintenant que les services d’AutoML se développent. Par exemple, il y a quelques semaines, AWS a mis à jour SageMaker avec un nouveau magasin de fonctionnalités, et l’automatisation du pipeline de données, de nouveaux modèles de “démarrage rapide” prédéfinis et des capacités de pilotage automatique qui permettent aux développeurs de bases de données SQL d’exécuter des modèles prédictifs.

S’assurer que l’IA est responsable et aussi peu biaisée que possible est un défi suffisant si vous êtes un spécialiste des données ; ce défi est amplifié lorsque vous ouvrez les portes à des praticiens moins techniques. Il n’est pas question de revenir en arrière et de fermer les portes à tous ces utilisateurs non spécialistes. C’est pourquoi la technologie devra aider à maintenir l’IA dans le droit chemin. L’IA explicable sera essentielle pour rendre efficaces les initiatives d’IA responsable. Bien que l’IA explicable ne soit pas une panacée (il faut des êtres humains pour élaborer les critères d’autodocumentation des modèles), sans possibilité d’explication, les efforts visant à éliminer les préjugés seront peu productifs.

Le défi est qu’en 2020, nous n’avons pas vu beaucoup de progrès dans l’IA explicable. Nous espérons cependant que des efforts seront investis dans l’explicabilité en raison de la pression externe de la réglementation, reflétant le climat politique, en particulier en Amérique du Nord et en Europe occidentale, pour rendre les entreprises technologiques plus responsables.

L’apprentissage automatique dans la base de données devient un élément essentiel

Parfois, on peut avoir le beurre et l’argent du beurre.

A première vue, la deuxième vague de services DBaaS cloud native de fournisseurs allant de Microsoft à SAP, Oracle, Informatica, SAS et d’autres qui adoptent des services de calcul et de stockage séparés et des microservices pourrait sembler à contre-courant d’une autre tendance : le traitement dit “pushdown” des processus à forte intensité de données dans la base de données. Au cours de l’année à venir, nous verrons davantage l’apparition de ces deux types de traitement.

La technique de pushdown n’est pas nouvelle. D’un certain point de vue, on pourrait ramener cela à l’aube du mainframe, où les programmes et les données étaient imbriqués, mais la manifestation la plus moderne a émergé avec des procédures et des déclencheurs stockés dans des bases de données qui étaient en fait la carte de visite de Sybase dans les années 1990. Et la clé qui explique pourquoi les clients de Wall Street se sont obstinément accrochés à une plateforme peu à la mode, et dont nous attendons cette année que SAP lui redonne vie.

Nous le voyons avec la ruée vers les capacités de ML dans la base de données. Pratiquement tous les entrepôts de données DBaaS prennent en charge une forme ou une autre de formation et d’exécution des modèles ML à l’intérieur de la base de données. Le ML dans la base de données est devenu un élément essentiel parce que :

  • Le ML est avide de données.
  • Il est coûteux et inefficace de déplacer toutes ces données lorsqu’il existe une alternative au traitement en place.
  • Et de toute façon, dans certains cas, nous pourrions parler de pétaoctets de données. Qui veut payer pour déplacer tout cela, puis attendre que toutes ces données soient déplacées ?

Voici quelques exemples. AWS a récemment annoncé des previews de capacités de ML dans Redshift et de sa base de données de graph Neptune. Microsoft prend en charge le traitement des modèles ML dans les pools SQL et Spark gérés par Azure Synapse Analytics. Google BigQuery permet d’exécuter une dizaine de types d’algorithmes ML différents dans la base de données. Oracle supporte depuis longtemps le traitement R et Python dans la base de données. Par ailleurs, Snowflake prend en charge l’ingénierie des fonctionnalités en utilisant le pushdown SQL d’outils ML tels que Dataiku, Alteryx et Zepl, ainsi que l’intégration avec des outils AutoML comme DataRobot, Dataiku, H20.ai et Amazon SageMaker, entre autres capacités.

Et quoi de neuf côté Lakehouse ?

L’entrepôt de données (data wharehouse) versus le lac de données (data lake) a été la tendance la plus débattue l’an passé. Les partisans des entrepôts de données citent les architectures cloud native pour leur donner de l’évolutivité, et le support de données multimodèles leur permettant de supporter la variété associée aux lacs de données. Les partisans des lacs de données rétorquent que la taille est importante, en particulier lorsque l’on utilise des modèles d’IA à forte intensité de données, et que les technologies open source émergentes (par exemple, les moteurs d’interrogation Presto, Trino ; les formats de table comme Iceberg) peuvent rendre les lacs de données presque aussi performants que les entrepôts de données.

La différence entre Data Wharehouse, Data Lake, et Lakehouse selon Databricks. Dans le cas des Data Wharehouse, les données sont préparées en dehors de l’espace de stockage. Dans le cas des Data Lake, les données sont préparées dans l’espace de stockage. Dans le cas des Data Lakehouse, il s’agit d’un système hybride entre les deux modèles.

La réalité est que les entrepôts de données et les lacs de données ont chacun leurs propres forces. Oui, les entrepôts de données dans le cloud peuvent désormais s’aventurer sur un territoire de plusieurs pétaoctets, mais l’obstacle pour la plupart des entreprises sera économique : à ces échelles, les lacs de données seront plus économiques. De même, quel que soit le degré d’optimisation du moteur de recherche, les lacs de données reposent sur l’analyse des fichiers, et cela ne sera jamais aussi efficace que d’avoir des tableaux où les données peuvent être indexées, compressées et filtrées.

Les approches qui poussent le traitement jusqu’à l’endroit où se trouvent les données sont mieux adaptées au cloud car le mouvement des données peut être minimisé. Dans le cloud, cela signifie qu’il faut fédérer les requêtes pour atteindre le stockage des objets dans le cloud. Les entrepôts de données d’AWS, Azure, GCP et Snowflake ont déjà accès au stockage dans le cloud soit par le biais de requêtes fédérées, soit par leurs propres moteurs de requêtes spécialisés, et nous pensons qu’Oracle et SAP ajouteront ces capacités cette année.

Le Data Lakehouse est une nouvelle initiative qui continue là où la requête fédérée s’arrête. Introduit par Databricks il y a un an, il s’agit d’un système qui est un hybride d’un entrepôt de données et d’un lac de données. Le terme a été soutenu par Snowflake, et plus récemment adopté par Informatica. Pour un terme introduit il y a à peine un an, à ce stade, trois acteurs, c’est beaucoup, ce qui signifie que nous verrons probablement ce terme beaucoup plus souvent cette année. Les centres de données n’utilisent pas nécessairement l’entrepôt de données relationnel comme point d’entrée, mais s’appuient plutôt sur des formats de données “ouverts”, le plus probable étant Parquet ou CSV.

A l’avenir, nous ne pensons pas que l’entrepôt de données, réimaginé comme un lac de données relationnelles, ou un data lakehouse, rendra nécessairement les lacs de données obsolètes. En fin de compte, ce sont vos développeurs qui détermineront le choix. Les développeurs de bases de données SQL classiques opteront probablement pour le lac de données relationnel, tandis que les scientifiques de données et les développeurs de données utilisant des langages comme Java ou Python préféreront probablement les lacs de données, ou si leur scepticisme naturel est pris en compte, les data lakehouse. Dans de nombreuses organisations, le choix entre entrepôt de données, lac de données et/ou data lakehouse ne sera pas une décision à prendre à la légère.

Pour aller plus loin sur les technologies à surveiller en 2021, lire aussi :

Source : ZDNet.com

Leave a Reply

%d bloggers like this: