Data Lakehouse forme peu à peu l'avenir de l'analyse de l'IoT


Le marché du stockage et de l'analyse des données s'est transformé, passant des limites structurées de l'entreposage de données aux territoires considérables et inexplorés des lacs de données. Avec l'évolution du stockage et du contrôle des enregistrements, un concept unique est apparu, comblant la distance entre les lacs de données et les entrepôts de données - le "Data Lakehouse".

Alors que l'infrastructure IoT s'étend chaque jour, il en va de même pour les complexités associées au traitement des volumes de données qui nécessitent un stockage et une classification. Voyons comment la dernière approche de stockage des données modifie l'analyse de l'industrie de l'IoT et appliquée avec d'autres solutions.

Les principaux concepts : Entrepôt de données, lac de données, lac de données 

À l'origine, l'entreposage de données impliquait un système de stockage de données structurées pour les besoins spécifiques de l'entreprise en matière de renseignements et de rapports. Parallèlement, les entreprises ont pris conscience de la valeur des données non structurées - des éléments bruts et désordonnés tels que des images ou des vidéos, qui constituent souvent la majeure partie des données de l'entreprise. Elles recèlent des informations, telles que celles qui sont cachées dans des années d'interactions par courrier électronique avec les clients ou dans les enregistrements vidéo de la chaîne de production. Malheureusement, elles ne correspondent pas à l'approche structurée offerte par les entrepôts de données. C'est ainsi que sont apparus les lacs de données, qui offrent un moyen simple de stocker les données à l'état brut et non traité. Bien qu'ils soient incontestablement puissants en tant qu'outils de stockage de données, les lacs de données présentent également des défis spécifiques, notamment en ce qui concerne la gouvernance des données, la confidentialité, les complexités techniques et l'absence d'indexation ou de structure des données. 

Selon Gartner, on assiste à une évolution vers la convergence des entrepôts de données et des lacs de données, ce qui aboutit à une solution unifiée connue sous le nom de "data lakehouse". Elle intègre les fonctionnalités des deux, avec pour objectif principal d'améliorer l'agilité analytique globale tout en diminuant la redondance des données, en simplifiant l'architecture des données et en fournissant une vue sémantique cohérente pour toutes les données analytiques. Tout comme les lacs de données, les entrepôts de données stockent à la fois des données structurées et non structurées, ce qui élimine la nécessité de disposer d'infrastructures distinctes pour les entrepôts de données et les lacs de données. Dans les scénarios où les deux sont utilisés, les données de l'entrepôt alimentent généralement les analyses de veille stratégique (BI), tandis que les données du lac servent à la science des données, qui peut englober l'IA, par exemple l'apprentissage automatique, et le stockage pour des cas d'utilisation futurs qui restent à définir. 

Pour en savoir plus sur la différence entre les trois architectures de données, consultez IDC Perspective : Data Warehouses, Lakes, and Lakehouses.

 

Quel stockage de données choisir et à qui s'adresse-t-il ? 

Un segment important des utilisateurs de lacs de données comprend des organisations qui cherchent à progresser dans leur parcours analytique, en passant de la business intelligence (BI) de base au domaine de l'intelligence artificielle (AI). Par exemple, dans le contexte d'une ville intelligente, au cours de la phase BI, une administration municipale peut déployer des capteurs IoT pour collecter des données sur le trafic et l'environnement à des fins de reporting et d'analyse fondamentale. Au fur et à mesure qu'elle progresse, l'intégration de l'IA permet l'optimisation dynamique des feux de circulation, la prédiction des embouteillages et l'amélioration de la planification urbaine grâce à l'analyse des données provenant de divers capteurs et canaux. 

Comparaison des stockages de données par le Gartner Data & Analytics Summit 2023 


Simultanément, le choix entre un lac de données, un entrepôt de données, un entrepôt de données ou même un hub de données implique le cas d'utilisation unique et les exigences de chaque organisation. Dans de nombreux cas, elles nécessitent le déploiement de deux ou plusieurs de ces solutions de données. Prenons par exemple un scénario dans le secteur des soins de santé. Une organisation peut utiliser un lac de données pour gérer de vastes volumes de données non structurées sur les patients pour des applications de recherche et de science des données. Elle pourrait également utiliser un entrepôt de données pour générer des rapports sur les résultats des patients et les activités de l'hôpital. En outre, un hub de données peut être mis en œuvre pour distribuer des données médicales contrôlées à diverses parties prenantes. Enfin, un lac de données pourrait être utilisé pour des analyses avancées, en fusionnant les informations provenant du lac de données sur les patients et de l'entrepôt de données structurées afin d'améliorer les systèmes d'aide à la décision clinique. 

Hubs, Lakes et Warehouses travaillent ensemble Gartner Data & Analytics Summit 2023  

L'entrepôt de données et ses avantages dans l'IoT  

Le data lakehouse intègre des couches de métadonnées, qui servent d'intermédiaires entre les données non structurées et les données à catégoriser. Cela améliore la classification et l'indexation des données brutes, les transformant en données structurées et organisées grâce à des processus tels que les transactions ACID (Atomicité, Cohérence, Isolation, Durabilité). D'autres caractéristiques englobent une architecture découplée, permettant des flux de données en temps réel directement accessibles par des outils analytiques, améliorant le traitement des données et simplifiant l'extraction d'informations. Les raisons d'adopter le data lakehouse dans le contexte des applications IoT sont suffisamment fortes : 

  • Variété des données de l'IoT. L'IoT génère un large éventail de types de données, englobant des données structurées provenant de capteurs et des données non structurées provenant de sources telles que les images, le texte et la voix. Il s'agit là d'une tâche spécifique du data lakehouse. 

  • Traitement en temps réel. L'IoT implique fréquemment des flux de données en temps réel ou quasi réel. Le data lakehouse s'aligne parfaitement sur le besoin de traitement des données IoT en temps réel pour permettre une prise de décision rapide et l'extraction d'informations. 

  • Science des données et IA. Les données IoT servent de ressource précieuse pour les applications de science des données et d'IA, notamment la maintenance prédictive, la détection d'anomalies et l'optimisation. La capacité de stocker et d'analyser des données IoT non structurées au sein d'un data lakehouse permet aux organisations d'utiliser l'IA et l'apprentissage automatique pour obtenir des insights précieux. 

  • Gestion des données et conformité. Dans le domaine de l'IoT, où les considérations de sécurité et de réglementation sont primordiales, le data lakehouse introduit des procédures automatisées de gouvernance des données et de conformité. Ces procédures permettent aux organisations de gérer en toute sécurité les données IoT tout en respectant les réglementations en matière de confidentialité.  

  • Analyse avancée et IA. Les données IoT contiennent parfois des insights qui ne peuvent être extraits que par des analyses avancées, telles que la vision par ordinateur ou le traitement du langage naturel. Un data lakehouse permet d'appliquer ces méthodes d'analyse avancée aux données IoT. Dans le même temps, le data lakehouse soutient la transition de nombreuses organisations des applications IoT axées sur la BI vers des cas d'utilisation davantage axés sur l'IA. Explorez plus en détail le stockage de données axé sur l'IoT et découvrez les tendances marketing au sein de la niche dans l'étude d'ABI Technologies de stockage de données IoT Alors que les organisations poursuivent leur parcours analytique, le choix entre lac de données, entrepôt de données, data lakehouse ou hub de données reste crucial, avec la flexibilité de déployer plusieurs solutions simultanément, adaptées à des cas d'utilisation spécifiques, à des exigences et à des résultats potentiels. Cependant, le data lakehouse trace progressivement la voie vers un avenir plus intelligent et mieux informé.  

Explorez plus en détail le stockage de données avec un accent sur l'IoT et découvrez les tendances marketing au sein de la niche dans l'étude d'ABI sur les technologies de stockage de données IoT.

Alors que les entreprises poursuivent leur parcours analytique, le choix entre lac de données, entrepôt de données, lac de données ou hub de données reste crucial, avec la flexibilité de déployer plusieurs solutions simultanément, adaptées à des cas d'utilisation spécifiques, à des exigences et à des résultats potentiels. Cependant, le data lakehouse trace progressivement la voie vers un avenir plus intelligent et mieux informé.