Data Lakehouse forma gradualmente il futuro dell'analisi IoT

Il mercato dell'archiviazione e dell'analisi dei dati ha assistito a un viaggio di trasformazione, evolvendo dai confini strutturati del data warehousing ai territori considerevoli e inesplorati dei data lake. Con l'evoluzione dell'archiviazione e del controllo dei record, è emerso un concetto unico, che colma la distanza tra i data lake e i data warehouse: la "data lakehouse".

Con l'espandersi dell'infrastruttura IoT, ogni giorno aumentano anche le complessità associate alla gestione dei volumi di dati che richiedono archiviazione e classificazione. Vediamo come l'ultimo approccio all'archiviazione dei dati cambia l'analisi del settore IoT e come viene applicato insieme ad altre soluzioni.

I concetti principali: Data Warehouse, Data Lake, Data Lakehouse 

In origine, il data warehousing implicava un sistema di archiviazione di dati strutturati per esigenze specifiche di intelligence e reporting aziendale. Allo stesso tempo, le aziende si sono rese conto del valore dei dati non strutturati - pezzi grezzi e disordinati come immagini o video, che spesso costituiscono una parte importante dei dati aziendali. Questi dati contengono informazioni importanti, come quelle nascoste in anni di interazioni con le e-mail dei clienti o nelle registrazioni video delle linee di produzione. Purtroppo, non si allineano con l'approccio strutturato offerto dai data warehouse. Di conseguenza, sono nati i data lake, che offrono un modo semplice per archiviare i dati nel loro stato grezzo e non elaborato. Sebbene siano indubbiamente potenti come strumenti di archiviazione dei dati, i data lake presentano anche sfide specifiche, tra cui le preoccupazioni relative alla governance dei dati, alla privacy, alle complessità tecniche e all'assenza di indicizzazione o struttura dei dati.

Secondo la prospettiva di Gartner, è in atto un cambiamento verso la convergenza di data warehouse e data lake, che si traduce in una soluzione unificata nota come data lakehouse.

Integra le funzionalità di entrambi, con l'obiettivo primario di migliorare l'agilità analitica complessiva, riducendo la ridondanza dei dati, semplificando l'architettura dei dati e fornendo una visione semantica coerente per tutti i dati analitici. Come i laghi di dati, i data lakehouse archiviano sia i dati strutturati che quelli non strutturati, eliminando la necessità di infrastrutture separate per data warehouse e data lake. Negli scenari in cui vengono utilizzati entrambi, i dati warehouse alimentano in genere le analisi di business intelligence (BI), mentre i dati lake servono a scopi di data science, che possono comprendere l'intelligenza artificiale, ad esempio l'apprendimento automatico, e l'archiviazione per casi d'uso futuri ancora da definire.

Per saperne di più sulla differenza tra le tre architetture di dati, consultate IDC Perspective: Data Warehouse, Lake e Lakehouse.




 

Quale archiviazione dei dati scegliere e a chi si rivolge? 

Un segmento significativo di utenti di data lakehouse è costituito da organizzazioni che cercano di progredire nel loro percorso di analisi, passando dalla business intelligence (BI) di base al regno dell'intelligenza artificiale (AI). Ad esempio, nel contesto di una Smart City, durante la fase di BI, un'amministrazione comunale può implementare sensori IoT per raccogliere dati sul traffico e sull'ambiente per la reportistica e l'analisi di base.

L'integrazione dell'intelligenza artificiale consente di ottimizzare i segnali stradali in modo dinamico, di prevedere gli ingorghi e di migliorare la pianificazione urbana attraverso l'analisi dei dati provenienti da vari sensori e canali. 


Confronto tra gli archivi di dati di Gartner Data & Analytics Summit 2023  


Un'organizzazione potrebbe utilizzare un data lake per gestire grandi volumi di dati non strutturati sui pazienti per applicazioni di ricerca e data science. Inoltre, potrebbe utilizzare un data warehouse per generare report sui risultati dei pazienti e sulle operazioni ospedaliere. Inoltre, è possibile implementare un hub di dati per distribuire prodotti di dati medici controllati a vari stakeholder. Infine, un data lakehouse potrebbe essere utilizzato per l'analisi avanzata, unendo le informazioni provenienti dal data lake dei pazienti e dal data warehouse strutturato per migliorare i sistemi di supporto alle decisioni cliniche. 

Hub, laghi e magazzini lavorano insieme Gartner Data & Analytics Summit 2023  

Il data lakehouse e i suoi vantaggi nell'IoT 

Il data lakehouse incorpora strati di metadati, che fungono da intermediari tra i dati non strutturati e i dati da categorizzare. Questo migliora la classificazione e l'indicizzazione dei dati grezzi, trasformandoli in dati strutturati e organizzati attraverso processi come le transazioni ACID (Atomicità, Consistenza, Isolamento, Durata). Altre caratteristiche comprendono un'architettura disaccoppiata, che consente flussi di dati in tempo reale direttamente accessibili dagli strumenti analitici, migliorando l'elaborazione dei dati e semplificando l'estrazione di informazioni. Le ragioni per adottare il data lakehouse nel contesto delle applicazioni IoT sono abbastanza forti:

  • Varietà di dati IoT. L'IoT genera un'ampia gamma di tipi di dati, che comprendono dati strutturati provenienti da sensori e dati non strutturati provenienti da fonti quali immagini, testo e voce. Questo è un compito specifico dei data lakehouse per gestirli. 

  • Elaborazione in tempo reale. L'IoT comporta spesso flussi di dati in tempo reale o quasi. I data lakehouse si allineano perfettamente alla necessità di elaborare i dati IoT in tempo reale per consentire un rapido processo decisionale e l'estrazione di informazioni.

  • Scienza dei dati e IA. I dati IoT sono una risorsa preziosa per le applicazioni di data science e AI, tra cui la manutenzione predittiva, il rilevamento delle anomalie e l'ottimizzazione. La capacità di archiviare e analizzare i dati IoT non strutturati all'interno di un data lakehouse consente alle organizzazioni di utilizzare l'AI e l'apprendimento automatico per ottenere preziose informazioni. 

  • Governance e conformità dei dati. Nell'ambito dell'IoT, dove le considerazioni sulla sicurezza e sulle normative sono fondamentali, il data lakehouse introduce procedure automatizzate di governance e conformità dei dati. Queste procedure consentono alle organizzazioni di gestire in modo sicuro i dati IoT, rispettando le normative sulla privacy.  

  • Analisi avanzate e intelligenza artificiale. I dati IoT a volte contengono intuizioni che possono essere estratte solo attraverso analisi avanzate, come la computer vision o l'elaborazione del linguaggio naturale. Un data lakehouse consente di applicare questi metodi di analisi avanzata ai dati IoT. Allo stesso tempo, il data lakehouse supporta la transizione di molte organizzazioni da applicazioni IoT incentrate sulla BI a casi d'uso più orientati all'AI. Per saperne di più sull'archiviazione dei dati con focus sull'IoT e per conoscere le tendenze di marketing all'interno di questa nicchia, consulta la ricerca ABI sulle tecnologie di archiviazione dei dati IoT. Mentre le organizzazioni proseguono il loro percorso di analisi, la scelta tra data lake, data warehouse, data lakehouse o data hub rimane cruciale, con la flessibilità di implementare più soluzioni contemporaneamente, adattate a casi d'uso specifici, requisiti e risultati potenziali. Tuttavia, il data lackehouse sta gradualmente tracciando una rotta verso un futuro più intelligente e informato.


    Per saperne di più sull'archiviazione dei dati con particolare attenzione all'IoT e per conoscere le tendenze di marketing di questa nicchia, consulta la ricerca IoT Data Storage Technologies di ABI.


Mentre le aziende proseguono il loro percorso di analisi, la scelta tra data lake, data warehouse, data lakehouse o data hub rimane cruciale, con la flessibilità di implementare più soluzioni contemporaneamente, adattate a casi d'uso specifici, requisiti e risultati potenziali. Tuttavia, il data lackehouse sta gradualmente tracciando una rotta verso un futuro più intelligente e informato.