Data Lakehouse forma poco a poco el futuro de la analítica del IoT


El mercado de almacenamiento y análisis de datos ha sido testigo de un viaje transformador, evolucionando desde los confines estructurados del almacenamiento de datos hasta los considerables territorios inexplorados de los lagos de datos. Con la evolución del almacenamiento y control de registros, ha surgido un concepto único que salva la distancia entre los lagos de datos y los almacenes de datos: el "data lakehouse". 

A medida que la infraestructura de IoT se amplía cada día, también lo hacen las complejidades asociadas a la gestión de los volúmenes de datos que requieren almacenamiento y clasificación. Repasemos cómo el último enfoque de almacenamiento de datos cambia la analítica del sector IoT y cómo se aplica junto con otras soluciones.


Conceptos principales: Data Warehouse, Data Lake, Data Lakehouse

Originalmente, el almacenamiento de datos implicaba un sistema estructurado de almacenamiento de datos para necesidades específicas de inteligencia empresarial e informes. Al mismo tiempo, las empresas se dieron cuenta del valor de los datos no estructurados, es decir, los datos en bruto y desordenados, como imágenes o vídeos, que a menudo constituyen la mayor parte de los datos de la empresa. Contienen información, como la que se esconde en años de interacciones con clientes por correo electrónico o en extensos registros de vídeo de líneas de producción. Por desgracia, no se ajusta al enfoque estructurado que ofrecen los almacenes de datos.

Como resultado, surgieron los lagos de datos, que ofrecen una forma sencilla de almacenar datos en bruto, sin procesar. Aunque sin duda son potentes como herramientas de almacenamiento de datos, los lagos de datos también presentan retos específicos, como las preocupaciones sobre la gobernanza de los datos, la privacidad, las complejidades técnicas y la ausencia de indexación o estructura de los datos.

Según la perspectiva de Gartner, se está produciendo un cambio hacia la convergencia de los almacenes de datos y los lagos de datos, dando lugar a una solución unificada conocida como data lakehouse. Integra las funcionalidades de ambos, con el objetivo principal de mejorar la agilidad analítica general al tiempo que disminuye la redundancia de datos, simplifica la arquitectura de datos y proporciona una visión semántica coherente para todos los datos analíticos.

Al igual que los lagos de datos, los data lakehouses almacenan datos estructurados y no estructurados, eliminando la necesidad de infraestructuras separadas de data warehouse y data lake. En los casos en que se emplean ambos, los datos del almacén suelen alimentar los análisis de inteligencia empresarial (BI), mientras que los del lago sirven para fines de ciencia de datos, que pueden abarcar IA, por ejemplo aprendizaje automático, y almacenamiento para futuros casos de uso aún por definir.

Obtén más información sobre la diferencia entre las tres arquitecturas de datos en IDC Perspective: Data Warehouses, Lakes, and Lakehouses

 

¿Qué almacenamiento de datos elegir y a quién va dirigido? 

Un segmento significativo de usuarios de data lakehouse está formado por organizaciones que buscan progresar en su viaje analítico, pasando de la inteligencia empresarial básica (BI) al reino de la inteligencia artificial (AI). Por ejemplo, en el contexto de una ciudad inteligente, durante la fase de BI, el gobierno de una ciudad puede desplegar sensores IoT para recopilar datos de tráfico y medioambientales para la elaboración de informes y análisis fundamentales. A medida que avanzan, la integración de la IA permite la optimización dinámica de las señales de tráfico, la predicción de atascos y la mejora de la planificación urbana mediante el análisis de datos procedentes de diversos sensores y canales.

Comparación de los almacenamientos de datos por Gartner Data & Analytics Summit 2023 

Al mismo tiempo, la selección entre un data lake, un data warehouse, un data lakehouse o incluso un data hub implica el caso de uso y los requisitos únicos de cada organización. En numerosos casos, requieren la implantación de dos o más de estas soluciones de datos. Por ejemplo, consideremos un escenario en el sector sanitario. Una organización podría emplear un lago de datos para gestionar grandes volúmenes de datos no estructurados de pacientes para aplicaciones de investigación y ciencia de datos. También podrían utilizar un almacén de datos para generar informes sobre los resultados de los pacientes y las operaciones del hospital. Además, podría implementarse un centro de datos para distribuir productos de datos médicos controlados a diversas partes interesadas. Por último, se podría utilizar un lago de datos para el análisis avanzado, fusionando la información del lago de datos de pacientes y el almacén de datos estructurados para mejorar los sistemas de apoyo a la toma de decisiones clínicas.


Hubs, lagos y almacenes trabajan juntos Gartner Data & Analytics Summit 2023 


Data Lakehouse y sus ventajas en IoT


El data lakehouse incorpora capas de metadatos, que actúan como intermediarios entre los datos no estructurados y los datos para categorizar. Esto mejora la clasificación e indexación de los datos en bruto, transformándolos en datos estructurados y organizados mediante procesos como las transacciones ACID (Atomicity, Consistency, Isolation, Durability). Otras características incluyen una arquitectura desacoplada, que permite flujos de datos en tiempo real directamente accesibles por las herramientas analíticas, mejorando el procesamiento de datos y simplificando la extracción de información.

Las razones para adoptar el data lakehouse en el contexto de las aplicaciones IoT son de peso:

  • Variedad de datos de IoT. La IoT genera una gran variedad de tipos de datos, que abarcan datos estructurados procedentes de sensores y datos no estructurados procedentes de fuentes como imágenes, texto y voz. Esta es una tarea específica de Data Lakehouse para gestionarla.

  • Procesamiento en tiempo real. La IoT implica con frecuencia flujos de datos en tiempo real o casi real. Los almacenes de lagos de datos se adaptan perfectamente a la necesidad de procesar los datos de IoT en tiempo real para permitir una toma de decisiones y una extracción de información rápidas.

  • Ciencia de datos e IA. Los datos de IoT son un recurso valioso para las aplicaciones de ciencia de datos e inteligencia artificial, como el mantenimiento predictivo, la detección de anomalías y la optimización. La capacidad de almacenar y analizar datos de IoT no estructurados en un lago de datos permite a las organizaciones utilizar la IA y el aprendizaje automático para obtener información valiosa.

  • Gobernanza de datos y conformidad. En el ámbito del IoT, donde la seguridad y las consideraciones normativas son primordiales, el lago de datos introduce procedimientos automatizados de gobierno y cumplimiento de datos. Estos procedimientos permiten a las organizaciones gestionar de forma segura los datos de IoT, respetando al mismo tiempo la normativa sobre privacidad. 

  • Análisis avanzado e IA. Los datos IoT a veces contienen información que sólo puede extraerse mediante análisis avanzados, como la visión por ordenador o el procesamiento del lenguaje natural. Un lago de datos permite la aplicación de estos métodos analíticos avanzados a los datos IoT. Al mismo tiempo, data lakehouse apoya la transición de muchas organizaciones de aplicaciones IoT centradas en BI a casos de uso más orientados a la IA.  

Explora más sobre el almacenamiento de datos con foco en IoT y encuentra más sobre las tendencias de marketing dentro del nicho en la investigación de ABI IoT Data Storage Technologies 

A medida que las organizaciones continúan su viaje analítico, la elección entre data lake, data warehouse, data lakehouse o data hub sigue siendo crucial, con la flexibilidad de desplegar múltiples soluciones simultáneamente, adaptadas a casos de uso específicos, requisitos y resultados potenciales. Sin embargo, el data lackehouse está trazando poco a poco el camino hacia un futuro más inteligente e informado.