Soluciones de Big Data al alcance de ratón
Nuestras soluciones han estado generando datos de forma constante durante muchos años; sin embargo, no ha sido hasta ahora cuando muchos se han dado cuenta que todos esos datos pueden ser transformados en información que aporte una clara ventaja a nuestra solución frente a la de nuestros competidores. A la hora de recogerla, procesarla y analizarla necesitamos herramientas que se adecúen a nuestros objetivos y nos faciliten el trabajo. No es lo mismo trabajar con unos pocos MB de datos que con varios GB o PB generados durante meses o años.
Para hablar de Big Data generalmente se habla de las tres V:
- Volumen, es decir, el procesamiento de grandes cantidades de datos. Generalmente si el volumen de la información no es elevado es complicado desarrollar modelos que analicen de forma adecuada esta información. En muchos casos estos volúmenes de datos van más allá de lo que de forma general las bases de datos relacionales están acostumbradas a trabajar.
- Velocidad, el ritmo con el que los datos son generados. Esto es algo muy visible en todo el espectro de las soluciones del Internet de las Cosas, donde miles de dispositivos está enviando información de forma constante a nuestros servidores.
- Variación, en muchos casos no tendremos datos perfectamente estructurados y ordenados que nos permitan trabajar con ellos de forma directa. En la mayoría de las ocasiones estos datos necesitan ser procesados para ser tratados de forma correcta.
Debido a las escalas de almacenamiento y computación de las que estamos hablando, no es sencillo alojar este tipo de soluciones de forma directa en nuestra propia infraestructura. Es ahí donde plataformas de Cloud como Azure nos proporcionan los recursos adecuados durante el tiempo necesario para ejecutar nuestras tareas y análisis.
Microsoft dispone de una solución completa en el área de Big Data que va desde la ingesta de la información hasta su análisis y la extracción de modelos. Alguno de los servicios ya disponibles en Azure son:
- Stream Analytics: una solución de ingesta masiva de información que te permite recibir millones de eventos por segundo de forma fiable y con un rendimiento predecible. Ideal para recoger la información de sensores u otros dispositivos.
- Data Lake Store: el servicio para alojar petabytes de información en la nube para ser empleado en las tareas de análisis de Big Data. Ofrece un sistema de ficheros distribuido sin tamaño límite de fichero o de cuenta para alojar almacenamiento estructurada o no.
- HDInsight: un clúster de Hadoop directamente para ser empleado optimizando los tiempos de despliegue y puesta en producción de nuestra solución. Ofrece soporte a Spark, HBase y Storm tanto en Windows como en Linux de forma fácil.
- Data Factory: la pieza clave para construir nuestros flujos de datos y las transformaciones necesarias para nuestros análisis.
Sin embargo, es posible que ya estéis utilizando alguna solución de terceros para cubrir alguna de las áreas comentadas en los puntos anteriores. No hay problema, si estáis interesados en llevaros dichas soluciones a la nube, gracias al Marketplace de Azure puedes encontrar una gran colección disponible para desplegarlas directamente sobre Azure y obtener las ventajas de la nube.
Por ejemplo, si quieres construir tu propia solución de Big Data en un modelo de IaaS tienes disponibles los servicios de HortonWorks o Cloudera.
Hortonworks ofrece una solución de Big Data abierta basada en Hadoop en la que se basa el servicio que ofrece en modelo de PaaS bajo el nombre de HDInsight. Unifica e integra las diferentes soluciones disponibles: Hadoop, Spark, Storm, HBase, Kafka, Hive, Ambari y Yarn para facilitar la puesta en marcha de tus soluciones de Big Data. Su versión de Sandbox ofrece la opción de evaluar de forma completa la plataforma con más de 50 tutoriales listos para probar de forma práctica su solución de Hadoop, Spark, Storm, HBase, Kafka, Hive, Ambari y Yarn.
La solución de Cloudera, con Cloudera Enterprise ejecutándose sobre CentOs. Ofrecen también la opción de construir tu propia plataforma de Big Data empleando las herramientas open source de la Apache Foundation como Hortonworks junto con el soporte y las herramientas de carácter empresarial necesarias para tener una solución completa en tus entornos críticos.
Pero también tienes soluciones construidas por terceros que pueden ser consumidas directamente y sacarles el máximo provecho sin necesidad de entrar en las complicaciones de construir una nueva solución desde cero. Por ejemplo, el caso de LogTrust.
En entornos grandes de infraestructura es complicado realizar una gestión efectiva de qué está sucediendo en los registros de Logs de nuestra aplicación. LogTrust proporciona una solución PaaS en tiempo real para la recogida, tratamiento, correlación, creación de dashboards y consultas de la información de todos nuestros logs de forma unificada.
Incluso otras herramientas como ZoomData Server que permiten que cuando trabajamos con grandes cantidades de información podamos facilitar a a los usuarios su consumo de forma visual e interactiva. Se integra sin problemas con sistemas como HD Insights, Cloudera, Apache Spark, No Sql, etc. y también con bases de datos relacionales y otras soluciones de nube populares.
Estas son algunas de las más de 3.500 soluciones disponibles a día de hoy en el Marketplace de Azure listas para ser desplegadas y empezar a usarlas. Ya puedes elegir la que mejor se ajuste a lo que necesitas.Un saludo
José Ángel Fernández
Technical Evangelist