Hoy vengo a hablaros de una tecnología que con el tiempo está ganando mayor fuerza y esto es debido a que cada día obtenemos más información de nuestros negocios y en algunos casos, los sistemas tradicionales se quedan obsoletos para procesar tal cantidad de datos y no son fáciles de escalar. Hoy os hablo del elefante amarillo, Hadoop.
Hadoop es una plataforma de gestión y de almacenamiento de datos y análisis para Big Data inicialmente en open source. Se podría considerar como un Framework el cual está optimizado para manejar datos masivos a través de paralelismo, variedad de datos (Estructurados, No-estructurados, Menos estructurados) con un uso de hardware económico y no siendo compatible con OLTP / OLAP .
Para entender un poco la arquitectura se basa en un Sistema de archivos distribuidos y escalables escrito en Java (HDFS) el cual realiza replicaciones automáticas y esta optimizado para operaciones de lectura multitudinarias, además distribuye y copia los ficheros en diferentes nodos para garantizar backup y disponibilidad de la información. Otra capa seria MapReduce (ver figura 1).

Algunas de las principales diferencias entre entornos clásicos de datos y entornos NoSql son la rapidez de acceso y la cantidad de información que podemos alojar así como su forma.

HDInsght & Azure
Microsoft ha entrado en este mercado y ha desarrollado su propio Framework de Hadoop llamado HDInsight que se ejecuta en Windows, puede ser On premise: Instalación en Windows Server, o en Cloud: Despliegue en la nube Microsoft Azure.
HDInsight se ha diseñado para poder hacer frente a cualquier cantidad de datos, con la capacidad de escalar de terabytes a petabytes a petición, puede procesar datos no estructurados o semiestructurados desde secuencias de clics web, medios sociales, registros de servidor, dispositivos, sensores, xmls, mp3, videos etc.
Dispone de extensiones de programación eficaces para lenguajes como C#, Java, .NET para crear, configurar, enviar y supervisar trabajos de Hadoop. Con HDInsight, se puede implementar Hadoop en la nube sin comprar nuevo hardware ni incurrir en otros costes iniciales. Además, la instalación y configuración se realiza de forma rápida. Azure se encarga de todo. Se puede iniciar un clúster en minutos.
Dado que se integra con Excel, HDInsight permite visualizar y analizar los datos de Hadoop de nuevas y convincentes formas en una herramienta conocida para el usuario final. Desde Excel, el usuario pueden seleccionar Azure HDInsight como origen de datos (figura 3).

Posición de Microsoft

Mediante la Integración con el stack de Microsoft de Power BI y Hive ODBC Driver, Microsoft está extendiendo su liderazgo en Business Intelligence y de Data Warehousing para proporcionar información a todos los usuarios mediante la activación de nuevos tipos de datos de cualquier tamaño.
Por tanto en conectividad, programabilidad, seguridad, el bajo coste de extender en escenarios orientados con una innovación que fluye hacia arriba con nuevos modelos de cómputo y mejoras de rendimiento, hacen de esta plataforma un serio oponente en el mercado.
Descubre como desde SOGETI puede ayudarte en transformar la información de tu negocio en conocimiento.
BI Consultant and Cognitive Services Specialist| Soluciones Microsoft | SOGETI ESPAÑA
Pingback: La democratización de Big Data | itblogsogeti