SQL SERVER 2012 EN EL ECOSISTEMA BIG DATA: ÍNDICES ORIENTADOS A COLUMNAS

El concepto Big Data cobra cada vez más protagonismo  en foros técnicos, postgrados universitarios y eventos. ¿Estamos a las puertas de una gran revolución, o en cambio se trata de un conjunto de nuevas herramientas de alcance limitado dentro del panorama tecnológico global? En el último mes he tratado este tema diversas veces, en reuniones con clientes o en conversaciones con compañeros, dentro o fuera del alcance de la reunión y en diferentes contextos.

Cuanto más tiempo pasa, lo que está cada vez queda más claro es que estamos inmersos en una revolución en el campo del almacenamiento y tratamiento de datos.

La necesidad de análisis de los datos de los que disponen las empresas sigue aumentando año tras año, y éstos se vuelven cada vez más heterogéneos.

Hasta no hace mucho, los departamentos de IT ponían a disposición de sus organizaciones soluciones BI que explotaban únicamente una parte de los datos disponibles, básicamente aquellos datos que eran capaces de normalizar y estructurar adecuadamente. Además, estas soluciones debían de lidiar con problemas de rendimiento si el tamaño empezaba a hacerse demasiado grande para que los entornos de análisis lo manejaran adecuadamente.

El panorama ha cambiado drásticamente y la realidad es que ahora las organizaciones necesitan analizar no sólo los datos “fácilmente” estructurables, sino informaciones contenidas entre tweets, comentarios de muros en redes sociales, contenido de e-mails, documentos… y no pueden contentarse con tener una parte de ellos, los necesitan todos.

En respuesta a este reto, nuevas (y no tan nuevas) tecnologías de almacenamiento y procesamiento de bases de datos están emergiendo con fuerza para intentar dar solución a los nuevos problemas planteados.

Podemos resumirlos, de manera muy rápida en este cuadro:

cuadro1

Todo este tipo de bases de datos empieza a disponer de un buen número de implementaciones que facilitan su uso para cualquier tipo de aplicación, implique ésta o no la movilización de grandes volúmenes de datos dentro de sus procesos.

¿Significa esto el fin de las bases de datos relacionales tradicionales?

No son pocos los gurús tecnológicos que empiezan a “profetizarlo”, pero más allá de adivinar el futuro, sí es cierto que los cambios están calando y están llegando a los grandes clásicos como SQL SERVER u ORACLE.

SQL Server es un motor de base de datos de uso general que tradicionalmente almacena los datos por filas. Como novedad, Microsoft SQL Server 2012 introduce un nuevo tipo de índice llamado “column store index” y un nuevo conjunto de operadores que ayudan al procesado de múltiples filas simultáneamente. Estas dos nuevas funcionalidades juntas incrementan de forma muy importante el rendimiento de las consultas en almacenes de datos, en algunos casos hasta en dos órdenes de magnitud.

En otras palabras, en SQL Server 2012 un índice puede ser almacenado o bien orientado a filas en un árbol B (B-tree) o en un índice orientado a columnas.  Este índice orientado a columnas está puramente orientado a columnas, en el sentido de que cada columna se almacena en una página diferente. Esto mejora el rendimiento de las operaciones I/O y hace un uso más eficiente de la memoria.

figura1

Los nuevos índices orientados a columnas están totalmente integrados en el sistema, esto es, para mejorar el rendimiento de un típico almacén de datos, lo único que debe hacerse es construir los índices orientados a columnas en las tablas de “hechos” o en las tablas de dimensiones grandes (por ejemplo: más de 1 millón de filas). Tras esto, las consultas pueden enviarse sin ningún cambio, es el “Optimizer” el que posteriormente decidirá de forma automática si utilizar un índice en árbol B o uno orientado a columnas. El resultado en algunas consultas puede mejorar su velocidad hasta 100 veces.

Las ventajas de este nuevo índice son múltiples, pero si nos centramos en un enfoque usuario/cliente, podemos encontrar beneficios en algunos de los factores claves de éxito para una solución de explotación de datos:

  • Exploración de datos más rápida
  • Menos tiempos de espera en la generación de informes y dashboards
  • Reduce la necesidad de mantener una copia separada de los datos en un servidor OLAP para análisis
  • Menor necesidad de disco y CPU
  • Reducción general de costes

Está claro que algo está cambiando en los sistemas de almacenamiento de datos. Nuevas soluciones, no necesariamente relacionales, dan mejor rendimiento que los clásicos sistemas a los nuevos retos que el gran volumen de datos existente plantea actualmente.

Microsoft no se ha querido quedar atrás y ha implementado una solución que permite la consulta ágil de grandes volúmenes de datos integrándola en su actual tecnología relacional. La implementación es sencilla y el beneficio inmediato. Con esta nueva característica se cubren algunas de las necesidades surgidas, veremos cómo se solucionan las restantes.

Para más información sobre índices orientados a columnas puedes visitar la Biblioteca Technet de Microsoft SQL Server.

Para saber más sobre cómo Sogeti puede ayudarle en el desarrollo de soluciones para su negocio, visite: www.es.sogeti.com/Soluciones/Soluciones-Microsoft/

Más información:

IMG_6282 - CopyAnna Almuni es licenciada en Matemáticas por la Universidad de Barcelona. Ha cursado postgrados en desarrollo de aplicaciones en .NET e implementación de soluciones BI. Trabajando en el sector IT desde 2003 en proyectos para diferentes organizaciones del sector público y privado, se incorpora a SOGETI en 2010 como jefe de proyecto.

Actualmente como Delivery Manager de la unidad de Microsoft, es la responsable de la supervisión del Delivery de la unidad de soluciones Microsoft en Barcelona, así como de dar soporte a las acciones de preventa de la unidad.

Autor: ITblogsogeti

Sogeti es una compañía tecnológica perteneciente al Grupo Capgemini y especialista en: Testing y Calidad de Software; Soluciones Microsoft y High Tech Consulting. En Sogeti entendemos la importancia de obtener el máximo valor empresarial de sus sistemas de IT, por ello somos líderes mundiales en Testing & QA.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

w

Conectando a %s