De un tiempo para aquí en anuncios de empleo, cursos, blogs,… el concepto de Data Science o el perfil de Data Science aparece en negrita.
Pero, ¿qué entendemos por Data Science? ¿A qué se refiere? ¿Es algo nuevo o se trata de técnicas ya conocidas a las que se les ha dado un lavado de cara?
El objetivo de la “Ciencia de Datos” es la explotación de las datos para obtener información de los mismos. Hasta aquí nada nuevo, pero ¿por qué ahora este término se escucha más? Está claro que el objetivo de sacar partido a toda la información digitalizada que acumulan las compañías está en la mente de CIO’s y CEO’s. Y allí aparece la ciencia de datos, con “nuevos” cargos como protagonistas cómo el Chief Data Officer (CDO)
Hace unos años la Harvard Bussines Review declaró que el científico de datos sería la profesión más sexy de los próximos tiempos.
¿Cuáles son los skills propios de un perfil DataScience?
Los conocimientos que se buscan son multidisciplinares:
- Conocimientos matemáticos y estadísticos: modelaje estadístico, máquinas de aprendizaje, árboles decisionales, clustering.
- Conocimientos de software y programación: conocimiento de lenguajes de programación (Python está de moda por su facilidad de aprendizaje y su extensión en ámbitos universitarios), el paquete estadístico R también está viviendo una segunda junventud, Base de datos (SQL y noSQL), Hadoop, computación en paralelo,…
- Comunicación y visualización: conocimientos de paquetes gráficos (ggplot, lattice,D3.js..) ligados a la habilidad para comunicar resultados de forma efectiva y asertiva.
- Orientación cliente/negocio: capacidad de análisis y entendimiento de negocio, proactividad, innovación, creatividad…
El término Data Science engloba todas las técnicas necesarias para extraer información de los datos.
Toma como base técnica matemáticas, estadísticas, probabilísticas, técnicas de Machine Learning y por supuesto de ingeniería informática, al final los datos son digitales. Estas técnicas en sí mismas no son nuevas, lo novedoso, quizás, es la manera de tratarlas como un todo y, sobre todo, la gran relevancia que están cobrando.
También es cierto que los sistemas informáticos y el software específico están más preparados que nunca para poder aplicar estas técnicas sin que esto suponga una inversión excesivamente alta, quizás por esto este término también se esté popularizando, ahora está más al alcance de todas las empresas.
Así pues, ¿es material reciclado?
Hasta no hace mucho había varios tipos de proyectos relacionados con los datos:
- Teníamos proyectos de análisis estadísticos (exploratorios o predictivos), ¿quién no ha oído hablar de las rectas de regresión?
- Teníamos proyectos de aprendizaje automático: “vamos a segmentar la base de datos de clientes para ofrecer productos específicos” (recordemos que cuando vamos al cajero automático la publicidad que nos sale está muy ligada a nuestra actividad económica, edad, estado civil, etc…).
- También había proyectos de visualización de datos puro para monitorizar el negocio, o el “Cuadro de Mandos”.
El nuevo término de Ciencia de Datos engloba proyectos como los anteriores y quizás alguno un poco diferente. La diferencia ahora es que la relevancia de este puesto se ha definido, y empieza a haber profesionales multidisciplinares cualificados para realizar un proyecto relacionado con análisis de datos, sea cual sea su alcance.
Los proyectos de Data Science también tiene su propio ciclo de vida, pero de nuevo vemos que no difieren en exceso del de una metodología de Data Mining pura como CRISP-DM.
Si tomamos como base un el ciclo de vida de un proyecto de data mining este incluye 6 pasos en el ciclo de vida:
Desde un enfoque basado en un proyecto de Data Science, al ser proyecto con un enfoque másmultidisciplinar, estos pueden abarcar más áreas por su naturaleza más amplia, así que será necesario tener en cuenta nuevos puntos:
- Procesos de ingeniería informática para que permitan extraer datos desde distintos orígenes.
- Visualización de datos: es un aspecto muy importante en este tipo de proyectos que tienen como objetivo mostrar los resultados de forma efectiva.
- Y por supuesto todo el rigor matemático y estadístico que un estudio científico (Ciencia de Datos) necesita. Hay que demostrar los resultados científicamente, ya que las empresas van a basar muchas de sus decisiones en estos proyectos.
La Ciencia de Datos nos ofrece una nueva perspectiva, aúna conocimientos que anteriormente se trataban desde profesionales y técnicos independientes y separados. Todos estos nuevos agentes nos ofrece nuevos enfoques y resultados para un objetivo antiguo: la de explotación de datos.
Si quieres saber más sobre los servicios de Big Data de Sogeti, tan solo tienes que visitar nuestra página.
Más información:
Anna Almuni es licenciada en Matemáticas por la Universidad de Barcelona. Ha cursado postgrados en desarrollo de aplicaciones en .NET e implementación de soluciones BI. Trabajando en el sector IT desde 2003 en proyectos para diferentes organizaciones del sector público y privado, se incorpora a SOGETI en 2010 como jefe de proyecto.
Actualmente como Delivery Manager de la unidad de Microsoft de Sogeti, es la responsable de la supervisión del Delivery de la unidad de soluciones Microsoft en Barcelona, así como de dar soporte a las acciones de preventa de la unidad.
0 comments on “DATA SCIENCE, ¿ALGO NUEVO O ALGO VIEJO?”