Analytics

Para todo, siempre hay una primera vez. No pierdas el tren.

Esta mañana he estado leyendo la entrevista que le hicieron a Larry Pizette, Head of Amazon ML Solutions Lab at AWS, en octubre de 2018 que lleva por título: “Cómo comenzar con machine learning: consejos de expertos de vanguardia”. En ella, a través de diez preguntas, se recorre el itinerario básico para iniciarse en el Machine Learning desde el punto de vista de negocio. Los puntos más destacados y sobre los que profundizaré son: Barreras de entrada, implementar ML y creando valor.

Barreras de entrada

En la entrevista, él menciona cuatro: datos, recursos, personal y despliegue.

1) Datos. En efecto, uno de los principales problemas de cualquier aproximación al ML son los datos. Es más, en la propia entrevista (página dos) se menciona que los datos deben: estar localizados, evaluados, depurados y centralizados. Esto es clave, pero no sólo para soluciones de ML, sino para cualquier tipo de estrategia Data-Driven.

Haciendo uso de la tan manida frase: Basura dentro, basura fuera”, aún teniendo los mejores recursos, si tu materia prima es no válida, el resultado será siendo igual de inválido. Por eso, es fundamental, disponer de una buena estrategia alrededor del dato, para de esta manera, poder formar parte de lo que ahora tanto se habla últimamente: organizaciones orientadas al dato.

Las principales características de este tipo de organizaciones son:

  • Se gestionan fundamentándose en hecho y datos.
  • Son capaces de identificar, combinar y gestionar múltiples fuentes de datos.
  • Son capaces de construir modelos de análisis avanzado para dar respuesta a sus problemas.
  • Son capaces de utilizar los resultados extraídos de los datos para transformar la organización y mejorar en el proceso de toma de decisiones.
  • Contemplan el dato como un recurso de ventaja competitiva.
  • Han cambiado el enfoque sobre el dato, de activo tóxico a activo de valor, que debe ser gestionado y maximizado.
  • Han establecido mecanismos para medir el coste y el valor del dato.
  • Incorporación al Consejo de Dirección de una nueva figura denominada CDO, Chief Data Officer.
  • Han implementado soluciones transversales e integradoras en la organización, como el gobierno del dato.
  • Disponen de programas de actualización y formación sobre nuevas tecnologías.
  • Existe un fuerte liderazgo hacia la competencia analítica.
  • Disponen de un amplio conjunto de profesionales de perfiles asociados al dato, en contínua formación y en crecimiento.
  • Destinan recursos para la revisión y puesta en marcha de nuevas medidas y métricas de negocio.

2) Recursos. Con respecto a los recursos, hace unos días asistí a una presentación de Intel ™ donde hablaron de su portfolio de soluciones para la Inteligencia Artificial. Me hizo mucha gracia cómo defendieron que: “A GPU is required for Deep Learning” con un FALSE. Pero ellos venden chips, y de algún modo deben hacer frente a las GPU de NVIDIA ™. Bromas aparte, para comenzar con ML, realmente no hace falta un desembolso enorme. Se pueden construir modelos con cientos de miles de registros perfectamente con un laptop.

Incluso si estás dispuesto a ir un paso más allá, en la nube de Azure dispones de múltiples servicios que te facilitarán la labor. Desde Azure ML Studio donde, de un modo muy gráfico puedes elaborar tu propio modelo y posteriormente desplegarlo para ser consumido con Excel, hasta soluciones más avanzadas usando Máquinas Virtuales específicas para Ciencia de Datos. Distribuidas tanto sobre Windows como Linux, en ellas dispones de múltiples herramientas instaladas y listas para ser usadas, que te harán muy fácil la labor de enfrentarte a cualquier desafío. 3) Personal. En cuanto a personal, él pone el foco en los Científicos de Datos, sin embargo, yo siempre abro el abanico a muchos otros perfiles, empezando por supuesto por el CDO. Creo que, siempre que se pueda, debe existir un equipo multidisciplinar, con perfiles como los siguientes:

Rol Función Principal
Big Data Architect Responsable del diseño, construcción y mantenimiento de la tecnología de Big Data. Por ejemplo se encargará de la creación y uso de los clúster de procesamiento en la nube. Azure HDInsight, Cloudera, Hortonworks, etc.
Data Engineer Responsable de las tareas de ETL de las múltiples fuentes de las que se nutra la organización, tanto desde escenarios de Big Data como desde los propios sistemas transaccionales de la organización. Por ejemplo Azure Data Factory
Data Scientist Responsable de la creación de modelos predictivos que puedan generar resultados mediante técnicas de Machine Learning que respondan a los problemas de la organización. Para ello, deberá disponer de conocimientos en áreas como estadística, minería de datos, negocio, programación. Por ejemplo mediante el uso de Jupyter Notebook y librerías como XGBoost, Pandas, Scikit-Learn, Tensorflow.
Database Administrador Responsable de la monitorización, seguridad y creación de roles en los distintos sistema de gestión de bases de datos de la organización. Además de ser el responsable de la realización de backups de los sistemas.
BI Developer Responsable de la creación de los principales KPIs de los diferentes departamentos, así como de la implementación de los respectivos informes.

Por otro lado, se encargará de la lógica del diseño, construcción y desarrollo del Datawarehouse de la organización. Por ejemplo: Microsoft Power Bi, SQL Server, SQL Reporting Services, SQL Analysis Services.

Front End Desarrollo de las aplicaciones de reporting basadas en tecnología web para consumo general en portal corporativo de la organización. Por ejemplo mediante herramientas como Pentaho, Angular.
Otros Scrum Master, Solution Owner, Product Owner, Data Custodian, Data Security, etc.

4) Despliegue. Por último, con respecto al despliegue, aquí sin duda, creo que la mejor opción es utilizar soluciones Cloud. El habla de Amazon SageMaker ™, mientras que yo recomiendo todo el potencial de Azure ™ para implementar MLOps. Afrontar el desarrollo de modelos predictivos como cualquier otra tipo de software, creo que reporta múltiples beneficios. El principal, sacarlo de las propias máquinas de los científicos de datos, además de incorporar pruebas, despliegues automáticos, repositorios de código, integración con otras soluciones.

Implementar ML. La aproximación que se comenta en la entrevista me parece muy acertada. Son muchas las empresas que quieren dar el salto al uso sistemático de Inteligencia Artificial, pero no tienen claro ni para qué, ni cómo. Justo para responder a esas preguntas están organizaciones como Capgemini, que dispone de un centro de Innovación en Madrid, donde de la mano del cliente desarrollan todo este tipo de aproximaciones, haciendo más fácil y entendible los procesos y beneficios de la IA.

Las posibilidades son muchas:

  • Sistemas de recomendación.
  • Depuración de Bases de Datos mediante clasificación de registros.
  • Técnicas de análisis de series temporales para Forecast.
  • Técnicas de “Pricing”.
  • Modelos predictivos de abandono de clientes, empleados.
  • Detección de fraude.
  • Optimización de procesos, rutas, reacciones químicas.
  • Complejos sistemas de reconocimiento de texto.
  • Gestión de alertas mediante reconocimiento de imágenes.

Y por último llegamos a demostrar valor. Esta es la clave para negocio. Con el paso del tiempo, además de hacerme más viejo, veo como las empresas con equipos muy alineados con metodologías Ágiles, son los más eficientes a la hora de presentar resultados a los interesados.

En mi caso, trabajamos bajo SAFe® y dos de las cosas que más me gustan, son que: sabemos el business value de lo que estamos desarrollando y que al final de cada sprint tenemos una “demo session” con los usuarios. Con respecto al primero, te permite hacerte una idea de lo importante que es para el usuario tu trabajo, y con respecto al segundo, cuando llega el viernes a las 9:30 y vemos el número de asistentes conectados a la demostración, no podemos evitar sentirnos algo nerviosos, pero también contentos y orgullosos de nuestro trabajo. Es en ese momento, cuando mostramos los avances incorporados al desarrollo durante las dos semanas de trabajo y al final, recibimos su feedback.

Esta forma de trabajar es, sin duda, una ventaja competitiva a la hora de afrontar cualquier proyecto y más aún, en el caso de la Inteligencia Artificial.

Finalmente no quiero dejar pasar la oportunidad de profundizar sobre lo importante que es, para este tipo de proyectos, realizar constantes validaciones sobre los resultados. Ya que muchas veces, el algoritmo funciona como una “black box”, y eso dificulta explicar al interesado el porqué de dicha predicción. Justo por eso es vital la incorporación del seguimiento de las predicciones y el análisis de las mismas con respecto a la realidad. De este modo, a negocio le resultará mucho más sencillo confiar en la solución y fomentar su uso dentro de la organización.

Espero que con estas pinceladas sobre la entrevista a Larry Pizette, te animes a iniciar la aventura de la adopción de soluciones de ML en tu organización, de un modo controlado. Sin duda, te permitirá acercarte a ella evitando los riesgos y maximizando los beneficios.

Fuentes |

Julià Minguillón (2018). “Fundamentos de la ciencia de datos”.

Marcos Pérez González (2018). “El ciclo de vida del dato”.

Wikipedia – “Macrodatos”, “Inteligencia empresarial” y “Ciencia de datos”.

AWS Informe (2018, Octubre). ”Cómo comenzar con Machine Learning: consejos de expertos de vanguardia”.

Microsoft Azure (2019, 9 de mayo). “Machine learning operationalization (MLOps) for Python models using Azure Machine Learning

 

Acerca de alb3rtoalonso

Soy un enamorado del poder de los datos. Entusiasta de la mejora y formación contínua. A lo largo de estos últimos años, he trabajado sobre las diferentes áreas de Data Management, para grandes compañías como Cyndea Pharma, beIN Sports, MediaPro, Himoinsa, Liberty Seguros y Airbus Defense & Space, Essity. En ellos, he llevado a término, proyectos de analítica avanzada y modelaje predictivo. Formo parte del grupo de expertos tecnológicos a nivel Mundial de mi actual compañía, denominado SogetiLabs. Dentro del mismo soy el responsable global del círculo de Machine Learning, lo que me permite tener una visión general de los desarrollos del grupo, así como motivar a los compañeros hacia el campo del ML y participar activamente en la creación de buenas prácticas. Mi espíritu de competidor es el que impulsa a seguir mejorando. Si bien, como buen jugador, sé comportarme correctamente cuando gano, y cuando pierdo. Me gusta el trabajo en equipo, tanto con compañeros de la organización como con terceras personas (clientes, compañeros de otras consultoras, etc). Con la implicación de todos, el desarrollo siempre es más eficiente. Habituado a trabajar entorno de desarrollo sobre metodologías ágiles. A mis compañeros les sorprende mi dedicación al estudio de nuevas tecnologías y metodologías. No hay semana en la que no participe, consuma o asista a algún ‘meet up’. Intento divulgar el conocimiento a través de mi presencia en internet; web, blogs, Kaggle, Github, Twitter. En definitiva, dedico gran parte de mi tiempo de ocio en curiosear acerca de la tecnología y sus múltiples usos. Actualmente estoy cursando el Máster Universitario de Ciencia de Datos en la UOC, soy licenciado en Farmacia por la Universidad San Pablo CEU, además de haber realizado un Curso Superior de Dirección Empresarial por el IFE de Madrid y finalizado el Grado Superior de Desarrollo de Aplicaciones Multiplataforma. A día de hoy desempeño el rol de Data Scientist dentro del equipo de Inteligencia de Negocio y Analítica Avanzada de Sogeti España. He sido aceptado como integrante del grupo internacional de tecnología SogetiLabs. También pertenezco al Grupo de Usuarios de Power Bi en España.

0 comments on “Para todo, siempre hay una primera vez. No pierdas el tren.

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

A %d blogueros les gusta esto: