El resurgir de los notebooks en la ciencia de datos

Cuando se trabaja en el ámbito de la ciencia de los datos, hay varios aspectos importantes como la reproducibilidad, la explicabilidad, la experimentación, soporte a múltiples lenguajes de programación,…

Para intentar responder a este tema, han aparecido los notebooks (como Jupyter) que muchas de las más modernas plataformas o soluciones para ciencia de datos incluyen por defecto. Este es un tema que ahora se está volviendo recurrente en múltiples artículos como el de Edd Wilder-James o en Towards Data Science pero es un tema que ya se ha tratado en datami hace tiempo.

El objetivo es ayudar en la productividad del científico de datos. En defintiva, este tema está ligado al hecho de poder experimentar y compartir nuestros desarrollos en equipos.

¡Pero aún hay más!

El siguiente paso es la puesta en producción. Y aquí las cosas cambian, los ciclos que combinan el desarrollo y la puesta de producción de ML requieren estar orquestrados.

Respecto este tema Shengyu Chen ilustra en este artículo muy bien como evoluciona el ciclo de un algoritmo cuando pasamos del desarrollo a las operaciones.

De hecho del ciclo inicial:

Fuente: Towards Data Science

Se pasa a:

Fuente: Towards Data Science

Puede parecer que hemos incorporado muchísima complicación, pero nada más lejos de la realidad. Aunque pueda parece mentira los algoritmos tienen fecha de caducidad (como los yogures y por múltiples motivos) y es necesario retirarlos y sustituirlos cuando dejan de tener validez (indicado por las métricas).

Así que la siguiente ve que pensemos en la aplicación de la ciencia de los datos debemos también ir mucho más allá de tan solo pensar en el algoritmo que nos proporcionará la respuesta adecuada.

About Josep Curto Díaz

Josep Curto es el director académico del Máster en Inteligencia de Negocio y Big Data (MiB) de la UOC. Así mismo es director de Delfos Research, empresa especializada en investigación de los mercados de Business Intelligence, Business Analytics y Big Data.
This entry was posted in Data Science and tagged . Bookmark the permalink.

Leave a Reply

Your email address will not be published. Required fields are marked *