Big Data Analytics Summit 2018

En verano, aunque la docencia se para, los académicos nos dedicamos a otras tareas. Por ejemplo, a finales de Julio, Teresa Sancho nos explicaba su estadía en Southampton en el blog informatica++.

En general aprovechamos para realizar estadías en otras universidades, avanzar investigación, mejorar y ampliar nuestros conocimientos, revisar cursos que impartimos,… y no solo para descansar y recuperar fuerzas para el siguiente semestre (que también es importante).

También aprovechamos para participar en eventos. De nuevo este año participo en el evento Big Data Summit en Perú (breve resumen anterior del año anterior) durante esta semana donde comparto escenario con profesionales de diferentes países. Más información aquí: http://bigdatasummit.pe/conferencia/

Si el año anterior estaba centrada mi participación más en la parte estratégica (es decir, orientación hacia convertirse en una empresa fundamentada en evidencias tema recurrente en este blog), en esta edición he querido hablar de aspectos de divulgación técnica en dos ponencias diferentes, una centrada en los sistemas de recomendación y otra en topological data analysis (ya que no solo de deep learning vive el hombre).

Espero encontrarme con caras conocidas, tener charlas interesantes como el año anterior y poder confirmar la evolución de Big Data y Analytics en Perú escuchando casos de empresas.

Posted in Big Data, Evento | Tagged , , | Leave a comment

Descifrar la red cerebral: el gran desafío de la neurociencia del S.XXI

En este post os presentamos un resumen y la presentación completa de una de las charlas del UOC Data Day, celebrado el día 16 de mayo de 2018 en Barcelona sobre cómo descifrar la red cerebral: el gran desafío de la neurociencia del S.XXI.

Esta ponencia fue a cargo de Eloy Martinez, investigador postdoctoral en el grupo ImaginEM (Hospital Clínic de Barcelona e IDIBAPS) y profesor colaborador de los Estudios de Informática, Multimedia y Telecomunicación de la UOC.

Uno de los desafíos más grandes para los neurocientíficos en el actual siglo es descifrar la red cerebral. El conocimiento de esta organización jerárquica que permite la transmisión de información de regiones interconectadas estructural y funcionalmente ha revolucionado el modo de detectar alteraciones no visibles por técnicas convencionales.A diferencia de nuestro genoma, que se haya fijado desde el momento de la concepción, la red cerebral cambia a lo largo de toda la vida a través de vivencias y aprendizajes. Por tanto, lejos de ser un sistema estático de elementos interconectados, el cerebro humano es un órgano dinámico que se desarrolla y cambia continuamente en respuesta a las demandas del entorno y nos hace individuos únicos y diferentes.

Si conseguimos descifrar la red cerebral y sus mecanismos conductuales, la neurociencia desempeñará un papel muy importante en su tarea de curar trastornos mentales y lesiones cerebrales.

A continuación, os dejamos la grabación de la ponencia completa, así como el material de soporte utilizado para la presentación.

¡Esperamos que la disfrutéis!

Posted in Data, Data Science, eHealth, Evento, Machine learning, UOC D^2 | Tagged , , | Leave a comment

¿Cómo estructurar un buen proyecto de Machine Learning?

En este post os presentamos un resumen y la presentación completa de una de las charlas del UOC Data Day, celebrado el día 16 de mayo de 2018 en Barcelona sobre cómo estructurar un buen proyecto de Machine Learning.

Esta ponencia fue a cargo de Anna Bosch Rué, VP Data Intelligence at Launchmetrics y profesora colaboradora de los Estudios de Informática, Multimedia y Telecomunicación de la UOC.

Durante la ponencia se explicará cómo construir un proyecto de machine learning exitoso proporcionando experiencia en el campo de la indústria que muchas veces solo se adquiere después de muchos años de trabajo. Las explicaciones, indicaciones y conclusiones son fruto de la experiencia, de líderes del sector, construyendo y poniendo en producción proyectos de machine learning y deep learning.

¿Cómo se diagnostican errores en un sistema de machine learning? ¿Como se priorizan las direcciones más prometedoras a seguir para reducir estos errores? ¿Cuando debemos entrenar una red neuronal propia? ¿Qué diferencia hay entre transfer learning y fine tuning y cuándo debemos aplicarlos? Intentaremos dar respuesta a todas estas preguntas y algunas más. Entenderemos también settings complejos de ML, como datos de entrenamiento y test no coincidentes, sobrepasar la predicción de un humano, etc Y daremos los insights necesarios para saber como aplicar end-to-end learning, transfer learning y multi-task learning.

Las indicaciones y conclusiones son especialmente relevantes para todos aquellos que quieran ser líderes en el campo de la Inteligencia Artificial y conocer como establecer la dirección correcta del trabajo así como los pasos a seguir.

A continuación, os dejamos la grabación de la ponencia completa, así como el material de soporte utilizado para la presentación.

¡Esperamos que la disfrutéis!

Posted in Artificial Intelligence, Data, Data Science, Machine learning, UOC D^2 | Tagged , , , , | Leave a comment

Propagación de la mora en redes financieras

En este post os presentamos un resumen y la presentación completa de una de las charlas del UOC Data Day, celebrado el día 16 de mayo de 2018 en Barcelona sobre la propagación de la mora en redes financieras.

Esta ponencia fue a cargo de Jordi Nin, senior Data Scientist a BBVA Data & Analytics y profesor colaborador de los Estudios de Informática, Multimedia y Telecomunicación de la UOC.

El riesgo sistémico de las instituciones financieras y empresas sectoriales depende de sus interdependencias. La interconectividad de las redes financieras ha demostrado ser crucial para comprender la propagación de los valores predeterminados y una forma de evaluar el impacto de los eventos predeterminados únicos en todo el sistema. Aquí, aprovechamos la teoría de redes complejas para arrojar luz sobre los mecanismos detrás de la propagación predeterminada. Con datos reales de la compañía financiera BBVA, extraemos la red de transacciones cliente-proveedor entre más de 140000 empresas y sus flujos económicos. Proponemos un modelo computacional, basado en las probabilidades de contagio por defecto, que nos permita evaluar las principales estadísticas de difusión predeterminada a nivel individual y de sistema. Nuestros resultados muestran la exposición de diferentes sectores a las cascadas predeterminadas, y permiten una cuantificación y clasificación de los sectores en consecuencia. Esta información es relevante para proponer contramedidas a la propagación predeterminada en escenarios específicos.

A continuación, os dejamos la grabación de la ponencia completa, así como el material de soporte utilizado para la presentación.

¡Esperamos que la disfrutéis!

Posted in Customer Analytics, Data, Data Science, Machine learning, Social Network Analysis, UOC D^2 | Tagged , , , | Leave a comment

Experiencias del uso de Kaggle en el entorno educativo superior

En este post os presentamos un resumen y la presentación completa de una de las charlas del UOC Data Day, celebrado el día 16 de mayo de 2018 en Barcelona sobre experiencias del uso de Kaggle en el entorno educativo superior.

Esta ponencia fue a cargo de Laia Subirats, data science researcher en Eurecat (Technology Centre of Catalonia) y profesora colaboradora de los Estudios de Informática, Multimedia y Telecomunicación de la UOC.

Kaggle es una plataforma donde data scientists compiten y producen modelos para predecir y describir los conjuntos de datos cargados por empresas y usuarios. Comprado en 2017 por Google, la comunidad de Kaggle tiene más de 536,000 usuarios registrados de más de 190 países. Entre los usuarios de Kaggle hay miembros del equipo ganador de Jeopardy de IBM Watson y del equipo que trabaja en DeepMind de Google. Muchos de estos investigadores publican artículos en revistas en función de su desempeño en estas competiciones.

Dentro del Máster de Data Science, en la asignatura “Tipología y Ciclo de Vida de los Datos” las profesoras Isabel Guitart, Mireia Calvo y yo misma hemos introducido Kaggle en los dos bloques principales de la asignatura. En el primer bloque los alumnos deben realizar un proyecto de web scraping del tema que deseen y deben describir y exportar los datos en el formato requerido por Kaggle. En el segundo bloque de la asignatura los alumnos deben analizar los datos bien de los datos generados del primer bloque de web scraping, o bien de una competición que haya activa de Kaggle. Se pide a los alumnos que utilicen Github para entregar las prácticas, para que así se familiaricen con esta plataforma de desarrollo web y para que tengan un portfolio de proyectos desarrollados en esta plataforma cuando acaben el máster.

A continuación, os dejamos la grabación de la ponencia completa, así como el material de soporte utilizado para la presentación.

¡Esperamos que la disfrutéis!

Posted in Customer Analytics, Data, Docencia, Evento, Kaggle, UOC D^2 | Tagged , , , | Leave a comment

Ciclo Ciencias de Datos (IV)

Aquí tenéis la última cápsula formativa del Ciclo Data Science ofrecido por Alumni UOC sus socios Premium hará unos meses.

En esta ocasión, Bartek Skorulski, científico de datos Senior en el Programa Lidl Plus, nos explica, en el vídeo que encontraréis más abajo, cómo sobrevivir en el mundo del Data Science.

Data Science, guía de supervivencia

Sabremos qué supone Science en Data Science, cómo los experimentos generan aprendizaje, y si el Data Science puede contribuir a mejorar el mundo.

¡Esperamos os guste!

Posted in Big Data, Data Science, UOC Alumni | Tagged , , | Leave a comment

Tras GPDR, NIS

Cuando aún estamos en las primeras semanas del RGPD (GDPR en inglés), muchas empresas aún no tienen claros todos los aspectos y aún comentamos sobre los diferentes temas (por ejemplo, en esta noticia comentamos con Mònica Vilasau sobre el tema del Data Protection Officer – tanto en castellano como en catalán -), ha pasado por alto otra regulación que incluso se ha activado antes. Y que desde nuestro punto de vista también va a afectar profundamente a muchas empresas.

Estamos hablando de NIS, una directiva que hace referencia a la seguridad de redes y sistemas de información, creada en 2016 y puesta en marcha en mayo de 2018. El foco de esta ley es incrementar la resiliencia de los proveedores de infraestructuras críticas de servicios. Aspectos primordiales como electricidad, agua o transporte que cada vez más se apalancan sobre las tecnologías de información.

Si la RGDP está empujando la madurez y el gobierno del dato y tener una trazabalidad del dato de personas, esta regulación va a empujar en la misma dirección a los sistemas ciber-físicos poniendo atención al gobierno (de la seguridad), a la gestión de riesgos, a la trazabilidad de toda la cadena de suministro y al incremento del conocimiento y la formación.

Esta medida no solo afecta a cada país y a las empresas que ofrecen infraestructura crítica sino también a sus proveedores, por lo que de nuevo estamos ante una regulación de efectos mundiales.

Además ya estamos asistiendo a la emergencia de nuevas regulaciones vinculadas con el dato en otras áreas del mundo como es el caso de la nueva regulación del estado de California que persigue limitar la recopilación de datos.

Sin duda alguna, todas estas regulaciones van a afectar el despliegue de las tecnologías de información. Deberemos estar muy al tanto.

Posted in Data Governance, Data Security, Uncategorized | Tagged , , | Leave a comment

Ciclo Data Science (III)

Seguimos con las cápsulas formativas del Ciclo Data Science ofrecidas por Alumni UOC sus socios Premium. Aquí tenéis la tercera sobre lenguajes de programación.

¿Qué lenguajes de programación necesita un científico de datos?

Conocemos las características principales de los lenguajes de programación que más se utilizan en la actualidad y cuáles pueden resultar más útiles en función de las tareas del científico de datos.

Marcela Castro León, arquitecta de datos en Aedgency, nos lo explica en el siguiente vídeo:

¡Esperamos os parezca interesante!

Posted in Business Intelligence, Data Science, UOC Alumni | Tagged , , | 1 Comment

Clustering Validation

Estamos de tribunales de trabajos finales en nuestros programas. Nuestros alumnos tras un periodo largo de aprendizaje están llegando a la merecida meta mediante un proyecto en el combinan su conocimiento. Siempre es un momento especial, no solo para ellos sino también para todo el cuerpo docente (y en especial el director que les acompaña durante esta fase).

Cada año tenemos muchos trabajos interesantes (incluso hemos destacado alguno en el pasado) que cubren todo el espectro de posibilidades (desde aspectos más centrados en el gobierno del dato hasta incluso la creación de nuevas oportunidades de negocio usando el dato como un activo de valor y creando el consiguiente prototipo pasando). Es decir, en estos trabajos nuestros alumnos analizan situaciones de negocio reales (a veces fundamentadas en open data) en las que el dato proporciona ventajas competitivas.

Las técnicas, tecnologías y herramientas usadas (para generar dichas ventajas competitivas) son múltiples y van desde las que permiten comprender el rendimiento pasado de una organización hasta las que permiten identificar patrones ocultos y realizar predicciones.

Entre ellas este periodo ha destacado el uso de técnicas de clustering. Por ello no es extraño que recuperemos este tema. Si hace unos días hablábamos de Clustering Tendency, ahora nos centraremos en introducir Clustering Validation.

Clustering Validation hace referencia a diversos aspectos al mismo tiempo:

  • Comparar los resultados de la aplicación del algoritmo con un etiquetado previo. Para este punto usamos lo que llamamos índices externos.
  • Comparar si los resultados de la aplicación del algoritmo encajan con los datos sin usar información externa. Para este punto usamos lo que llamamos índices internos.
  • Comparar los resultados de dos técnica diferentes de clustering para identificar cuál es la mejor. Para este punto usamos lo que llamamos índices relativos.

Dentro de las tareas a veces también se incluye la identificación del número de clusters (aunque puede ser un paso previo) e incluso revisar clustering tendency. Además que suele ser un proceso iterativo (sobretodo cuando comparamos diferentes enfoques para la obtención de clusters y buscamos el más adecuado).

Cada uno de estos índices permite responder diferentes preguntas que surgen de forma natural cuando aplicamos esta técnica y queremos validarla. Entre las preguntas frecuentes tenemos, por ejemplo, ¿cuál es el grado de cohesion de nuestros clusters? o ¿cuál es el grado de separación de nuestros clusters? o quizá es mejor que lo expresemos de otra forma, ¿están los objetos dentro de un cluster relativamente cerca? y ¿están bien separados nuestros clusters?

Como os podéis imaginar para cada una de estas preguntas disponemos de índices que nos ayudaran a determinar la respuesta. Y que en próximos artículos revisaremos progresivamente.

Lo que es importante tener en cuenta es que: cuando aplicamos la técnica de clustering es absolutamente necesario dedicar el tiempo necesario a la validación.

Posted in Big Data, Business Analytics, Business Intelligence, Clustering, Data Science | Tagged , , , , | Leave a comment

Clustering Tendency

Clustering, como ya saben nuestros lectores, es una técnica muy usada en el ámbito de la analítica de negocio que permite encontrar grupos similares dentro de un conjunto de datos.

Por ejemplo, permite segmentar nuestros clientes en base de sus atributos.  Y esta segmentación nos va permitir diseñar una experiencia de cliente más personalizada.

Para aplicar esta técnica se siguen diversos pasos. Uno de ellos, al final del proceso, busca comprobar la validez de los resultados obtenidos (tanto internamente como externamente). Lo que conocemos como clustering validity. Una pequeña introducción al tema se puede encontrar aquí.

Lo que es menos habitual es empezar el proceso con la pregunta: ¿hay algún tipo de estructura en mis datos? (lo que en esencia denominamos clustering tendency). Normalmente, cuando aplicamos este análisis nos centramos más en la pregunta: ¿qué estructura oculta tienen mis datos? Es decir, presuponemos que existe una estructura y que sabremos encontrarla mediante alguno de los algoritmos disponibles.

Clustering tendency debería ser una práctica común en las empresas. La gran mayoría de algoritmos de clustering pueden segmentar los datos (es decir, generar una estructura) incluso cuando no existen clusters y, por ello, a posteriori dedicamos cierto tiempo a validar la calidad del cluster.

Cómo respondemos la pregunta: ¿hay algún tipo de estructura en mis datos? 

Esta pregunta es equivalente a preguntarse si la distribución de los puntos de un conjunto sigue un distribución no uniforme o no aleatoria. Y para ello podemos usar diferentes técnicas como el estadístico de Hopkins. Sin entrar en detalle técnicos, lo que haremos es realizar un contraste de hipótesis que nos permitirá responder a esta pregunta.

Aunque pueda parecer que estemos hablando de un tema nuevo no lo es. Por ejemplo, hace dos años se comentaba en R-bloggers. Es un tema que remerge cada cierto tiempo dada su importancia y que ha sido olvidado frecuentemente al trasladar la ciencia de los datos a la empresa.

Esperemos que a medida que las empresas vayan apostando más por la ciencia de los datos, no solo adopten los algoritmos (que es importante) sino también el proceso formal en la aplicación de los mismos.

El fracaso en un proyecto analítico no solo está ligado a factores tradicionales (como coste, recursos, selección herramienta, barreras internas,…) sino además ser riguroso. Es hora de ponerse las pilas.

Posted in Business Analytics, Clustering, Customer Analytics, Data Science | Tagged , , , | 2 Comments