Cajamar UniversityHack 2019

Cajamar UniversityHack: la competición de analítica de datos más grande de España regresa de nuevo. En la edición de 2019 participan 20 centros como en la edición anterior.

Centros que participan en UniversityHack. Fuente: Cajamar

La UOC participa en esta edición que empieza el 14 de enero y termina el 11 de abril.

¿En qué consiste?

Cajamar UniversityHack 2019 es un evento dirigido específicamente a los alumnos de los mejores centros formativos en Data Science de España. Cada centro podrá presentar hasta 10 equipos, compuestos por un máximo de 3 participantes cada uno.

Consiste en dos retos:

  • Reto Wefferent Branch Visualization: Te retamos a que crees un buscador avanzado que incluya un motor de recomendación en base a la ubicación de la persona que quiere realizar una operación en nuestra entidad, el momento en el que quiere realizarla y el tipo de operación que quiere hacer. Con esta información el buscador debe recomendar la oficina, el cajero propio o el cajero ajeno que más convenga para realizar la operación. Más información aquí: http://www.cajamardatalab.com/datathon-cajamar-universityhack-2019/retos/visualizacion/
  • Reto Minsait Real Estate Modelling: Conocer el número de veces y el tiempo que un usuario navega por una página web es uno de los factores clave para la gestión de los recursos digitales, al estar convirtiéndose éstos en la ventana donde el mundo se informa. Obtener un modelo predictivo ayuda a establecer cuáles son los motivos por los que una página concreta es más visitada que otras. Más información aquí: http://www.cajamardatalab.com/datathon-cajamar-universityhack-2019/retos/predictivo/

¿Cómo apuntarse?

Cada equipo puede tener un máximo 3 Data Scientists por equipo por alumnos de 2018/19 ó 2017/18 de las formaciones seleccionadas de los centros participantes. Para apuntarse id a la página de http://www.cajamardatalab.com/datathon-cajamar-universityhack-2019/

¿Por qué?

¡Qué mejor carta de presentación a un nuevo trabajo que la participación en una competición estatal! Así que os animamos a participar y, si es así, nos veremos puesto que de nuevo participo en el jurado local de la UOC.

Posted in Big Data, Business Analytics, Data Science, Datathon, Evento, UniversityHack, UOC | Tagged , , , , , , | Leave a comment

GPU Computing y Analítica

Hace ya tiempo (¡qué rápido pasa el tiempo!) hablamos sobre el uso de chips especializados en el ámbito de inteligencia artificial y terminamos el post con el mensaje que el hardware también importa.

Tras un año y pico  nos encontramos que el mercado ha evolucionado considerablemente. Por un lado, NVIDIA se ha consolidado como el referente en este mercado y tras la escasez de tarjetas (por culpa de las criptomonedas) ahora ya no es tan complicado conseguir una (aunque el precio es significativo), además una gran cantidad de fabricantes han habilitado el uso de GPU computing, como queda patente en el catálogo de aplicaciones disponible (y que recomendamos revisar para coger inspiración).

Todo parece indicar que en el ámbito de deep learning y machine learning el uso de chips especializados (ya sea GPU, ASICs o FPGA) se han consolidado como opción. Así que es necesario introducirse en el tema. Os recomendamos las siguientes lecturas (navideñas):

Buena lectura!

Posted in Artificial Intelligence, Big Data, GPU Computing | Tagged , , | Leave a comment

MOOC en MiriadaX: quinta edición en 2019

Otro año y otra edición de nuestro MOOC en MiriadaX: “Introducción al Business Intelligence y Big Data“. Sí es cierto, aproximadamente en Febrero volvemos con la quinta edición (¡qué rápido ha pasado el tiempo!).

En el caso de no conocer esta iniciativa recuperamos su descripción:

La inteligencia de negocio (business intelligence) y big data son dos de los principales puntales de la revolución tecnológica actual. La cantidad de datos generados por la sociedad de la información crece día a día, y continuará creciendo debido a la explosión de las redes sociales, las ciudades inteligentes (smart cities), los dispositivos móviles, los sensores, etc. Este incremento exponencial del volumen de datos hace imprescindible el uso de sistemas que sean capaces de analizarlos y convertirlos en información útil. Por este motivo, nuestra sociedad, nuestras empresas y nuestras instituciones necesitan integrar inteligencia dentro de los procesos organizativos y de decisión, y esto implica incorporar herramientas de análisis de negocio (business analytics) o datos inteligentes (smart data). La quinta edición de este curso, impartido por profesores del máster de Inteligencia de Negocio y Big Data, del máster universitario de Ciencia de Datos (Data Science) y del grado de Ciencia de Datos Aplicada (Applied Data Science), presenta una introducción a estas herramientas, las principales metodologías asociadas y las tendencias actuales dentro de esta área.

Y su video de presentación:

En abril revisamos cómo había ido la cuarta edición, y como siempre identificamos algunos aspectos de mejora. Así que estamos en ello, revisando algunos detalles.

Lo que si que nos quedó patente de nuevo, es el gran interés en el tema. Así que estamos contentos de tener otra edición y poder entrar en contacto con más profesionales  e introducirlos en el apasionante mundo de los datos.

Asi que si quieres que te avisemos cuando esté activo no dudes en darte de alta en este formulario: (ESP o CAT). ¡Esperamos vernos en breve!

Y ya puestos a aprovechar, todo el cuerpo docente del ámbito de Data Science de la UOC os desea ¡felices fiestas y próspero 2019! Nos vemos el año que viene con más artículos.

Posted in Big Data, Business Intelligence, MOOC | Tagged , , | Leave a comment

Data Natives

A finales de noviembre tuve la oportunidad de hablar en Data Natives, evento que se realiza en Berlín y que en este año celebraba su cuarta edición. El formato del evento es muy interesante. Realizado en un edición de cinco plantas, en cada una de ellas se distribuyen diferentes partes del evento (desde la recepción y perchero, situados en la planta 1) pasando por patrocinadores y mini charlas (plantas 2 y 3) hasta las sesiones plenarias (plantas 4 y 5).

Para aquellos que no conocen en el evento… en los dos días que duró se acercaron hasta dos mil personas (distribuidas a lo largo del día) para escuchar en ponencias, participar en coloquios, visitar fabricantes, empresas, etc. Una de las cosas que caracteriza el evento es que las charlas son breves (10, 15, 20 o 25 minutos), lo que favorece ir al grano y sintetizar. Claro que si se busca un deep dive se tiene que hablar posteriormente con el ponente (aunque también han pensado en ello). Así que muchas de las charlas son para todos los públicos. En ediciones anteriores se caracterizaba por temas más técnicos, si bien en esta han abierto la puerta a temas más de gestión y cultura.

Y de hecho en esa línea estaba mi ponencia: “Interpreting Machine Learning: soon a top priority”.

A medida que las organizaciones se apoyan más en machine learning para redefinir sus procesos de negocio, abrimos la puerta a riesgos sistémicos (concepto que tomamos prestado de la economía) y es necesario evaluar su impacto considerando si nos encontramos en un entorno de bajo, medio o alto riesgo. De hecho, un aspecto que es relevante es que un escenario que inicialmente evaluamos como de bajo riesgo puede evolucionar hacia uno de mayor complejidad por los efectos de la aplicación del algoritmo (algo que frecuentemente no se suele considerar).

Para empezar a controlar estos nuevos riesgos es necesario incluir la interpretabilidad como una práctica habitual en el desarrollo e implementación de nuevos algoritmos.

Será cuestión de ponerse la pilas.

Fuente: Data Natives, Digital, Conference, 2018

Como ya comenté. Esto es solo el principio. Será cuestión de ponerse la pilas.

Posted in Artificial Intelligence, Machine learning, Machine Learning Interpretability | Tagged , , | Leave a comment

Nuevos cursos (Master MiB)

Todo tipo de profesional necesita competencias en el área de los datos, lo que en general denominamos data literacy, y el espectro de profesiones cada vez más amplio e híbrido.

Lo sabemos desde hace tiempo y, por ello, desde la UOC ofrecemos diferentes programas académicos (que van desde un doctorado hasta un grado que hemos lanzado hace poco y tendrá su primera edición en Febrero 2019 como contaba Teresa Sancho, directora académica, hace muy poco). Parte de nuestro esfuerzo es revisar de forma continua todas nuestras asignaturas con el objetivo de mejorar el aprendizaje. Una tarea continua y progresiva de carácter semestral y, de vez en cuanto, de profundo calado cuando introducimos nuevos temas relevantes para la industria.

Dado el éxito que han tenido nuestro enfoque de cursos independientes (y con posibilidad de ampliar al master correspondiente), en este semestre ampliamos nuestra oferta. De tres opciones pasamos a cuatro, añadiendo la opción de aprender conceptos y técnicas vinculadas a minería de datos.

De forma que nuestra oferta de cursos queda:

De nuevo, esperamos que estos cursos faciliten el proceso de aprendizaje a nuestros futuros estudiantes y ampliemos la familia UOC.

Posted in Business Analytics, Data Literacy, Data Mining, MIB, UOC | Tagged , , , | Leave a comment

Emponderando al paciente

El pasado fin de semana tuve la oportunidad de participar en el proyecto Top4ELA de la Fundación Francisco Luzón, apoyado por Samsung España.

Como probablemente ya sabéis, la fundación es una organización independiente, sin ánimo de lucro y dedicada por completo a la mejora de las condiciones con las que viven los pacientes con Esclerosis Lateral Amiotrófica (ELA) y sus familiares. Su visión se fundamenta en el conocimiento, la innovación, la promoción y el apoyo.

¿Qué es ELA?

La Esclerosis Lateral Amiotrófica es una enfermedad neurodegenerativa rápidamente progresiva, caracterizada por una pérdida gradual de las neuronas motoras (o motoneuronas) superiores e inferiores.

Por la desaparición de las neuronas motoras en sus diferentes localizaciones (corteza cerebral, tronco del encéfalo y médula), los pacientes sufren atrofia muscular y la parálisis que generan múltiples problemas en todas las funciones básicas hasta que mueren.

¿Qué es Top4ELA?

Es una iniciativa que ha reunido profesionales de diferentes ámbitos tecnológicos: desde la inteligencia artificial hasta la realidad aumentada pasado por robótica y fabricación digital. El objetivo principal fue explorar los problemas vinculados con la ELA y determinar cómo la tecnología podía ser útil. La iniciativa no era proponer escenarios a largo plazo sino identificar acciones a corto plazo y sobretodo realistas.

¿Qué paso durante el fin de semana de Top4ELA?

May Escobar, directora general de la Fundación Francisco Luzón, María Bestué, neuróloga y Carlos García Espada, socio director de Everis y enfermo de ELA desde 2007 prepararon una sesión de introducción rápida, precisa y en detalle sobre la ELA.

Tras esta introducción, cogió la batuta Mario López de Ávila que coordinó el proceso de trabajo: identificación de problemas (dónde podíamos aportar), creación de equipos y progresión de los proyectos.

En mi caso, como os podéis imaginar, el problema a trabajar fue la fragmentación de la información. En mi equipo tuve la oportunidad de trabajar con grandes profesionales como María Bestué, Ana Jiménez Castellanos (CDS en LeadsOrigins) y Javier López, CTO as a Service. Todo un lujo y un placer colaborar con ellos.

Abordando el problema

El problema de la fragmentación del dato no es nuevo para ninguna organización. La creación de silos departamentales y como ya indica Ana en su post de resumen de la jornada viene de largo. Desafortunadamente con la existencia de 17 sistemas de información en España este problema se agrava significativamente.

Un paciente de ELA (y en general cualquier paciente) puede tener información dispersa en sistemas de diferentes centros, especialidades y autonomías (y si es mi caso, en diferentes países).

A la solución del problema se le ha dado un nombre: historia clínica integrada. Y aunque tenemos nombre, aún dista de estar implementada porque en esencia requiere una coordinación de múltiples actores (hospitales, clínicas, agencias, políticos, doctores, pacientes,…), integrar datos de diferentes sistemas de información (en diferentes formatos), gestionar información personal muy sensible (y que debe ser protegida para evitar malos usos),…

Y muchas iniciativas han ido en esta dirección. Y aún estamos en ello.

Cambio de enfoque: emponderar al paciente

Nuestro equipo se dio cuenta que no tenía sentido recorrer los mismos caminos andados. Es necesario proponer otros escenarios. Y afortunadamente el gobierno de datos (tema del que hablamos recurrentemente) nos abre la puerta a revisar este problema desde otra perspectiva.

¿Quién es el propietario de la información? ¿Quién debería controlar el acceso? ¿Quién debería tener acceso a toda su información? Y si nos hemos equivocado… y si, en realidad, debemos convertir al paciente en el dueño de sus datos.

Imaginemos que el usuario tiene un sistema en el que recopila su historial clínico (informes), sus datos personales y familiares,… así como cualquier otro información generada del paciente (como la que se puede generar con Apple Watch). Imaginemos que pudiera ser el paciente el que invitara a cualquier doctor (colegiado, claro) a revisar su historial (en lugar de tener de explicarlo). Es decir, articulamos la solución para que bascule alrededor del paciente y no alrededor de la administración pública y sus satélites.

Sin duda alguna, existe tecnología para crear esta solución (y, de hecho, potenciarla con machine learning) para revolucionar el ámbito de eHealth, tema relevante en la UOC, por lo que desarrollar esta iniciativa consiste más en encontrar quién lidera la iniciativa.

¿Nos ponemos?

Posted in Data Governance, eHealth, Machine learning | Tagged , , | 1 Comment

Disrupción en el Cloud con Autonomous Data Warehouse & Analytics

En este post os presentamos un resumen y la presentación completa de una de las charlas del UOC Data Day, celebrado el día 23 de octubre de 2018 en Madrid sobre soluciones autónomas para data warehouse y analytics en la nube.

Esta ponencia fue a cargo de Jordi Trill, Big Data y Core Tech Business Development Manager en Oracle.

Hay un concepto que ha entrado con fuerza en todos los sectores de actividad. Se trata de “Autónomo”. En el sector del automóvil lo hemos asumido y entendido todos con facilidad. Los vehículos autónomos superan la idea de tener “algunos automatismos” (por ejemplo, luces que se encienden solas al entrar en un túnel) y, mediante la incorporación de técnicas de machine learning e inteligencia artificial, consiguen una integración con la información del entorno y permiten su funcionamiento sin conductor.

En el sector de las tecnologías de la información, Oracle está liderando esta tendencia. Los nuevos servicios autónomos en el Cloud de Oracle van más allá de contar con funciones automáticas y permiten que determinadas soluciones, utilizando inteligencia artificial, se auto gestionen, minimizando los posibles errores inducidos por la acción humana.

La empresa está poniendo en marcha toda una serie de servicios autónomos. Lógicamente, dado el liderazgo de Oracle en gestión del dato, y la relevancia que ocupa como centro de la economía digital, los primeros servicios autónomos en el mercado están relacionados con la Base de Datos (en concreto Oracle Autonomous Data Warehouse Cloud) y con la analítica con Oracle Autonomous Analytics Cloud.

El dato es la base del negocio de nuestros clientes. Pero ¿Cómo conectarlo, integrarlo, almacenarlo, procesarlo, visualizarlo y analizarlo? La próxima generación de la base de datos resuelve estos problemas de una forma ágil, rápida y elástica. La solución ofrece una automatización total basada en el aprendizaje automático y elimina los errores humanos, al evitar la necesidad de ajustes manuales. Así, la base de datos se autorepara, se autosecuriza y se autogestiona.

Con la automatización incorporada en todos los niveles para realizar las tareas de mantenimiento, las empresas pueden ahora usar sus valiosos recursos de TI para concentrarse en extraer más valor de los datos que actualmente administran para influir directamente en las oportunidades y resultados comerciales.

A continuación, os dejamos la grabación de la ponencia completa así como el PDF.

¡Esperamos que la disfrutéis!

Posted in Big Data, Business Analytics, Data, data analytics, Evento, UOC D^2 | Tagged , , | Leave a comment

Casos de uso del Data Science para una Smart city

En este post os presentamos un resumen y la presentación completa de una de las charlas del UOC Data Day, celebrado el día 23 de octubre de 2018 en Madrid sobre casos de uso de la ciencia de datos aplicados a una ciudad inteligente.

Esta ponencia fue a cargo de María Medina, data scientist en PiperLab y co-organizadora de la comunidad PyLadies Madrid.

La ponencia se divide en dos partes. En la primera, se habla de un caso de uso para predecir la contaminación de Madrid. En PiperLab hemos desarrollado un modelo de predicción que ofrece información en tiempo real, así como predicciones sobre los niveles de contaminación de la capital. El modelo está especialmente dirigido a los ciudadanos y las empresas de transporte y logística, de tal forma que puedan prever restricciones de tráfico. El modelo de predicción no sólo se nutre con los datos procedentes de las estaciones de contaminación instaladas y distribuidas por toda la ciudad, sino que también se mejora mediante datos externos como la meteorología, datos de tráfico o datos de calendario (festivos, puentes locales o nacionales…).

En la segunda parte de esta ponencia se habla de la predicción de envíos de paquetes empleando Big Data y Machine Learning. El modelo de predicción de expediciones consiste en un modelo de previsión de demanda tanto de salidas como de llegadas de expediciones de todas las unidades de negocio de SEUR. Se realiza esta previsión a nivel bultos y kilos, para todas las unidades de negocio, El modelo incorpora datos históricos, internos de SEUR y datos externos como meteorología, calendarios, eventos especiales o datos poblacionales, imprescindibles para alcanzar este nivel de acierto en el contexto de una paquetera de última milla y la vinculación de su producción al e-commerce.

A continuación, os dejamos la grabación de la ponencia completa.

¡Esperamos que la disfrutéis!

Posted in Big Data, Data, Data Science, Evento, Machine learning, UOC D^2 | Tagged , , | Leave a comment

Todo el Big Data es igual

En este post os presentamos un resumen y la presentación completa de una de las charlas del UOC Data Day, celebrado el día 23 de Octube de 2018 en Barcelona cuyo nombre es “Todo el Big Data es igual “.

Esta ponencia fue a cargo de Guillem Borrell. Que mejor que él mismo para presentarse: “Doctor en Ingeniería Aeroespacial y programador en Python (entre otros) desde antes que la analítica estuviera de moda. Después de pasar un tiempo por la industria aeroespacial me doctoré en la ETSI Aeronáuticos UPM donde utilicé Python para entender un poco más la turbulencia. Tras un par de años desarrollando un motor para riesgos financieros aterricé en Kernel Analytics donde soy Team Lead“.

Nos podemos encontrar hoy en día cientos de herramientas en decenas de lenguajes de programación distintos para realizar todo tipo de cargas analíticas. Desde leer un petabyte de datos desde un sistema de ficheros tolerante a fallos a entrenar una red neuronal. Encima, cada seis meses aparece una herramienta nueva que que no nos queda más remedio que entender. Sin embargo, si nos fijamos bien en el funcionamiento de Hadoop, Spark, Pandas, Hive, Impala, Pig, Storm, Dask, Ray, Tensorflow… los conceptos clave se reducen a unos pocos. Esta charla es un pequeño viaje para entender estos conceptos, cómo las herramientas más populares no son más que interpretaciones de estas pocas ideas y una reflexión de cómo estos conocimientos nos ayudan a utilizarlas mejor.

A continuación, os dejamos la grabación de la ponencia completa, así como el material de soporte utilizado para la presentación.

¡Esperamos que la disfrutéis!

Posted in Big Data, UOC D^2 | Tagged , | Leave a comment

Cuando las cosas van mal… es que falta gobierno

La experiencia suele generar una especie de sexto sentido. En el ámbito del análisis de datos, puede guiarnos a intuir que los datos presentados no son correctos, o todo lo contrario, que las piezas encajan.

Cuando las cosas van mal (en este contexto, quiere decir que no podemos tomar decisiones fundamentadas en los datos), puede ser por diferentes motivos. Por ejemplo, algunos motivos de los múltiples que podemos listar incluyen:

  • Se desconocen las fuentes de datos relevantes para la decisión a tomar.
  • Las fuentes de datos disponibles no generan confianza.
  • No existen un lenguaje común y transversal de conceptos de negocio (por ejemplo, qué se entiende por cliente)
  • No hay un control del dato (cómo se genera, cómo se captura, cómo se enriquece, cómo se almacena, cómo se usa y analiza, cómo se presenta,…).
  • No se sabe para qué y por qué.
  • No existe una clara inversión y responsabilidad respecto las iniciativas de datos, y las inversiones o bien no son las adecuadas o bien no producen los efectos deseados.

En esencia, cuando las cosas van mal… es que falta gobierno (de datos). De este tema hemos hablando varias veces (la última no hace mucho).

Este es un tema que últimamente me ronda mucho la cabeza y me alegra que, por fin, se inicie el capítulo de España de DAMA. Es sin duda alguna, muy buenas noticias, excelentes desde mi punto de vista. Compartir buenas prácticas y experiencia entre empresas es absolutamente para evitar caer una y otra vez en los errores.

Venía yo pensando en esto, (en el tema de cuan necesario es el gobierno para nuestras iniciativas analíticas), regresando a concentrarme en el trabajo, cuando he sido asaltado violentamente por un delincuente juvenil justo enfrente de la sede de policía después de que éste saliera de su última denuncia. Afortunadamente no ha pasado nada grave.

Este triste hecho me he hecho reflexionar de la situación del país en el que vivo (Reino Unido, aunque no el único como venimos observando últimamente). Por un lado, invirtiendo en iniciativas de reconocimiento facial para ayudar al cuerpo policial con más o menos fortuna o acierto (en Londres, que no la ciudad en la que vivo), y por otro, en la profunda recesión (por lo que viene de camino) que afecta a múltiples ayuntamientos principalmente en los servicios al ciudadano (en todos los sentidos). A menor inversión, en los últimos cinco años se ha incrementado la inseguridad de ciudadano, incluso a plena luz del día, y enfrente de la estación de policía principal de la ciudad.

En cierta medida, hay un paralelismo con el gobierno del dato. No se tiene claro, por ejemplo, cuáles son los activos de valor (las personas). No se ha asignado un presupuesto adecuado para su cuidado, su protección,… y cuando sucede alguna cosa, la única respuesta es: no podemos hacer nada. No hay propiedad, no hay control, no hay procesos definidos…

Me repito. En esencia, cuando las cosas van mal… es que falta gobierno (y en este caso no solo de datos).

Posted in Data Governance | Tagged | 2 Comments