Buscamos colaboradores docentes

Los Estudios de Informática, Multimedia y Telecomunicación de la UOC desean incorporar colaboradores/as para su actividad docente. El trabajo de colaborador/a docente se basa en la experiencia y en la práctica profesional actualizada. La UOC necesita profesionales que, por el hecho de llevar a cabo una actividad principal relacionada con el tema objeto de la convocatoria, puedan ofrecer una colaboración de calidad a tiempo parcial. Por lo tanto, la existencia de una actividad principal es un requisito imprescindible pera poder participar en el proceso de selección

Grado de Ingeniería Informática

Grado de Multimedia

Grado de Tecnologías de Telecomunicación

Máster universitario de Aplicaciones Multimedia

Máster universitario de Ciencia de datos (data science)

Máster universitario de Desarrollo de Aplicaciones para Dispositivos Móviles

Máster universitario de Ingeniería de Telecomunicaciones

Másters y postgrados

  • Área de Informática, Multimedia y Telecomunicaciones. Fundamentos de Business Intelligence: Castellano
  • Área de Informática, Multimedia y Telecomunicaciones. Máster de Ciencia de Datos [Tipología y Ciclo de Vida de los Datos]: Catalán/Castellano

Máster de Business Intelligence

Máster de Diseño y desarrollo de videojuegos

Máster de Industria 4.0

  • Desarrollo de sistemas ciberfísicos: Castellano

Tutoría

  • Grado de Tecnologías de Telecomunicación: Catalán/Castellano
  • Máster interuniversitario de seguridad de las tecnologías de la información y de las comunicaciones: Castellano
  • Máster universitario de Ciencia de datos (data science): Catalán/Castellano
  • Máster universitario de Desarrollo de aplicaciones para dispositivos móviles: Catalán/Castellano

¿Te animas a formar parte de nuestro equipo?

Posted in Docencia, UOC | Tagged , | Leave a comment

Ha llegado el momento de elevar IA a estrategia de país

Este tema no es nuevo. Hemos hablado ya anteriormente de nuevos roles analíticos en la administración pública y de cómo diferentes países están desplegando sus estrategias en el ámbito de inteligencia artificial ya sea con nuevos roles, creando un ministerio o habilitando nuevas partidas de presupuesto. Pero es necesario volver al mismo por su importancia y, sobretodo, porque en estos lares las empresas están por la faena pero la administración tiene el punto de mira en otros aspectos.

Me repito. Es necesario volver a este tema y no considerarlo como baladí. Y sobretodo tras el anuncio de la nueva estrategia de Francia para con respecto la inteligencia artificial y la entrevista a Emmanuel Macron en Wired sobre el tema. Cuando las barbas de tu vecino veas cortar pon las tuyas a remojar.

En esencia no se trata de un mero ejercicio de artificio para llamar la atención sino una clara declaración de intenciones para competir con países que o bien ya están liderando la carrera (Estados Unidos y China), países con un pool de talento enorme (India), países con una marcada estrategia para atraer talento (Singapore) o países que inician su estrategia (Canada o Emiratos).

¿Qué haces?

  • Primero te informas. Desde hace tiempo. Con expertos, eventos, y todo lo que sea necesario. Saber dónde se puede aplicar y en qué grado. Diferenciar la ciencia ficción de la realidad. Y entender que se trata de ampliar las capacidades y convertir IA en un generador de puestos de trabajos.
  • Coger el toro por los cuernos. Considerar que esta revolución no solo es tecnológica sino política. Y tiene el poder de cambiar muchos de los servicios públicos, entre ellos eHealth, punto en el que tenemos la mirada puesta en la UOC con el eHealth Center.
  • Habilitar recursos. Este tipo de iniciativas no debe quedarse solo en palabras (que se las lleva el bien). Y que mejor que habilitar una partida significativa de dinero para investigación, startups y atraer talento.

Por mi trabajo tengo la oportunidad de viajar a múltiples países y conocer de primera mano en qué situación se encuentran dichos países. Más y más países están empezando a dar sus pasos y considerando que su agenda política pasa por tener en consideración la inteligencia artificial (y demás estrategias de datos), aunque queda mucho camino por recorrer.

Sinceramente, espero que ésta sea una iniciativa que tenga éxito y que sea replicada por otros países ya no solo para diseñar políticas basadas en evidencias sino transformar profundamente los servicios de un país y su tejido empresarial.

Posted in Artificial Intelligence, Data Driven | Tagged , | Leave a comment

El poder (oculto) de la minoría

Los que me conocen personalmente saben que mi visión de la analítica se fundamenta en la combinación de disciplinas. Muchas de ellas dispares y que suelo encajar dentro del marco mental que uso para la comprensión de estas disciplinas.

Hablemos de la intersección de customer analytics y pensamiento analítico (y algunas gotas de condimento más, claro no me puedo contener). Temas que como ya sabéis tratamos en nuestros programas.

Frecuentemente estamos acostumbrados a pensar en términos de grandes números y de medidas de centralización (como la media, la moda y la mediana). Creemos que muchas de las cosas que suceden se rigen por esos grandes números (de hecho estamos siempre buscando patrones, aunque no nos demos cuenta). En muchas organizaciones, suelen pensar en que su segmentación de clientes (y otros procesos de negocio dentro de su organización) viene condicionada por este tipo de magnitudes.

Sin embargo, cuando empezamos a considerar atributos sociales y de comportamiento, hay situaciones en que las preferencias de un grupo minoritario (no en el sentido político que induce a errores sistemáticos de interpretación lo que es mayor o menor por la regla de agregación, sino simplemente por cantidad de individuos) son las que se imponen al resto.

Si nos paramos un momento esto puede parecer sorprendente e incluso contra-intuitivo, hay lo que podríamos llamar la regla de la minoría. Esta regla consiste en que un grupo de menor tamaño presenta unas preferencias restrictivas (que deben cumplirse de forma obligatoria) y que para el resto de grupos no suponen un problema, de forma que cuando se mezclan todos en una misma muestra (o incluso población), las preferencias restrictivas se imponen.

Para que quede claro esta regla consideremos un ejemplo.

Imaginemos que hacemos una fiesta de cumpleaños para nuestra hija en la que invitamos no solo a sus compañeros de clase y vecinos, sino también a sus padres. Como queremos ser buenos anfitriones preguntamos por las alergias y otras preferencias alimentarias de los niños. En un amplio grupo de personas es fácil encontrarse con alergias múltiples (como por ejemplo a los cacahuetes, a los lácteos o al gluten) así como vegetarianos, veganos, etc.

¿Qué vamos a hacer? Puesto que no queremos estar todo el rato vigilando constantemente a los niños (ni qué comen ni qué hacen) y tampoco queremos ir a emergencias, de forma natural, vamos a considerar una serie de productos (alimentos, bebidas, etc) en la fiesta que eviten a toda costa las alergias detectadas. Hemos aplicado a todo el grupo una regla que aplica solo a una minoría de personas en la fiesta.

A este proceso (las preferencias de un subconjunto afectan a todo el conjunto) lo llamamos renormalización del grupo.

Este tipo de fenómenos es más normal de lo que suponemos y podemos verlos en acción en múltiples ámbitos (fiestas, restaurantes, retail,… y sí, porque lo estáis pensado, incluso política).

Imaginemos ahora que tenemos una cafetería/panadería orientada al dato. ¿Qué significa eso? Que tenemos sistemas de captación de los datos relevantes para el negocio, así como las preferencias de los usuarios. Imaginemos que nuevos vecinos se han movido al barrio y que tiene alergias múltiples: gluten, lácteos, etc.

Gracias a nuestros sistemas de registro hemos detectado que estos nuevos clientes son regulares. Toman su café (en la variedad que sea) combinado un tipo de leche (que no afecta a su alergia). Al cabo del tiempo, por su regularidad, empezamos a detectar que hay un nuevo tipo de cliente en nuestro negocio: regulares, que solo consume productos no alérgicos – en caso de tenerlos -,… y con potencial para incrementar su CLV (Customer Lifetime Value), al haberlo cruzado con datos del barrio en el que viven.

Este nuevo grupo abre la puerta a una decisión interesante. Si queremos mejorar el CLV de estos clientes, ¿qué debemos hacer? Una respuesta sencilla es tener más productos que no les produzcan alergia. La siguiente pregunta que nos podemos hacer es: ¿es esto factible? ¿Qué significa para una panadería por ejemplo producir productos sin gluten? Significa que hay una cocina que no permite la contaminación cruzada. ¿Tiene sentido o es posible tener dos entornos para diferentes productos?

Paremos un momento. Ya me imagino que estáis pensando que todo este esfuerzo mental ya no solo se trata un ejercicio de marketing para incrementar las ventas. En efecto, hemos pasado de la analítica de cliente a las operaciones y nos estamos preguntando si podemos permitirnos dos líneas de producción en nuestro establecimiento. Dependiendo del tamaño, no será factible. En dicho caso, nuestra lógica de pensamiento puede llevaros a la siguiente idea: ¿es posible tener una linea de producción para la panadería que sea amigable para todos? Y aquí lo tenemos, de repente estamos pensando en aplicar las restricciones de la minoría sobre la mayoría (en este caso por razones comerciales).

Por ello no es sorprendente ver, en algunos países, cada vez más cafeterías o restaurantes que no solo son amigables para personas con alergias, sino que en realidad ya todo lo que cocinan sigue la misma restricción (para reducir las complejidad en las operaciones). Y entonces todo el mundo consume productos sin gluten (incluso sin saberlo).

Ahora os recomiendo que volváis a vuestras empresas e intentéis detectar escenarios donde la regla aplicada ha sido la regla de la minoría. Es posible que os quedéis más que sorprendidos de la multitud de casos que encontramos.

Posted in Customer Analytics, Pensamiento Analítico | Tagged , | Leave a comment

Segmentación de vídeo en tiempo real

En una entrada del blog Informática++ os hablé sobre la segmentación semántica y el salto que se estaba dando desde el procesado original de imágenes al procesado de vídeos, con la extensión de benchmarks en nuevos conjuntos de datos como Cityscapes y, especialmente, DAVIS.

Recientemente, Google Research ha anunciado en su blog de investigación el lanzamiento de un algoritmo de segmentación de vídeo que funciona en tiempo real para dispositivos móviles. Aunque en la entrada anterior introdujimos el concepto de segmentación semántica, que tiene como finalidad dividir la imagen en regiones y asignarles una categoría semántica de un conjunto (por ejemplo, coche, persona, perro, tren, avión, etc.), el algoritmo de segmentación que nos trae Google en este caso es el que se conoce como foreground-background segmentation.

El problema de segmentación foreground-background consiste en diferenciar los píxeles de la imagen que pertenecen al objeto de primer plano (foreground) de los píxeles de la imagen que forman el fondo (background). Concretamente, la aplicación desarrollada está diseñada para que el usuario grabe un vídeo de él mismo (selfie story) y pueda hacer una edición automática del vídeo de forma que se le permite cambiar el fondo según varias temáticas predefinidas (día, noche, luz de estudio, etc.).

Ejemplo de segmentación de vídeo. Fuente: Google Research Blog

¿Cómo ha desarrollado Google este algoritmo de segmentación de vídeo? Pues como en la mayoría de casos de éxito de técnicas de deep learning, hay dos elementos que son clave en el entrenamiento de los modelos: una buena base de datos y una arquitectura adecuada para entrenar el modelo. La base de datos que se ha utilizado no es pública o, al menos, no se menciona. Únicamente se menciona que se trata de una base de datos que incluye decenas de millares de imágenes que abarcan un amplio espectro de posibles posturas de las personas (foreground) y en distintos escenarios o fondos (background). Los píxeles de cada una de estas imágenes han sido etiquetados o bien como una de las subcategorías semánticas en que se ha dividido la categoría foreground (cabello, cejas, piel, gafas, orificios nasales, labios, ojos u otras) o bien como background, tal y como se ilustra en la siguiente imagen.

Anotaciones de las imágenes de la base de datos. Fuente: Google Research Blog

Para conseguir una continuidad o consistencia temporal en los frames (cada imagen de una secuencia de vídeo recibe el nombre de frame), las técnicas del estado del arte suelen estar basadas en arquitecturas LSTM (Long short-term memory) o GRU (Gated Recurrent Units). Estas son algunas de las configuraciones que suelen usarse en las redes neuronales recurrentes (RNN, Recurrent Neural Networks), en las que el modelo tiene memoria interna y tiene en consideración los elementos procesados anteriormente en una serie temporal, como por ejemplo una secuencia de imágenes en un vídeo (caso que nos ocupa) o una secuencia de palabras en un texto.

El inconveniente de estas arquitecturas es que suelen tener una coste computacional elevado, cosa que no las hace factibles para ser usadas en tiempo real en un dispositivo móvil. Por este motivo, para el desarrollo de esta aplicación se ha optado por una arquitectura distinta, concretamente basada en la arquitectura de Stacked Hourglasses, un tipo de Red Neuronal Convolucional (CNN, Convolutional Neural Network) típicamente usada en arquitecturas de tipo codificador-decodificador (encoder-decoder) con skip connections, que permite reducir la resolución y posteriormente incrementarla perdiendo el mínimo de detalle posible. Esta arquitectura ha sido entrenada con imágenes de 4 canales donde el cuarto canal es una máscara binaria que representa la segmentación de foreground-background del frame anterior. Durante el entrenamiento del modelo, como se dispone del ground truth, se puede utilizar la anotación que se tiene del frame anterior. En cambio, cuando se usa el modelo en predicción, es la predicción que ha hecho el modelo del frame anterior la que se usa como cuarto canal de entrada para la predicción de la segmentación del siguiente frame. Los otros 3 canales de entrada son los canales RGB de la imagen a segmentar.

Así pues, ya vemos cómo empiezan a llegar a nuestro día a día posibles aplicaciones de segmentación de vídeo. Pero, sin duda, llegarán todavía muchas más, con entornos no tan controlados como un video selfie, ya que históricamente también fueron los detectores de caras y, posteriormente, de personas, los que dieron mejores resultados aplicados a imágenes. La inversión que están realizando grandes compañías en el desarrollo de vehículos de conducción autónoma se plasmará en una mejora significativa de las técnicas de segmentación semántica en vídeo.

Esta entrada se publicó originalmente en el blog Informática++.

Carles Ventura es profesor de los Estudios de Informática, Multimedia y Telecomunicación de la Universitat Oberta de Catalunya (UOC). Doctor por la Universitat Politècnica de Catalunya (UPC), imparte cursos de inteligencia artificial y sus principales intereses en investigación se focalizan en el reconocimiento y detección de objetos y la segmentación semántica de imágenes. Es miembro del grupo de investigación SUnAI (Scene Understanding and Artificial Intelligence).

Posted in Deep Learning | Tagged , , , | Leave a comment

Inicio de Curso – Master en Inteligencia de Negocio y Big Data

Iniciamos en breve (próximo día 14 de Marzo) el siguiente semestre de nuestros programas en Inteligencia de Negocio y Big Data.

Primero de todo es necesario dar la bienvenida a los nuevos estudiantes que inician sus primeros pasos en nuestro programa y van aprender y consolidar conocimientos en las áreas de inteligencia de negocio y big data, dos de las áreas de mayor proyección dentro de las organizaciones. Como siempre comentamos va a ser una carrera de fondo, donde sin pausa vamos a ir profundizando en múltiples aspectos en función de la especialización, el posgrado o el master.

He tenido la oportunidad de hablar directamente con algunos de nuestros nuevos estudiantes y me consta sus ganas por empezar estos estudios, aplicar los conocimientos en sus respectivas empresas e instituciones y dar apoyo en el largo camino hacia una organización orientadas al dato. Me repito: no solo se trata de implementar plataformas, aprender herramientas o mejorar la toma de decisiones, sino transformar profundamente el enfoque de las empresas, cómo trabajan en el día a día.

También quiero volver a dar la bienvenida a los estudiantes que continuan sus estudios con nosotros y reemprenden su camino de aprendizaje tras un breve espacio de descanso. Recuperamos fuerzas y volvemos a la carrera.

Mantenemos la estructura del programa y sus asignaturas como ya explicamos en este artículo y ya estamos trabajando en novedades que anunciaremos a su debido tiempo tanto en nuestro programa como en el ámbito al que pertenecemos.

Como director académico y también profesor responsable ya tengo ganas de empezamos. En cada edición es interesante tanto en sus contenidos, sus discusiones, y sus actividades, y en lo que me gusta denominar la guinda del pastel que suelen ser los trabajos finales.

¡Nos encontramos en breve en el campus!

Posted in Big Data, Business Intelligence, Data Driven | Tagged , , | Leave a comment

Job Offer: Junior Data Analyst at UOC

Junior Data Analyst position

Open Evidence, an spin-off, and the TESLA project , an European project, are seeking for a Junior Data Analyst to participate in projects and activities related to data analysis working in close collaboration with Data Architects and Senior Data Analysts.

More information: http://open-evidence.com/data-analyst-position/

Àngels Rius es profesora del Máster en Business Intelligence y el Máster en Data Science de la UOC, así como del área de bases de datos de los Estudios de Informática Multimedia y Telecomunicación. Actualmente su investigación se enmarca en el ámbito del eHealth.

Posted in Uncategorized | Leave a comment

Data First

Cuando no hemos superado (implementado, desarrollado) todavía las estrategias mobile-first y cloud-first, resulta que ya estamos hablando de AI-first. Y sin embargo, antes de volcarse en una estrategia donde la inteligencia artificial lo impregne todo, muchas de las organizaciones deben considerar un paso intermedio: data-first.

Aunque ahora McKinsey nos traiga esta entrevista (enlace anterior), este no es un tema nuevo. Podríamos resumirlo en el clásico: garbage in, garbage out. Cualquier estrategia de analítica está condenada al fracaso si no hay un cambio de calado profundo respecto la percepción del dato, que pasa a ser un activo crucial para la organización.

Ya hemos tratado en diferentes ocasiones el tema de convertirse en una organización orientada al dato, la necesidad (o no) de tener un CDO (incluso en contextos que no se prestan), si un centro de excelencia puede ayudarnos en nuestra organización, cuán relevante es el gobierno del dato y que monetizar el dato no es un aspecto sencillo.

Discutía hace poco, con algunos directivos, sobre la dificultad de usar algoritmos dentro de la organización. Entre los aspectos que revisamos se citaron muchos (frecuentemente aprendidos a fuego, incluso con cicatrices dolorosas) como, por ejemplo, cómo interpretar los resultados, cómo decidir cuál es el mejor algoritmo, por qué no existe un único algoritmo que resuelva todos los problemas (ya sabéis un algoritmo maestro), el problema de etiquetar los datos, la dedicación necesaria para mejorar la calidad del dato (y qué poco sexy eso resulta),… y otros mucho más centrados en organización como qué perfiles necesitamos, cómo los organizamos, bajo qué estructura,…

También un artículo reciente de InformationWeek se hace eco de barreras relevantes que limitan las estrategias analíticas. A saber:

  • Los objetivos de negocio y los esfuerzos analíticos no están alienados (esto me suena a la típica separación entre el CIO y el CEO)
  • Hay conocimiento pero no acción (y, por lo tanto, nos quedamos en la fase comtemplativa)
  • No hay roadmap (para realizar una transición desde la analítica descriptiva a la corriente más actual).
  • No hay calidad del dato (sin base no hay casa)

Estas preguntas son comunes (y frecuentes!) a muchas empresas y forman parte de empezar a tomar en serio la transformación digital (o la palabra que se quiera usar, a preferencia del lector). Parece que ya no es necesaria la evangelización, sino que es hora de ponerse en serio a dar pasos. No solo se trata de implementar proyectos de BI, sino de cultura y, como dice Davenport en uno de sus últimos artículos de Harvard, en esto último no lo estamos haciendo bien. Y parte de la solución es aumentar el conocimiento (que no envangelizar). Además, quizá sea hora de tener en cuenta los cuatro pilares de la estrategia de sistemas de información además de la strategy-as-a-practice como dice José Ramón.

Por ello nosotros continuamos en la nuestra y el próximo día 14 empezamos la siguiente edición de nuestro Máster en Inteligencia de Negocio y Big Data para poder discutir estos puntos y más con nuestros alumnos.

Posted in Data Driven | Tagged | Leave a comment

Review – Learning Pentaho Data Integration 8 CE

Dentro de nuestro Máster de Inteligencia de Negocio y Big Data, se hace uso de múltiples herramientas tanto propietarias como open source que cubren un amplio abanico de las necesidades de una organización.

Entre ellas Pentaho Data Integration (PDI). PDI es una herramienta de integración de datos, con foco en los procesos ETL (Extract-Transform-Load).

PDI es una herramienta muy versátil no solo aplicable en el contexto de inteligencia de negocio o big data, sino también en el desarrollo de aplicaciones, migración de sistemas o incluso data science!

Dominar este tipo de herramientas es cuestión de tiempo y práctica, principalmente por la gran cantidad de opciones y múltiples enfoques y posibilidades de optimizar los procesos ETL.

¿Cómo acelerar mi aprendizaje? A parte de cursar un programa,,… podemos revisar la documentación disponible, los ejemplos de incluye PDI, buscar videos de aficionados y  expertos,… o leer libros que recojan las últimas novedades sobre esta herramienta.

Hemos tenido la oportunidad de acceder y leer el último libro de Maria Carina Roldán llamado Learning Pentaho Data Integration 8 CE – Third Edition: An end-to-end guide to exploring, transforming, and integrating your data across multiple sources.

Es un libro muy interesante y sobretodo actualizado a la última versión de PDI (la 8). Por un lado, tiene una introducción a la herramienta (interfaz, funcionalidad básica, tipo de objetos que se pueden crear -transformaciones y trabajos-, variables, parámetros,…). Por otro, se centra en ejemplos fundamentales para los proyectos de integración de datos. Por citar algunas de ellos:

  • Acceso y lectura de diferentes fuentes de datos.
  • Limpieza de datos.
  • Carga de dimensiones
  • y muchos más.

Muchos de los ejemplos explicados son relevantes cuando estamos realizando un proyecto de integración de datos y el diseño del libro en formato recetas permita que se convierta en un libro de cabecera.

Tanto si uno se inicia como si es un experto, es posible encontrar secciones interesantes en este libro. Eso le da un punto a favor, puesto que no es tan solo un libro orientado a los que empiezan a trabajar con PDI.

Por lo que es una buen añadido a la colección de libros, sobretodo si se trabaja con PDI.

Posted in Data Integration, Pentaho | Tagged , , | Leave a comment

Proyecto fin de máster de la competición de Kaggle “Predicción de Ventas de Comestibles Corporación Favorita”

Gabriel Kreplak acaba de finalizar su proyecto fin de máster en el Máster de Inteligencia de Negocio y Big Data, que estaba enmarcado en una competición de Kaggle. Ha recibido la calificación de matrícula de honor y ha conseguido estar entre el 17% de mejores participantes (269/1675) de la competición de Kaggle Corporación Favorita. Su trabajo, ya está disponible en el repositorio de la UOC: http://hdl.handle.net/10609/74565.

Laia Subirats, directora de su trabajo final, nos da a conocer de primera mano, mediante una entrevista con Gabriel, su experiencia, sus motivaciones y el reto de combinar Kaggle y el trabajo final.

Para empezar, ¿podrías explicarnos un poco tu perfil profesional y qué te motivó a estudiar el Máster en Inteligencia de Negocio y Big data de la UOC?

Tengo 59 años y hace unos 25 me dedico a la automatización de procesos industriales de energía, agua y proceso. Me matriculé en este máster con ganas de dar un giro a mi carrera profesional, buscando nuevas motivaciones. Siempre me gustaron los datos, por lo que nunca dudé que esta formación me interesaba. La posibilidad de un máster no presencial, me ofrecía la flexibilidad que yo necesitaba en mi actividad.

¿Qué motivó tu interés en la ciencia de datos?

El impacto que está teniendo el cambio de paradigma en la gestión de los datos respecto a muy pocos años atrás es cada vez más evidente en nuestro día a día. Creo que es una revolución sutil pero de la importancia que tuvo en nuestras vidas la irrupción de internet en los 90.

Opino que estamos en los albores de la ciencia de datos y que las nuevas herramientas que se desarrollan y mejoran constantemente para extraer sabiduría de los datos tienen un recorrido enorme. Quiero ver de cerca cómo evoluciona el Machine Learning. Y si me puedo ganar la vida con ello, pues se cierra para mí el círculo virtuoso.

¿Cuál ha sido tu motivación para querer enmarcar una competición de Kaggle en tu proyecto fin de máster?

Lo tenía pensado desde hacía tiempo, casi desde que descubrí Kaggle al principio del máster. La considero una plataforma ideal para a) introducirse en metodologías y algoritmos competitivos, b) ponerse al día permanentemente, c) compartir experiencia y d) buscar una puntuación que acredite un trabajo que servirá para abrirte nuevos horizontes laborales.

Me motiva, y mucho, la facilidad que da esta plataforma para el trabajo en equipo. De momento no experimenté participar en un equipo competitivo, pero no lo descarto en absoluto. Pero necesito avanzar más y encontrar compañeros de equipo adecuados.

¿Cómo empezaste con Kaggle?

Empecé porque se mencionaron estas competiciones al principio del máster, creo que en la asignatura Fundamentos de Business Intelligence junto con otras plataformas como CrowdAnalytix, etc. Y empecé como creo que empiezan la gran mayoría, con la competición del Titanic, que predecía los supervivientes en función de diversas características de los náufragos.

Pero por falta de tiempo y conocimientos no persistí y no me apunté a más competiciones ya que tenía por delante dos semestres de trabajo de máster, por lo que decidí posponer mi incursión definitiva.

¿Cuáles han sido las dificultades que has tenido que superar durante la competición?

No sabría hablar en términos de dificultad porque las técnicas más difíciles y la aplicación de los algoritmos más opacos están bastante explicados en Kaggle y especialmente fuera. La clave es la lectura, la paciencia y experimentar. Con el asesoramiento de mi directora, escogimos una competición que cuadraba con la agenda del Trabajo Final de Máster. Y la propia asignatura impuso un ritmo que a veces se hacía frenético. Pero gracias a ello y a que el plazo de la competición se agotaba, pude cerrar el trabajo. Creo que eso es lo que más me costó.

¿Cómo te ha ayudado el máster de la UOC y Kaggle para mejorar tus habilidades de científico de datos?

Me apunté al máster queriendo entender cómo se extrae información relevante de los datos masivos. Conocía bases de datos relacionales y sobre big data y machine learning apenas había leído. Habiendo acabado el máster tengo la sensación de haber atravesado un umbral. Creo que ahora soy capaz de identificar lo que tengo que aprender para convertirme en un científico de datos.

Kaggle puede ser una herramienta muy interesante, por lo motivante, por lo pedagógico y por el reconocimiento que se puede obtener de hacer un buen papel.

Quiero aprovechar esta ocasión para animar a la UOC a incluir en el curriculum de este máster elementos que permitan a los alumnos acometer proyectos con los conocimientos básicos de las técnicas actuales, organización del proyecto, trabajo en equipo, algoritmos eficientes, asesoramiento por parte de data scientist con un buen score, etc.

Para mí, sería enormemente atractivo.

¿Cómo te ha ayudado el máster de la UOC y Kaggle en tu carrera profesional?

De momento, no le he sacado mucho partido profesional al máster o a Kaggle. Pero confío en que, cuando me lo proponga, ayuden mucho.

Si tuvieses que dar una recomendación a un/a compañero/a sobre realizar su trabajo fin de máster enmarcado en una competición de Kaggle, ¿qué consejo le darías?

El trabajo final de máster es algo muy personal y que te tiene que motivar. Si el compañero o compañera le gusta el machine learning, leer en internet y tiene paciencia para los momentos bajos, que inevitablemente aparecerán, cuando alguna librería se resista a instalarse o cuando parezca que estamos en un callejón sin salida, entonces yo le aconsejaría sin dudarlo que intente hacer su TFM con una competición. Lo va a pasar muy bien.

Laia Subirats es doctora en informática por la Universitat Autònoma de Barcelona (2015). Compagina su colaboración como profesora del Grado de Ingeniería Informática y del Máster en Inteligencia de Negocio y Big Data de la Universitat Oberta de Catalunya (UOC) con su investigación en el área de ciencia de datos en medicina en Eurecat – Centro Tecnológico de Cataluña.

Posted in Big Data, Kaggle, Machine learning | Tagged , , | Leave a comment

El mercado de datos siempre en evolución

El mercado de datos (o mejor dicho de datos y algoritmos) está en una constante evolución. El profesional del dato (sea cual sea su rol dentro de espectro de roles que incluye el ingeniero del dato, el consultor o el científico del dato, entre otros) debe estar atento a todos los cambios y novedades. Mantenerse al tanto no es un trabajo sencillo, puesto que por su perfil deben estar atentos a novedades en múltiples ámbitos.

Vamos a tratar tres puntos como ejemplo.

Tecnología

Los cambios a veces hacen referencia a nuevas versiones de tecnología. Algunas de ellos son muy relevantes puesto que afectan tanto a implementaciones ya existentes o elecciones futuras. Este es el caso del lanzamiento de Apache Hadoop 3.0 que como explican en el blog de HortonWorks, supone grandes cambios significativos, por ejemplo, para Data Lakes. O el ecosistema que continua creciendo para proporcionar más y más valor (por ejemplo, Apache Trafodion, que proporciona Transactional SQL-on-Hadoop).

Regulación

Otras veces hacen referencia a la regulación. Que la analítica ha cambiado las reglas del juego en muchos mercados es algo que ya saben nuestros lectores. Ahora la regulación va a cambiar las reglas de la analítica. El próximo 25 de mayo de 2018 se exigirá a las empresas el cumplimiento del Reglamento General de Protección de Datos (GDPR). Esta regulación  busca ampliar los derechos de los sujetos de datos y establece mayores restricciones a la toma decisiones automáticas. Es decir, afecta considerablemente a la analítica de clientes y al uso de aprendizaje automático e inteligencia artificial.

GDPR establece “toda persona tendrá derecho a no ser objeto de una decisión basada únicamente en el tratamiento automatizado que produzca efectos jurídicos en ella o le afecte significativamente de modo similar”. Es decir, en el consentimiento explícito debe informarse al sujeto de la lógica aplicada y de las consecuencias del algoritmo. Este nivel de trasparencia a nivel de algoritmos va a producir un dolor de cabeza a muchísimas organizaciones.

Algoritmos

Los cambios también afectan a los algoritmos. El dominio de deep learning está captando mucha de la atención por parte de empresas y instituciones académicas. El profesional del dato debe conocer en cierta medida los principales avances (un buen resumen es éste). Y no dejado de evolucionar. Por ejemplo, ahora hay mucha atención en las redes neuronales generativas. Mantenerse al tanto requiere revisar artículos académicos, participar en eventos y meetups.

Así que el profesional de la analítica y del dato, no solo debe comprender el negocio, saber capturar, procesar, almacenar, analizar y visualizar el dato, sino que además debe aprender cada día un poco más. Todo un reto, ¿no?

Posted in Big Data, Data Science, Deep Learning, Machine learning | Tagged , , | Leave a comment