Proyecto fin de máster de la competición de Kaggle “Predicción de Ventas de Comestibles Corporación Favorita”

Gabriel Kreplak acaba de finalizar su proyecto fin de máster en el Máster de Inteligencia de Negocio y Big Data, que estaba enmarcado en una competición de Kaggle. Ha recibido la calificación de matrícula de honor y ha conseguido estar entre el 17% de mejores participantes (269/1675) de la competición de Kaggle Corporación Favorita. Su trabajo, ya está disponible en el repositorio de la UOC: http://hdl.handle.net/10609/74565.

Laia Subirats, directora de su trabajo final, nos da a conocer de primera mano, mediante una entrevista con Gabriel, su experiencia, sus motivaciones y el reto de combinar Kaggle y el trabajo final.

Para empezar, ¿podrías explicarnos un poco tu perfil profesional y qué te motivó a estudiar el Máster en Inteligencia de Negocio y Big data de la UOC?

Tengo 59 años y hace unos 25 me dedico a la automatización de procesos industriales de energía, agua y proceso. Me matriculé en este máster con ganas de dar un giro a mi carrera profesional, buscando nuevas motivaciones. Siempre me gustaron los datos, por lo que nunca dudé que esta formación me interesaba. La posibilidad de un máster no presencial, me ofrecía la flexibilidad que yo necesitaba en mi actividad.

¿Qué motivó tu interés en la ciencia de datos?

El impacto que está teniendo el cambio de paradigma en la gestión de los datos respecto a muy pocos años atrás es cada vez más evidente en nuestro día a día. Creo que es una revolución sutil pero de la importancia que tuvo en nuestras vidas la irrupción de internet en los 90.

Opino que estamos en los albores de la ciencia de datos y que las nuevas herramientas que se desarrollan y mejoran constantemente para extraer sabiduría de los datos tienen un recorrido enorme. Quiero ver de cerca cómo evoluciona el Machine Learning. Y si me puedo ganar la vida con ello, pues se cierra para mí el círculo virtuoso.

¿Cuál ha sido tu motivación para querer enmarcar una competición de Kaggle en tu proyecto fin de máster?

Lo tenía pensado desde hacía tiempo, casi desde que descubrí Kaggle al principio del máster. La considero una plataforma ideal para a) introducirse en metodologías y algoritmos competitivos, b) ponerse al día permanentemente, c) compartir experiencia y d) buscar una puntuación que acredite un trabajo que servirá para abrirte nuevos horizontes laborales.

Me motiva, y mucho, la facilidad que da esta plataforma para el trabajo en equipo. De momento no experimenté participar en un equipo competitivo, pero no lo descarto en absoluto. Pero necesito avanzar más y encontrar compañeros de equipo adecuados.

¿Cómo empezaste con Kaggle?

Empecé porque se mencionaron estas competiciones al principio del máster, creo que en la asignatura Fundamentos de Business Intelligence junto con otras plataformas como CrowdAnalytix, etc. Y empecé como creo que empiezan la gran mayoría, con la competición del Titanic, que predecía los supervivientes en función de diversas características de los náufragos.

Pero por falta de tiempo y conocimientos no persistí y no me apunté a más competiciones ya que tenía por delante dos semestres de trabajo de máster, por lo que decidí posponer mi incursión definitiva.

¿Cuáles han sido las dificultades que has tenido que superar durante la competición?

No sabría hablar en términos de dificultad porque las técnicas más difíciles y la aplicación de los algoritmos más opacos están bastante explicados en Kaggle y especialmente fuera. La clave es la lectura, la paciencia y experimentar. Con el asesoramiento de mi directora, escogimos una competición que cuadraba con la agenda del Trabajo Final de Máster. Y la propia asignatura impuso un ritmo que a veces se hacía frenético. Pero gracias a ello y a que el plazo de la competición se agotaba, pude cerrar el trabajo. Creo que eso es lo que más me costó.

¿Cómo te ha ayudado el máster de la UOC y Kaggle para mejorar tus habilidades de científico de datos?

Me apunté al máster queriendo entender cómo se extrae información relevante de los datos masivos. Conocía bases de datos relacionales y sobre big data y machine learning apenas había leído. Habiendo acabado el máster tengo la sensación de haber atravesado un umbral. Creo que ahora soy capaz de identificar lo que tengo que aprender para convertirme en un científico de datos.

Kaggle puede ser una herramienta muy interesante, por lo motivante, por lo pedagógico y por el reconocimiento que se puede obtener de hacer un buen papel.

Quiero aprovechar esta ocasión para animar a la UOC a incluir en el curriculum de este máster elementos que permitan a los alumnos acometer proyectos con los conocimientos básicos de las técnicas actuales, organización del proyecto, trabajo en equipo, algoritmos eficientes, asesoramiento por parte de data scientist con un buen score, etc.

Para mí, sería enormemente atractivo.

¿Cómo te ha ayudado el máster de la UOC y Kaggle en tu carrera profesional?

De momento, no le he sacado mucho partido profesional al máster o a Kaggle. Pero confío en que, cuando me lo proponga, ayuden mucho.

Si tuvieses que dar una recomendación a un/a compañero/a sobre realizar su trabajo fin de máster enmarcado en una competición de Kaggle, ¿qué consejo le darías?

El trabajo final de máster es algo muy personal y que te tiene que motivar. Si el compañero o compañera le gusta el machine learning, leer en internet y tiene paciencia para los momentos bajos, que inevitablemente aparecerán, cuando alguna librería se resista a instalarse o cuando parezca que estamos en un callejón sin salida, entonces yo le aconsejaría sin dudarlo que intente hacer su TFM con una competición. Lo va a pasar muy bien.

Laia Subirats es doctora en informática por la Universitat Autònoma de Barcelona (2015). Compagina su colaboración como profesora del Grado de Ingeniería Informática y del Máster en Inteligencia de Negocio y Big Data de la Universitat Oberta de Catalunya (UOC) con su investigación en el área de ciencia de datos en medicina en Eurecat – Centro Tecnológico de Cataluña.

This entry was posted in Big Data, Kaggle, Machine learning and tagged , , . Bookmark the permalink.

Leave a Reply

Your email address will not be published. Required fields are marked *