Usando Business Analytics y Ciencia de Datos

En este post os presentamos un resumen y la presentación completa de otra de las charlas del UOC Data Day, celebrado el día 21 de junio de 2017 en Madrid sobre nuevas formas de analizar datos, como ya hemos hecho en el pasado con la forma de tus datos tiene significado.

Esta ponencia fue a cargo de Álvaro Galán, experto en Business Analytics, Digital Experience Global Account Manager en Liferay y profesor colaborador docente del máster en Inteligencia de Negocio y Big Data.

Que mejor que las propias palabras de Álvaro para explicar su ponencia.

Los datos (y su abundancia) pueden ser utilizados para muchas cosas en una empresa, si bien, desde un punto de vista ortodoxo, las empresas solo tienen dos objetivos con ellos: maximizar los ingresos, conteniendo o minimizando los gastos.

Con esos dos objetivos en mente, una empresa puede usar sus datos de múltiples maneras, pero la que elegí analizar en el segundo UOC Data Day fue la del marketing digital (entendido de manera amplia, incluyendo la personalización de sitios).

La mayoría de las empresas están invirtiendo mucho dinero en la publicidad programática o contextual, la optimización de sitios web, las plataformas de experiencia digital, en pintar el mejor “path to conversión” o “customer journey”, …

Y en el camino están recogiendo terabytes de datos asociados a nuestros clics, nuestras preferencias, nuestras visitas, nuestros intereses, nuestras transacciones…

Hasta hace poco, esos datos eran analizados de manera muy somera, manual, y hasta cierto punto anticuada, y se acababa utilizando la teoría del “cañón gordo”: cuanto más dispare, más cazo.

Pero esos tiempos se están acabando.

No es extraño escuchar a los responsables hacerse la siguiente pregunta: ¿estoy invirtiendo mi dinero de manera correcta?.

Tras un periodo de inversión sin demasiado control ni una manera directa de medir el ROI, los CEO de las compañías han mandado un mensaje claro a los responsables digitales: “Ha llegado el momento de medir y optimizar nuestra inversión”.

En la disyuntiva entre medir y activar palancas (ojo, que no son excluyentes, es más, es imposible saber que activar si no has medido antes), en mi charla me centré en la parte de activar.

El reto es grande, por ejemplo, masticar, digerir y activar los datos de una multinacional hotelera con millones de visitantes únicos al mes, con centenares de variables por visitante, y tomar decisiones automáticas para impactar mejor en el retargeting publicitario (ahorrando en el camino varios cientos de miles de euros por trimestre).

O utilizar las transacciones, datos demográficos, y campañas de mail marketing de un sitio de venta privada para diseñar un “customer journey” que, desde el primer impacto, me hable de lo que me interesaría comprar, ajustando la oferta a mis gustos y preferencias (y conseguir incrementar la venta en un jugoso 12% en medio año).

Y todo ello apoyado en el análisis automático o asistido de grandes, grandísimos, volúmenes de datos.

Si queréis saber cómo vuestra navegación, gustos, y hasta nivel adquisitivo han sido recogidos, analizados mediante ciencia de datos y Business Intelligence, interpretados , y retroalimentados a los sistemas que os muestran la publicidad digital y personalizan los sitios web en los que os movéis a diario, y todo ello mientras leíais este artículo, no os perdáis el vídeo de la charla.

A continuación, os dejamos la grabación de la ponencia completo, así como el material de soporte utilizado para la presentación.

¡Esperamos que la disfrutéis!

Posted in Big Data, Business Intelligence, Data Science | Tagged , , , | Leave a comment

Análisis de Big Data usando SQL

En este post os presentamos un resumen y la presentación completa de otra de las charlas del UOC Data Day, celebrado el día 14 de junio de 2017 en Barcelona sobre nuevas formas de analizar datos, como ya hemos hecho en el pasado con las de Madrid.

Esta ponencia fue a cargo de David Cabanillas, consultor de los estudios de Informática, Multimedia y Telecomunicación de la UOC, Data Scientist en eDreams, Ph.D Inteligencia Artificial y apasionado del lenguaje R.

Que mejor que las propias palabras de David describiendo su experiencia:

El 14 de Junio se celebró el UOC Data Day y presenté una de las soluciones BigData de Google llamada BigQuery.
La sesión la dividí en dos secciones. En una primera parte la introducción a BigQuery, para posicionar la herramienta en el ecosistema de Google y mostrar cómo se puede acceder a los datos y posibles casos de uso. La segunda parte fue más práctica. En ella realicé diferentes demos en vivo para mostrar alguna de las bondades de BigQuery. Primero detallando como está estructurado BigQuery para pasar luego a las demos con diferentes ejemplos desde queries sencillas a queries algo más complejas con joins y el uso de expresiones

A continuación, os dejamos la grabación de la ponencia completo, así como el material de soporte utilizado para la presentación.

¡Esperamos que la disfrutéis!

Posted in Big Data, Evento, UOC D^2 | Tagged , , | Leave a comment

Uso de Social Network Analytics (SNA)

En este post os presentamos un resumen y la presentación completa de una de las charlas del UOC Data Day, celebrado el día 14 de junio de 2017 en Barcelona sobre el uso del análisis de redes sociales (social network analysis, SNA).

Esta ponencia fue a cargo de Jordi Conesa, profesor de los Estudios de Informática, Multimedia y Telecomunicación de la UOC y miembro del grupo de investigación SMART LEARN Research group.

En esta ponencia se introducen las bases de datos NoSQL orientadas a grafos, en concreto se verá un completo ejemplo de aplicación de la base de datos Neo4J. Durante la charla el ponente nos mostrará un ejemplo práctico de captura de información de una red social, en este caso concreto, de la red social Twitter. La información capturada en esta red social será almacenada en Neo4J, que nos proporcionará dos características muy importantes: en primer lugar, almacenamiento para datos en formato de grafos, y en segundo lugar, capacidad de procesamiento y análisis de los datos mediate una consola interactiva para realizar queries a la base de datos que nos permitirán descubrir interesantes relaciones y propiedades de los usuarios analizados de Twitter.

A continuación, os dejamos la grabación de la ponencia completa, así como el material de soporte utilizado para la presentación. Cabe comentar que esta presentación es en catalán.

¡Esperamos que la disfrutéis!

Posted in Big Data, Evento, Social Network Analysis, UOC D^2 | Tagged , , , | Leave a comment

El reto de transformarse en una organización orientada al dato

En este post os presentamos un resumen y la presentación completa de otra de las charlas del UOC Data Day, celebrado el día 14 de junio de 2017 en Barcelona sobre el reto de transformarse en una organización orientada dato, como ya hemos hecho en el pasado con la forma de tus datos tiene significado.

Esta ponencia fue a cargo de Josep Curto, profesor de los estudios de Informática, Multimedia y Telecomunicación de la UOC, CEO en Delfos Research y CDSO en IoP.

En la era de big data y machine learning, las empresas tiene el reto no sólo de dominar nuevas técnicas y tecnologías, sino de cambiar profundamente la forma en la que operan. El dato se convierte en el activo de máximo valor. Esto significa cambiar la forma en la que toda la organización toma decisiones fundamentada en evidencias y datos.

Esta charla es una breve introducción a qué consiste transformarse en una organización orientada al dato, qué problemas se enfrenta y qué caminos se pueden seguir para convertirse en una.

A continuación, os dejamos la grabación de la ponencia completo, así como el material de soporte utilizado para la presentación. Cabe comentar que esta presentación es en catalán.

¡Esperamos que la disfrutéis!

Posted in Big Data, Data Driven, Data Science, UOC D^2 | Tagged , , | Leave a comment

Lecciones aprendidas sobre deep learning para la detección de fraude de tarjetas de crédito

En este post os presentamos un resumen y la presentación completa de una de las charlas del UOC Data Day, celebrado el día 14 de junio de 2017 en Barcelona sobre el uso de las redes neuronales (deep learning) para la detección de fraude de tarjetas de crédito.

Esta ponencia fue a cargo de Alberto Rubio Muñoz, Senior Data Scientist en BBVA Data & Analytics y profesor colaborador docente del área de minería de datos y machine learning del Máster universitario en Ciencia de datos (Data Science).

Los datos están cambiando nuestra sociedad. Debido a los datos estamos repensando nuestras industrias para construir mejores productos: agricultura, educación, finanzas, jurídicos, etc. Con el advenimiento de los datos, un hijo pródigo del machine learning ha vuelto a la delantera para desempeñar un papel principal: las redes neuronales artificiales, también conocido como Deep learning o aprendizaje profundo. En esta charla, proporcionaremos algunas ideas sobre su aplicación para detectar transacciones de tarjetas de crédito fraudulentas realizadas en tiendas y minoristas en línea. También describiremos los datos que usamos, cómo se entrenan las redes neuronales y cómo se mide su eficiencia o precisión. Además, reflexionaremos sobre cómo la posibilidad de procesar gran cantidad de datos ha impulsado el deep learning y el machine learning en la industria.

A continuación, os dejamos la grabación de la ponencia completa, así como el material de soporte utilizado para la presentación.

¡Esperamos que la disfrutéis!

Posted in Data Science, Deep learning, Evento, Machine learning, UOC D^2 | Tagged , , | Leave a comment

La forma de tus datos tiene significado

En este post os presentamos un resumen y la presentación completa de otra de las charlas del UOC Data Day, celebrado el día 21 de junio de 2017 en Madrid sobre nuevas formas de analizar datos, como ya hemos hecho en el pasado con la privacidad de datos (Data Privacy).

Esta ponencia fue a cargo de Josep Curto, profesor de los estudios de Informática, Multimedia y Telecomunicación de la UOC, CEO en Delfos Research y CDSO en IoP.

La emergencia de las técnicas de Big Data han facilitado la explotación de datos conjuntos complejos así como la aplicación de técnicas de análisis más sofisticadas (ya fuera porque necesitaban un cantidad de datos relevantes para ser aplicadas, o que por su complejidad exponencial no existían sistemas suficientemente ponentes para ejecutarlos (en un tiempo de negocio aceptable). Dentro de las técnicas ahora disponibles tenemos lo que se conoce como Topological Data Analysis.

Esta charla es una breve introducción a qué es esta técnica, qué aporta y discusión de alguno de los ejemplos de aplicación.

A continuación, os dejamos la grabación de la ponencia completo, así como el material de soporte utilizado para la presentación.

¡Esperamos que la disfrutéis!

Posted in Big Data, Data Science, Evento, UOC D^2 | Tagged , , | Leave a comment

Privacidad de datos (Data privacy)

En este post os presentamos un resumen y la presentación completa de una de las charlas del UOC Data Day, celebrado el día 21 de junio de 2017 en Madrid sobre la privacidad de datos (Data Privacy).

Esta ponencia fue a cargo de Jordi Casas-Roma, profesor de los estudios de Informática, Multimedia y Telecomunicación de la UOC, y director del Máster universitario en Ciencia de datos (Data Science) y de los programas de Inteligencia de Negocio y Big Data.

En la actualidad los datos están por todas partes y, cada vez más, las empresas e instituciones se están dando cuenta de la importancia de utilizarlos para extraer conocimiento que les ayude en la toma de decisiones. Junto con el fenómeno del Big Data, se intensifica el cruce de datos de distintas fuentes, tanto internos de la organización como externos. En esta línea, aparecen iniciativas que ponen a disposición de terceros los datos capturados o generados por empresas e instituciones públicas de distintos ámbitos. Es de especial relevancia el caso de los datos abiertos (open data) que, especialmente en el caso de las administraciones públicas, pone un conjunto importante de datos al alcance de cualquier ciudadano o empresa que los quiera consumir.

Pero esta gran oportunidad para compartir datos entre distintas organizaciones también conlleva una importante responsabilidad: la privacidad de los usuarios que aparecen en dichos conjuntos de datos debe ser garantizada, de modo que nadie pueda identificar a un usuario dentro de un conjunto de datos y pueda extraer información sensible sobre él.

En esta ponencia hablamos de la importancia de mantener la privacidad de los datos cuando éstos son publicados para que empresas, instituciones e investigadores puedan utilizarlas libremente para generar conocimiento.

En concreto, veremos los principales modelos de preservación de la privacidad, como por ejemplo el modelo de k-anonimidad o la privacidad diferencial, e ilustraremos con ejemplos la problemática y soluciones que aportan estos modelos en el caso de los datos tabulares y los datos semi-estructurados en formato de red o grafo.

A continuación, os dejamos la grabación de la ponencia completo, así como el material de soporte utilizado para la presentación.

¡Esperamos que la disfrutéis!

Posted in Big Data, Evento, Privacy, UOC D^2 | Tagged , , | Leave a comment

¿Cómo ha ido la tercera edición del MOOC de Business Intelligence y Big Data?

Como ya comentamos hace unos meses en el blog informatica++ de los estudios EIMT de la UOC, hemos realizado la tercera edición del MOOC de Business Intelligence y Big Data en la plataforma MiriadaX.

Como hicimos con primera y segunda edición, es el momento de las reflexiones. Y como en cada edición, tenemos el privilegio de aprender de la experiencia, puesto que durante todo el proceso existe un proceso de comunicación bidireccional muy interesante entre alumnos y profesores involucrados.

Hemos compartido, con los estudiantes de esta edición, siete intensas semanas en las que nos han indicado, una vez más, puntos de mejora en contenidos, temáticas, discusiones e incluso en cuál es el mejor proceso de transferencia de conocimientos en esta época en la que tenemos múltiples tecnologías y metodologías disponibles. Agradecemos profundamente tener la posibilidad de tener este tipo de interacción con tantos estudiantes como los que supone un entorno MOOC.

En esta tercera edición hemos mantenido los contenidos de la segunda edición, cambiando alguno de los títulos para reflejar la forma en la que estructuramos los contenidos en la UOC. Es decir, siguiendo la taxonomía usada en el programa propio Máster de Business Intelligence y Big Data,  así como en el Máster Universitario de Data Science, que ofrecemos desde a partir de setiembre de 2017.

Se han tratado temas que van desde la inteligencia de negocio, la analítica de negocio, big data y data science. Este último punto coincide con el nuevo programa universitario de Data Science que empieza en Enero, y una reestructuración del programa de Inteligencia de Negocio y Big data, para separar lo que entendemos como perfiles diferentes.

En la siguiente tabla encontraréis los principales datos de seguimiento del curso:

 

Estadística 2017 2016 2015
Inscripciones 9.799 31.737 18.339
Inician curso 6.367 20.717 15.594
Finalizan curso 1.487

(23.35%)

5.256

(25,37 %)

2.570

(16,48 %)

Inician el primer módulo 6.311 21.124 15.117
Finalizan el primer módulo 3.177 10.952 6.399
Inician el segundo módulo 3.417 11.550 7.338
Finalizan el segundo módulo 2.166 7.706 4.815
Inician el tercer módulo 2.480 8.543 5.455
Finalizan el tercer módulo 1.750 6.153 3.341
Inician el cuarto módulo 2.129 7.369 4.263
Finalizan el cuarto módulo 1.642 5.767 3.134
Inician el quinto módulo 1.897 6.700 4.059
Finalizan el quinto módulo 1.519 5.367 2.925
Mensajes publicados 495 980 2.974

Tabla 1. Datos cuantitativos de las ediciones 2015, 2016 y 2017.

Este año, aunque ha disminuido el número de alumnos por temas de promoción, es necesario destacar que la tasa de rendimiento sigue siento muy relevante y por encima de las medias del sector (1.487 y 23.35%). Por ello, y dentro de la moderación que toca, podemos considerar que son resultados positivos y nos hace mucha ilusión no sólo los resultados actuales sino la visión retrospectiva de la realización del MOOC: más de 9300 estudiantes han superado nuestras tres ediciones. Lo que nos satisface enormemente y nos hace sentir al mismo tiempo muy humildes al haber confiado tantas personas en nuestro curso. Si se multiplican estos números por los contenidos que contiene el mooc:

  • 397 minutos de vídeos (más de 6 horas y media) registrados enteramente por el cuerpo docente de la UOC,
  • 244 páginas de material adicional en PDF
  • 17 tests de evaluación de los contenidos y la descarga opcional y gratuita de la primera versión del libro “Introducción al Business Intelligence”.

… podemos entender la magnitud del esfuerzo realizado y la confianza depositada por tantas personas que buscan adquirir nuevos conocimientos, información complementaria o por curiosidad.

Nosotros hemos aprendido de esta tercera experiencia tanto, sino más, como de la segunda y la primera.

  • Transformación digital fundamentada en datos y algoritmos: las empresas buscan sumergirse en la llamada transformación digital y pronto descubren que el dato se convierte en el activo principal. Por ello, todas aquellas estrategias (business intelligence, big data, data science) que permiten explotarlo son cada vez más relevantes.
  • La experiencia es un grado: tras tres ediciones, entendemos mejor a nuestros estudiantes en el MOOC, sus necesidades, sus expectativas, sus inquietudes,… y podemos ayudarles mejor en su camino para completar el MOOC.
  • El impacto de la promoción de la plataforma: En anteriores ediciones, la plataforma ha ayudado en la promoción de los cursos en ella, en esta edición la promoción ha sido menor, aunque el interés de nuestros alumnos ha sido la misma e incluso mayor que en otras ediciones, lo que nos ha llenado de orgullo.

Han sido siete semanas intensas, y en lugar de pensar que hemos llegado al final. Ya pensamos en la siguiente edición. Y lo que podemos mejorar, añadir y explicar. Terminamos cansados y satisfechos, y esperamos que nuestros estudiantes también, que ya forman parte de nuestra gran familia de estudiantes en todo el mundo.

Josep Curto es director de Delfos Research, empresa especializada en investigación de los mercados de Business Intelligence, Business Analytics y Big Data. Es profesor del Máster en Inteligencia de Negocio y Big Data (MiB) de la UOC.

Posted in Big Data, Business Intelligence, Data Science, MOOC | Tagged , , , | Leave a comment

El perfil de un data scientist

Se dice que actualmente hay siete zettabytes de información disponible, que este volumen se duplica cada dos años y que, en un solo día, se produce el doble de información de la que contenía Internet hace veinte años. Pero sólo se analiza un 0,5% de este volumen. Los datos que se recogen actualmente dentro y fuera de las organizaciones poseen unas características que no poseían anteriormente: ocupan un volumen muy grande, se producen en un flujo continuo, proceden de múltiples fuentes (redes sociales, sensores, teléfonos móviles, clics en la web, etc.), se presentan en múltiples formatos (imagen, documentos, etc.) y, sobre todo, ya no se pueden almacenar solo en filas y columnas (tienen una estructura diferente y más compleja). Este gran volumen de datos presenta una gran oportunidad para extraer conocimiento útil para la toma de decisiones en las organizaciones, pero a la vez, las características intrínsecas de estos datos dificultan los procesos de manipulación y análisis asociados.

Las empresas e instituciones se enfrentan al reto de encontrar los profesionales capacitados para aumentar la competitividad de su organización a través de la información obtenida de estos datos. Para ello, buscan profesionales dinámicos y especializados que provienen de diversos orígenes, tales como negocios, ingeniería, tecnología, economía, matemáticas y ciencias, y que sean capaces de identificar, capturar, transformar, analizar e interpretar los datos para impulsar el valor y la innovación aplicada en diversas industrias, como por ejemplo las finanzas, la salud, los bienes de consumo o la tecnología.

Por estos motivos, y por un cierto repunte (hype) de expectativas en el mercado, los científicos de datos son actualmente los profesionales más buscados y mejor pagados en el ámbito de los sistemas y tecnologías de información.

Thomas H. Davenport y D.J. Patil aventuraban que la ciencia de los datos se convertirá en uno de los trabajos más “atractivos” del siglo actual. En España, según la encuesta de Tic.job, la demanda de científicos de datos crece en un 52% anualmente. Muchos de estos puestos se quedan sin cubrir, uno de cada cuatro en 2015, según icrunchdata, el mayor portal del mundo de búsqueda de empleo en gestión de datos. Forbes señala que el de científico de datos va a ser uno de los diez puestos de trabajo más difíciles de cubrir en el año 2016. Según la encuesta anual de la Society for Information Management (Kappelman et. Al, 2016) entre primeros ejecutivos de informática, un 40% de los encuestados señalaban el gap de talento en inteligencia de negocio en la primera posición.

Además, la ciencia de los datos tendrá un peso fundamental en la sociedad según Forbes, ya que será fundamental para abordar 4 de las 10 nuevas tendencias que han estimado para el 2016 (gestionar información de cualquier fuente, machine learning avanzado, plataformas y arquitecturas de Internet of Things (IoT) y arquitecturas avanzadas de sistemas).

La ciencia de los datos (o data science) está integrada por profesionales multidisciplinares que requieren de unos conocimientos profundos en distintas áreas. Esta disciplina engloba los procesos de identificación, captura, pre-procesamiento, análisis y visualización de datos en distintos ámbitos académicos y profesionales (incluyendo empresas de todo tipo, negocios y plataformas electrónicos, ciencias de la salud, servicios públicos, etc.) y en general, en cualquier ámbito sobre el que exista la posibilidad de obtener y procesar datos.

Aún teniendo una idea intuitiva de las tareas y del perfil de una data scientist, actualmente su perfil es un poco “difuso” y no siempre queda del todo claro dónde empiezan y terminan sus conocimientos, competencias y tareas, así como las principales diferencias con otros perfiles relacionados del mundo del análisis de datos y la inteligencia de negocio.

Para intentar poner un poco de luz sobre este tema, y a riesgo de proponer unas definiciones que puedan quedar en cierto punto “obsoletas” en poco tiempo, vamos a comentar un par de documentos accesibles en Internet que definen el perfil y las competencias asociadas a estos nuevos profesionales.

En primer lugar, enumeramos algunas de las principales competencias relacionadas con un científico:

  • Álgebra: conocimientos de cálculo de matrices, geometría de difusión y temas similares en matemáticas aplicadas.
  • Estadística, incluyendo temas como por ejemplo la regresión lineal, regresión multivariable y correlación entre variables.
  • Programación a nivel avanzado. Es necesario dominar los conceptos teóricos de programación estructurada  orientada al objeto, así como los conceptos relacionados de complejidad computacional. Los lenguajes más empleados, actualmente, son Python y R. También es importante conocer el lenguaje de scripting (bash) de los sistemas Unix/Linux.
  • Conocimientos de diseño y uso de bases de datos relacionales. Incluye temas de diseño, como por ejemplo indexación, normalización, constraints o diseño físico; y también conceptos de querying y optimización de consultas. Recientemente también se deben incorporar conocimientos de diseño y uso de bases de datos NoSQL y NewSQL.
  • Conocimientos de sistemas distribuidos (distributed computing y High Performance Computing, HPC), que abarcan conceptos relacionados con los modelos y problemas de la computación distribuida y el almacenamiento de datos distribuidos.
  • Conocimientos profundo de los modelos y algoritmos de minería de datos (data mining) y aprendizaje automático(machine learning). En este campo se incluyen algoritmos supervisados (como por ejemplo, Árboles de decisión, Redes neuronales, métodos probabilísticos, SVM, etc) y no supervisados (agrupamiento jerárquico o k-means) para problemas de clasificación, regresión o clustering.
  • Conocer las distintas tipologías y el ciclo de vida de los datos es, también, una competencia muy relevante en este tipo de profesionales. Aquí se incluyen competencias relacionadas con la captura de datos (IoT, web semántica, open ylinked data, entre muchos otros), etiquetado mediante metadatos o procesos de extracción, transformación y carga (ETL, Extraction, Transform and Load). En conjunto, se conoce como modelado de datos o data modeling.
  • Técnicas y herramientas de visualización de datos, que permiten identificar patrones de forma visual o presentar los resultados de una forma clara y concisa. Algunos de las herramientas más relevantes son Tableau, D3.js o Processing.
  • La experiencia y conocimiento del dominio (domain expertise) es, sin duda, una parte clave en el proceso de análisis de datos. Este conocimiento permite entender los datos en toda su profundidad y realizarse las preguntas adecuadas y relevantes.
  • La gestión del proyecto (project management), como en cualquier otro proyecto, ocupa también una parte destacada de los conocimientos y competencias que debe tener un data scientist.
  • Finalmente, pero no por ello menos importante, un científico de datos debe tener los conocimientos éticos y de privacidad necesarios para poder trabajar de forma adecuada con todos los datos que manipula durante la ejecución de un proyecto.

Otro documento muy interesante al respecto de las competencias y perfiles de los data scientist nos lo brinda el UK Government Data Science. En el documento, actualmente en versión borrador, se incluyen algunas partes muy interesantes para ayudarnos a la definición de los roles y competencias de estos profesionales. Veamos algunos de los puntos más relevantes:

Se define el rol y las principales responsabilidades de un data scientist, pero también las categorías o niveles de este tipo de profesionales, que corresponden a:

  • Científico de datos en prácticas (Trainee Data Scientist): Pasan de un conocimiento más teórico de las habilidades básicas de ciencia de datos a un conocimiento más eficaz y práctico. Desarrollan su comprensión de cómo aplicar la ciencia de los datos a los problemas empresariales.
  • Científico de datos junior (Junior Data Scientist): Son responsables de algunos aspectos de los proyectos de ciencia de datos, mientras ganan experiencia práctica. Son capaces de aplicar ciertas técnicas de ciencias de datos y trabajar para desarrollar su capacidad técnica. Trabajan como parte de un equipo multidisciplinario con arquitectos de datos, ingenieros de datos, analistas y otros y proporcionan asesoramiento limitado sobre proyectos de ciencias de datos dentro de los equipos.
  • Científico de datos (Data Scientist): Son competentes en ciencia de datos. Poseen capacidad técnica en una serie de especialidades en ciencias de la información y proporcionan asesoramiento técnico detallado sobre su área de especialización.
  • Científico de datos senior (Senior Data Scientist): Son experimentados científicos de datos que proporcionan apoyo y orientación a los equipos. Son una autoridad reconocida en un conjunto de especialidades. Se involucran con las partes interesadas de alto nivel y defienden el valor de la ciencia de datos. Ellos dirigen a otros perfiles más junior. Comunican el valor de la ciencia de datos a los principales interesados.
  • Jefe de Ciencia de datos (Head of Data Science): Proporcionan liderazgo y dirección a proyectos de ciencia de datos multidisciplinarios, gestionando recursos para asegurar la entrega. Son reconocidos como una autoridad estratégica con experiencia técnica en métodos de vanguardia, y se encargan de definir la visión en toda la organización.

En este documento se identifican un conjunto de capacidades o competencias que los data scientist deben poseer, que junto con el nivel de destreza en cada una de ellas identifica a uno de los cinco roles vistos anteriormente.

A modo de ejemplo, este es el resumen de las competencias y niveles que debe poseer cada uno de los roles vistos:

Fuente: https://github.com/ukgovdatascience/

Os recomendamos la lectura detallada de ambas referencias, que constituyen dos buenas guías (aunque, ni mucho menos, las únicas o las mejores) para empezar a “esclarecer” este espacio difuso que definirá a una de las profesiones “de moda”, pero que a juicio de muchos (incluido el autor) han venido para quedarse.

Para finalizar, me gustaría destacar que la UOC inicia un Máster Universitario en Ciencia de Datos en breve (septiembre 2017), del cual podéis ver el programa y la información relacionada en el siguiente enlace.

Nota: Esta es la versión extendida del post publicado en este mismo blog hace unas semanas http://dataanalysis.blogs.uoc.edu/2017/05/12/competencias-de-un-data-scientist/

Posted in Data Science | Tagged , | Leave a comment

UOC Data Day (D^2) 2017

Durante las dos próximas semanas, la UOC organiza dos eventos, en Barcelona y Madrid, cuyo foco principal es Big Data y Data Science. A estos eventos les hemos llamado UOC Data Day.

El UOC Data Day es un evento gratuito enfocado a todas aquellas personas que tengan interés en las nuevas tecnologías relacionadas con los datos. Se llevaran a cabo charlas con académicos y profesionales apasionados por compartir conocimientos en este ámbito.

En ambos eventos participarán Jordi Casas, actual director académico de los programas de Big Data y Data Science de la UOC, así como Josep Curto, profesor asociado en estos programas.

En el programa del UOC Data Day (D^2) encontrarán  temas muy variados centrados en el análisis de datos y la generación de valor, escogidos para cubrir una parte importante de áreas, que incluyen temas como, por ejemplo, el análisis de datos, data science, business intelligence, business analytics o Big Data.

El UOC Data Day (D^2) se celebrará el 14 de junio en Barcelona y el 21 de junio en Madrid. En cada ciudad las sesiones son diferentes, por lo que os recomendamos revisar los agendas en cada ciudad para conocer los detalles. Más información e inscripciones:

¡Os esperamos en el UOC Data Day (D^2)!

Posted in Big Data, Data Science, Evento, UOC D^2 | Tagged , , , | Leave a comment