Calidad del dato, era importante y cada vez más

Para los que llevan bastante tiempo implementando proyectos de análisis de datos, los problemas de calidad del dato no son nuevos. Estos problemas forman parte de nuestros proyectos al descubrir rápidamente que aquellos datos que debemos usar para nuestros análisis tienen inconsistencias, están incompletos, son erróneos, etc.

Para entender la magnitud del problema, es bueno dar cifras, hace unos años, en particular en 2002, la baja calidad en los datos de cliente supuso pérdidas de 611 billones de dólares a las compañías de Estados Unidos (tal y como apuntaba TDWI[1]).

Quince años más tarde podríamos pensar que la situación ha mejorado. Nada más lejos de la realidad! Tal como indican Nagle, Redman y Sammon en su artículo de Harvard Business Review, solamente el 3% de las empresas tienen datos que cumplen los estándares de calidad! Es realmente un dato muy significativo. Si a esto le unimos las brechas de seguridad (una de las últimas la de Equifax que ha afectado a 143 millones de usuarios que se suma a su ya pronunciado historial), deberíamos pensar que las empresas tienen serios problemas vinculados con los datos. Tampoco ayuda los problemas en desplegar el data lake, al que muchos han empezado a llamar data swamp.

Los problemas en la calidad de los datos disminuyen, sin duda alguna, el potencial valor de los datos y su impacto en la cuenta de resultados. Los problemas en la seguridad del dato magnifican esta pérdida de valor todavía.

Ya sabemos que generar valor es complicado por múltiples motivos como pueden ser la elección de plataforma, de algoritmos o de personal adecuado. A esto se suma la necesidad de gestionar el dato como uno de los activos más relevantes.

Hablabamos anteriormente sobre el gobierno del dato,  y que una de las sus funciones es la seguridad del dato. ¿Qué persigue esta función? Principalmente tres aspectos:

  • Permitir el acceso apropiado (y prevenir el no apropiado) a recursos a los activos de datos. Está claro que para ello debemos catalogar dichos activos.
  • Lograr conformidad con los requerimientos en privacidad y confidencialidad. Aspecto que con la GDPR va a ser cada vez más relevante.
  • Asegurar la privacidad y confidencialidad de todos los actores relevantes para con el dato. Será tema de conocer todas las técnicas de privacidad de datos disponibles a nuestro alcance, tema del que hemos hablado de forma introductoria aquí.

Sin duda alguna es el momento de considerar data protection by design para todos aquellos aspectos vinculados para con el dato, incluyendo, por supuesto el análisis.


[1] Eckerson, WW. (2002) Data Quality and the Bottom line. TDWI.
Posted in Data Governance, Data Lake, Data Quality, Data Security, Data Swamp | Tagged , , , | Leave a comment

Plataformas y ecosistemas en BI, BA, Big Data y Data Science

No es la primera vez que hablamos sobre ecosistemas y plataformas, de hecho el interés viene de lejos. Últimas noticias de las anteriores semanas nos hacen volver a poner la atención en este punto. De hecho un par. Por un lado, la reciente compra de Fast Forward Labs por parte de Cloudera para reforzar su línea de Data Science (fundamentada en otra adquisición – Sense Platform – en 2016). Por otro, la disponibilidad de un nuevo backend para MongoDB llamado Stitch, que buscar facilitar la integración de la base de datos en desarrollos y aplicaciones.

Como ya sabemos, en los últimos años las tecnologías para capturar, almacenar, procesar, analizar y visualizar datos tiene un marcado acento open source. Existen múltiples componentes alrededor de Apache Hadoop, Apache Spark, Apache Flink o MongoDB, por nombrar algunas. Aunque existen tantas que es complicado seguir la pista a como evoluciona tantos actores. Un buen intento es el Big Data Landscape.

Big Data Landscape, 2017

Big Data Landscape, 2017. Fuente: Firstmark, Matt Turck y Jim Hao

Escoger la mejor plataforma de datos, se convierte en una tarea titánica y es natural que surjan plataformas integradas (y empresas que den soporte a dichas plataformas) como las conocidas Hortonworks, Cloudera, Data Artisans o Databricks.

¿Hacía dónde se dirigen estas plataformas?

En anteriores movimientos de mercados, vimos cómo los proveedores de mercado complementaron su solución incluyendo módulos de analítica de negocio (proporcionando análisis basados en parámetros). Por lo que emergieron las plataformas combinando módulos de inteligencia y analítica de negocio.

En esta etapa los últimos movimientos del mercado nos ofrecen otro panorama. Los fabricantes de plataformas empresariales de negocio están interesado en capitalizar el movimiento de Data Science, e integran componentes de Machine Learning, entornos de trabajos flexibles (basados en Jupyter, Apache Zeppelin o similares) e incluso fichando equipos para ofrecer servicios profesionales. Cloudera no han sido los primeros (por ejemplo, ya vimos movimientos similares en Teradata, con su adquisición de ThinkBig Analytics) ni tampoco serán los últimos.

Lo que es interesante de este movimiento es que, de nuevo, estamos ante una fase de adquisiciones en el mercado. Y sin embargo, cada vez más empresas crean sus plataformas integradas (como en caso de Uber con Michelangelo o Airbnb con AeroSolve).

Sin duda alguna, en la era de las empresas orientadas al dato, es necesario decidir qué arquitectura (y plataforma) será la que nos permitirá explotar el valor de nuestros datos.

Como siempre, tendremos de continuar atentos al mercado.

Posted in Big Data, Business Analytics, Business Intelligence, Data Science | Tagged , , , | Leave a comment

Novedades en el programa de Inteligencia de Negocio y Big Data

El concepto de la inteligencia de negocio se acuñó en 1958 en el artículo de Hans Peter Luhn en el artículo Business Intelligence System. Las metodologías, técnicas y tecnologías vinculadas con business intelligence han evolucionado considerablemente pero el objetivo sigue siendo el mismo: tomar decisiones más rápidas, más eficientes y mejores.

En los últimos años han tomado protagonismo conceptos como business analytics o big data, con el objetivo de expandir el objetivo de la inteligencia de negocio, lo que ha derivado en una explosión de actores.

Las organizaciones orientadas al dato frecuentemente combinan estas estrategias para competir en el mercado y no solamente para tomar mejores decisiones sino también identificar patrones complejos, automatizar tareas repetitivas, responder preguntas complejas y crear productos y servicios fundamentados en datos y algoritmos.

Para el desarrollo de estas estrategias las organizaciones se apoyan en diferentes tipos de perfiles: analistas de datos, especialistas de big data, ingenieros de datos y científicos de datos. La demanda de estos perfiles se sigue disparando empujada por el hecho que desplegar estas iniciativas ha sido y sigue siendo la prioridad principal.

Con el objetivo de dar respuesta a esta creciente demanda, desde la UOC seguimos evolucionando nuestros programas. Por ejemplo, hemos desplegado el Máster universitario en Ciencia de datos (Data Science) y seguimos evolucionando el Máster en Inteligencia de Negocio y Big Data (MiB) de la UOC.

Es un placer para mi presentar la evolución del programa de inteligencia de negocio y big data. Los cambios son múltiples. Por un lado hemos reestructurado los itinerarios dentro del programa, centrados en tres de los perfiles anteriormente indicados, así mismo hemos aumentado la relevancia del proyecto final con el objetivo de desarrollar proyectos más complejos, como es posible consultar en la siguiente tabla.

Semestre Itinerario de
Ingeniería de datos
Itinerario de
Big Data
Itinerario de
Análisis de datos
1 E1. Fundamentos de inteligencia de negocio y big data (16 créditos)
2 E2. Análisis y minería de datos (16 créditos)
3 E3. Bases de datos para entornos analíticos (16 créditos) E4. Big Data y sistemas NoSQL (16 créditos) E5. Usos de la inteligencia de negocio en la empresa (16 créditos)
4 Trabajo final de máster (12 créditos)

Por otro lado, siguiendo con la creciente necesidad de las empresas hemos introducido nuevas asignaturas como gobierno del dato o recursos humanos: casos de negocio.

Ser un programa propio nos permite evolucionar el programa de acorde a los cambios tecnológicos y de metodología del mercado, hecho que siempre hemos considerado una ventaja.

Tenéis más información sobre nuestro programa y sus asignaturas, así como pedir detalles personalizados o incluso matricularse, en la siguiente página.

En Octubre empezamos la siguente edición que promete ser, de nuevo, muy interesante.

Josep Curto es director académico del Máster en Inteligencia de Negocio y Big Data (MiB) de la UOC y Director de Delfos Research, empresa especializada en investigación de los mercados de Business Intelligence, Business Analytics y Big Data.

Posted in Big Data, Business Intelligence, MIB | Tagged , , | Leave a comment

Deep Learning en #XDS3

Durante esta semana se celebra en París (concretamente en Palaiseau) la Data Science Summer School 2017 (DS^3), organizada por el Laboratoire de Informatique (LIX) de la prestigiosa École Polytechnique francesa.

El evento, aunque en su primera edición, ha sido todo un éxito, con más de 400 inscritos, incluyendo estudiantes, investigadores, profesores y profesionales de indústria y empresa del sector. Sin duda, estos números confirman el auge que estamos viendo en los temas relacionados con la ciencia de datos, machine learning, análisis de datos, Big data y otros temas relacionados.

Durante estos cinco días se han visto (y se verán) diversas ponencias y tutoriales de muchos temas relacionados con la ciencia de datos, como por ejemplo, se ha hablado extensamente de graphical models, randomized optimization methods o bayesian optimization. Pero sin duda, el “rei de la fiesta” ha sido el deep learning. Cerca del 40% de la programación del evento está relacionado con las redes neuronales y deep learning.

Uno de los grandes atractivos de este evento han sido las clases magistrales que ha ofrecido Yoshua Bengio sobre redes neuronales artificialesdeep learning.

Las redes neuronales artificiales (ANN, artificial neural networks) están formadas por un conjunto de neuronas distribuidas en distintas capas. Cada una de estas neuronas realiza un cálculo u operación sencilla sobre el conjunto de valores de entrada de la neurona, que en esencia son entradas de datos o las salidas de las neuronas de la capa anterior, y calcula un único valor de salida, que a su vez, será un valor de entrada para las neuronas de la siguiente capa o bien formará parte de la salida final de la red.

La siguiente figura presenta un esquema básico de una red neuronal con la capa de entrada, múltiples capas ocultas y la capa de salida.

Estas redes se suelen inicializar con valores aleatorios, y requieren de un proceso de entrenamiento con un conjunto de datos para poder “aprender” una tarea o función concreta. Este proceso de aprendizaje se realiza utilizando el método conocido como Backpropagation. En esencia (y a riesgo de simplificar demasiado), este método calcula el error que comete la red en la predicción del valor para un ejemplo dado e intenta “retroceder” este error, de tal forma que cada neurona “assuma” su parte de responsabilidad en este error y modifique sus parámetros para intentar reducirlo.

Este tipo de algoritmos tuvo su época de esplendor hace ya unas décadas. Su principal limitació se encuentra en un problema en el proceso de aprendizaje que se da en las redes con cierto número de capas ocultas (capas intermedias, es decir, que se encuentran entre la entrada de datos y la salida o respuesta final de la red). En estos casos, se produce lo que se conoce como el problema de la desaparición o explosión del gradiente, que básicamente provoca problemas en el proceso de aprendizaje de la red.

Estos problemas han sido superado años más tarde, dando inicio a lo que se conoce actualmente como deep learning. Se ha modificado la estructura básica de las redes neuronales, creando, por ejemplo, redes convolucionales que permiten crear distintas capas donde el conocimiento se va haciendo más abstracto. Es decir, las primeras capas de la red se pueden encargar de identificar ciertos patrones en los datos, mientras que las capas posteriores identifican conceptos más abstractos a partir de estos patrones más básicos. Por ejemplo, si queremos que una red neuronal pueda detectar cuando aparece una cara en una imagen, este enfoque buscaría que las primeras capas de la red se encarguen de detectar la presencia de un ojo en alguna parte de la imagen, de una boca, etc. Así, las siguientes capas se encargarían de combinar esta información e identificar una cara a partir de la existencia de las partes que la forman (ojos, boca, nariz, etc). De esta forma vamos avanzando de una información más básica hacia un conocimiento más abstracto.

La siguiente figura muestra un esquema, aunque muy general, de una red convolucional.

Para quién tenga interés en profundizar sus conocimientos sobre redes neuronales y deep learning, os dejamos un par de referencias que creemos que pueden ser de interés (entre las muchísimas que hay disponibles en la actualidad):

  • En la página www.deeplearningbook.org se puede descargar (gratuitamente) los capítulos del libro “Deep learning”, escrito entre otros por Yoshua Bengio. Además, se pueden encontrar otros recursos interesantes, como por ejemplo presentaciones o videos de charlas que han dado los autores del libro.
  • El libro “Minería de datos: modelos y algoritmos” es una introducción a distintos métodos de minería de datos, entre otros las redes neuronales artificiales. El libro forma parte del material docente del máster universitario en ciencia de datos (data science) y ha sido escrito por varios profesores del área de minería de datos y machine learning de la UOC.
Posted in Data Science, Deep learning, Machine learning | Tagged , , | Leave a comment

Big Data en Perú

Esta semana he tenido la oportunidad de participar en el Big Data Summit Peru hablando sobre uno de los temas que considero más importantes y sobre los que ya he hablado en el pasado: organizaciones orientadas al dato.

Hemos comentado en el pasado que no sólo se trata de desplegar iniciativas de datos, sino de aprovechar estas iniciativas para avanzar en la transformación de la cultura analítica de la organización. Ha sido interesante constatar en otras charlas como las de Alterix que este tema es muy relevante. No es un tema sólo de tener herramientas, técnicas y casos de uso, sino de transformar la cultura de la organización (aunque el foco de esta empresa ha estado en generar un entorno de confianza y colaboración para el auto servicio de analítica, desarrollando una comunidad que trabaja de forma continua).

Como os podéis imaginar cada país se encuentra en un momento de madurez diferente, e incluso en una etapa del viaje diferente, y este tipo de eventos tienen diferentes objetivos como, por ejemplo, evangelizar respecto el uso de tecnologías de datos, conocer casos de uso, compartir experiencias,…

En el caso de Perú, ha sido muy interesante descubrir el gran interés por la inteligencia de negocio, el big data, la ciencia de los datos y otras estrategias de datos. Como pasa en muchos otros países, el interés de Perú es máximo, tal y como he podido constatar en las múltiples conversaciones que he tenido durante dos días muy intensos.

A parte de la charla inicial sobre organizaciones orientadas al dato, el resto de charlas se han centrado principalmente a casos de uso en retail, banca, sanidad, open data,…

Sin duda alguna, a medida que pasa el tiempo, más y más empresa están desarrollando iniciativas de datos y ya no solo se trata de pilotos, sino de proyectos que se han pasado a producción, incidiendo en cambios reales en los procesos de negocio de la organización.

Llegar al éxito en estos proyectos no es sencillo y hay muchas barreras que se deben superar. Podemos categorizarlas en operacionales, tácticas, estratégicas, de coste, de tecnología y de personas.

Barreras a proyectos analíticos

Barreras a proyectos analíticos

Para cada una de estas categorías es necesario tomar decisiones para reducirlas y superarlas. En este sentido, y este es un tema que surgió en las preguntas durante el evento, el gobierno del dato, se convierte en no solo necesario sino crítico.

Tendremos de continuar trabajando para llevar a buen puerto estas iniciativas.

Josep Curto es director de Delfos Research, empresa especializada en investigación de los mercados de Business Intelligence, Business Analytics y Big Data. Es profesor del Máster en Inteligencia de Negocio y Big Data (MiB) de la UOC.

Posted in Big Data, Data Driven, Data Science | Tagged , , | Leave a comment

¿Qué es NLG?

Uno de los principales problemas que tienen muchas empresas es que no saben interpretar correctamente la información que se genera a partir de sus datos. Es decir, tiene un problema de interpretabilidad y de comprensión de los resultados de negocio.

¿Y si hubiera una forma para mejorar la comprensión de los resultados analíticos? De este tema es lo que hablaremos hoy. De cómo la analítica también nos puede ayudar en la comunicación de resultados. No nos centraremos en el lenguaje visual, sino textual.

No sólo de deep learning vive el hombre. Dentro de los campos que incluye la inteligencia artificial hay muchos más como, por ejemplo, el que queremos comentar hoy: Natural Language Generation (NLG).

¿En qué consiste?

NLG forma parte de Natural Language Processing (NLP) cuyo foco es transformar datos estructurados en narrativa escrita. El objetivo es hacer la información entendible y automatizar la escritura de narrativas orientadas al dato, como pueden ser informes financieros, descripciones de producto, reuniones, etc. De hecho, NLG busca comunicar de la mejor forma lo que un sistema conoce.

Como es posible imaginar NLP y NLG tiene diferente foco, pero complementario. NLP busca identificar conocimiento analítico a partir de datos textuales, mientras que NLG combina conocimiento analítico con texto sintetizado para crear narrativas contextualizadas.

Tipos  de NLG

Podemos distinguir tres tipos de NLG:

  • Básico: simplemente transforma datos en texto.
  • Basado en plantillas: encaja datos dentro de plantillas de texto.
  • Avanzado: deriva hechos a partir de datos y usa el contexto para adaptar el mensaje.

¿Dónde encaja NLG?

A parte de la generación de informes contextualizados y la mejora de la comunicación de los resultados analíticos, NLG puede aportar valor en todos aquellos puntos en los que una narrativa sea necesaria. Por ejemplo, en las interfaces conversacionales que están siendo adoptadas universalmente como Alexa, Cortana o Siri.

Sin duda alguna, nos podemos imaginar que los siguientes sistemas de inteligencia de negocio y big data incluyan estas capacidades para incrementar su valor a las organizaciones. Estamos hablando, por lo tanto, que las barreras entre big data, business intelligence o data science se irán diluyendo para crear soluciones más y más interesantes.

Josep Curto es director de Delfos Research, empresa especializada en investigación de los mercados de Business Intelligence, Business Analytics y Big Data. Es profesor del Máster en Inteligencia de Negocio y Big Data (MiB) de la UOC.

Posted in Data Science, Natural Language Generation | Tagged , , | Leave a comment

¿Cómo se usa Big Data en el ámbito de la salud?

En este post os presentamos un resumen y la presentación completa de una de las charlas del UOC Data Day, celebrado el día 21 de junio de 2017 en Madrid sobre el uso de Big Data en el ámbito de la salud.

Esta ponencia fue a cargo de Antonio Sarasa, profesor de la Universidad Complutense de Madrid y profesor colaborador de la UOC en los programas de Inteligencia de Negocio y Big Data.

En esta ponencia se intentará dar respuesta a la siguiente pregunta: ¿Cómo se usa Big Data en el ámbito de la salud? Para responder a esta interesante pregunta, en la presentación se presentan proyectos, campos de aplicación y algunas de las herramientas más utilizadas.

A continuación, os dejamos la grabación de la ponencia completa, así como el material de soporte utilizado para la presentación.

¡Esperamos que la disfrutéis!

Posted in Big Data, Evento, UOC D^2 | Tagged | Leave a comment

¿Qué es el gobierno del dato?

Cuando hablamos de inteligencia de negocio, big data o data science, siempre nos centramos en la creación de valor a partir del dato en sus múltiples formas. Discutimos sobre los casos de uso en el contexto de la organización ya sea para mejorar la toma de decisiones, desbloquear la inteligencia operacional, validar hipótesis o resolver problemas de negocio, crear productos y servicios de de datos y habilitar el comercio de datos. Se persigue principalmente incrementar beneficios, reducir costes, mejorar el conocimiento y las interacciones con clientes, proveedores, empleados y procesos.

Sin embargo…

A medida que las organizaciones se interesan más y más por estos casos de uso, surgen preguntas como: ¿de dónde provienen los datos?, ¿tienen la calidad necesaria?, ¿qué sabemos sobre nuestra información?, ¿están estos datos alineados con nuestra política de empresa?, ¿tiene toda la organización la misma visión sobre el dato?

En esencia, las organizaciones pronto descubren que la viabilidad de sus proyectos de datos pasa por tener una gestión eficiente del dato. No solo se trata de analizar el dato, ni tampoco de almacenarlo o procesarlo.

¿Qué significa una gestión eficiente? Entre muchos otros aspectos, para cada conjunto de datos es necesario determinar su valor, su ciclo de vida, su calidad, quién es el responsable, etc.

Es decir, llevar a buen puerto iniciativas de inteligencia de negocio, data warehousing, analítica de datos o big data, requiere tener un enfoque holístico respecto al dato y poder responder a las preguntas anteriores.

Para dar respuesta a estas necesidades emerge el concepto de gobierno del dato (en inglés, data governance) que entendemos, en la UOC, como el ejercicio de autoridad, control y toma de decisiones compartida (planificación, vigilancia y aplicación) sobre la gestión de los activos de datos. Esto supone que la organización debe considerar el dato como un activo, lo que tiene un efecto de gran calado en su estrategia.

El gobierno del dato está relacionado e incluye multiples áreas (tal y como apunta DAMA) y el caso que nos toca podemos identificar temas muy relevantes como la calidad del dato, la gestión de datos maestros o la seguridad del dato entre otros.

Data Governance

Data Governance. Fuente: DAMA International

Esta iniciativa corporativa permite a una organización administrar de forma más eficiente y eficaz el dato. De hecho, aúna personas, procesos y tecnología para cambiar la forma en que los datos son adquiridos, gestionados, mantenidos, transformados en información, compartidos en el contexto de la organización como conocimiento común y sistemáticamente obtenidos por la empresa para mejorar la rentabilidad.

La implementación de este tipo de iniciativas forma parte del proceso de madurez de las organizaciones para el desarrollo de iniciativas de análisis de datos.

Tal y es la importancia de este aspecto que en la presente edición del programa hemos introducido una nueva asignatura sobre el gobierno del dato que forma parte nuestro master en inteligencia de negocio y big data. Esta asignatura cubre cuatro ámbitos: gobierno del dato, gestión de datos maestros, calidad del dato y seguridad/privacidad del dato. Consideramos que extiende el abanico de conocimiento necesarios para un experto en inteligencia de negocio y big data. Tenéis más información sobre nuestro programa y sus asignaturas en la siguiente página.

Josep Curto es director de Delfos Research, empresa especializada en investigación de los mercados de Business Intelligence, Business Analytics y Big Data.  Es profesor del Máster en Inteligencia de Negocio y Big Data (MiB) de la UOC.

Posted in Big Data, Business Intelligence, Data Governance | Tagged , , | Leave a comment

Usando Business Analytics y Ciencia de Datos

En este post os presentamos un resumen y la presentación completa de otra de las charlas del UOC Data Day, celebrado el día 21 de junio de 2017 en Madrid sobre nuevas formas de analizar datos, como ya hemos hecho en el pasado con la forma de tus datos tiene significado.

Esta ponencia fue a cargo de Álvaro Galán, experto en Business Analytics, Digital Experience Global Account Manager en Liferay y profesor colaborador docente del máster en Inteligencia de Negocio y Big Data.

Que mejor que las propias palabras de Álvaro para explicar su ponencia.

Los datos (y su abundancia) pueden ser utilizados para muchas cosas en una empresa, si bien, desde un punto de vista ortodoxo, las empresas solo tienen dos objetivos con ellos: maximizar los ingresos, conteniendo o minimizando los gastos.

Con esos dos objetivos en mente, una empresa puede usar sus datos de múltiples maneras, pero la que elegí analizar en el segundo UOC Data Day fue la del marketing digital (entendido de manera amplia, incluyendo la personalización de sitios).

La mayoría de las empresas están invirtiendo mucho dinero en la publicidad programática o contextual, la optimización de sitios web, las plataformas de experiencia digital, en pintar el mejor “path to conversión” o “customer journey”, …

Y en el camino están recogiendo terabytes de datos asociados a nuestros clics, nuestras preferencias, nuestras visitas, nuestros intereses, nuestras transacciones…

Hasta hace poco, esos datos eran analizados de manera muy somera, manual, y hasta cierto punto anticuada, y se acababa utilizando la teoría del “cañón gordo”: cuanto más dispare, más cazo.

Pero esos tiempos se están acabando.

No es extraño escuchar a los responsables hacerse la siguiente pregunta: ¿estoy invirtiendo mi dinero de manera correcta?.

Tras un periodo de inversión sin demasiado control ni una manera directa de medir el ROI, los CEO de las compañías han mandado un mensaje claro a los responsables digitales: “Ha llegado el momento de medir y optimizar nuestra inversión”.

En la disyuntiva entre medir y activar palancas (ojo, que no son excluyentes, es más, es imposible saber que activar si no has medido antes), en mi charla me centré en la parte de activar.

El reto es grande, por ejemplo, masticar, digerir y activar los datos de una multinacional hotelera con millones de visitantes únicos al mes, con centenares de variables por visitante, y tomar decisiones automáticas para impactar mejor en el retargeting publicitario (ahorrando en el camino varios cientos de miles de euros por trimestre).

O utilizar las transacciones, datos demográficos, y campañas de mail marketing de un sitio de venta privada para diseñar un “customer journey” que, desde el primer impacto, me hable de lo que me interesaría comprar, ajustando la oferta a mis gustos y preferencias (y conseguir incrementar la venta en un jugoso 12% en medio año).

Y todo ello apoyado en el análisis automático o asistido de grandes, grandísimos, volúmenes de datos.

Si queréis saber cómo vuestra navegación, gustos, y hasta nivel adquisitivo han sido recogidos, analizados mediante ciencia de datos y Business Intelligence, interpretados , y retroalimentados a los sistemas que os muestran la publicidad digital y personalizan los sitios web en los que os movéis a diario, y todo ello mientras leíais este artículo, no os perdáis el vídeo de la charla.

A continuación, os dejamos la grabación de la ponencia completo, así como el material de soporte utilizado para la presentación.

¡Esperamos que la disfrutéis!

Posted in Big Data, Business Intelligence, Data Science | Tagged , , , | Leave a comment

Análisis de Big Data usando SQL

En este post os presentamos un resumen y la presentación completa de otra de las charlas del UOC Data Day, celebrado el día 14 de junio de 2017 en Barcelona sobre nuevas formas de analizar datos, como ya hemos hecho en el pasado con las de Madrid.

Esta ponencia fue a cargo de David Cabanillas, consultor de los estudios de Informática, Multimedia y Telecomunicación de la UOC, Data Scientist en eDreams, Ph.D Inteligencia Artificial y apasionado del lenguaje R.

Que mejor que las propias palabras de David describiendo su experiencia:

El 14 de Junio se celebró el UOC Data Day y presenté una de las soluciones BigData de Google llamada BigQuery.
La sesión la dividí en dos secciones. En una primera parte la introducción a BigQuery, para posicionar la herramienta en el ecosistema de Google y mostrar cómo se puede acceder a los datos y posibles casos de uso. La segunda parte fue más práctica. En ella realicé diferentes demos en vivo para mostrar alguna de las bondades de BigQuery. Primero detallando como está estructurado BigQuery para pasar luego a las demos con diferentes ejemplos desde queries sencillas a queries algo más complejas con joins y el uso de expresiones

A continuación, os dejamos la grabación de la ponencia completo, así como el material de soporte utilizado para la presentación.

¡Esperamos que la disfrutéis!

Posted in Big Data, Evento, UOC D^2 | Tagged , , | Leave a comment