Ciclo Data Science (III)

Seguimos con las cápsulas formativas del Ciclo Data Science ofrecidas por Alumni UOC sus socios Premium. Aquí tenéis la tercera sobre lenguajes de programación.

¿Qué lenguajes de programación necesita un científico de datos?

Conocemos las características principales de los lenguajes de programación que más se utilizan en la actualidad y cuáles pueden resultar más útiles en función de las tareas del científico de datos.

Marcela Castro León, arquitecta de datos en Aedgency, nos lo explica en el siguiente vídeo:

¡Esperamos os parezca interesante!

Posted in Business Intelligence, Data Science, UOC Alumni | Tagged , , | Leave a comment

Clustering Validation

Estamos de tribunales de trabajos finales en nuestros programas. Nuestros alumnos tras un periodo largo de aprendizaje están llegando a la merecida meta mediante un proyecto en el combinan su conocimiento. Siempre es un momento especial, no solo para ellos sino también para todo el cuerpo docente (y en especial el director que les acompaña durante esta fase).

Cada año tenemos muchos trabajos interesantes (incluso hemos destacado alguno en el pasado) que cubren todo el espectro de posibilidades (desde aspectos más centrados en el gobierno del dato hasta incluso la creación de nuevas oportunidades de negocio usando el dato como un activo de valor y creando el consiguiente prototipo pasando). Es decir, en estos trabajos nuestros alumnos analizan situaciones de negocio reales (a veces fundamentadas en open data) en las que el dato proporciona ventajas competitivas.

Las técnicas, tecnologías y herramientas usadas (para generar dichas ventajas competitivas) son múltiples y van desde las que permiten comprender el rendimiento pasado de una organización hasta las que permiten identificar patrones ocultos y realizar predicciones.

Entre ellas este periodo ha destacado el uso de técnicas de clustering. Por ello no es extraño que recuperemos este tema. Si hace unos días hablábamos de Clustering Tendency, ahora nos centraremos en introducir Clustering Validation.

Clustering Validation hace referencia a diversos aspectos al mismo tiempo:

  • Comparar los resultados de la aplicación del algoritmo con un etiquetado previo. Para este punto usamos lo que llamamos índices externos.
  • Comparar si los resultados de la aplicación del algoritmo encajan con los datos sin usar información externa. Para este punto usamos lo que llamamos índices internos.
  • Comparar los resultados de dos técnica diferentes de clustering para identificar cuál es la mejor. Para este punto usamos lo que llamamos índices relativos.

Dentro de las tareas a veces también se incluye la identificación del número de clusters (aunque puede ser un paso previo) e incluso revisar clustering tendency. Además que suele ser un proceso iterativo (sobretodo cuando comparamos diferentes enfoques para la obtención de clusters y buscamos el más adecuado).

Cada uno de estos índices permite responder diferentes preguntas que surgen de forma natural cuando aplicamos esta técnica y queremos validarla. Entre las preguntas frecuentes tenemos, por ejemplo, ¿cuál es el grado de cohesion de nuestros clusters? o ¿cuál es el grado de separación de nuestros clusters? o quizá es mejor que lo expresemos de otra forma, ¿están los objetos dentro de un cluster relativamente cerca? y ¿están bien separados nuestros clusters?

Como os podéis imaginar para cada una de estas preguntas disponemos de índices que nos ayudaran a determinar la respuesta. Y que en próximos artículos revisaremos progresivamente.

Lo que es importante tener en cuenta es que: cuando aplicamos la técnica de clustering es absolutamente necesario dedicar el tiempo necesario a la validación.

Posted in Big Data, Business Analytics, Business Intelligence, Clustering, Data Science | Tagged , , , , | Leave a comment

Clustering Tendency

Clustering, como ya saben nuestros lectores, es una técnica muy usada en el ámbito de la analítica de negocio que permite encontrar grupos similares dentro de un conjunto de datos.

Por ejemplo, permite segmentar nuestros clientes en base de sus atributos.  Y esta segmentación nos va permitir diseñar una experiencia de cliente más personalizada.

Para aplicar esta técnica se siguen diversos pasos. Uno de ellos, al final del proceso, busca comprobar la validez de los resultados obtenidos (tanto internamente como externamente). Lo que conocemos como clustering validity. Una pequeña introducción al tema se puede encontrar aquí.

Lo que es menos habitual es empezar el proceso con la pregunta: ¿hay algún tipo de estructura en mis datos? (lo que en esencia denominamos clustering tendency). Normalmente, cuando aplicamos este análisis nos centramos más en la pregunta: ¿qué estructura oculta tienen mis datos? Es decir, presuponemos que existe una estructura y que sabremos encontrarla mediante alguno de los algoritmos disponibles.

Clustering tendency debería ser una práctica común en las empresas. La gran mayoría de algoritmos de clustering pueden segmentar los datos (es decir, generar una estructura) incluso cuando no existen clusters y, por ello, a posteriori dedicamos cierto tiempo a validar la calidad del cluster.

Cómo respondemos la pregunta: ¿hay algún tipo de estructura en mis datos? 

Esta pregunta es equivalente a preguntarse si la distribución de los puntos de un conjunto sigue un distribución no uniforme o no aleatoria. Y para ello podemos usar diferentes técnicas como el estadístico de Hopkins. Sin entrar en detalle técnicos, lo que haremos es realizar un contraste de hipótesis que nos permitirá responder a esta pregunta.

Aunque pueda parecer que estemos hablando de un tema nuevo no lo es. Por ejemplo, hace dos años se comentaba en R-bloggers. Es un tema que remerge cada cierto tiempo dada su importancia y que ha sido olvidado frecuentemente al trasladar la ciencia de los datos a la empresa.

Esperemos que a medida que las empresas vayan apostando más por la ciencia de los datos, no solo adopten los algoritmos (que es importante) sino también el proceso formal en la aplicación de los mismos.

El fracaso en un proyecto analítico no solo está ligado a factores tradicionales (como coste, recursos, selección herramienta, barreras internas,…) sino además ser riguroso. Es hora de ponerse las pilas.

Posted in Business Analytics, Clustering, Customer Analytics, Data Science | Tagged , , , | Leave a comment

Ciclo Data Science (II)

Como os prometimos, aquí tenéis la segunda cápsula formativa del Ciclo Data Science ofrecida por Alumni UOC sus socios Premium. Si no visteis la primera cápsula, la tenéis aquí.

En esta ocasión, María José Peláez, Dra. en Matemáticas y experta en Ciencia de Datos, nos presenta otro tema de interés:

El camino para articular los datos detrás de productos o usuarios

Conoceremos el proceso que existe desde que comienza una pregunta de negocio sobre tus usuarios o tus productos hasta encontrar una respuesta accionable usando los datos disponibles a la problemática que se ha presentado. Haremos un pequeño viaje desde la extracción de datos, la limpieza y el entendimiento de éstos. Y pondremos atención en una comunicación con claras acciones de ataque para resolver el problema.

¡Que lo disfrutéis!

Posted in Big Data, Data Science, UOC Alumni | Tagged , , | Leave a comment

Data Science Awards 2018

Vuelve el reconocimiento del talento analítico en España de la mano de Telefónica y Sinergic Partners. (que organiza) y Telefónica y Google (como sponsors) Vuelve Data Science Awards 2018!

En su tercera edición, este galardón se ha consolidado como un escaparate muy interesante para las empresas innovadoras, los científicos de datos y los periodistas de datos.

El concurso presenta tres categorías de premios:

  • Premio Mejor Iniciativa Empresarial Big Data
  • Premio Mejor Data Science
  • Premio Mejor Trabajo Periodístico de Datos

El año pasado hubo más de 300 registros, así que este año seguro que será reñido también. Os recomendamos la participación: https://www.dscienceawards.com/#registro

Posted in Anuncios, Data Science, Talend Awards | Tagged , | Leave a comment

Oferta de trabajo: BI Data Analyst Junior

BI Data Analyst Junior position

El Consorci de Salut i Social de Catalunya ofrece una vacante de Analista de datos Junior para Business Intelligence a media jornada. Incorporación immediata.

Se requiere: Titulación en Ingeniería Informática, Ingeniería Técnica en Informática o Grado en Informática.

Más detalles aqui:

Logo Consorci de Salut i Social de Catalunya

 

 

Posted in Anuncios, Business Intelligence, Data Analyst | Leave a comment

Ciclo Data Science (I)

Continue reading

Posted in Big Data, Data Science, UOC Alumni | Tagged , , | Leave a comment

Oferta de trabajo: Big Data Manager

El grupo de investigación Rheumatology Research Group del Instituto de investigación de la Vall d’Hebron (VHIR) desea incorporar a una experto/a en Tecnologías de la Información y Big Data.

Las características del puesto las podéis encontrar aquí.

http://bioinformaticsbarcelona.eu/

http://bioinformaticsbarcelona.eu/

Fecha límite de inscripción: 31 de Julio de 2018.

Àngels Rius es profesora del Máster en Business Intelligence y el Máster en Data Science de la UOC, así como del área de bases de datos de los Estudios de Informática Multimedia y Telecomunicación. Actualmente su investigación se enmarca en el ámbito del eHealth.

Posted in Anuncios, Big Data | Tagged | Leave a comment

Cursos de Inteligencia de Negocio y Big Data

Dentro de los Estudios de Informática, Multimedia y Telecomunicación de la UOC, ofrecemos desde hace años formación para profesionales del dato. Todo empezó con la inteligencia de negocio (y big data) y, en años anteriores, hemos extendido a la ciencia de datos.

Como ya saben nuestros lectores, la analítica sigue siendo una de las prioridades de los CIOs. Como indica IDG, no solo se aumentará la inversión en un 47% sino que además se considera que es una de las iniciativas que va a tener mayor impacto en los siguientes cinco años. Este mensaje no es nuevo y, de hecho, en los últimos años llevamos escuchando que la analítica en todas sus formas (business intelligence, big data, data science) ha sido, es y será crítica para generar valor en la organización. Desde la UOC creemos que es así, y por ello continuamos apostando por la formación en estos temas.

Sabemos que el camino a la madurez analítica está plagado de obstáculos y retos y que es necesario ser persistente, definir una estrategia adecuada y contar con profesionales formados en las competencias adecuadas.

Nuestra preocupación está, como os podéis imaginar, en las competencias. Y de forma continua, en cada semestre, buscamos mejorar nuestros programas en diferentes aspectos como: contenido, formatos, herramientas, mecanismos para la adquisición de competencias, caminos de aprendizaje, compatibilidad entre la vida profesional, la personal y los estudios,…

La principal novedad del próximo semestre (más allá de detalles internos) es ofrecer algunas de las asignaturas de nuestros másters como cursos independientes. Buscamos facilitar la adquisición de competencias a nuestros alumnos en estos temas tan interesantes y que puedan conciliar todas las facetas de su vida.

¿Qué cursos están disponibles para el siguiente semestre?

Son los siguientes:

Esperamos que estos cursos faciliten el proceso de aprendizaje a nuestros futuros estudiantes.

Posted in Big Data, Business Analytics, Business Intelligence, Data Science | Tagged , , | Leave a comment

Hablando sobre BI, Big Data y Machine Learning en Compilando Podcast

Muchos de los profesores de la UOC no solo colaboran este blog o el blog de los estudios Informatica++, también participamos en conferencias, congresos, eventos (como el pasado UOC D^2 – en próximas semanas publicaremos las charlas –  y entrevista en diferentes medios.

En esta ocasión he participado en Compilando Podcast hablando sobre Business Intelligence, Big Data y Machine Learning (y en realidad de muchos otros temas). No es la primera vez que participo en un podcast, en el pasado participé en PRNoticias hablando sobre Customer Analytics.

Agradezco la invitación de Paco Estrada, creador de este interesante podcast sobre open source que recomendamos. La charla fue muy interesante y divertida. Espero que los oyentes lo disfrutaran (o lo disfruten) también.

Aquí el enlace al podcast: https://compilando.audio/index.php/2018/05/21/business-intelligence-big-data-y-machine-learning-con-josep-curto-akademy-es-y-gnulinux-valencia/

¡Espero que os guste!

Posted in Big Data, Business Intelligence, Machine learning, podcast | Tagged , , , | Leave a comment