Clustering Validation

Estamos de tribunales de trabajos finales en nuestros programas. Nuestros alumnos tras un periodo largo de aprendizaje están llegando a la merecida meta mediante un proyecto en el combinan su conocimiento. Siempre es un momento especial, no solo para ellos sino también para todo el cuerpo docente (y en especial el director que les acompaña durante esta fase).

Cada año tenemos muchos trabajos interesantes (incluso hemos destacado alguno en el pasado) que cubren todo el espectro de posibilidades (desde aspectos más centrados en el gobierno del dato hasta incluso la creación de nuevas oportunidades de negocio usando el dato como un activo de valor y creando el consiguiente prototipo pasando). Es decir, en estos trabajos nuestros alumnos analizan situaciones de negocio reales (a veces fundamentadas en open data) en las que el dato proporciona ventajas competitivas.

Las técnicas, tecnologías y herramientas usadas (para generar dichas ventajas competitivas) son múltiples y van desde las que permiten comprender el rendimiento pasado de una organización hasta las que permiten identificar patrones ocultos y realizar predicciones.

Entre ellas este periodo ha destacado el uso de técnicas de clustering. Por ello no es extraño que recuperemos este tema. Si hace unos días hablábamos de Clustering Tendency, ahora nos centraremos en introducir Clustering Validation.

Clustering Validation hace referencia a diversos aspectos al mismo tiempo:

  • Comparar los resultados de la aplicación del algoritmo con un etiquetado previo. Para este punto usamos lo que llamamos índices externos.
  • Comparar si los resultados de la aplicación del algoritmo encajan con los datos sin usar información externa. Para este punto usamos lo que llamamos índices internos.
  • Comparar los resultados de dos técnica diferentes de clustering para identificar cuál es la mejor. Para este punto usamos lo que llamamos índices relativos.

Dentro de las tareas a veces también se incluye la identificación del número de clusters (aunque puede ser un paso previo) e incluso revisar clustering tendency. Además que suele ser un proceso iterativo (sobretodo cuando comparamos diferentes enfoques para la obtención de clusters y buscamos el más adecuado).

Cada uno de estos índices permite responder diferentes preguntas que surgen de forma natural cuando aplicamos esta técnica y queremos validarla. Entre las preguntas frecuentes tenemos, por ejemplo, ¿cuál es el grado de cohesion de nuestros clusters? o ¿cuál es el grado de separación de nuestros clusters? o quizá es mejor que lo expresemos de otra forma, ¿están los objetos dentro de un cluster relativamente cerca? y ¿están bien separados nuestros clusters?

Como os podéis imaginar para cada una de estas preguntas disponemos de índices que nos ayudaran a determinar la respuesta. Y que en próximos artículos revisaremos progresivamente.

Lo que es importante tener en cuenta es que: cuando aplicamos la técnica de clustering es absolutamente necesario dedicar el tiempo necesario a la validación.

About Josep Curto Díaz

Josep Curto es el director académico del Máster en Inteligencia de Negocio y Big Data (MiB) de la UOC. Así mismo es director de Delfos Research, empresa especializada en investigación de los mercados de Business Intelligence, Business Analytics y Big Data.
This entry was posted in Big Data, Business Analytics, Business Intelligence, Clustering, Data Science and tagged , , , , . Bookmark the permalink.

Leave a Reply

Your email address will not be published. Required fields are marked *