Clustering Tendency

29 junio, 2018

Clustering, como ya saben nuestros lectores, es una técnica muy usada en el ámbito de la analítica de negocio que permite encontrar grupos similares dentro de un conjunto de datos.

Por ejemplo, permite segmentar nuestros clientes en base de sus atributos.  Y esta segmentación nos va permitir diseñar una experiencia de cliente más personalizada.

Para aplicar esta técnica se siguen diversos pasos. Uno de ellos, al final del proceso, busca comprobar la validez de los resultados obtenidos (tanto internamente como externamente). Lo que conocemos como clustering validity. Una pequeña introducción al tema se puede encontrar aquí.

Lo que es menos habitual es empezar el proceso con la pregunta: ¿hay algún tipo de estructura en mis datos? (lo que en esencia denominamos clustering tendency). Normalmente, cuando aplicamos este análisis nos centramos más en la pregunta: ¿qué estructura oculta tienen mis datos? Es decir, presuponemos que existe una estructura y que sabremos encontrarla mediante alguno de los algoritmos disponibles.

Clustering tendency debería ser una práctica común en las empresas. La gran mayoría de algoritmos de clustering pueden segmentar los datos (es decir, generar una estructura) incluso cuando no existen clusters y, por ello, a posteriori dedicamos cierto tiempo a validar la calidad del cluster.

Cómo respondemos la pregunta: ¿hay algún tipo de estructura en mis datos? 

Esta pregunta es equivalente a preguntarse si la distribución de los puntos de un conjunto sigue un distribución no uniforme o no aleatoria. Y para ello podemos usar diferentes técnicas como el estadístico de Hopkins. Sin entrar en detalle técnicos, lo que haremos es realizar un contraste de hipótesis que nos permitirá responder a esta pregunta.

Aunque pueda parecer que estemos hablando de un tema nuevo no lo es. Por ejemplo, hace dos años se comentaba en R-bloggers. Es un tema que remerge cada cierto tiempo dada su importancia y que ha sido olvidado frecuentemente al trasladar la ciencia de los datos a la empresa.

Esperemos que a medida que las empresas vayan apostando más por la ciencia de los datos, no solo adopten los algoritmos (que es importante) sino también el proceso formal en la aplicación de los mismos.

El fracaso en un proyecto analítico no solo está ligado a factores tradicionales (como coste, recursos, selección herramienta, barreras internas,…) sino además ser riguroso. Es hora de ponerse las pilas.

(Visited 84 times, 1 visits today)
Autor / Autora
Josep Curto
  • Informática, Multimedia y Telecomunicación
Profesor de la los Estudios de Informática, Multimedia y Telecomunicación de la UOC. Director del máster universitario en Inteligencia de Negocio y Big Data Analytics (MIBA) de la UOC. Especialista en inteligencia artificial (IA) y científico de datos. 
Comentarios
Jose L. Dolz24 julio, 2018 a las 6:24 am

Hola Josep,

Tengo una duda. Según la Wikipedia, si el valor del estadístico de Hopkins se acerca a 1, tiende a indicar datos altamente ‘clusterizados’. Si el valor está alrededor del 0.5 son más aleatorios y si es cercano a 0 los datos se distribuyen uniformemente.

Pero en el post de R-bloggers, dicen lo siguiente:
«It can be seen that faithful dataset is highly clusterable (the H value = 0.15 which is far below the threshold 0.5). However the random_df dataset is not clusterable (H=0.53)»

¿Cuál de los dos es el correcto?
Gracias y saludos.

Responder
    Josep Curto Díaz24 julio, 2018 a las 3:12 pm

    Hola Jose,

    Buena pregunta. El texto del artículo original (New index for clustering tendency and its application to chemical problems -1990-) cita:

    «If the real data contain little structure, then the distance from one real point to another real point will be approximately the same, on average, as the distance from a uniformly distributed random point to one of the real points, so the value of Hopkins’ statistic will be approximately 0.5. If the data are arranged in tight clusters, then the distances will be very small (…), so the value of Hopkin’s statistic will be approximately 1.0.»

    Es decir, ante la duda… mejor ir a los originales. Tambien recomiendo «Validating clusters using the Hopkins statistic».

    Por cierto, ya que te interesa el tema te recomiendo la siguiente comparativa: http://www.mayaackerman.info/pub/clusterability2017.pdf que trata sobre la efectividad de las diferentes técnicas que tenemos para revisar clustering tendency.

    Un saludo

    Responder
Deja un comentario