Calidad del dato, era importante y cada vez más

Para los que llevan bastante tiempo implementando proyectos de análisis de datos, los problemas de calidad del dato no son nuevos. Estos problemas forman parte de nuestros proyectos al descubrir rápidamente que aquellos datos que debemos usar para nuestros análisis tienen inconsistencias, están incompletos, son erróneos, etc.

Para entender la magnitud del problema, es bueno dar cifras, hace unos años, en particular en 2002, la baja calidad en los datos de cliente supuso pérdidas de 611 billones de dólares a las compañías de Estados Unidos (tal y como apuntaba TDWI[1]).

Quince años más tarde podríamos pensar que la situación ha mejorado. Nada más lejos de la realidad! Tal como indican Nagle, Redman y Sammon en su artículo de Harvard Business Review, solamente el 3% de las empresas tienen datos que cumplen los estándares de calidad! Es realmente un dato muy significativo. Si a esto le unimos las brechas de seguridad (una de las últimas la de Equifax que ha afectado a 143 millones de usuarios que se suma a su ya pronunciado historial), deberíamos pensar que las empresas tienen serios problemas vinculados con los datos. Tampoco ayuda los problemas en desplegar el data lake, al que muchos han empezado a llamar data swamp.

Los problemas en la calidad de los datos disminuyen, sin duda alguna, el potencial valor de los datos y su impacto en la cuenta de resultados. Los problemas en la seguridad del dato magnifican esta pérdida de valor todavía.

Ya sabemos que generar valor es complicado por múltiples motivos como pueden ser la elección de plataforma, de algoritmos o de personal adecuado. A esto se suma la necesidad de gestionar el dato como uno de los activos más relevantes.

Hablabamos anteriormente sobre el gobierno del dato,  y que una de las sus funciones es la seguridad del dato. ¿Qué persigue esta función? Principalmente tres aspectos:

  • Permitir el acceso apropiado (y prevenir el no apropiado) a recursos a los activos de datos. Está claro que para ello debemos catalogar dichos activos.
  • Lograr conformidad con los requerimientos en privacidad y confidencialidad. Aspecto que con la GDPR va a ser cada vez más relevante.
  • Asegurar la privacidad y confidencialidad de todos los actores relevantes para con el dato. Será tema de conocer todas las técnicas de privacidad de datos disponibles a nuestro alcance, tema del que hemos hablado de forma introductoria aquí.

Sin duda alguna es el momento de considerar data protection by design para todos aquellos aspectos vinculados para con el dato, incluyendo, por supuesto el análisis.


[1] Eckerson, WW. (2002) Data Quality and the Bottom line. TDWI.

About Josep Curto Díaz

Josep Curto es el director académico del Máster en Inteligencia de Negocio y Big Data (MiB) de la UOC. Así mismo es director de Delfos Research, empresa especializada en investigación de los mercados de Business Intelligence, Business Analytics y Big Data.
This entry was posted in Data Governance, Data Lake, Data Quality, Data Security, Data Swamp and tagged , , , . Bookmark the permalink.

Leave a Reply

Your email address will not be published. Required fields are marked *