Exponiendo y Cuantificando la Mala Calidad de Datos

E

En la actualidad, se habla mucho sobre los datos y las distintas formas de aprovecharlos para obtener todo tipo de analítica. Enfoques que van desde reportería básica, pasando por herramientas de auto servicio de datos, hasta llegar a algoritmos avanzados e inteligencia artificial.

¿Cuál es calidad de datos necesaria para obtener buenos resultados de dichos procesos?

El siguiente artículo busca ser una guía básica de cómo medir y cuantificar la calidad de datos con la que una organización cuenta en el momento, independientemente de cómo y dónde se están almacenando.

  1. Algunos hechos sobre los datos
  2. Las fábricas secretas de datos
  3. Entra basura, sale basura (Garbage In Garbage Out)
  4. Cómo medir la calidad de mis datos
  5. Monetizar: Regla 1,10, 100
  6. Valores de calidad aceptables de los datos

Algunos hechos sobre los datos

Según el artículo de “Bad Data Costs the U.S. $3 Trillion Per Year” de Thomas C. Redman del 22 de septiembre del 2016 publicado en Harvard Business Review, cita datos de algunos fabricantes como el siguiente (traducido):

“$ 3,1 trillones, la estimación de IBM del costo anual de datos de mala calidad, solo en los Estados Unidos en 2016.”

En Forbes según el artículo “The Importance Of Data Quality – Good, Bad Or Ugly” del 5 de junio del 2017, habla de que “el 84% de los CEOs están preocupados por la calidad de los datos sobre los que basan sus decisiones, según el informe «2016 CEO Global Outlook” de KPMG.

Cuando hay una falta de confianza en la calidad de los datos, también la confianza en los resultados es rápidamente perdida, lo que causa obstáculos posteriores para obtener una mayor inversión iniciativas de gestión de información.

Las fábricas secretas de datos

Como un juicio personal, me atrevería a decir que todas las empresas tienen en una o más áreas de negocio su propia fábrica secreta de datos, por más pequeña que esta sea siempre habrá una.

A lo que me refiero como “fábrica secreta de datos” (por darle un nombre) es lo que se muestra el gráfico a continuación, es decir el conjunto de procesos adicionales, no formales, de validación, corrección y homologación de datos en un área de negocio, a fin de obtener un conjunto de datos final que cumpla sus necesidades para generar análisis, conocimiento y valor.

Ilustración 1: Funcionamiento general de una “Fábrica Secreta de Datos”

Pero el punto principal de su existencia es que en ellas “pagan condena” varios trabajadores del conocimiento que deben invertir tiempo extra (comúnmente llamado “tiempo basura”) en trabajo operacional que genera costos innecesarios. Tales fábricas de datos son costosas y forman parte de la cifra de $ 3.1 billones por año que menciona IBM anteriormente.

Lastimosamente, esta realidad es subestimada o ignorada por los gerentes por diversas razones:

  • En ocasiones los mandos medios no los transparentan por falta de consciencia del gasto que representan
  • Han llegado a considerarlo parte del trabajo de su equipo
  • Para evitar confrontaciones con otras áreas
  • Porque lo consideran parte de una eficacia departamental
  • Falta de comunicación inter y extra departamental

Sea cual fuere la razón, el siguiente punto es que la gerencia se interese más en los costos organizacionales y empiece a ver a los datos como la base de la toma de decisiones a todo nivel.

Veamos unos datos obtenidos del mismo artículo mencionado inicialmente:

  • 50% es la cantidad de tiempo promedio que los trabajadores del conocimiento desperdician en fábricas secretas de datos, buscando datos, buscando y corrigiendo errores, y buscando fuentes de validación para datos en los que no confían.
  • 60% es la fracción de tiempo estimado que los científicos de datos dedican a la limpieza y organización de datos, de acuerdo con CrowdFlower.
  • 75% es una estimación de la fracción del costo total asociado con las fábricas secretas de datos en operaciones simples, basadas en la técnica de “La medición del viernes por la tarde” y “la regla del 10”.

Más adelante explicaré “La medición del viernes por la tarde” planteada por Redman y la regla del 1,10 y 100 que es una técnica de monetización separada.


¿Necesitas un científico de datos en tu proyecto?


Entra basura, sale basura

Según Wikipedia, el término popular ‘Garbage In Garbage Out’ (Entra Basura, Sale Basura) fue utilizado por primera vez el 10 de noviembre de 1957 y describía el hecho de que el rendimiento de una computadora sólo era tan bueno como su entrada.

Sesenta años después el término se aplica ampliamente a la calidad de los datos organizacionales en muchísimas partes.

Una variante es ‘Garbage In Gospel Out’ (Entra Basura, Sale Evangelio), lo que describe aún mejor la realidad de organizaciones donde los datos generados son aceptados “ciegamente” sin necesidad de un análisis de datos posterior, al no tener claro el proceso de cómo fueron generados.

Una pregunta que hago regularmente en mis presentaciones es:

¿Levante la mano a quien de ustedes, al momento de recibir un informe o un conjunto de datos que solicitaron, les han dicho el porcentaje de calidad que tiene el mismo?

Algo así como “Juan tu reporte está listo y te comento que la información contenida tiene un 68% de calidad?” ¿A Nadie? Pues sí, lastimosamente en auditorios de hasta 400 personas, nunca nadie ha levantado la mano.

Este número, por poner un uso simple, hipotéticamente podría significar que nuestras decisiones no tengan una certeza mayor al 68% y que debamos actuar con cautela dado que existe un riesgo latente.

Cómo medir la calidad de mis datos

Existen distintas opciones que van desde algoritmos en lenguajes como SQL hasta herramientas de análisis y perfilamiento de datos.

Si no contamos con herramientas o queremos probar otras formas, Thomas Redman, presidente de Data Quality Soluciones propone un método simple de 4 pasos que lo llama “La medición del viernes por la tarde”, que desde mi punto de vista puede ayudar a casi cualquier persona/área/empresa a medir el nivel actual de calidad de datos y desarrollar una estimación de alto nivel.

Más que un proceso de perfilamiento que revisa formatos y frecuencias, o una auditoría que revisa datos puntuales, frecuencias y porcentajes de impacto, lo veo como una especie de método híbrido basado en la obviedad de cuando un dato es o no correcto a simple vista, aplicando sentido común y reglas de negocio generales.

Los pasos propuestos por «La medición del viernes tarde» son:

  • Obtenga los últimos 100 registros de datos que su equipo usó o creó. Por ejemplo, si su equipo toma pedidos de clientes, utilice los últimos 100 pedidos; si genera pólizas, use las últimas 100 pólizas. Luego concéntrese en 10 ó 15 elementos, campos o atributos de datos críticos de cada registro. Colóquelos en una hoja de cálculo y proyéctelos o use hojas grandes de papel.
  • Reúnase con dos o tres personas que conozcan sobre los datos; estas reuniones toman aproximadamente 2 horas por lo que es común realizarlas el viernes por la tarde cuando el ritmo de trabajo disminuye.
  • Trabajando registro por registro, instruya a sus colegas para que marquen los errores obvios en un color notable (rojo o naranja). Para la mayoría de los registros, esto será sumamente rápido, los miembros del equipo probablemente detectarán errores como el nombre mal escrito del cliente, los datos que se colocaron en la columna incorrecta, formatos incorrectos, valores fuera de rango o basura ingresada para evadir un control. En algunos casos se generarán debates sobre si un elemento es realmente incorrecto que generalmente no deberían durar más de 30 segundos.
  • Por cada registro agregue una columna que indique si el registro está completamente correcto o no. Marque «SI» si no hay ningún error y «NO» si aparece rojo o naranja en el registro. Se generará una tabla que se parece mucho a la figura a continuación:
Ejemplo medir calidad de datos con La medición del viernes tarde
Ilustración 2: Ejemplo de control de calidad de datos Friday Afternoon Measurement

Totalice el «número de registros perfectos» como se ve en el ejemplo. De los últimos 100 registros de nuestro conjunto de datos, solo tenemos completas las dos terceras partes, es decir 67 de 100 registros de manera adecuada.

Como comentaba anteriormente, aplicando este método se puede tener una idea general de la calidad de datos de un conjunto de datos específico, sin embargo, para el negocio es siempre importante monetizar estos hallazgos.

¡Se puede ir más allá, se puede monetizar!

Mi sugerencia es utilizar la regla del 1,10 y 100. Este es un concepto de gestión de la calidad desarrollado por George Labovitz and Yu Sang Chang in 1992 que se utiliza para cuantificar los costos ocultos de la mala calidad.

Al relacionar el concepto con la calidad de los datos, se debe reconocer que se aplicará un principio genérico, en lugar de números exactos. ¿Cómo funciona? 

En otras palabras, la regla aplicada a los datos es la siguiente:

Ilustración 3: Ejemplo regla 1 – 10 – 100
  • Prevención: Detener la entrada de datos incorrectos al sistema tiene un costo de $1 USD. por registro, esto se conoce como el costo de prevención, es decir verificarlo al momento del ingreso.
  • Remediación: Limpiar y de duplicar un registro cuesta $10 USD. al negocio. Estos costos de corrección pueden ser obvios, por ejemplo, podemos establecer equipos que sean responsables de validar y corregir los errores, donde estaríamos gastando dinero para prácticamente capturar el dato dos veces.
  • Fallas: Trabajar con un registro que nunca se limpia cuesta $100 USD. este es el costo de mantener fallas en los datos.

Analizando, los costos de remediación son insignificantes cuando se los compara con los costos de dejar los datos incorrectos en su lugar.

La mala calidad de datos afecta la capacidad organizacional de operar.

  • Si facturamos la cantidad incorrecta, entonces no nos pagan.
  • Si entregamos a la dirección incorrecta, entonces tenemos que pagar por otra entrega.
  • Si proporcionamos una evaluación de riesgos incorrecta, aumentamos nuestras posibilidades de una deuda incobrable.

Por eso nuestro enfoque debe estar en la prevención dentro de lo posible.

Veamos este ejemplo simple:

Si se inserta un registro a la base de datos el 25 de julio de 2018, le costó a la empresa alrededor de $1 verificarlo en ese momento, o por decirlo de otra manera, podría tomar 1 minuto completarlo correctamente.

Este es su costo de prevención, que puede implicar verificar la dirección contra una planilla de servicios básicos, la declaración de impuestos, asegurarse que el nombre del cliente esté escrito correctamente según algún documento y asegurarse de que el cliente aún no figura en la base de datos.

Durante una iniciativa de calidad de datos, un registro se corrige, es decir se actualiza a la calidad real que debía tener en un inicio. Este es el costo de corrección, que es 10 veces el esfuerzo e implicación de una persona al tener que llamar al cliente, consultar sus datos, pedir documentos, buscar en distintas fuentes, realizar actualizaciones manuales, entre otros, no obstante, a menudo es una parte necesaria del mantenimiento de los datos.

Si ese registro nunca se limpia, nunca se deduplica y nunca se restaura a su calidad real, le cuesta a la empresa 100 veces que el gasto inicial. ¿Por qué?

Porque crea desperdicio. Sus efectos se propagan a través del negocio, ya que los datos erróneos causan retrabajo y caos. El negocio está desorganizado y no puede operar de manera eficiente. Y, lo más importante de todo, los efectos de este desperdicio se traducen en pérdidas.

Y tomen en cuenta, la regla 1, 10 y 100 no contempla los efectos colaterales de la mala calidad de datos como son los clientes que se irritan, el personal que considera que la base de datos no sirve.

Con el tiempo, los clientes y el personal insatisfecho pueden generar costos adicionales que son más difíciles de medir.

Para el primer ejemplo que realizamos con “La medición del viernes por la tarde” el cálculo según lo explicado quedaría así:

Costo total = (67 x $ 1.00) + (33 x $ 1.00 x 10) = $ 67 + $ 330 = $ 397

Como se puede ver, el costo total es casi cuatro veces más que si los datos fueran correctos, y esto solo para 100 registros analizados, este es el costo de la mala calidad de los datos. La mayoría de las empresas no pueden, y no deberían, tolerar dichos costos.

En conclusión, ¿qué valores son aceptables?

En cualquier proceso de calidad, cuanta más inversión de tiempo, mayor calidad, pero la relación entre las dos variables no es aritmética sino logarítmica, es decir que se cumple el famoso Pareto del 80% – 20%.

En otras palabras, a medida que se incrementa el esfuerzo, el margen de mejora cada vez es menor. El 100% de calidad de datos suele ser inviable técnicamente y económicamente.

Como ejemplo, la NASA es probablemente la corporación que más recursos invierte en procesos de calidad a nivel mundial. Cada pieza es rigurosamente revisada, sin embargo, siguen existiendo errores, algunos de ellos con consecuencias fatales.

En los programas de calidad de datos ocurre lo mismo, por lo que es importante un equilibrio entre el esfuerzo y la calidad, se debe encontrar el punto de inflexión dependiendo del tipo de negocio, campo, variable o atributo, siendo lo ideal no invertir demasiado dinero y esfuerzo en reglas complejas que al final de cuentas no mayor aporte.

¿A qué me refiero? Por poner un ejemplo, me ha pasado que hay clientes que buscan poner una regla de calidad tan a detalle y tan trabajada que soluciona errores sobre 150 registros que equivalen al 0,61% de la calidad de un atributo o campo. En estos casos puntuales es mejor realizar correcciones manuales que tienen un costo de inversión alto, pero mucho menos al automatizar una regla que probablemente sea utilizada por una sola ocasión

Para el ejemplo inicial, y solamente a modo de referencia, puedo decir por experiencia que el 67% de calidad es un valor bastante aceptable en términos generales, regularmente en este tipo de proyectos el llegar y mantenerse por sobre un 80% de calidad se considera un auténtico hito.

Todos en la organización deberían hacer que la calidad de los datos sea parte de su trabajo, y este ejercicio proporciona una forma fácil de tomar medidas para mejorar.

Este proceso no pretende ser un ejercicio de una sola vez sino convertirse en un programa permanente de calidad de datos. Ahora que sabe que tiene problemas con los datos y conoce sus costos, ¡puede empezar a realizar mejoras reales!

Jean Paul Saltos

Jean Paul Saltos se desempeña como Consultor de Analítica freelance y Agile Coach enfocado en Transformación Digital y Agil en una consultora multinacional. Cuenta con una especialización en Finanzas Corporativas, una maestría en Gestion de Tecnología y Sistemas y en Business Coaching, a mas de varias certificaciones tecnicas y en agilidad.

Por Jean Paul Saltos

Entradas recientes