Datos incompletos, conclusiones erróneas: por qué se equivocan los evaluadores y cómo solucionarlo

En el seguimiento y evaluación (SyE), todo depende de la calidad de los datos. Sin embargo, cuando falta algún dato, no se suele considerar un asunto particularmente importante. Y eso que se trata de un fenómeno frecuente: preguntas sin responder, temas delicados como los ingresos o simples errores durante la recopilación de datos. Si no se gestiona adecuadamente, puede distorsionar sutilmente los resultados y las conclusiones derivadas de estos.

Los encuestados pueden omitir preguntas, o negarse a contestar a temas delicados como los ingresos. O los encuestadores pueden dejar accidentalmente campos en blanco durante la recopilación de datos. La forma de manejar los datos incompletos repercute directamente en la validez de una evaluación. Si se gestionan de forma deficiente, pueden introducir sesgos, mermar el análisis y llevar a conclusiones que no reflejen con precisión los resultados de un programa.

El tratamiento inadecuado de datos incompletos puede dar lugar a estimaciones sesgadas, a una menor fuerza estadística y a conclusiones erróneas sobre la eficacia de un programa. Para evaluadores e investigadores, gestionar respuestas incompletas no es, por lo tanto, una mera cuestión técnica, sino también un aspecto crítico para garantizar la fiabilidad de los resultados de la evaluación.

Los enfoques que se analizan aquí vinculan la gestión práctica de los datos con métodos, herramientas y tecnologías de evaluación más amplios que refuerzan la adopción de decisiones basada en evidencias.

Por qué son importantes los datos incompletos

Las evaluaciones basadas en encuestas suelen tener como objetivo medir resultados como ingresos familiares, niveles de educación, acceso a servicios o cambios de comportamiento. Cuando algunas preguntas quedan sin responder, es posible que los datos obtenidos no representen a la población con precisión.

Por ejemplo, imaginemos una encuesta sobre ingresos familiares en la que los encuestados con ingresos más altos se muestran menos dispuestos revelarlos. Si no se dispone de esta información, el cálculo de los ingresos medios puede generar un valor inferior al real. En términos de la evaluación, esto introduce un sesgo que puede distorsionar las conclusiones sobre los resultados de un programa.

Las respuestas incompletas también pueden reducir el tamaño efectivo de la muestra. Cuando se excluyen del análisis los casos en los que falta algún dato, la fuerza estadística de la evaluación se resiente. Esto dificulta la detección de los efectos reales de un programa.

Debido a estos riesgos, gestionar los datos incompletos es una parte esencial de la metodología de evaluación y el análisis de datos.

Comprender por qué faltan datos

Antes de decidir cómo gestionar las respuestas incompletas, los evaluadores deben comprender primero por qué faltan datos. En la investigación evaluativa, los datos incompletos se clasifican generalmente en tres categorías.

· Datos que faltan de forma completamente aleatoria. Cuando las respuestas que faltan obedecen a causas puramente fortuitas. Por ejemplo, un encuestador puede saltarse accidentalmente una pregunta. En estos casos, la falta de datos no está relacionada con las características del encuestado.

· Datos que faltan de forma aleatoria. Cuando la ausencia está relacionada con otras variables observadas en el conjunto de datos. Por ejemplo, los encuestados más jóvenes pueden ser menos propensos a revelar sus ingresos, lo que significa que los datos incompletos sobre ingresos están relacionados con la edad.

· Datos que faltan por alguna razón. En este caso, la ausencia está directamente relacionada con el propio valor de la variable en cuestión. Por ejemplo, los encuestados con ingresos muy altos pueden evitar revelarlos (deliberadamente).

En la práctica, este es el punto en el que las decisiones analíticas comienzan a diferir. Un mismo conjunto de datos puede tratarse de manera muy diferente dependiendo del motivo por el cual está incompleta. Y esas decisiones afectan de manera directa a los resultados.

Datos financieros sensibles que faltan por alguna razón: empresas ganaderas

Mientras evaluaba un programa financiado por el Departamento de Asuntos Exteriores de Canadá (GAC, por sus siglas en inglés) para apoyar a pequeñas empresas del sector ganadero en el sur de Punyab (Pakistán), me encontré con un patrón constante de datos incompletos sobre beneficios empresariales y deuda pendiente. Una proporción notable de los encuestados se negó a responder a estas preguntas.

Durante el trabajo de campo y las discusiones cualitativas de seguimiento, quedó claro que esto no era aleatorio. Dos grupos se mostraron especialmente reacios:

Quienes obtenían beneficios relativamente más elevados, cautelosos a la hora de revelar sus ingresos debido a preocupaciones sobre la fiscalidad o al temor a ser excluidos del apoyo del proyecto; y
Quienes se enfrentaban a dificultades financieras o deudas, incómodos al compartir resultados empresariales negativos y temerosos a perder el acceso a la segunda y tercera cuotas de préstamos y subvenciones del proyecto.

Esto apuntaba a una situación en la que los datos faltaban por alguna razón, directamente relacionada con el valor subyacente de la propia variable (es decir, la situación financiera de la empresa).

En vista de lo cual, evité aplicar técnicas estándar de imputación, ya que probablemente habrían distorsionado los resultados.

En su lugar, adapté el enfoque durante el análisis mediante:

el uso de rangos de ingresos y beneficios en lugar de cifras exactas;
el recurso a indicadores sustitutivos como el tamaño del rebaño, los patrones de volumen de ventas y el gasto en insumos; y
la triangulación de los resultados con entrevistas cualitativas.

Métodos prácticos para gestionar datos incompletos

Los profesionales de la evaluación disponen de varias opciones para abordar la falta de algunas respuestas. Desde técnicas sencillas utilizadas en análisis descriptivos básicos hasta métodos estadísticos avanzados aplicados en evaluaciones de impacto rigurosas.

1. Análisis de casos completos

Cuando la proporción de datos incompletos es pequeña, los analistas recurren en ocasiones al análisis de casos completos, en el que solo se utilizan los registros con todas las observaciones. Este enfoque es sencillo y se suele aplicar de forma predeterminada en los programas informáticos estadísticos. Sin embargo, solo es adecuado cuando faltan pocos datos y esta situación probablemente no afecte a los resultados de forma sistemática.

2. Métodos simples de sustitución

En el trabajo de evaluación aplicado se utilizan habitualmente varias técnicas sencillas.

Una de ellas (sustitución por la media) reemplaza los valores que faltan por el valor promedio de los datos observados. Aunque es fácil de implementar, reduce la variabilidad del conjunto de datos y puede mermar las relaciones entre variables, por lo que debe utilizarse con precaución.

Otro enfoque común es la imputación hot deck: los evaluadores sustituyen los valores que faltan por valores observados de encuestados similares en el conjunto de datos. Esta técnica se utiliza ampliamente en grandes encuestas de hogares ya que conserva la distribución de los datos originales.

La imputación cold deck utiliza datos de referencia externos — como encuestas nacionales o estadísticas administrativas — para estimar los valores faltantes.

3. Enfoques estadísticos basados en modelos

Cuando falta una cantidad moderada de datos o las evaluaciones implican modelos estadísticos, se recomienda usar técnicas más robustas.

La imputación por regresión predice los valores que faltan utilizando relaciones entre variables. Por ejemplo, los valores de ingresos que faltan pueden estimarse utilizando la edad y el nivel educativo como predictores.

El algoritmo esperanza-maximización (EM) estima los parámetros del modelo de forma iterativa sin los datos que faltan, lo que ayuda a conservar la estructura general del conjunto de datos.

Estos métodos ayudan a mantener la estructura de los datos y a reducir el riesgo de resultados sesgados.

4. Técnicas avanzadas para evaluaciones complejas

En estudios de evaluación complejos o conjuntos de datos de gran tamaño, se suele optar por técnicas de imputación avanzadas.

La imputación múltiple se considera uno de los enfoques más fiables. En lugar de sustituir los valores que faltan con una única estimación, este método crea múltiples conjuntos de datos plausibles, analiza cada uno por separado y combina los resultados utilizando reglas de agrupación que tienen en cuenta la varianza en las imputaciones y entre ellas, captando así la incertidumbre asociada a los datos que faltan.

La imputación bayesiana aplica modelos probabilísticos para estimar los valores que faltan utilizando distribuciones de probabilidad. Resulta especialmente útil cuando los evaluadores necesitan incorporar conocimientos previos o datos externos en el proceso de estimación, lo que la hace muy adecuada para contextos en los que los datos históricos de encuestas o las hipótesis de expertos pueden fundamentar predicciones de valores que faltan. Aunque es técnicamente avanzada, los investigadores la aplican cada vez más en análisis estadísticos a gran escala.

La imputación bayesiana utiliza modelos probabilísticos para estimar los valores que faltan combinando los datos observados con información previa. En la práctica, este enfoque resulta útil cuando el evaluador tiene acceso a datos previos fiables (p. ej. de encuestas de referencia, sistemas de seguimiento rutinarios o rondas de evaluación anteriores), o cuando es necesario incorporar formalmente en el análisis hipótesis de expertos. Por lo tanto, la imputación bayesiana es más adecuada para casos en los que los conocimientos previos son sólidos y puede justificarse, más que como enfoque predeterminado.

Estas técnicas avanzadas son especialmente relevantes para evaluaciones de impacto, análisis econométricos y grandes encuestas nacionales.

El papel de las herramientas y tecnologías de evaluación

La evaluación moderna depende cada vez más de herramientas digitales y tecnologías estadísticas para gestionar conjuntos de datos complejos.

Las plataformas de programas informáticos como SPSS, Stata, R y Python permiten a los evaluadores automatizar el análisis de datos incompletos y aplicar técnicas avanzadas de imputación de manera eficiente. Estas herramientas pueden identificar patrones de datos que faltan, generar valores previstos y realizar procedimientos de imputación múltiple en miles de observaciones.

Las plataformas digitales de recopilación de datos como KoboToolbox, SurveyCTO y ODK también ayudan a reducir las respuestas incompletas al incorporar reglas de validación integradas, lógica de salto y campos obligatorios durante la recopilación de datos.

Al combinar métodos de evaluación sólidos con herramientas y tecnologías analíticas modernas, los evaluadores pueden mejorar significativamente la calidad de los datos y la fiabilidad analítica.

Qué significa esto para los evaluadores

Las respuestas incompletas forman parte de cualquier evaluación basada en encuestas. Sin embargo, la forma de gestionarlas afecta de forma directa a la solidez del análisis y la credibilidad de los resultados de la evaluación. Ignorarlas o tratarlas de manera superficial puede introducir sesgos y llevar a conclusiones que no reflejen los resultados de un programa con precisión.

Un enfoque sólido comienza con una evaluación cuidadosa de la cantidad de datos que faltan y dónde se producen esas carencias, seguida de una selección de un método adecuado para el propósito del análisis y la naturaleza del conjunto de datos. Si bien ningún método puede eliminar por completo los efectos de los datos incompletos, un enfoque meditado y transparente permite a los evaluadores gestionar esas limitaciones y generar resultados sólidos y útiles para la toma de decisiones.

Datos incompletos, conclusiones erróneas: por qué se equivocan los evaluadores y cómo solucionarlo

Publicado el 17/04/2026 by Mr. Imtiaz Imtiaz Muhammad Ayub