Aller au contenu principal

Données manquantes, conclusions erronées: pourquoi les évaluateurs se trompent et comment y remédier

Posté le 17/04/2026 by Mr. Imtiaz Imtiaz Muhammad Ayub
Missing Data
Imtiaz

Dans le domaine du suivi et de l'évaluation, tout repose sur la qualité des données, mais les données manquantes sont encore régulièrement considérées comme un problème mineur. Elles apparaissent dans presque tous les ensembles de données, qu'il s'agisse de questions ignorées, de questions sensibles comme le revenu ou de simples erreurs lors de la collecte des données, et si elles ne sont pas gérées correctement, elles peuvent fausser en toute discrétion les résultats et les conclusions qui en sont tirées

Dans le domaine du suivi et de l'évaluation, tout repose sur la qualité des données, mais les données manquantes sont encore régulièrement considérées comme un problème mineur. Elles apparaissent dans presque tous les ensembles de données, qu'il s'agisse de questions ignorées, de questions sensibles comme le revenu ou de simples erreurs lors de la collecte des données, et si elles ne sont pas gérées correctement, elles peuvent fausser en toute discrétion les résultats et les conclusions qui en sont tirées.

Les répondants peuvent ignorer des questions, refuser de répondre à des questions sensibles telles que celles sur le revenu, ou les enquêteurs peuvent laisser des champs vides lors de la collecte des données par inadvertance. La manière dont les données manquantes sont gérées a des conséquences directes sur la validité d'une évaluation. Une mauvaise gestion peut introduire des biais, réduire la puissance de l'analyse et conduire à des conclusions qui ne reflètent pas fidèlement les performances du programme.

Un traitement inapproprié des données manquantes peut conduire à des estimations biaisées, à une puissance statistique réduite et à des conclusions trompeuses sur l'efficacité du programme. Pour les évaluateurs et les chercheurs, la gestion des réponses manquantes n'est donc pas seulement une question technique, mais aussi un aspect essentiel pour garantir la fiabilité des résultats de l'évaluation.

Les approches abordées ici relient la gestion pratique des données aux méthodes, outils et technologies d'évaluation plus larges qui renforcent la prise de décision fondée sur des données probantes.

Pourquoi les données manquantes sont importantes

 

Les évaluations basées sur des enquêtes visent souvent à mesurer des résultats tels que le revenu des ménages, les niveaux d'instruction, l'accès aux services ou les changements de comportement. Lorsque des réponses manquent, les données disponibles peuvent ne plus représenter fidèlement la population.

Par exemple, imaginez une enquête sur le revenu des ménages où les répondants aux revenus plus élevés sont moins disposés à déclarer leur revenu. Si ces observations manquent, le revenu moyen calculé peut apparaître inférieur à ce qu’il est en réalité. En termes d’évaluation, cela introduit un biais qui peut fausser les conclusions sur la performance du programme.

Les réponses manquantes peuvent également réduire la taille effective de l’échantillon. Lorsque les cas présentant des données incomplètes sont exclus de l’analyse, la puissance statistique de l’évaluation diminue. Il devient alors plus difficile de détecter les effets réels du programme.

En raison de ces risques, la gestion des données manquantes est un élément essentiel de la méthodologie d’évaluation et de l’analyse des données.

Comprendre pourquoi des données manquent

Avant de décider comment traiter les réponses manquantes, les évaluateurs doivent d’abord comprendre pourquoi ces données manquent. Dans la recherche en évaluation, les données manquantes sont généralement classées en trois catégories.

  • Manquantes de manière complètement aléatoire (MCAR): cela se produit lorsque les réponses manquantes sont le fruit du hasard. Par exemple, un enquêteur peut sauter une question par inadvertance. Dans de tels cas, les données manquantes ne sont pas liées aux caractéristiques du répondant.
  • Manquantes de manière aléatoire (MAR): les données manquantes sont liées à d'autres variables observées dans l'ensemble de données. Par exemple, les répondants plus jeunes peuvent être moins enclins à déclarer leurs revenus, ce qui signifie que les réponses manquantes concernant les revenus sont liées à l'âge. 
  • Manquantes de manière non aléatoire (MNAR): les données manquantes sont directement liées à la valeur elle-même. Par exemple, les répondants disposant de revenus très élevés peuvent délibérément éviter de déclarer leurs revenus.

En pratique, c'est à ce stade que les choix analytiques commencent à diverger. Un même ensemble de données peut être traité de manière très différente selon la cause des données manquantes, et ces décisions ont un impact direct sur les résultats.

MNAR dans les données financières sensibles – Entreprises d'élevage

Lors de l'évaluation d'un programme financé par le GAC visant à soutenir les petites entreprises du secteur de l'élevage, dans le sud du Pendjab, au Pakistan, j'ai constaté une présence récurrente de données manquantes concernant les bénéfices des entreprises et les dettes en cours. Une proportion notable de répondants a refusé de répondre à ces questions.

Au cours du travail de terrain et des discussions qualitatives de suivi, il est apparu clairement que ce n'était pas le fruit du hasard. Deux groupes se sont montrés particulièrement réticents:

  • ceux qui réalisaient des bénéfices relativement élevés, qui se montraient prudents quant à la divulgation de leurs revenus en raison de préoccupations liées à la fiscalité ou de la crainte d'être exclus du soutien du projet;
  • ceux confrontés à des difficultés financières ou à des dettes, qui étaient réticents à partager des résultats d'entreprise négatifs et craignaient de perdre l'accès aux deuxième et troisième tranches de prêts et de subventions dans le cadre du projet.

Il s'agissait donc d'une situation de «données manquantes non aléatoires» (MNAR), où la probabilité de non-réponse était directement liée à la valeur sous-jacente de la variable elle-même, c'est-à-dire la situation financière de l'entreprise.

Compte tenu de cela, j'ai évité d'appliquer les techniques d'imputation standard, car elles auraient probablement faussé les résultats.

J'ai plutôt adapté mon approche lors de l'analyse:

  • en utilisant des fourchettes de revenus et de bénéfices plutôt que des chiffres exacts;
  • en m'appuyant sur des indicateurs de substitution tels que la taille du troupeau, les tendances du chiffre d'affaires et les dépenses en intrants;
  • en croisant les résultats avec des entretiens qualitatifs.

Méthodes pratiques pour gérer les données manquantes

Les praticiens de l'évaluation disposent de plusieurs options pour gérer les réponses manquantes. Ces approches vont des techniques simples utilisées dans l'analyse descriptive de base aux méthodes statistiques avancées appliquées dans les évaluations d'impact rigoureuses.

1. Analyse des cas complets

Lorsque la proportion de données manquantes est faible, les analystes s’appuient parfois sur l’analyse des cas complets, qui n’utilise que les données observées complètes. Cette approche est simple et souvent appliquée par défaut dans les logiciels statistiques. Cependant, elle n’est appropriée que lorsque les données manquantes sont limitées et peu susceptibles d’affecter les résultats de manière systématique.

2. Méthodes de remplacement simples

Plusieurs techniques simples sont couramment utilisées dans les travaux d'évaluation appliquée.

La substitution par la moyenne remplace les valeurs manquantes par la moyenne des données observées. Bien que facile à mettre en œuvre, elle réduit la variabilité de l'ensemble de données et peut affaiblir les relations entre les variables; elle doit donc être utilisée avec prudence.

Une autre approche courante est l'imputation «hot deck», dans laquelle les évaluateurs remplacent les valeurs manquantes par des valeurs observées chez des répondants similaires dans l'ensemble de données. Cette technique est largement utilisée dans les grandes enquêtes auprès des ménages car elle préserve la distribution des données d'origine.

L'imputation «cold deck» utilise des données de référence externes, telles que des enquêtes nationales ou des statistiques administratives, pour estimer les valeurs manquantes.

3. Approches statistiques basées sur des modèles

Lorsque les données manquantes sont modérées ou lorsque les évaluations impliquent une modélisation statistique, des techniques plus solides sont recommandées.

L'imputation par régression prédit les valeurs manquantes en s'appuyant sur les relations entre les variables. Par exemple, les valeurs de revenu manquantes peuvent être estimées en utilisant l'âge et le niveau d'instruction comme prédicteurs.

L'algorithme d'espérance-maximisation (EM) estime les paramètres du modèle de manière itérative en présence de données manquantes, ce qui permet de conserver la structure globale de l'ensemble de données.

Ces méthodes aident à préserver la structure des données et à réduire le risque de résultats biaisés.

4. Techniques avancées pour les évaluations complexes

Dans les études d'évaluation complexes ou les grands ensembles de données, on privilégie souvent des techniques d'imputation avancées.

L'imputation multiple est largement considérée comme l'une des approches les plus fiables. Au lieu de remplacer les valeurs manquantes par une seule estimation, cette méthode crée plusieurs ensembles de données plausibles, analyse chacun d'entre eux séparément et combine les résultats à l'aide de règles de regroupement qui tiennent compte à la fois de la variance intra- et inter-imputation, prenant ainsi en compte l'incertitude associée aux données manquantes.

L'imputation bayésienne applique la modélisation probabiliste pour estimer les valeurs manquantes à l'aide de distributions de probabilité. Elle est particulièrement utile lorsque les évaluateurs doivent intégrer des connaissances antérieures ou des données externes dans le processus d'estimation, ce qui la rend bien adaptée aux contextes où des données d'enquêtes historiques ou des hypothèses d'experts peuvent éclairer les prédictions des valeurs manquantes. Bien que techniquement avancée, les chercheurs l'appliquent de plus en plus dans les analyses statistiques à grande échelle.

L'imputation bayésienne utilise des modèles probabilistes pour estimer les valeurs manquantes en combinant les données observées avec des informations antérieures. En pratique, cette approche s'avère utile lorsque l'évaluateur a accès à des données antérieures fiables — provenant par exemple d'enquêtes de référence, de systèmes de suivi de routine ou de cycles d'évaluation antérieurs — ou lorsque des hypothèses d'experts doivent être formellement intégrées à l'analyse. L'imputation bayésienne est donc mieux adaptée aux cas où les connaissances antérieures sont solides et peuvent être justifiées, plutôt qu'en tant qu'approche par défaut.

Ces techniques avancées sont particulièrement pertinentes pour les évaluations d’impact, l’analyse économétrique et les grandes enquêtes nationales.

Le rôle des outils et des technologies d’évaluation

L’évaluation moderne s’appuie de plus en plus sur des outils numériques et des technologies statistiques pour gérer des ensembles de données complexes.

Des plateformes logicielles telles que SPSS, Stata, R et Python permettent aux évaluateurs d’automatiser l’analyse des données manquantes et d’appliquer efficacement des techniques d’imputation avancées. Ces outils peuvent identifier des schémas de données manquantes, générer des valeurs prédites et effectuer des procédures d’imputation multiple sur des milliers d’observations.

Les plateformes de collecte de données numériques telles que KoboToolbox, SurveyCTO et ODK contribuent également à réduire les réponses manquantes en adoptant des règles de validation intégrées, une logique de saut et des champs obligatoires lors de la collecte des données.

En combinant des méthodes d'évaluation rigoureuses avec des outils et des technologies analytiques modernes, les évaluateurs peuvent améliorer considérablement la qualité des données et la fiabilité des analyses.