Procédure de Gestion des Valeurs Manquantes en Analyses Statistiques

by , , | Nov 24, 2025 | Biostatistiques

Un problème très souvent rencontrer par de nombreux chercheurs et qui n’est malheureusement pas assez documenté c’est le problème de gestion des valeurs manquantes dans la base de données pour une analyse optimale.

En effet après un travail rigoureux de collecte de donnée sur le terrain, la qualité de la base de données n’est pas toujours garantie du fait de nombreux facteurs ne dépendant pas forcement du chercheur (appareil défecteur, défaut de formation des enquêteurs…). Ceux-ci vont donner place à des problèmes de cohérence et de complétude de donnée dans notre base.

1. Typologie des valeurs manquantes

1.1 Données manquantes de manière complètement aléatoire (MMCA/MCAR) 

Les données sont dites manquantes de manière complètement aléatoire lorsque l’absence d’une valeur ne dépend ni des variables observées ni des variables non observées. En d’autres termes, les raisons pour lesquelles certaines données sont absentes sont totalement indépendantes des caractéristiques des individus ou des paramètres étudiés, et relèvent du pur hasard. Lorsque cette condition est respectée, les analyses réalisées sur les données restantes ne sont pas biaisées. Toutefois, ce scénario est rarement rencontré en pratique. Dans l’exemple (voir figure 1) on constate que les valeurs de Systolic Blood Pressure (SBP) manquantes ne sont liés à aucunes autres caractéristiques car autant les femmes que les hommes, les jeunes que les vieux sont affectés par cela.

1.2 Données manquantes aléatoirement (MA/MAR

Se produisent lorsque les observations manquantes ne sont pas aléatoires, mais qu’elles peuvent être entièrement expliquées par des variables où il existe des informations complètes. En guise d’illustration, contrairement au MCAR, nous remarquons que les valeurs manquantes de SBP ont tendances à se retrouver chez les personnes moins de 30 ans.

1.3 Données manquantes par omission prévisible (MNAR

Egalement appelée données de non-réponses ou données non-ignorables, sont des données qui ne sont ni MA ni MCA. En ce sens, la valeur de la variable manquante est liée à la raison pour laquelle elle est manquant. En fin, l’exemple montre que, les individues n’ayant pas de SBP renseignés sont ceux étant arrivé avec des valeurs élevés de pression et probablement pour des raisons d’urgences médicales, elle n’a pas été mesuré directement.

Figure 1 : Types de valeurs manquantes

2. Procédure de gestion de valeur manquante

Ainsi pour gérer les problèmes de valeurs manquantes, nous pouvons utiliser :

  • Les méthodes de suppression
  • Les méthodes d’imputation

2.1 Méthodes de suppression (MS)

La MS, encore appelé Analyse des cas complets, certainement la plus facile, consiste à identifier et à supprimer les observations (correspondant aux individus ou alors à une ligne dans notre base) contenant ces valeurs manquantes. Cependant cette méthode est conseillée pour un très petit nombre de valeur manquante afin de ne pas affecté la consistance de notre base, il est recommandé de supprimer quand le nombre de valeur manquante est inferieur a 5% de la taille de la population totale. Pour mieux comprendre cela, imaginons une base de 100 sujets où nous décrivons leurs profils socio démographiques, dans laquelle nous nous rendons compte de l’absence de l’âge de 25 participants (soit 25% de la population totale) ; supprimer ces 25 participants nous fera perdre un grand nombre d’observation, face à cela nous allons utiliser les méthodes d’imputation.

Figure 2 : Gestion des valeurs manquantes par analyse des cas complets

2.2 Méthodes d’Imputation Simple (MIS)

Les méthodes d’imputation permettront de substituer les valeurs manquantes par la moyenne ou la médiane de la série.

Ainsi, remplacer les valeurs manquantes par la moyenne ou la médiane revient dans un premier temps à étudier la distribution de la série en excluant les valeurs manquantes, si la série s’avère normalement distribué alors nous utiliserons la moyenne mais si ce n’est pas le cas nous utiliserons la médiane. Cependant pour les variables qualitatives la classe modale de la série sera utilisé.  Pour reprendre l’exemple plus haut, cela reviendrait à étudier la distribution des 75 valeurs de l’âge qui ont été rempli, si cette distribution est normale alors remplacer les 25 valeurs manquantes par la moyenne des 75 autres mais si ce n’est pas le cas remplacer par la médiane des 75 autres valeurs. Bien que cette méthode soit la plus utilisé dans la pratique, le problème est qu’elle centralise les valeurs de la série autour de la moyenne ou la médiane et peut donc biaiser l’analyse plutard. Sur la figure 3 nous remarquons une substitution des valeurs manquantes du sexe par la modalité ayant le plus grand effectif (mode) à l’occurrence le sexe féminin et pour les variables quantitatives par la moyenne soit respectivement 38 et 113 pour l’âge et les SBP.

Figure 3 : Gestion des valeurs manquantes par imputation simple

2.3 Méthodes d’imputation multiple

L’imputation multiple est aujourd’hui la méthode la plus utilisée et la plus recommandée dans les analyses statistiques modernes. Elle consiste à remplacer les valeurs manquantes plusieurs fois par des valeurs plausibles générées à partir d’un modèle probabiliste. Chaque version complète du jeu de données est ensuite analysée séparément, puis les résultats sont combinés pour produire une estimation finale plus robuste. Cette approche présente l’avantage majeur de préserver la variabilité naturelle des données et de réduire le biais lié à la perte d’informations. Contrairement à l’imputation simple, elle ne se limite pas à une seule estimation fixe : elle prend en compte l’incertitude inhérente à toute estimation.


Figure 4. Vue d’ensemble du processus d’imputation multiple, des données incomplètes aux estimations combinées selon les règles de Rubin.

2.4 Autres techniques d’imputation

2.4.1 Les méthodes d’interpolation et d’extrapolation:

Constituent des approches déterministes d’imputation, qui permettra de prédire pour chaque valeur manquante une valeur assez cohérence et ceci sur la base d’une relation ou corrélation qui pourrait exister entre les variables. Par rapport à l’exemple précédant ceci revient à dire que, l’extrapolation des valeurs de l’âge peuvent dépendre de la taille du participant, Ainsi les individus qui ont une taille élevée vont se voir assigner un âge élevé contrairement aux individus qui ont une faible taille. Il existe plusieurs types d’extrapolation en fonction de la relation qui existerait entre les deux variables (sur la base d’une revue de la littérature) mais le plus utilisé est l’extrapolation linéaire. La principale limite est que, s’il faut prédire les valeurs manquantes d’un grand nombre de variables alors elle devient fastidieuse car il faudra aller 2 à 2, c’est en ce moment qu’intervient l’ACP itérative.

2.4.2 L’Analyse en composante principale

Est une technique d’analyse exploratoire descriptive qui permet de mieux visualiser des liaisons entre plusieurs variables quantitative sur différents plans ou dimensions. Un des corolaires de l’application de l’ACP est une estimation des valeurs manquantes sur un nombre important de variable : c’est l’ACP itérative.

Son principe consiste à répéter plusieurs fois l’ACP sur les données, en utilisant les données de l’itération précédente pour imputer les valeurs manquantes jusqu’à obtenir le meilleur jeu de donnée. Son application se fait avec de nombreux logiciels d’analyse et l’algorithme est assez complexe car le logiciel cherche souvent indéfiniment le meilleur modèle, il revient donc au chercheur de fixer le nombre maximum d’itération à effectuer.

3. Cas pratique avec SPSS 

Réalisation d’une technique d’imputation simple sur logiciel SPSS

Une fois le jeu de donnée importé sur SPSS et les variables ayant un problème de complétude identifier. Aller dans le menu transformé, retrouver l’option permettant de faire cette opération.

Choisir la méthode d’imputation appropriée, dans le cas d’espèce nous allons choisir l’imputation par la moyenne ;

Choisir la variable à traiter et affecter un nom à la nouvelle variable

Le résultat est le suivant, toute les valeurs manquantes ont été remplacé par la moyenne de la série, ceci dans une nouvelle variable dénommée exper_1

Conclusion

Une bonne gestion des valeurs manquantes est indispensable pour assurer la validité et la fiabilité des analyses. Une approche méthodologique rigoureuse, intégrant différentes techniques d’imputation et prenant en compte les spécificités des données, contribuera à enrichir la qualité des recherches menées et à renforcer la confiance dans les conclusions tirées. Bien que la nature du traitement dépende fortement du type de donnée manquantes, les méthodes d’analyse des cas complet et les méthodes d’imputation multiple reste les plus utilisés.

Références

1. insightsoftware. Comment traiter les valeurs manquantes lors du nettoyage des données ? insightsoftware. 2023. https://insightsoftware.com/fr/blog/how-to-handle-missing-data-values-while-data-cleaning/. Accessed 14 Apr 2025.

2. Medistica. pvalue.io, a GUI of R statistical software for scientific medical publications. pvalue.io. 2019. https://www.pvalue.io. Accessed 14 Apr 2025.

3. Wikistat. Imputation des données manquantes. https://www.math.univ-toulouse.fr/~besse/Wikistat/pdf/st-m-app-idm.pdf. 2025.

4. Expert. Gestion des données manquantes : meilleures pratiques pour 2024. Editverse. 2024. https://www.editverse.com/fr/meilleures-pratiques-de-gestion-des-donn%C3%A9es-manquantes-pour-les-chercheurs-en-2024/. Accessed 15 Apr 2025.

5. Ebasone, P.V., Peer, N., Dzudie, A. et al. (2025). Reporting and handling of missing data in published studies of co-morbid hypertension and diabetes among people living with HIV/AIDS: a systematic review. BMC Medical Research Methodology, 25, 180.
https://doi.org/10.1186/s12874-025-02630-1

6.Peter Ebasone (2025). Handling missing data in practice, Complete Case Analysis vs Multiple imputation. CRENC

Authors

  • Peter Ebasone

    Dr Ebasone (MD, PhD) est le Directeur des Opérations de Recherche au CRENC, où il coordonne le programme International Epidemiology Databases to Evaluate AIDS (IeDEA) au Cameroun et supervise le programme d’e-learning.

  • Brice GUTHE

    Brice GUTHE (MPHE) est épidémiologiste et expert en santé publique, spécialisé dans les maladies infectieuses et particulièrement engagé sur les questions liées au VIH. Il s’intéresse également fortement à la science des données, à l’éthique de la recherche et à la cartographie.

  • Gabriel Mabou

    Gabriel Mabou (MPH, MSc, MA) est épidémiologiste et spécialiste de santé publique. Il est fellow au CRENC et ancien responsable de l’unité d’éthique de la recherche et de gestion des données au sein de la même organisation. Ses travaux portent désormais sur la gestion de projets et la supervision des activités.

Post Navigation

0 Comments

Laisser un commentaire

  Receive updates on new courses and blog posts

Never Miss a Thing!

Never Miss a Thing!

Subscribe to our mailing list to receive the latest news and updates on our webinars, articles and courses.

You have Successfully Subscribed!

Share This