Titre : | L'imputation multiple des données manquantes aléatoirement : concepts généraux et présentation d'une méthode Monte-Carlo. (2009) |
Auteurs : | G. COTTRELL ; M. COT ; J.Y. MARY |
Type de document : | Article |
Dans : | Revue d'épidémiologie et de santé publique (RESP) (vol. 57, n° 5, Octobre 2009) |
Pagination : | 361-372 |
Langues: | Français |
Mots-clés : | Biais ; Burkina Faso ; Epidémiologie ; Estimation ; Grossesse ; Méthode épidémiologique ; Méthodologie ; Modèle ; Paludisme ; Prophylaxie ; Statistique |
Résumé : | [BDSP. Notice produite par ORSRA 7rJ7R0x8. Diffusion soumise à autorisation]. La question du traitement statistique d'un jeu de données comportant des données manquantes se pose fréquemment, notamment en épidémiologie, et constitue un champ de recherche méthodologique dynamique. Aujourd'hui, des méthodes existent pour mener de telles analyses statistiques en présence d'observations incomplètes, permettant un réel saut qualitatif en termes de performance des résultats (diminution du biais des estimations et amélioration de la précision de celles-ci) par rapport aux méthodes proposées antérieurement, comme l'analyse du sous-échantillon avec des données complètes. Méthodes : Une des approches est l'imputation multiple, qui consiste à imputer successivement plusieurs valeurs à chaque donnée manquante. Plusieurs jeux de données complétés sont ainsi générés, respectant les caractéristiques de la distribution des données observées (variabilité et corrélations entre les variables). Des analyses standard sont ensuite menées séparément sur chaque jeu de données complété, puis leurs résultats combinés pour fournir un résultat global. Les différentes hypothèses faites sur l'origine des données manquantes (aléatoirement ou non) sont discutées dans cet article, et la mise en oeuvre de l'imputation multiple est présentée dans une optique pragmatique, depuis la phase d'imputation jusqu'à l'obtention du résultat final. Une méthode moderne, appelée Multiple Imputation by Chained Equations (MICE), basée sur un algorithme Monte-Carlo Markov Chain, utilisable dans le cas des données manquantes aléatoirement (MA), est décrite. Un exemple d'application de cette méthode est détaillé dans le cas de l'analyse, via une régression logistique multiple, de la liaison entre une variable dichotomique et des covariables qualitatives. Pour deux d'entre elles, des données ont été rendues manquantes aléatoirement sans structure particulière. Résultats : En comparaison avec le jeu de données initial sans données manquantes, les résultats de la méthode MICE montrent une franche amélioration des performances dans l'estimation des coefficients de la régression par rapport à celles des résultats obtenus à partir de l'analyse des observations avec des données complètes. Conclusion : La méthode MICE ne fait pas d'hypothèse directe sur la distribution jointe des variables du jeu de données, ce qui offre un cadre d'utilisation souple. Cette procédure est aujourd'hui implémentée au sein de logiciels statistiques largement diffusés (Splus ou R, Stata) et présente l'avantage d'être utilisable pour l'imputation des valeurs manquantes de plusieurs variables sans structure particulière. |
Exemplaires (2)
Code-barres | Cote | Support | Localisation | Section | Disponibilité |
---|---|---|---|---|---|
068467 | - | Périodique | Rennes | Indéterminé | Empruntable Disponible |
068475 | - | Périodique | Rennes | Indéterminé | Empruntable Disponible |