Imputación de datos perdidos en las evaluaciones diagnósticas educativas
-
1
Universidad de Oviedo
info
ISSN: 0214-9915
Año de publicación: 2012
Volumen: 24
Número: 1
Páginas: 167-175
Tipo: Artículo
Otras publicaciones en: Psicothema
Resumen
En la evaluación diagnóstica de sistemas educativos se utilizan habitualmente autoinformes para recoger datos de carácter tanto cognitivo como oréctico. Es muy frecuente que por distintas razones en estos autoinformes falten algunos de los datos del alumnado. El objetivo del presente trabajo es comparar el funcionamiento de diferentes métodos de imputación de datos perdidos en el contexto de la evaluación de sistemas educativos. Sobre una base de datos de 5.000 sujetos se simularon 72 condiciones: tres tamaños de pérdida de datos, tres mecanismos de pérdida y ocho métodos de imputación de los datos perdidos. La cuantía de las pérdidas se establecieron en un 5, 10 y 20%. Los mecanismos de pérdida fijados fueron: aleatoria, moderadamente condicionada y fuertemente condicionada. Los ocho métodos de imputación utilizados fueron: eliminación, reemplazo por la media de la escala, por la media del ítem, por la media del sujeto, por la media del sujeto corregida, regresión múltiple e imputación por el algoritmo Esperanza-Maximización (EM) con y sin variables auxiliares. Los resultados indican que la recuperación de los datos es más precisa cuando se emplea una combinación adecuada de diferentes métodos de recuperación de los datos perdidos. Cuando se trata de un caso incompleto funciona muy bien la media del sujeto, mientras que para datos completamente perdidos es recomendable la imputación múltiple con el algoritmo EM. El uso de esta combinación resulta especialmente recomendable cuando la pérdida de datos es mayor y su mecanismo de pérdida está más condicionado. Finalmente, se discuten los resultados y se comentan algunas líneas futuras de investigación que se abren a partir de los resultados obtenidos.
Referencias bibliográficas
- Bokossa, M.C., y Huang, G.G. (2001). Imputation of tests scores in the National Education Longitudinal Study of 1988 (NELS: 88). Washington, DC: National Center for Education Statistics, U.S. Department of Education.
- Botella, J. (2002). Potencia de pruebas alternativas para dos muestras relacionadas con datos perdidos. Psicothema, 14(1), 174-180.
- Botella, J., y Ponte, G. (2011). Effects of the heterogeneity of the variances on reliability generalization: An example with the Beck Depression Inventory. Psicothema, 23, 516-522.
- Cohen, J., y Cohen, P. (1985). Applied multiple regresion and correlation analysis for the behavioral sciences. Mahwah, NJ: Lawrence Erlbaum Associates.
- Cohen, J., Cohen, P., West, S.G., y Aiken, L.S. (2003). Applied multiple regression/correlation analysis for the behavioural sciences (3a ed.). Mahwah, N.J.: Lawrence Erlbaum.
- Downey, R.G., y King, C.V. (1998). Missing data in Likert ratings: A comparison of replacement methods. The Journal of General Psychology, 125(2), 175-191.
- Enders, C.K. (2004). The impact of missing data on sample reliability estimates: Implications for reliability reporting practices. Educational and Psychological Measurement, 64(3), 419-436.
- Fernández, R., y Muñiz, J. (2011). Diseño de cuadernillos para la evaluación de las competencias básicas. Aula Abierta, 39(2), 3-34.
- García-Fernández, G., Secades-Villa, R., García-Rodríguez, O., Álvarez-López, E., Sánchez-Hervás, E., Fernández-Hermida, J.R., y Fernández- Artamendi, S. (2011). Individual characteristics and response to contingency management treatment for cocaine addiction. Psicothema, 23, 114-118.
- Gobierno del Principado de Asturias (2008). Evaluación de Diagnóstico Asturias 2008. Oviedo, Consejería de Educación y Ciencia. Consultado el 17 de mayo de 2011 en: http://www.educastur.es/media/publicaciones/informes/evadiag2008b.pdf.
- Gobierno del Principado de Asturias (2010). Evaluación de Diagnóstico Asturias 2009. 2o curso de Educación Secundaria Obligatoria, Oviedo, Consejería de Educación y Ciencia. Consultado el 17 de mayo de 2011 en: http://www.educastur.es/media/institucional/calidad/diagnostico_ast09/ED_2009.pdf.
- Gobierno del Principado de Asturias (2011). Evaluación de diagnostic Asturias 2010. 4o curso de Educación Primaria, Oviedo, Consejería de Educación y Ciencia. Consultado el 18 de julio de 2011 en: http://www.educastur.es/media/publicaciones/informes/evadiag2010.pdf.
- Graham, J.W. (2009). Missing data analysis: Making it work in the real World. Annual Review of Psychology, 60, 549-576.
- Howell, D.C. (2007). The analysis of missing data. En W. Outhwaite y S. Turner (Eds.), Handbook of social science methodology. London: Sage.
- Little, R.J.A. (1988). A test of missing completely at random for multivariate data with missing values. Journal of the American Statistical Association, 83(404), 1198-1202.
- Little, R.J.A. (1992). Regression with missing X's: A review. Journal of the American Statistical Association, 87(420), 1227-1237.
- Little, R.J.A., y Rubin, D.B. (1987). Statistical analysis with missing data. New York: John Wiley & Sons, Inc.
- Ministerio de Educación (2009). Evaluación General de Diagnóstico 2009. Marco de la Evaluación. Madrid: Instituto de Evaluación.
- Mullis, I.V.S., Martin, M.O., Kennedy, A.M., Trong, K.L., y Sainsbury, M. (2009). PIRLS 2011 assessment framework. Chestnut Hill, MA: TIMSS & PIRLS International Study Center, Boston College.
- Mullis, I.V.S., Martin, M.O., Ruddock, G.J., O'Sullivan, C., y Preuschoff, C. (2009). TIMSS 2011 assessment frameworks. Chestnut Hill, MA: TIMSS & PIRLS International Study Centre, Boston College.
- National Assessment Governing Board (2003). Background information framework for the National Assessment of Educational Progress. Washington, DC: NAGB, U.S. Department of Education.
- OECD (2009). PISA 2009 assessment framework. Key competencies in reading, mathematics and science. París: OECD.
- Schafer, J.L. (1999). Multiple imputation: A primer. Statistical Methods in Medical Research, 8, 3-15.
- Rubin, D.B. (1987). Multiple imputation for nonresponse in surveys. New York: Wiley.
- San Luis, C., Hernández, J.A., y Ramírez, G. (1997). Estimación de datos perdidos por máxima verosimilitud en patrones «missing» aleatorios (MAR) y completamente aleatorios (MCAR) en modelos estructurales. Psicothema, 9(1), 187-197.
- Shrive, F.M., Stuart, H., Quan, H., y Ghali, W.A. (2006). Dealing with missing data in a multi-question depression scale: A comparison of imputation methods. BMC Medical Research Methodology, 6, 57. Consultado el 16 de septiembre en: http://www.biomedcentral.com/1471-2288/6/57.
- Van Buuren, S. (2010). Item imputation without specifying scale structure. Methodology, 6(1), 31-36.
- Van Ginkel, J.R., Sijtsma, K., Van der Ark, L.A., y Vermunt, J.K. (2010). Incidence of missing item scores in personality measurement, and simple item-score imputation. Methodology, 6(1), 17-30.
- Van Ginkel, J.R., y Van der Ark, L.A. (2005). SPSS syntax for missing value imputation in test and questionnaire data. Applied Psychological Measurement, 29(2), 152-153.
- Von Hippel, P.T. (2004). Biases in SPSS 12.0 Missing Value Analysis. The American Statistician, 58(2), 160-164.
- Vansteelandt, S., Carpenter, J., y Kenwark, M.G. (2010). Analysis of incomplete data using inverse probability weighting and doubly robust estimators. Methodology, 6(1), 37-48.
- Willms, J.D., y Smith, T. (2006). A Manual for Conducting Analyses with Data from TIMSS and PISA (Report prepared for the UNESCO Institute for Statistics). New Brunswick: Canadian Research Institute for Social Policy. Consultado el 17 de mayo de 2011 en: http://www.unb.ca/crisp/pdf/Manual_TIMSS_PISA2005_0503.pdf.
- Yamamoto, K. (2001). Estimating literacy proficiencies with and without cognitive data. En National Center for Education Statistics: Technical report and data file user's manual for the 1992 National Adult Literacy Survey. Washington, DC: U.S. Department of Education (pp. 142-164).