Las Rúbricas No neutralizan el Efecto de los correctores: una estimación con el modelo de facetas múltiples de Rasch

Rubén Fernández-Alonso; Pamela Woitschach; José Muñiz

doi:10.4438/1988-592X-RE-2019-386-428

Las Rúbricas No neutralizan el Efecto de los correctoresuna estimación con el modelo de facetas múltiples de Rasch

Rubén Fernández-Alonso ¹
Pamela Woitschach ¹
José Muñiz ¹

1 Universidad de Oviedo

Universidad de Oviedo

Oviedo, España

ROR https://ror.org/006gksa02

Revista:

Revista de educación

ISSN: 0034-8082

Año de publicación: 2019

Número: 386

Páginas: 89-112

Tipo: Artículo

DOI: 10.4438/1988-592X-RE-2019-386-428 DIALNET GOOGLE SCHOLAR Acceso abierto editor

Otras publicaciones en: Revista de educación

Resumen

Los ítems de respuesta construida son ampliamente utilizados en todo tipo de evaluaciones educativas. A pesar de la utilización de rúbricas muy específicas para su corrección, la influencia de los correctores está bien documentada en la literatura, afectando a los resultados de la evaluación. El objetivo central del presente trabajo es la estimación de los efectos de los correctores y de las rúbricas en una tarea de expresión escrita. Se utilizaron 13 correctores que revisaron 375 producciones escritas de estudiantes de sexto curso. Los correctores fueron asignados a los ensayos escritos siguiendo un cuadrado Youden de 13 bloques, un diseño de bloques incompletos balanceado. En el análisis de datos se empleó el modelo de Rasch de facetas múltiples con tres facetas: corrector, rúbricas y dificultad de paso de los mismos. Se compararon diferentes modelos y se analizaron los efectos del corrector y las características de las rúbricas. Los resultados ponen de manifiesto las diferencias entre los correctores en cuanto la severidad y la exactitud de sus juicios. Se concluye que no incluir el efecto del corrector en la estimación de los resultados del alumnado puede introducir un componente claro de inequidad en las evaluaciones.

€ Ver financiación

Información de financiación

Financiadores

Referencias bibliográficas

Adams, R. & Wu, M. (2010). The analysis of rater effects. Recuperado de: https://www.acer.org/files/Conquest-Tutorial-3-RaterEffects.pdf
Amengual, M. (2004). Análisis de la fiabilidad en las puntuaciones holísticas en ítems abiertos [Reliability analysis in holistic scores on constructed response ítems]. Universidad Complutense de Madrid: Tesis doctoral no publicada. Recuperado de: http://biblioteca.ucm.es/ tesis/fll/ucm-t26663.pdf
Amengual, M. & Méndez García, M. C. (2012). Implementing the oral English task in the spanish university admission examination: An international perspective of the language. Revista de Educación, 357, 105-127.
Amor, A. M., Verdugo, M. A., Calvo, M. I., Navas, P. & Aguayo, V. (2018). Psychoeducational assessment of students with intellectual disability: professional-action framework analysis. Psicothema, 30, 39-45. doi: 10.7334/psicothema2017.175
Ato, M. & Vallejo, G. (2007). Diseños experimentales en psicología [Experimental designs in psychology]. Madrid: Pirámide.
Baird, J. A., Hayes, M., Johnson, R., Johnson, S. & Lamprianou, I. (2013). Marker effects and examination reliability. A comparative exploration from the perspectives of generalizability theory, Rasch modelling and multilevel modelling (Ofqual/13/5261). Coventry: Office of Qualifications and Examinations Regulation. Recuperado de: https:// www.gov.uk/government/uploads/system/uploads/attachment_data/ file/378059/2013-01-21-marker-effects-and-examination-reliability.pdf
Baird, J. A., Meadows, M., Leckie, G. & Caro, D. (2017). Rater accuracy and training group effects in Expertand Supervisor-based monitoring systems. Assessment in Education: Principles, Policy and Practice, 24(1), 44-59. doi: 10.1080/0969594X.2015.1108283
Basturk, R. (2008). Applying the many-facet Rasch model to evaluate PowerPoint presentation performance in higher education. Assessment y Evaluation in Higher Education, 33(4), 431- 444. doi: 10.1080/02602930701562775
Bejar, I. I. (2012): Rater cognition: Implications for validity. Educational Measurement, 31(3), 2-9.
Crisp, V. (2012). An investigation of rater cognition in the assessment of projects. Educational Measurement, 31(3), 10-20.
Cochran, W.G. & Cox, G.M. (1974). Diseños experimentales [Experimental designs]. México: Trillas. (orig. 1957).
Congdon, P. J. & McQueen, J. (2000). The stability of rater severity in largescale assessment programs. Journal of Educational Measurement, 37(2), 163-178. doi: 10.1111/j.1745-3984.2000.tb01081.x
Cuxart-Jardí, A. (2000). Modelos estadísticos y evaluación: tres estudios en educación. [Statistical models and assessment: three studies in education]. Revista de Educación, 323, pp. 369-394
Cuxart-Jardí, A., Martí-Recober, M. & Ferrer-Juliá, F. (1997). Algunos factores que inciden en el rendimiento y la evaluación en los alumnos de las pruebas de aptitud de acceso a la universidad [Some factors that affect the students’ performance in the university entrance exams]. Revista de Educación, 314, 63-88.
Eckes, T. (2005). Examining rater effects in TestDaF writing and speaking performance assessments: A multi-faceted Rasch analysis. Language Assessment Quarterly, 2(3), 197-221. doi: 10.1207/s15434311laq0203_2
Eckes, T. (2009). Many-facet Rasch measurement. In S. Takala (Ed.), Reference supplement to the manual for relating language examinations to the Common European Framework of Reference for Languages: Learning, teaching, assessment (Section H). Strasbourg, France: Council of Europe/Language Policy. Recuperado de: https:// rm.coe.int/1680667a23#search=eckes
Engelhard, G. (1992). The measurement of writing ability with a multifaceted Rasch model. Applied Measurement in Education, 5(3), 171- 191. doi: 10.1207/s15324818ame0503_1
Engelhard, G. (1994). Examining rater errors in the assessment of written composition with a multi-faceted Rasch model. Journal of Educational Measurement, 31(2), 93-112. doi: 10.1111/j.1745-3984.1994.tb00436.x
European Commission/EACEA/Eurydice (2009). National testing of pupils in Europe: Objectives, organization and use of results, Luxembourg: Publications Office of the European Union. doi: 10.2797/18294
Fernández-Alonso, R. & Muñiz, J. (2011). Diseño de cuadernillos para la evaluación de las competencias básicas [Booklet designs for the evaluation of basic skills]. Aula Abierta, 39(2), 3-34.
Frey, A., Hartig, J. & Rupp, A. A. (2009). An NCME instructional module on booklet designs in large-scale assessments of student achievement: Theory and practice. Educational Measurement: Issues and Practice, 28(3), 39-53.
Gómez-Benito, J., Sireci, S., Padilla, J. L., Hidalgo, M. D. & Benítez, I. (2018). Differential item functioning: Beyond validity evidence based on internal structure. Psicothema, 30, 104-109. doi: 10.7334/ psicothema2017.183
Grau, R. M., Cuxart, A. & Martí-Recober, M. (2002). La calidad en el proceso de corrección de las pruebas de acceso a la universidad: variabilidad y factores [Quality in the scoring process of university entrance exams: variability and factors]. Revista de Investigación Educativa, 20(1), 209- 224.
Gyagenda, I. & Engelhard, G. (2009). Using classical and modern measurement theories to explore rater, domain, and gender influences on student writing ability. Journal of Applied Measurement, 10(3), 225-246.
Jonsson, A. & Svingby, G. (2007). The use of scoring rubrics: Reliability, validity and educational consequences. Educational Research Review, 2(2), 130-144.
Kuo, S. A. (2007): Which rubric is more suitable for NSS liberal studies? Analytic or holistic? Educational Research Journal, 22(2), 179-199.
Lallmamode, S. P., Mat Daud, N. & Abu Kassim, N. L. (2016). Writing Development and initial argument-based validation of a scoring rubric used in the assessment of L2 writing electronic portfolios. Assessing Writing, 30, 44-62. http://dx.doi.org/10.1016/j.asw.2016.06.001
Leckie, G. & Baird, J. (2011). Rater effects on essay scoring: A multilevel analysis of severity drift, central tendency, and rater experience. Journal of Educational Measurement, 48(4), 399-418. doi: 10.1111/j.1745- 3984.2011.00152.x
Ley Orgánica 15/1999 de Protección de Datos de Carácter Personal [Organic Law 15/1999 on Protection of Personal Data]. Boletín Oficial del Estado de 14 de diciembre de 1999. Recuperado de: https://www. boe.es/buscar/doc.php?id=BOE-A-1999-23750
Ley Orgánica 8/2013 para la Mejora de Calidad Educativa [Organic Law 8/2013 for the Improvement of Educational Quality]. Boletín Oficial del Estado de 10 de diciembre de 2013. Recuperado de: https://www. boe.es/buscar/pdf/2013/BOE-A-2013-12886-consolidado.pdf
Linacre, J. M., Engelhard, G., Tatum, D. S. & Myford, C. M. (1994) Measurement with judges: Many-faceted conjoint measurement. International Journal of Educational Research, 21(6), 569-577. doi: 10.1016/0883-0355(94)90011-6
Lopes Toffoli, S. F., de Andrade, D. F. & Bornia, A. C., (2015): Evaluation of open items using the many-facet Rasch model, Journal of Applied Statistics, doi: 10.1080/02664763.2015.1049938
Lunz, M. E. & Stahl, J. (1990). Judge consistency and severity across grading periods. Evaluation and the Health Professions, 13(4), 425- 444. doi: 10.1177/016327879001300405
Lunz, M. E., Wright, B. D. & Linacre, J. M. (1990). Measuring the impact of judge severity on examination scores. Applied Measurement in Education, 3(4), 331-345. doi: 10.1207/s15324818ame0304_3
Mahmood, O., Dagnæs, J., Bube, S., Rohrsted, M. & Konge, L. (2017). Nonspecialist raters can provide reliable assessments of procedural skills. Journal of Surgical. Recuperado de: http://dx.doi.org/10.1016/j. jsurg.2017.07.003
McNamara, T. F. (1996). Measuring second language performance. London: Longman
Ministerio de Educación, Cultura & Deporte (2016). Pruebas de la evaluación final de Educación Primaria. Curso 2015-2016 [Tests of the final evaluation of Primary Education. Course 2015-2016]. Madrid: Instituto de Evaluación
Myford, C. M. & Wolfe, E. W. (2003). Detecting and measuring rater effects using many-facet Rasch measurement: Part I. Journal of Applied Measurement, 4, 386-422
Myford, C. M. & Wolfe, E. W. (2004). Detecting and measuring rater effects using many-facet Rasch measurement: Part II. Journal of Applied Measurement, 5, 189-227
Organisation for Economic Co-operation and Development [OECD]. (2014). PISA 2012 Technical Report. Paris: OECD Publishing. Recuperado de: https://www.oecd.org/pisa/pisaproducts/PISA-2012- technical-report-final.pdf
Park, T. (2010). An investigation of an ESL placement test of writing using multi-faceted Rasch measurement. Teachers College, Columbia University Working Papers in TESOL and Applied Linguistics, 4(1), 1-19
Prieto-Adánez, G. (2011). Evaluación de la ejecución mediante el modelo Many Facet Rasch Measurement [Performance assessment using the Many-Facet Rasch Measurement]. Psicothema, 23, 233-238
Prieto-Adánez, G. (2015). Análisis de un test de desempeño en expresión escrita mediante el modelo de MFRM [Analysis of a writing test with the MFRM model]. Actualidades en Psicología, 29(119), 1-17. http:// dx.doi.org/10.15517/ap.v29i119.19822
Prieto-Adánez, G. & Nieto, E. (2014). Analysis of rater severity on written expression exam using Many Faceted Rasch Measurement. Psicológica, 35, 385-397
Saal, F. E., Downey, R. G. & Lahey, M. A. (1980). Rating the ratings: Assessing the psychometric quality of rating data. Psychological Bulletin, 88(2), 413-428
Shackleton, C. (2018). Linking the University of Granada CertAcles listening test to the CEFR. Revista de Educación, 381, 35-60. doi: 10.4438/1988-592X-RE-2017-381-380
Suárez Álvarez, J., González-Prieto, C., Fernández Alonso, R., Gil, G. & Muñiz, J. (2014). Psychometric assessment of oral expression in English language in the University Entrance Examination. Revista de Educación, 364, 93-118. doi: 10.4438/1988-592X-RE-2014-364-256
Sudweeks, R. R., Reeve, S. & Bradshaw, W. S. (2005). A comparison of generalizability theory and many facet measurement in an analysis of college sophomore writing. Assessing Writing, 9, 239-261.
Suto, I. (2012). A critical review of some qualitative research methods used to explore rater cognition. Educational Measurement, 31 (3), 21-30.
Wang, Z. & Yao, L. (2013). The effects of rater severity and rater distribution on examinees’ ability estimation for constructed-response items. ETS Research Report Series, i-22. doi:10.1002/j.2333-8504.2013.tb02330.x
Wolfe, E. W. (2004). Identifying rater effects using latent trait models. Psychology Science, 46(1), 35-51.
Wolfe, E. W. & McVay, A. (2012). Application of latent trait models to identifying substantively interesting raters. Educational Measurement, 31 (3), 31-37.
Woitschach, P., Díaz-Pérez, C., Fernández-Argüelles, D., FernándezCastañón, J., Fernández-Castillo, A., Fernández-Rodríguez, L., ... & Fernández-Alonso, R. (2018). Efectos del corrector en las evaluaciones educativas de alto impacto. [Rater effects in high-impact educational assessments]. REMA Revista Electrónica de Metodología Aplicada, 23(1), 12-27.
Woitschach, P., Zumbo, B. D. & Fernández-Alonso, R. (2019). An ecological view of measurement: Focus on multilevel model explanation of differential item functioning. Psicothema, 31(2), 194-203. doi:10.7334/ psicothema2018.303
Wu, M. L., Adams, R. J., Wilson, M. R. & Haldane, S. A. (2007). ACER ConQuest 2.0: generalised item response modelling software. Camberwell, Victoria: Australian Council for Educational Research.

Fuente de los datos: Dialnet

Las Rúbricas No neutralizan el Efecto de los correctoresuna estimación con el modelo de facetas múltiples de Rasch

Universidad de Oviedo

Resumen

Información de financiación

Financiadores

Referencias bibliográficas