Las Rúbricas No neutralizan el Efecto de los correctoresuna estimación con el modelo de facetas múltiples de Rasch

  1. Rubén Fernández-Alonso 1
  2. Pamela Woitschach 1
  3. José Muñiz 1
  1. 1 Universidad de Oviedo
    info

    Universidad de Oviedo

    Oviedo, España

    ROR https://ror.org/006gksa02

Revista:
Revista de educación

ISSN: 0034-8082

Año de publicación: 2019

Número: 386

Páginas: 89-112

Tipo: Artículo

DOI: 10.4438/1988-592X-RE-2019-386-428 DIALNET GOOGLE SCHOLAR lock_openAcceso abierto editor

Otras publicaciones en: Revista de educación

Resumen

Los ítems de respuesta construida son ampliamente utilizados en todo tipo de evaluaciones educativas. A pesar de la utilización de rúbricas muy específicas para su corrección, la influencia de los correctores está bien documentada en la literatura, afectando a los resultados de la evaluación. El objetivo central del presente trabajo es la estimación de los efectos de los correctores y de las rúbricas en una tarea de expresión escrita. Se utilizaron 13 correctores que revisaron 375 producciones escritas de estudiantes de sexto curso. Los correctores fueron asignados a los ensayos escritos siguiendo un cuadrado Youden de 13 bloques, un diseño de bloques incompletos balanceado. En el análisis de datos se empleó el modelo de Rasch de facetas múltiples con tres facetas: corrector, rúbricas y dificultad de paso de los mismos. Se compararon diferentes modelos y se analizaron los efectos del corrector y las características de las rúbricas. Los resultados ponen de manifiesto las diferencias entre los correctores en cuanto la severidad y la exactitud de sus juicios. Se concluye que no incluir el efecto del corrector en la estimación de los resultados del alumnado puede introducir un componente claro de inequidad en las evaluaciones.

Información de financiación

Financiadores

Referencias bibliográficas

  • Adams, R. & Wu, M. (2010). The analysis of rater effects. Recuperado de: https://www.acer.org/files/Conquest-Tutorial-3-RaterEffects.pdf
  • Amengual, M. (2004). Análisis de la fiabilidad en las puntuaciones holísticas en ítems abiertos [Reliability analysis in holistic scores on constructed response ítems]. Universidad Complutense de Madrid: Tesis doctoral no publicada. Recuperado de: http://biblioteca.ucm.es/ tesis/fll/ucm-t26663.pdf
  • Amengual, M. & Méndez García, M. C. (2012). Implementing the oral English task in the spanish university admission examination: An international perspective of the language. Revista de Educación, 357, 105-127.
  • Amor, A. M., Verdugo, M. A., Calvo, M. I., Navas, P. & Aguayo, V. (2018). Psychoeducational assessment of students with intellectual disability: professional-action framework analysis. Psicothema, 30, 39-45. doi: 10.7334/psicothema2017.175
  • Ato, M. & Vallejo, G. (2007). Diseños experimentales en psicología [Experimental designs in psychology]. Madrid: Pirámide.
  • Baird, J. A., Hayes, M., Johnson, R., Johnson, S. & Lamprianou, I. (2013). Marker effects and examination reliability. A comparative exploration from the perspectives of generalizability theory, Rasch modelling and multilevel modelling (Ofqual/13/5261). Coventry: Office of Qualifications and Examinations Regulation. Recuperado de: https:// www.gov.uk/government/uploads/system/uploads/attachment_data/ file/378059/2013-01-21-marker-effects-and-examination-reliability.pdf
  • Baird, J. A., Meadows, M., Leckie, G. & Caro, D. (2017). Rater accuracy and training group effects in Expertand Supervisor-based monitoring systems. Assessment in Education: Principles, Policy and Practice, 24(1), 44-59. doi: 10.1080/0969594X.2015.1108283
  • Basturk, R. (2008). Applying the many-facet Rasch model to evaluate PowerPoint presentation performance in higher education. Assessment y Evaluation in Higher Education, 33(4), 431- 444. doi: 10.1080/02602930701562775
  • Bejar, I. I. (2012): Rater cognition: Implications for validity. Educational Measurement, 31(3), 2-9.
  • Crisp, V. (2012). An investigation of rater cognition in the assessment of projects. Educational Measurement, 31(3), 10-20.
  • Cochran, W.G. & Cox, G.M. (1974). Diseños experimentales [Experimental designs]. México: Trillas. (orig. 1957).
  • Congdon, P. J. & McQueen, J. (2000). The stability of rater severity in largescale assessment programs. Journal of Educational Measurement, 37(2), 163-178. doi: 10.1111/j.1745-3984.2000.tb01081.x
  • Cuxart-Jardí, A. (2000). Modelos estadísticos y evaluación: tres estudios en educación. [Statistical models and assessment: three studies in education]. Revista de Educación, 323, pp. 369-394
  • Cuxart-Jardí, A., Martí-Recober, M. & Ferrer-Juliá, F. (1997). Algunos factores que inciden en el rendimiento y la evaluación en los alumnos de las pruebas de aptitud de acceso a la universidad [Some factors that affect the students’ performance in the university entrance exams]. Revista de Educación, 314, 63-88.
  • Eckes, T. (2005). Examining rater effects in TestDaF writing and speaking performance assessments: A multi-faceted Rasch analysis. Language Assessment Quarterly, 2(3), 197-221. doi: 10.1207/s15434311laq0203_2
  • Eckes, T. (2009). Many-facet Rasch measurement. In S. Takala (Ed.), Reference supplement to the manual for relating language examinations to the Common European Framework of Reference for Languages: Learning, teaching, assessment (Section H). Strasbourg, France: Council of Europe/Language Policy. Recuperado de: https:// rm.coe.int/1680667a23#search=eckes
  • Engelhard, G. (1992). The measurement of writing ability with a multifaceted Rasch model. Applied Measurement in Education, 5(3), 171- 191. doi: 10.1207/s15324818ame0503_1
  • Engelhard, G. (1994). Examining rater errors in the assessment of written composition with a multi-faceted Rasch model. Journal of Educational Measurement, 31(2), 93-112. doi: 10.1111/j.1745-3984.1994.tb00436.x
  • European Commission/EACEA/Eurydice (2009). National testing of pupils in Europe: Objectives, organization and use of results, Luxembourg: Publications Office of the European Union. doi: 10.2797/18294
  • Fernández-Alonso, R. & Muñiz, J. (2011). Diseño de cuadernillos para la evaluación de las competencias básicas [Booklet designs for the evaluation of basic skills]. Aula Abierta, 39(2), 3-34.
  • Frey, A., Hartig, J. & Rupp, A. A. (2009). An NCME instructional module on booklet designs in large-scale assessments of student achievement: Theory and practice. Educational Measurement: Issues and Practice, 28(3), 39-53.
  • Gómez-Benito, J., Sireci, S., Padilla, J. L., Hidalgo, M. D. & Benítez, I. (2018). Differential item functioning: Beyond validity evidence based on internal structure. Psicothema, 30, 104-109. doi: 10.7334/ psicothema2017.183
  • Grau, R. M., Cuxart, A. & Martí-Recober, M. (2002). La calidad en el proceso de corrección de las pruebas de acceso a la universidad: variabilidad y factores [Quality in the scoring process of university entrance exams: variability and factors]. Revista de Investigación Educativa, 20(1), 209- 224.
  • Gyagenda, I. & Engelhard, G. (2009). Using classical and modern measurement theories to explore rater, domain, and gender influences on student writing ability. Journal of Applied Measurement, 10(3), 225-246.
  • Jonsson, A. & Svingby, G. (2007). The use of scoring rubrics: Reliability, validity and educational consequences. Educational Research Review, 2(2), 130-144.
  • Kuo, S. A. (2007): Which rubric is more suitable for NSS liberal studies? Analytic or holistic? Educational Research Journal, 22(2), 179-199.
  • Lallmamode, S. P., Mat Daud, N. & Abu Kassim, N. L. (2016). Writing Development and initial argument-based validation of a scoring rubric used in the assessment of L2 writing electronic portfolios. Assessing Writing, 30, 44-62. http://dx.doi.org/10.1016/j.asw.2016.06.001
  • Leckie, G. & Baird, J. (2011). Rater effects on essay scoring: A multilevel analysis of severity drift, central tendency, and rater experience. Journal of Educational Measurement, 48(4), 399-418. doi: 10.1111/j.1745- 3984.2011.00152.x
  • Ley Orgánica 15/1999 de Protección de Datos de Carácter Personal [Organic Law 15/1999 on Protection of Personal Data]. Boletín Oficial del Estado de 14 de diciembre de 1999. Recuperado de: https://www. boe.es/buscar/doc.php?id=BOE-A-1999-23750
  • Ley Orgánica 8/2013 para la Mejora de Calidad Educativa [Organic Law 8/2013 for the Improvement of Educational Quality]. Boletín Oficial del Estado de 10 de diciembre de 2013. Recuperado de: https://www. boe.es/buscar/pdf/2013/BOE-A-2013-12886-consolidado.pdf
  • Linacre, J. M., Engelhard, G., Tatum, D. S. & Myford, C. M. (1994) Measurement with judges: Many-faceted conjoint measurement. International Journal of Educational Research, 21(6), 569-577. doi: 10.1016/0883-0355(94)90011-6
  • Lopes Toffoli, S. F., de Andrade, D. F. & Bornia, A. C., (2015): Evaluation of open items using the many-facet Rasch model, Journal of Applied Statistics, doi: 10.1080/02664763.2015.1049938
  • Lunz, M. E. & Stahl, J. (1990). Judge consistency and severity across grading periods. Evaluation and the Health Professions, 13(4), 425- 444. doi: 10.1177/016327879001300405
  • Lunz, M. E., Wright, B. D. & Linacre, J. M. (1990). Measuring the impact of judge severity on examination scores. Applied Measurement in Education, 3(4), 331-345. doi: 10.1207/s15324818ame0304_3
  • Mahmood, O., Dagnæs, J., Bube, S., Rohrsted, M. & Konge, L. (2017). Nonspecialist raters can provide reliable assessments of procedural skills. Journal of Surgical. Recuperado de: http://dx.doi.org/10.1016/j. jsurg.2017.07.003
  • McNamara, T. F. (1996). Measuring second language performance. London: Longman
  • Ministerio de Educación, Cultura & Deporte (2016). Pruebas de la evaluación final de Educación Primaria. Curso 2015-2016 [Tests of the final evaluation of Primary Education. Course 2015-2016]. Madrid: Instituto de Evaluación
  • Myford, C. M. & Wolfe, E. W. (2003). Detecting and measuring rater effects using many-facet Rasch measurement: Part I. Journal of Applied Measurement, 4, 386-422
  • Myford, C. M. & Wolfe, E. W. (2004). Detecting and measuring rater effects using many-facet Rasch measurement: Part II. Journal of Applied Measurement, 5, 189-227
  • Organisation for Economic Co-operation and Development [OECD]. (2014). PISA 2012 Technical Report. Paris: OECD Publishing. Recuperado de: https://www.oecd.org/pisa/pisaproducts/PISA-2012- technical-report-final.pdf
  • Park, T. (2010). An investigation of an ESL placement test of writing using multi-faceted Rasch measurement. Teachers College, Columbia University Working Papers in TESOL and Applied Linguistics, 4(1), 1-19
  • Prieto-Adánez, G. (2011). Evaluación de la ejecución mediante el modelo Many Facet Rasch Measurement [Performance assessment using the Many-Facet Rasch Measurement]. Psicothema, 23, 233-238
  • Prieto-Adánez, G. (2015). Análisis de un test de desempeño en expresión escrita mediante el modelo de MFRM [Analysis of a writing test with the MFRM model]. Actualidades en Psicología, 29(119), 1-17. http:// dx.doi.org/10.15517/ap.v29i119.19822
  • Prieto-Adánez, G. & Nieto, E. (2014). Analysis of rater severity on written expression exam using Many Faceted Rasch Measurement. Psicológica, 35, 385-397
  • Saal, F. E., Downey, R. G. & Lahey, M. A. (1980). Rating the ratings: Assessing the psychometric quality of rating data. Psychological Bulletin, 88(2), 413-428
  • Shackleton, C. (2018). Linking the University of Granada CertAcles listening test to the CEFR. Revista de Educación, 381, 35-60. doi: 10.4438/1988-592X-RE-2017-381-380
  • Suárez Álvarez, J., González-Prieto, C., Fernández Alonso, R., Gil, G. & Muñiz, J. (2014). Psychometric assessment of oral expression in English language in the University Entrance Examination. Revista de Educación, 364, 93-118. doi: 10.4438/1988-592X-RE-2014-364-256
  • Sudweeks, R. R., Reeve, S. & Bradshaw, W. S. (2005). A comparison of generalizability theory and many facet measurement in an analysis of college sophomore writing. Assessing Writing, 9, 239-261.
  • Suto, I. (2012). A critical review of some qualitative research methods used to explore rater cognition. Educational Measurement, 31 (3), 21-30.
  • Wang, Z. & Yao, L. (2013). The effects of rater severity and rater distribution on examinees’ ability estimation for constructed-response items. ETS Research Report Series, i-22. doi:10.1002/j.2333-8504.2013.tb02330.x
  • Wolfe, E. W. (2004). Identifying rater effects using latent trait models. Psychology Science, 46(1), 35-51.
  • Wolfe, E. W. & McVay, A. (2012). Application of latent trait models to identifying substantively interesting raters. Educational Measurement, 31 (3), 31-37.
  • Woitschach, P., Díaz-Pérez, C., Fernández-Argüelles, D., FernándezCastañón, J., Fernández-Castillo, A., Fernández-Rodríguez, L., ... & Fernández-Alonso, R. (2018). Efectos del corrector en las evaluaciones educativas de alto impacto. [Rater effects in high-impact educational assessments]. REMA Revista Electrónica de Metodología Aplicada, 23(1), 12-27.
  • Woitschach, P., Zumbo, B. D. & Fernández-Alonso, R. (2019). An ecological view of measurement: Focus on multilevel model explanation of differential item functioning. Psicothema, 31(2), 194-203. doi:10.7334/ psicothema2018.303
  • Wu, M. L., Adams, R. J., Wilson, M. R. & Haldane, S. A. (2007). ACER ConQuest 2.0: generalised item response modelling software. Camberwell, Victoria: Australian Council for Educational Research.