Guidelines based on validity criteria for the development of multiple choice items

  1. Rafael Moreno 1
  2. Rafael Martínez 1
  3. José Muñiz 2
  1. 1 Universidad de Sevilla
    info

    Universidad de Sevilla

    Sevilla, España

    ROR https://ror.org/03yxnpp24

  2. 2 Universidad de Oviedo
    info

    Universidad de Oviedo

    Oviedo, España

    ROR https://ror.org/006gksa02

Revista:
Psicothema

ISSN: 0214-9915

Año de publicación: 2015

Volumen: 27

Número: 4

Páginas: 388-394

Tipo: Artículo

Otras publicaciones en: Psicothema

Resumen

Antecedentes: se han propuesto diferentes directrices para la construcción de ítems de elección múltiple, basadas sobre todo en la observación de errores al construir los ítems pero no en algún criterio científico claro. El objetivo central del presente trabajo es generar directrices para el desarrollo de ítems de elección múltiple basadas en criterios de validez. Método: se utilizan las propiedades de ajuste, precisión y diferenciación, aplicándolas a tres etapas fundamentales del desarrollo de instrumentos de evaluación: definición del objetivo y su contexto, su implementación en el instrumento y enunciado de los ítems, y elaboración de las opciones de respuesta. Resultados: la combinación entre tales propiedades y etapas da lugar a nueve directrices generales que, además de quedar fundamentadas, permiten resolver cualquier duda que surja a quienes desarrollan ítems de elección múltiple. Conclusiones: para facilitar esa labor, las directrices son complementadas con una lista de veinticuatro cuestiones con la que comprobar el grado en que los instrumentos de medida cumplen las directrices propuestas

Referencias bibliográficas

  • American Psychological Association, American Educational Research Association, & National Council on Measurement in Education (2014). Standards for educational and psychological testing. Washington, D.C.: American Psychological Association.
  • Bejar, I. I. (1993). A generative approach to psychological and educational measurement. In N. Frederiksen, R. L. Mislevy & I. I. Bejar (eds.), Test theory for a new generation of tests. Hillsdale: Erlbaum.
  • Cronbach, L. J. (1982). Designing evaluations of educational and social programs. San Francisco: Jossey-Bass.
  • Downing, S. M. (2005). The effects of violating standard item writing principles on tests and students: The consequences of using fl awed test items on achievement examinations in medical education. Advances in Health Sciences Education, 10(2), 133-143.
  • Downing, S. M. (2006). Twelve steps for effective test development. In S. M. Downing & T. M. Haladyna (Eds.), Handbook of test development (pp. 3-25). Mahwah, NJ: Lawrence Erlbaum Associates.
  • Haladyna, T. M., & Downing, S. M. (1989a). A taxonomy of multiplechoice item-writing rules. Applied Measurement in Education, 1(1), 37-50.
  • Haladyna, T. M., & Downing, S. M. (1989b). The validity of a taxonomy of multiple-choice item-writing rules. Applied Measurement in Education, 1(1), 51-78.
  • Haladyna, T. M., Downing, S. M., & Rodriguez, M. C. (2002). A review of multiple-choice item-writing guidelines for classroom assessment. Applied Measurement in Education, 15(3), 309-334.
  • Haladyna, T. M., & Rodriguez, M. C. (2013). Developing and validating test items. New York, NY: Routledge
  • Kane, M. T. (2006). Validation. In R. L. Brennan (Ed.), Educational measurement (4th ed.) (pp. 17-64). Westport, CT: American Council on Education/Praeger.
  • Krathwohl, D. R. (2002). A Revision of Bloom’s Taxonomy: An Overview. Theory into Practice, 41(4), 212-218.
  • Lane, S. (2014). Validity evidence based on testing consequences. Psicothema, 26, 127-135.
  • Lohr, S. L (1999). Sampling: Design and Analysis. Pacifi c Grove, CA: Duxbury.
  • Martínez, R. J., & Moreno, R. (2014). ¿Cómo plantear y responder preguntas de manera científi ca? [How to raise and answer questions in the scientifi c manner]. Madrid: Síntesis.
  • Moreno, R., Martínez, R. J., & Muñiz, J. (2004). Directrices para la construcción de ítems de elección múltiple. Psicothema, 16(3), 490- 497.
  • Moreno, R., Martínez, R.J., & Muñiz, J. (2006). New guidelines for developing multiple-choice items. Methodology, 2(2). 65-72.
  • Muñiz, J. (2000). Teoría clásica de los tests [Classical Test Theory]. Madrid: Pirámide.
  • Muñiz, J., & Fonseca, E. (2008). Construcción de instrumentos de medida para la evaluación universitaria. Revista de Investigación en Educación, 5, 13-25.
  • Osterlind, S. J. (1990). Establishing criteria for meritorious test items. Educational Research Quarterly, 14(3), 26-30.
  • Osterlind, S. J. (1998). Constructing test items: multiple choice, constructed-response, performance and other formats (2nd ed.). Boston: Kluwer Academic.
  • Padilla, J. L., & Benítez, I. (2014). Validity evidence based on response processes. Psicothema, 26, 136-144.
  • Rios, J. A., & Sireci, S. G. (2014). Guidelines versus practices in crosslingual assessment: A disconcerting disconnect. International Journal of Testing, 14(4), 289-312.
  • Rios, J. A., & Wells, C. (2014). Validity evidence based on internal structure. Psicothema, 26, 108-116.
  • Rodriguez, M. C. (2005). Three options are optimal for multiplechoice items: A meta-analysis of 80 years of research. Educational Measurement: Issues and Practice, 24(2), 3-13.
  • Schmeiser, C.B., & Welch, C. (2006). Test development. In R. L. Brennan (Ed.), Educational measurement (4th ed.). Westport, CT: American Council on Education/Praeger.
  • Shadish, W. R., Cook, T. D., & Campbell, D. T. (2002). Experimental and quasi-experimental designs for generalized causal inference. Boston: Hougton Miffl in.
  • Sireci, S.G., & Faulkner-Bond, M. (2014). Validity evidence based on test content. Psicothema, 26, 100-107.
  • Tarrant, M., & Ware, J. (2008). Impact of item-writing fl aws in multiplechoice questions on student achievement in high-stakes nursing assessments. Medical Education, 42(2), 198-206.