Evaluación psicométrica de la expresión oral en inglés de las Pruebas de Acceso a la Universidad
- Suárez Álvarez, Javier 1
- González Prieto, César
- Fernández Alonso, Rubén 1
- Gil Escudero, Guillermo
- Muñiz Fernández, José 1
-
1
Universidad de Oviedo
info
ISSN: 0034-8082
Año de publicación: 2014
Número: 364
Páginas: 93-118
Tipo: Artículo
Otras publicaciones en: Revista de educación
Resumen
El Real Decreto 1892/2008 establece que es obligatorio evaluar la expresión oral en lengua extranjera en la Prueba de Acceso a la Universidad (PAU), si bien hasta la fecha no se ha puesto en marcha tal evaluación. El Instituto Nacional de Evaluación Educativa (INEE) ha llevado a cabo un estudio piloto para ir perfilando la implementación de la prueba. Dentro de ese marco evaluativo, el objetivo del presente trabajo es estudiar el comportamiento psicométrico de los evaluadores encargados de examinar oralmente a los estudiantes. En este estudio participaron 1.194 estudiantes pertenecientes a siete comunidades autónomas, con una edad media de 18,04 años, de los cuales el 57,4% eran mujeres. Cada estudiante fue evaluado por tres profesores. Se utilizaron 30 tribunales distintos, y en la evaluación participó un total de 90 profesores. Los análisis se realizaron utilizando la matriz formada por los alumnos evaluados por el mismo tribunal evaluador. Los resultados muestran que las puntuaciones asignadas por los distintos evaluadores a los estudiantes tienen unas altas correlaciones, lo que indica una elevada fiabilidad interjueces. Esta convergencia correlacional no significa que todos los evaluadores operen en la misma escala, ya que se encuentran diferencias estadísticamente significativas entre las medias de las puntuaciones asignadas por los evaluadores. Los resultados aportan datos muy importantes sobre los problemas implicados en la evaluación de la expresión oral en inglés. El estudio muestra la viabilidad técnica de examinar la expresión oral en inglés, si bien quedan aún bastantes aspectos por precisar. Así por ejemplo, los examinadores deberían ser entrenados específicamente en el material de evaluación y en las guías de calificación para minimizar el efecto diferencial de los evaluadores. Finalmente se discuten los resultados y se proponen nuevas líneas de investigación.
Referencias bibliográficas
- Abad, F.J., Olea, J., Ponsoda, V., García, C., (2011) Medición en ciencias sociales y de la salud, , Madrid: Síntesis
- Amengual, M., Análisis de la prueba de inglés de selectividad de la Universitat de les Illes Balears (2006) Ibérica, 11, pp. 29-59
- Amengual, M., Exploring the Washback Effects of a High-Stakes English Test (2010) Revista Alicantina de Estudios Ingleses, 23, pp. 149-170
- Amengual, M., Méndez García, M.C., Implementing the Oral English Task in the Spanish University Admission Examination: An International Perspective of the Language (2012) Revista de Educación, 357, pp. 105-127
- Becker, L.A., (2000) Basic and Applied Research Methods, , http://www.uccs.edu/~faculty/lbecker/default.htm, (en Course Content: Part II, Lecture Notes: Effect Size)., Colorado Springs (Colorado): Colorado University. Recuperado de
- Bernstein, J., Van Moere, A., Cheng, J., Validating Automated Speaking Tests (2010) Language Testing, 27 (3), pp. 355-377
- Blanca, M.J., Arnau, J., López-Montiel, D., Bono, R., Bendayan, R., Skewness and Kurtosis in Real Data Samples (2013) Methodology, 9 (2), pp. 78-84
- Bridgeman, B., Powers, D., Stone, E., Mollaun, P., TOEFL iBT Speaking Test Scores as Indicators of Oral Communicative Language Proficiency (2012) Language Testing, 29 (1), pp. 91-108
- Brown, A., An Investigation of The Rating Process in the IELTS Oral Interview (2006) Studies in Language Testing, Vol. 19. IELTS Collected Papers: Research in Speaking and Writing Assessments, pp. 316-377. , M. Milanovic y C. Weir (Eds. Col.) y L. Taylor y P. Falvey (Eds. Vol.), Cambridge: Cambridge University Press. Citation
- Bueno Alastuey, M.C., Luque Agulló, G., Foreign Language Competences Required in the University Admission Examination: A Proposal for the Evaluation of Oral Aspects (2012) Revista de Educación, 357, pp. 81-104
- Byrne, B.M., (2001) Structural Equation Modeling with AMOS, , Mahwah (Nueva Jersey): Lawrence Erlbaum Associates
- Cohen, J., A Coefficient of Agreement for Nominal Tables (1960) Educational and Psychological Measurement, 20, pp. 37-46
- Cohen, J., (1988) Statistical Power Analysis for the Behavioral Sciences, , (2. ª ed.). Hillsdale (Nueva Jersey): Lawrence Earlbaum Associates
- Crisp, V., An investigation of rater cognition in the assessment of projects (2012) Educational Measurement, 31 (3), pp. 10-20
- Díez-Bedmar, M.B., The Use of the Common European Framework of Reference for Languages to Evaluate the Compositions in the English Exam in the University Entrance Examination (2012) Revista de Educación, 357, pp. 55-80
- Eckes, T., Many-Facet Rasch Measurement (2009) Reference Supplement to the Manual for Relating Language Examinations to the Common European Framework of Reference for Languages: Learning, Teaching, Assessment, , S. Takala (Ed.), (sección H). Estrasburgo (Francia): Council of Europe, Language Policy Division
- Educational Testing Service, (1982) Oral Proficiency Testing Manual, , Princeton (Nueva Jersey): Educational Testing Service
- Fernández-Alonso, R., Muñiz, J., Diseño de cuadernillos para la evaluación de las competencias básicas (2011) Aula Abierta, 39 (2), pp. 3-34
- Fernández-Alonso, R., Suárez-Álvarez, J., Muñiz, J., Imputación de datos perdidos en las evaluaciones diagnósticas educativas (2012) Psicothema, 24 (1), pp. 167-175
- García Laborda, J., Introduction. From Selectividad to the University Admission Examination: Past, Present and a Not-Very-Distant Future (2012) Revista de Educación, 357, pp. 17-27
- Glass, G.V., Peckham, P.D., Sanders, J.R., Consequences of Failure to Meet Assumptions Underlying the Fixed Effects Analyses of Variance and Covariance (1972) Review of Educational Research, 42 (3), pp. 237-288
- Goffman, E., (1970) Ritual de la interacción. Ensayos sobre el comportamiento cara a cara, , Buenos Aires: Tiempo Contemporáneo
- Gwet, K., (2012) Handbook of Inter-Rater Reliability: The Definitive Guide to Measuring the Extent of Agreement Among Raters, , (3. ª ed.). USA: Advanced Analytics, LLC
- Hamp-Lyons, L., Editorial: Worrying about rating (2007) Assessing Writing, 12, pp. 1-9
- Harwell, M.R., Rubinstein, E.N., Hayes, W.S., Olds, C.C., Summarizing Monte Carlo Results in Methodological Research: The One-and Two-Factor Fixed Effects ANOVA Cases (1992) Journal of Educational and Behaviorial Statistics, 17 (4), pp. 315-339
- Herrera Soler, H., Is the English Test in Spanish University Entrance Examination as Discriminating as it Should be? (1999) Estudios Ingleses de la Universidad Complutense, 7, pp. 89-107
- Hill, H.C., Charalambous, C.Y., Kraft, M.A., When Rater Reliability is no Enough: Teacher Observation Systems and a Case for the Generalizability Study (2012) Educational Researcher, 41 (2), pp. 56-64
- Huntley, F.L., Palmer, E.J., Wakeling, H.C., Validation of an Adaptation of Levenson's Locus of Control Scale with Adult Male Incarcerated Sexual Offenders (2012) Sex Abuse, 24 (1), pp. 46-63
- Joncas, M., Foy, P., Sample Design in TIMSS and PIRLS (2012) Methods and Procedures in TIMSS and PIRLS 2011, , http://timssandpirls.bc.edu/methods/pdf/TP_Sampling_Design.pdf, Martin, M.O. y Mullis, I.V.S. (Eds.), Chestnut Hill (Massachusetts): TIMSS and PIRLS International Study Centre, Boston College. Recuperado de
- Kim, J., Craig, D.A., Seoul, K., Validation of a Videoconferenced Speaking Test (2012) Computer Assisted Language Learning, 25 (3), pp. 257-275
- Kondo-Brown, K., A FACETS Analysis of Rater Bias in Measuring Japanese L2 Writing Performance (2002) Language Testing, 19, pp. 3-31
- Lee, Y.J., The Multimedia Assisted Test of English Speaking: The SOPI Approach (2007) Language Assessment Quarterly, 4 (4), pp. 352-366
- Lix, L.M., Keselman, J.C., Keselman, H.J., Consequences of Assumptions Violations Revisited: A Quantitative Review of Alternatives to the One-Way Analysis of Variance F Test (1996) American Educational Research Association, 66 (4), pp. 579-619
- Macqueen, S., Harding, L., Review of the Certificate of Proficiency in English (CPE) Speaking Test (2009) Language Testing, 26 (3), pp. 467-475
- McNamara, T., (1996) Measuring Second Language Performance, , Londres: Longman
- Magal-Royo, T., Giménez López, J.L., Multimodal Interactivity in the Foreign Language Section of the Spanish University Admission Examination (2012) Revista de Educación, 357, pp. 163-176
- Martín-Monje, E., The New English Oral Task in the Spanish University Admission Examination: A Methodological Proposal (2012) Revista de Educación, 357, pp. 143-161
- Ministerio de Educación, Cultura y Deporte, (2002) Marco Común Europeo de Referencia para las Lenguas: Aprendizaje, enseñanza, evaluación, , Madrid: MEDC, Anaya
- Muñiz, J., Elosua, P., Hambleton, R.K., Directrices para la traducción y adaptación de los tests: Segunda edición (2013) Psicothema, 25 (2), pp. 151-157
- Myford, C.M., Rater Cognition Research: Some Possible Directions for the Future (2012) Educational Measurement, 31 (3), pp. 48-49
- OCDE, (2008) School Sampling Preparation Manual. PISA 2009 Main Study, , http://www.oecd.org/pisa/pisaproducts/pisa2009/49023542.pdf, París: PISA, OECD Publishing. Recuperado de
- OCDE, (2009) PISA Data Analysis Manual. SPSS, Second edition, , http://browse.oecdbookshop.org/oecd/pdfs/free/9809031e.pdf, París: PISA, OECD Publishing. Recuperado de
- OCDE, (2012) PISA 2009 Technical Report, , http://www.oecd.org/pisa/pisaproducts/pisa2009/50036771.pdf, París: PISA, OECD Publishing. Recuperado de
- Pearson, (2009) Official guiDe to Pearson Test of English Academic, , Londres: Longman
- Pérez-Gil, J.A., Chacón Moscoso, S., Moreno Rodríguez, R., Construct Validity: The Use of Factor Analysis (2000) Psicothema, 12 (2), pp. 441-446
- Prieto, G., Evaluación de la ejecución mediante el modelo manyfacet Rasch measurement (2011) Psicothema, 23, pp. 233-238
- Sanz, I., El examen de selectividad a examen (1999) Greta: Revista para Profesores de Inglés, 7 (2), pp. 16-29
- Schmider, E., Zieglel, M., Danay, E., Beyer, L., Bürher, M., Is it Really Robust? Reinvestigating the Robustness of ANOVA against Violations of the Normal Distribution Assumption (2010) Methodology, 6 (4), pp. 147-151
- Shettle, C., (2008) The 2005 High School Transcript Study. User's Guide and Technical Report, , http://nces.ed.gov/nationsreportcard/pdf/studies/2009480rev.pdf, Washington, D.C.: National Center for Education Statistics, Institute of Education Sciences, U.S. Department of Education. Recuperado de
- Shoukri, M.M., (2004) Measures of Interobserver agReement, , Boca Ratón (Florida): Chapman & Hall
- Suto, I., A Critical Review of some Qualitative Research Methods used to Explore Rater Cognition (2012) Educational Measurement, 31 (3), pp. 21-30
- Vaughan, C., Holistic Assessment: What Goes on in the Rater's Mind? (1991) Assessing Second Language Writing in Academic Contexts, pp. 11-125. , L. Hamplyons (Ed.), Norwood (Nueva Jersey): Ablex
- Weigle, S.C., Using FACETS to Model Rater Training Effects (1998) Language Testing, 15, pp. 263-287
- Weigle, S.C., (2002) Assessing Writing, , Cambridge: Cambridge University Press
- Wolfe, E.W., McVay, A., Application Of Latent Trait Models To Identifying Substantively Interesting Raters (2012) Educational Measurement, 31 (3), pp. 31-37
- Xiaomin, S., Houcan, Z., A Comparative Study on Methods Used in Estimating the Inter-Rater Reliability of Performance Assessment (2005) Psychological Science, 28 (3), pp. 646-649
- Zechner, K., Higgins, D., Xi, X., Williamson, D., Automatic Scoring of Non-Native Spontaneous Speech in Tests of Spoken English (2009) Speech Communication, 51 (10), pp. 883-895