Desarrollo de pruebas
y cuestionarios para
una evaluación
nacional del
rendimiento
académico
Evaluaciones nacionales del rendimiento académico




VOLUMEN 2



Desarrollo de pruebas
y cuestionarios para
una evaluación
nacional del
rendimiento
académico
Prue Anderson y George Morgan


Vincent Greaney y
Thomas Kellaghan, editores de la serie
© 2016 Banco Internacional de Reconstrucción y Fomento/Banco Mundial
1818 H Street NW, Washington, DC 20433
Teléfono: 202-473-1000; Internet: www.worldbank.org

Algunos derechos reservados
1 2 3 4 19 18 17 16

La presente obra fue publicada originalmente por el Banco Mundial en inglés en 2008, con el título Developing
Tests and Questionnaires for a National Assessment of Educational Achievement. Vol. 2 of National Assessments of
Educational Achievement. En caso de discrepancias, prevalecerá el idioma original.
    El presente documento ha sido realizado por el personal del Banco Mundial, con aportaciones externas. Las
opiniones, las interpretaciones y las conclusiones aquí expresadas no son necesariamente refl ejo de la opinión del
Banco Mundial, de su Directorio Ejecutivo ni de los países representados por este. El Banco Mundial no garantiza
la exactitud de los datos que fi guran en esta publicación. Las fronteras, los colores, las denominaciones y demás
datos que aparecen en los mapas de este documento no implican juicio alguno, por parte del Banco Mundial,
sobre la condición jurídica de ninguno de los territorios, ni la aprobación o aceptación de tales fronteras.
    Nada de lo aquí contenido constituirá ni podrá considerarse una limitación ni una renuncia de los privilegios
y las inmunidades del Banco Mundial, todos los cuales están reservados específi camente.

Derechos y autorizaciones



Esta publicación está disponible bajo la licencia Creative Commons Reconocimiento 3.0 IGO (CC BY 3.0
IGO): http://creativecommons.org/licenses/by/3.0/igo. La licencia Creative Commons Reconocimiento
permite copiar, distribuir, comunicar y adaptar la presente obra, incluso para fi nes comerciales, con las
siguientes condiciones:

Cita de la fuente. La obra debe citarse de la siguiente manera: Anderson, Prue, y George Morgan. 2016.
Evaluaciones nacionales del rendimiento académico. Volumen 2: Desarrollo de pruebas y cuestionarios
para una evaluación nacional del rendimiento académico, Vincent Greaney y Thomas Kellaghan, editores.
Washington, DC: Banco Mundial. DOI:10.1596/978-1-4648-0745-9. Licencia: Creative Commons
Reconocimiento CC BY 3.0 IGO.

Traducciones. En caso de traducirse la presente obra, la cita de la fuente deberá ir acompañada de la siguiente
nota de exención de responsabilidad: “La presente traducción no es obra del Banco Mundial y no deberá
considerarse traducción oficial de este. El Banco Mundial no responderá por el contenido ni los errores de la
traducción”.

Adaptaciones. En caso de que se haga una adaptación de la presente publicación, la cita de la fuente deberá ir
acompañada de la siguiente nota de exención de responsabilidad: “Esta es una adaptación de un documento
original del Banco Mundial. Las opinions y los puntos de vista expresados en esta adaptación son exclusiva
responsabilidad de su autor o de sus autores y no son avalados por el Banco Mundial”.

Contenido de terceros. Téngase presente que el Banco Mundial no necesariamente es propietario de todos
los componentes de la obra, por lo que no garantiza que el uso de dichos componentes o de las partes del
documento que son propiedad de terceros no violará los derechos de estos. El riesgo de reclamación derivado
de dicha violación correrá por exclusiva cuenta del usuario. Si se desea reutilizar algún componente de esta
obra, es responsabilidad del usuario determinar si debe solicitar autorización y obtener dicho permiso del
propietario de los derechos de autor. Como ejemplos de componentes se puede mencionar los cuadros, los
gráficos y las imágenes, entre otros.
    Toda consulta sobre derechos y licencias deberá enviarse a la siguiente dirección: Publishing and
Knowledge Division, The World Bank, 1818 H Street NW, Washington, DC 20433, USA; fax: 202-522-2625;
correo electrónico: pubrights@worldbank.org.

ISBN (edición impresa): 978-1-4648-0745-9
ISBN (edición electrónica): 978-1-4648-0746-6; 978-0-8213-7497-9 (inglés)
DOI: 10.1596/978-1-4648-0745-9

Diseño de la portada: Naylor Design, Washington DC
                  ÍNDICE




PRÓLOGO                                                    xi

ACERCA DE LOS AUTORES Y EDITORES                           xv

AGRADECIMIENTOS                                           xvii

SIGLAS                                                    xix

                            Parte 1
                   Elaboración de las pruebas

 1. INTRODUCCIÓN                                            3


 2. DESARROLLO DE UN MARCO DE EVALUACIÓN                  11
    Documento de especificaciones técnicas de la prueba
    o tabla de especificaciones                           12
    Validez                                               19
    Idioma de la prueba                                   19
    Formato del ítem                                      20
    Población escolar a evaluar                           27
    Informe de resultados                                 28
    Contextos                                             29
    Notas                                                 30

                                                            v
vi    i ÍNDiCE



     3. REDACCIÓN DE LOS ÍTEMS                        31
        Dificultad de los ítems                        33
        Sesgo de los ítems                             34
        Material de estímulo                           35
        Formato de los ítems                           38
        Ítems de práctica                              51
        Diagramación y diseño de los ítems             52
        El equipo de redacción de ítems                58
        Comités encargados de revisar los ítems        62
        Otros revisores                                64
        Seguimiento de los ítems                       65
        Notas                                          68

     4. ENSAYO DE LOS ÍTEMS                           69
        Diseño del formulario de la prueba previa      73
        Impresión y revisión de la prueba previa       77
        Implementación de la prueba previa             80
        Corrección de la prueba previa                 81
        Confiabilidad                                  87

     5. SELECCIÓN DE LOS ÍTEMS DE LA PRUEbA           89
        Nota                                           94

     6. PRODUCCIÓN DE LA PRUEbA DEFINITIVA            95
        Diseño de la prueba definitiva                 95
        Impresión y corrección                         99

     7. CALIFICACIÓN MANUAL DE LOS ÍTEMS              103

                                 Parte 2
                       Elaboración de cuestionarios

     8. DISEÑO DE CUESTIONARIOS                       111
        Contenido del cuestionario                    113
        Especificaciones técnicas del cuestionario    117
        Ítems de los cuestionarios                    119
        Formato de los ítems                          121
        Idioma del cuestionario                       122
        Encuestados                                   122
        Administración del cuestionario               123
        Plan de análisis de los datos                 123
                                                            ÍNDiCE   | vii



 9. REDACCIÓN DE ÍTEMS PARA CUESTIONARIOS                            125
    Preguntas                                                        126
    Enunciados                                                       126
    Categorías de respuesta                                          127
    Tratamiento de temas delicados                                   129
    Diseño del cuestionario                                          129
    Revisión de los cuestionarios                                    130

10. CODIFICACIÓN DE LAS RESPUESTAS DEL CUESTIONARIO                  133
    Preparación de los cuestionarios para la captura de datos        135
    Respuestas ambiguas o falta de código                            135


11. COTEJO DE LOS CUESTIONARIOS CON LOS DATOS
    DE LA PRUEbA                                                     137
    Cuestionarios para estudiantes                                   137
    Cuestionarios para padres                                        138
    Cuestionarios para docentes y directores                         139


                               Parte 3
     Diseño de un manual para la administración de la prueba


12. MANUAL DEL EXAMINADOR                                            143
    Contenidos del manual                                            144
    Uso del manual                                                   145
    Características del manual                                       146
    ¿Cuánta información se necesita?                                 148
    Preguntas de práctica                                            149
    Ensayo                                                           150
    Revisión                                                         151


13. EL EXAMINADOR                                                    153
    Elección del examinador                                          153
    Cumplimiento de las instrucciones                                154
    Control de calidad                                               156
    Lista de verificación del examinador                             157


14. INFORMACIÓN A LAS ESCUELAS SObRE LA
    EVALUACIÓN NACIONAL                                              161
viii   i ÍNDiCE



APÉNDICES                                                             163

   A. GLOSARIO                                                        163

   b. LECTURAS ADICIONALES                                            171

   C. EJEMPLOS DE ÍTEMS DE PRUEbAS,
        ÍTEMS DE CUESTIONARIOS Y MANUALES
        DE ADMINISTRACIÓN EN EL CD                                    175
        Ítems de pruebas de rendimiento académico                     176
        Cuestionarios                                                 177
        Manuales                                                      177
        Agradecimientos                                               178

RECUADROS
 2.1 Currículo de matemáticas de Papúa Nueva Guinea                    13
 2.2 Currículo de lengua (inglés) de Nueva Zelanda                     14
 2.3 Ejemplos de ítems de opción múltiple                              21
 2.4 Ejemplo de ítem de respuesta cerrada                              22
 2.5 Ejemplos de ítems de respuesta corta abierta                      22
 2.6 Ejemplo de instrucciones para la escritura de un ensayo           23
 3.1 Ejemplo de material de estímulo irrelevante                       36
 3.2 Ejemplo de un ítem con información inexacta o engañosa            37
 3.3 Ejemplo de un ítem de opción múltiple                             39
 3.4 Puntuación en oraciones completas                                 40
 3.5 Puntuación en una lista                                           40
 3.6 Minimizar la cantidad de texto que debe leerse                    41
 3.7 Ítem con un enunciado negativo                                    41
 3.8 Distractores mal emparejados                                      42
 3.9 Uso de pares en los distractores                                  42
3.10 Ítem de respuesta abierta confuso con indicaciones poco claras    45
3.11 Un buen ejemplo de un ítem con respuesta cerrada                  46
3.12 Ítem de crédito parcial                                           47
3.13 Ejemplo de un ítem de respuesta abierta con guía
     de corrección                                                    48
3.14 Ejemplo de un ítem de respuesta cerrada con
     guía de corrección                                               49
3.15 Uso de ilustraciones para reducir la cantidad de palabras        54
3.16 Uso de imágenes simples                                          55
                                                              ÍNDiCE   | ix



3.17   Gráficos con etiquetas claras                                    55
3.18   Mapas con etiquetas claras                                       56
3.19   Dejar espacios en el material de estímulo                        57
3.20   Ejemplo de hoja de estilo para los redactores de ítems           61
 4.1   Ejemplo de pregunta de respuesta múltiple y formato abierto      81
 4.2   Ejemplo de hoja de captura de datos para una prueba previa       84
 6.1   Ejemplo de una portada de pruebas                                97
 8.1   Especificaciones técnicas para el cuestionario sobre
       valores y actitudes                                             118
 9.1   Correspondencia deficiente entre las casillas y las
       categorías de respuesta                                         130
 9.2   Mejor correspondencia de casillas y categorías de respuesta     131
10.1   Ejemplo de codificación en escala de grises                     134
10.2   Ejemplo de tratamiento de los ítems como categorías
       individuales para la captura de datos                           134
12.1   Instrucciones del manual de administración                      147
12.2   Información para docentes y directores                          148
12.3   Administración de los ítems de práctica                         149
13.1   Lista de verificación de administración: Un
       ejemplo de Filipinas                                            157


FIGURAS
1.1    Organigrama de una evaluación nacional                            4
1.2    Resumen de actividades de una evaluación nacional                 5
4.1    Ejemplo de vinculación circular de ítems                         74
4.2    Modelo para ítems de vinculación vertical                        75
C.1    Guía para acceder a los materiales en el CD sobre pruebas,
       cuestionarios y manuales                                        176


TAbLAS
1.1 Etapas del desarrollo de la prueba y el diseño del
    cuestionario de evaluación nacional                                  6
2.1 Especificaciones técnicas para una prueba de matemáticas
    en el ciclo medio de la escuela primaria                            15
2.2 Especificaciones técnicas para TIMSS matemáticas,
    3.° y 4.° grado                                                     16
2.3 Especificaciones técnicas de los contenidos de
    matemáticas para Papúa Nueva Guinea                                 17
x   i ÍNDiCE



2.4 Ventajas y limitaciones de los formatos de los ítems                 26
2.5 Prueba de matemáticas de Papúa Nueva Guinea - Formatos
    de ítems                                                             27
4.1 Ítems de enlace en dos unidades de lectura                           76
4.2 Parte de una hoja de cálculo para controlar los ítems
    en los distintos formularios                                         77
5.1 Ejemplo de resultado del análisis de un ítem de
    respuesta múltiple                                                   90
5.2 Ejemplo de resultado del análisis de un ítem de
    respuesta abierta y de crédito parcial                                92
8.1 Partes del desarrollo del cuestionario                               114
8.2 Funciones de la comprensión lectora en un estudio
    internacional: Ponderaciones utilizadas para crear dos
    nuevas variables, “leer con fines utilitarios” y “leer por placer”   120
                   PRÓLOGO



La calidad de cualquier ejercicio de evaluación educativa depende de
la calidad de los instrumentos que se hayan empleado. De hecho, si el
diseño de estos instrumentos es deficiente, la evaluación puede ser
una pérdida de tiempo y dinero. Desarrollo de pruebas y cuestionarios
para una evaluación nacional del rendimiento académico es el segundo
de cinco libros dentro de la serie Evaluaciones nacionales del rendi-
miento académico. En él se describe de qué manera desarrollar instru-
mentos técnicamente confiables para una evaluación nacional del
rendimiento en educación, y se concentra principalmente en la puesta
en práctica de esta tarea en países en desarrollo. El volumen 1 de esta
serie describe los principales objetivos y las características sobresa-
lientes de las evaluaciones nacionales y está destinado principalmente
a los responsables de las políticas y la toma de decisiones en el campo
de la educación. Este segundo libro y la mayor parte de los posteriores
dentro de esta serie brindan detalles paso a paso sobre el diseño, la
implementación, el análisis y la generación de informes de las evalua-
ciones nacionales y están dirigidos principalmente a los equipos de
evaluación nacional.
   Desarrollo de pruebas y cuestionarios para una evaluación nacional
del rendimiento académico aborda el diseño de dos tipos de instrumen-
tos de recopilación de datos: las pruebas de rendimiento estudiantil y
los cuestionarios de contexto. La primera parte trata del desarrollo de
un marco de evaluación y de unas especificaciones técnicas para las


                                                                     xi
xii   i PRÓLOGO



pruebas, la redacción de los ítems, las pruebas previas y la estructura
final de las pruebas. La segunda parte determina las etapas y activida-
des correspondientes a la preparación de cuestionarios de contexto,
que se utilizan para recopilar información sobre los estudiantes, los
docentes, los directores de escuela o los padres acerca de las variables
que podrían ayudar a explicar las diferencias en el rendimiento de los
estudiantes en las pruebas de rendimiento académico. La tercera des-
cribe cómo diseñar un manual para la administración de las pruebas
que sirva para asegurar que todos los estudiantes rindan en condicio-
nes estandarizadas. El disco compacto (CD) que acompaña este libro
ofrece buenos ejemplos de diseño de ítems de las pruebas, ítems de
los cuestionarios y manuales de administración de las pruebas toma-
dos de evaluaciones nacionales e internacionales y está destinado a
brindar casos prácticos de la variedad de métodos que los equipos de
evaluación han adoptado para el diseño de estos instrumentos.
   El volumen 3 de esta serie se concentra en cuestiones prácticas que
deben encararse al implementar un programa de evaluación nacional
a gran escala, como son la logística, el muestreo y la limpieza y gestión
de los datos. El volumen 4 trata cómo generar datos sobre los ítems y
los puntajes de las pruebas y cómo relacionar esos puntajes con otros
factores educativos. Por último, el volumen 5 se refiere a la forma de
redactar los informes basados en las conclusiones de la evaluación
nacional y cómo utilizar los resultados para mejorar la calidad de las
políticas educativas.
   A medida que los lectores avancen en este volumen, resultará
evidente que el desarrollo de los instrumentos de evaluación es un
ejercicio complejo, que demanda mucho tiempo y exige una cantidad
considerable de conocimientos, habilidades y recursos. Al mismo
tiempo, la experiencia ha demostrado que el beneficio que se deriva
de contar con instrumentos bien diseñados puede ser sustancial en
términos de calidad de la información obtenida sobre los niveles
de rendimiento de los estudiantes y sobre los factores escolares y no
escolares que podrían ayudar a mejorar esos niveles de rendimiento.
La buena calidad de los instrumentos puede aumentar la confianza de
los responsables políticos y otros actores en las conclusiones. También
puede aumentar la probabilidad de que los responsables políticos uti-
licen los resultados de la evaluación nacional para el desarrollo de
                                                          PRÓLOGO   | xiii



planes y programas bien fundados destinados a mejorar la calidad de
la educación. Si los resultados de las pruebas y los cuestionarios logran
estos efectos, el tiempo y esfuerzo invertidos en su desarrollo estarán
más que justificados.

Marguerite Clarke
Especialista Superior en Educación Banco Mundial
                   ACERCA DE LOS AUTORES
                   Y EDITORES



AUTORES

Prue Anderson es investigadora superior en el Consejo Australiano
de Investigación Educativa. Ha desarrollado material de evaluación
de lectura para los programas de pruebas por nivel para alumnos de
escuela primaria y primer ciclo de secundaria. Ha trabajado en pro-
gramas de monitoreo educativo en Australia, Brunéi Darussalam,
Papúa Nueva Guinea y Filipinas. Actualmente, se desempeña como
gerente de proyecto del programa para la Evaluación Internacional de
Escuelas (ISA). Otras áreas de interés profesional incluyen (a) corre-
lación de datos de evaluación con marcos y resultados curriculares y
(b) medición de resultados sociales de la escolarización.

George Morgan es asesor educativo. Ha sido investigador superior
de la División de Medidas y estuvo a cargo del Grupo de Desarrollo
de Pruebas en Ciencias y Matemáticas en el Consejo Australiano de
Investigación Educativa durante casi 30 años. Ha desarrollado planes
de estudio para ciencias y matemáticas y material de evaluación para
todos los niveles educativos y trabajado en programas de pruebas
a gran escala. Hace muy poco, participó de manera activa en los
proyectos de evaluación en Camboya, Timor Oriental, República
Democrática Popular Lao, Papúa Nueva Guinea y Samoa.




                                                                   xv
xvi   i   ACERCA DE LOS AUTORES Y EDiTORES




EDITORES

Vincent Greaney es asesor educativo. Ha sido jefe de especialistas en
educación en el Banco Mundial y ha trabajado en varios países de
África, Asia y Oriente Medio. Ex docente, investigador en el Centro
de Investigación Educativa del St. Patrick’s College, Dublín; profesor
visitante becario Fulbright en la Universidad del Oeste de Michigan,
Kalamazoo; miembro de la Galería de Honor de la Lectura de la
Asociación Internacional de Lectura (IRA). Sus áreas de investigación
más importantes son evaluación, formación docente, lectura y promo-
ción de la cohesión social mediante la reforma de los libros de texto.

Thomas Kellaghan es director del Centro de Investigación Educativa
del St. Patrick’s College, Dublín, y miembro numerario de la Academia
Internacional de Educación. Ha trabajado en la Universidad de Ibadán,
en Nigeria, y en la Queen’s University de Belfast. Su investigación se
centra en las evaluaciones y los exámenes, la desventaja educativa y
las relaciones entre el hogar y la escuela. Se desempeñó como presi-
dente de la Asociación Internacional de Evaluación Educativa entre
1997 y 2001. Ha trabajado en temas relacionados con las evaluacio-
nes en África, Asia, América Latina y Oriente Medio.
                   AGRADECIMIENTOS



Un equipo liderado por Vincent Greaney (asesor, Red sobre Desarrollo
Humano, Grupo de Educación, Banco Mundial) y Thomas Kellaghan
(Centro de Investigación Educativa, St. Patrick’s College, Dublín) ha
preparado la serie de libros Evaluaciones nacionales del rendimiento
académico, de la cual este es el segundo volumen. Han colaborado
también en esta serie: Sylvia Acana (Junta Nacional de Exámenes
de Uganda), Prue Anderson (Consejo Australiano de Investigación
Educativa), Fernando Cartwright (Consejo Canadiense sobre
Aprendizaje), Jean Dumais (Dirección General de Estadísticas de
Canadá), Chris Freeman (Consejo Australiano de Investigación
Educativa), Hew Gough (Dirección General de Estadísticas de
Canadá), Sara Howie (Universidad de Pretoria), George Morgan
(Consejo Australiano de Investigación Educativa), T. Scott Murray
(Instituto de Estadística de la UNESCO) y Gerry Shiel (Centro de
Investigación Educativa, St. Patrick’s College, Dublín). El trabajo se
llevó a cabo bajo la dirección general de Ruth Kagia, directora de
educación, y Robin Horn, gerente de la Red sobre Desarrollo Humano
del Grupo de Educación, ambos del Banco Mundial. Robert Prouty
inició el proyecto y lo dirigió hasta agosto de 2007. Marguerite Clarke
se hizo cargo del proyecto en las etapas posteriores de revisión y
publicación.
   Agradecemos la colaboración del grupo de revisión: Al Beaton
(Boston College), Irwin Kirsch (Education Testing Service [Servicio de


                                                                    xvii
xviii   i   AGRADECiMiENTOS




Pruebas Educativas], ETS), y Benoit Millot (Banco Mundial). A Helen
Abadzi, Regina Bendokat, Marguerite Clarke, Robin Horn, Elizabeth
King, Maureen Lewis, Harry Patrinos, Carlos Rojas, Jee-Peng Tan,
Eduardo Vélez y Raisa Venalainen, por su aporte de comentarios
adicionales de gran utilidad.
   Recibimos el valioso aporte y respaldo de Carly Cheevers,
David Harding, Aidan Mulkeen, Aleksandra Sawicka, Thi Tran, Hilary
Walshe y Hans Wagemaker.
   Queremos agradecer a las siguientes instituciones el permiso
otorgado para reproducir su material en el cuerpo de este volumen
y en el disco compacto que acompaña esta obra: Consejo Australiano
de Investigación Educativa; Centro de Investigación Educativa, Dublín;
Asociación Internacional para la Evaluación del Rendimiento Educativo;
Departamento de Educación de Massachusetts; Centro Nacional
de Estadística Educativa de los Estados Unidos. Departamento
de Educación; Organización para la Cooperación y el Desarrollo
Económicos; y Departamento de Educación de Papúa Nueva Guinea.
   Mary Fisk y Paola Scalabrin, de la Oficina del Editor del Banco
Mundial, coordinaron el diseño, la edición y la producción del libro.
   El Fondo Fiduciario de Irlanda para la Educación, el Programa
de Asociación Banco-Países Bajos (BNPP), el Centro de Investigación
Educativa, Dublín, y el Consejo Australiano de Investigación
Educativa brindaron su generoso apoyo para la preparación y publica-
ción de esta serie.
              SIGLAS



CD      disco compacto
CDN     comité director nacional
ID      número de identificación
MdE     ministerio de educación
NAEP    Evaluación Nacional del Progreso Educativo (Estados
        Unidos)
PIRLS   Estudio sobre el Progreso Internacional de la
        Competencia en Lectura
PISA    Programa para la Evaluación Internacional de Alumnos
SSD     supervisor superior de distrito
STBA    asignación de cuadernillos de la prueba de los
        estudiantes
TCP     teoría clásica de las pruebas
TIMSS   Tercer Estudio Internacional de Matemáticas y Ciencias
        o Estudio Internacional de Tendencias en Matemáticas
        y Ciencias
TRI     teoría de respuesta al ítem




                                                            xix
PA RT e
          1   ELABORACIÓN DE
              LAS PRUEBAS
             1
Ca p í t u l o               INTRODUCCIÓN




                               Las actividades de una evaluación nacional son
          muchas, desde el momento en que alguien decide llevarla a cabo hasta
          el momento en que se lee el informe con sus resultados. Cada uno de
          los libros en esta serie de cinco volúmenes, intitulada Evaluaciones
          nacionales del rendimiento académico, describe algunas de las activida-
          des de una evaluación nacional, enfatizando la puesta en práctica de
          dicha evaluación en los países en desarrollo. Es probable que gran parte
          de la tecnología necesaria para llevar a cabo una evaluación nacional
          satisfactoria no exista en los países con poca tradición en investigación
          empírica en educación. Por consiguiente, en esta serie se ha hecho el
          esfuerzo de describir al detalle las actividades de una evaluación y,
          cuando corresponde, de ayudar a los lectores (que podemos suponer
          tienen responsabilidad en al menos algunos de los aspectos de una
          evaluación) a comprender por qué son necesarias esas actividades.
             El ministerio de educación (MdE), o el comité director nacional
          (CDN) designado, en general tendrá la responsabilidad global de guiar
          y respaldar la evaluación nacional. La mayor parte del trabajo será
          llevado a cabo por una agencia implementadora, bajo la supervisión
          del MdE o del CDN. A su vez, dicha agencia supervisará la tarea del
          encargado del desarrollo de la prueba, de los especialistas en las diver-
          sas materias y de los analistas de estadísticas, y se encargará de la

                                                                                 3
4     | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



logística para la ejecución de la evaluación nacional. Este libro,
Desarrollo de pruebas y cuestionarios para una evaluación nacional del
rendimiento académico, trata principalmente de las actividades del
encargado del desarrollo de la prueba y de los especialistas en las
diversas materias, así como también el desarrollo de pruebas previas
(véase la figura 1.1). Otro de los temas que se muestran en la figura 1.1,
tales como el muestreo; los aspectos logísticos de la evaluación, entre
otros la comunicación con las escuelas; y la captura y depuración de
los datos, se tratan en el volumen 3 de esta serie: Implementación de
una evaluación nacional del rendimiento académico. El volumen 4,
Análisis de los datos de una evaluación nacional del rendimiento acadé-
mico, está dedicado al análisis estadístico.
   El diagrama de flujo que aparece en la figura 1.2 resume los distin-
tos pasos de una evaluación nacional. Muchos de esos pasos están
descritos en este libro; los recuadros o las actividades sombreados se



    FIgURA 1.1

    Organigrama de una evaluación nacional

                                    Ministerio de educación/
                                    Comité director nacional


                                    Agencia implementadora/
                                        Jefe del equipo


    Desarrollo de la prueba/
                                            Análisis                 Logística
          Encargado

        Especialistas en las
         diversas materias
         Análisis curricular,              Muestreo             Administración de la
       desarrollo del marco,          Captura y depuración        prueba previa
    redacción de ítems, prueba          de datos Análisis      Contacto con escuelas
     previa, selección definitiva          estadístico              Impresión
      de ítems,interpretación
            de resultados

         Prueba previa de los
       ítems de las pruebas y
       cuestionarios Selección
          definitiva de ítems
    Interpretación de resultados
        Redacción de informe
FIgURA 1.2

Resumen de actividades de una evaluación nacional

    1. El MdE o el CDN              2. El MdE o el CDN,          3. La agencia implementadora,        4. Especialistas en las        5. El encargado del
       designan la agencia             junto con otras partes,      el jefe del equipo y el              diversas materias              desarrollo de la prueba
                                                                    encargado del desarrollo
       implementadora. El jefe         acuerdan el marco                                                 analizan el currículo y        capacita a los redactores
                                                                    de la prueba, junto con
       del equipo y la agencia         (y las materias y la         especialistas en las materias,       clarifican los objetivos.      de ítems.
       implementadora redactan         población a evaluar)         redactan el borrador de
       el borrador del marco                                        las especificaciones
       de evaluación nacional.                                      técnicas de las pruebas y
                                                                    cuestionarios.



   10. El jefe del equipo y el      9. El encargado del          8. La agencia                        7. La agencia                  6. El encargado del
       encargado del desarrollo        desarrollo de la prueba      implementadora lleva a               implementadora                 desarrollo de la prueba y
       de la prueba supervisan         supervisa la revisión        cabo la prueba previa.               organiza el comité de          el jefe del equipo
       la redacción del                de los ítems y las                                                revisión.                      supervisan la redacción
       borrador de los ítems           preguntas y lleva a
                                                                                                                                        del borrador de los ítems,
       definitivos, los                cabo más pruebas
       cuestionarios y el                                                                                                               las preguntas y el manual
                                       previas si fuera
       manual de administración.       necesario.                                                                                       de administración.



   11. La agencia                  12. La agencia                13. La agencia                      14. La agencia                  15. La agencia
       implementadora                  implementadora                implementadora                      implementadora                  implementadora
       organiza el comité de           selecciona la muestra         organiza la impresión               capacita a los                  supervisa la
       revisión.                       de escuelas.                  de las pruebas, los                 examinadores usando             administración de la
                                                                     cuestionarios y los                 el manual.                      evaluación nacional.
                                                                     manuales.



   20. El MdE u otros              19. El MdE o el CDN           18. La agencia                      17. La agencia                  16. La agencia
       organismos utilizan los         publican los informes.        implementadora                      implementadora                  implementadora
                                                                     redacta el borrador de
       resultados.                                                                                       analiza los datos.              supervisa la corrección
                                                                                                                                                                       iNTRODUCCiÓN




                                                                     los informes y los envía
                                                                     al MdE o el CDN y a                                                 de las pruebas, el registro
                                                                     otras instituciones para                                            de todos los resultados y
                                                                     su revisión.                                                        la depuración de los datos.
                                                                                                                                                                       | 5
                                                                                                                                                   6
TAblA 1.1
Etapas del desarrollo de la prueba y el diseño del cuestionario de evaluación nacional
 Etapa   Actividad                                        Tiempo aproximado      Personas que participan
 1       Preparar el marco de evaluación; clarificar el   4 semanas              MdE o CDN y agencia implementadora, en especial el líder
         propósito de las evaluaciones, las pruebas y                            de grupo, el encargado del desarrollo de la prueba, las
         los cuestionarios nacionales; y seleccionar la                          partes interesadas clave y los responsables de las políticas.
         población objetivo.
         Diseñar las especificaciones técnicas, o tabla   4 a 6 semanas          MdE o CDN, agencia implementadora, encargado del
         de especificaciones, y consultar a todas las                            desarrollo de la prueba, grupos de especialistas, docentes
         partes para su aprobación.                                              experimentados, especialistas en materias, analistas de
                                                                                 datos, redactores de ítems experimentados, partes
                                                                                 interesadas clave y responsables de las políticas.
 2       Redactar los ítems de la prueba y del            12 a 14 semanas        Encargado del desarrollo de la prueba, especialistas en las
         cuestionario.a                                   (entre 20 y 30 ítems   materias, redactores de ítems, y partes interesadas clave.
                                                                                                                                                 | DESARROLLO DE PRUEbAS Y CUESTiONARiOS




                                                          por redactor por
                                                          semana)
         Redactar las pruebas previas y los borradores    4 semanas              Jefe del equipo, encargado del desarrollo de la prueba,
         de los cuestionarios.                                                   redactores de ítems, profesionales de diseño y diagramación
                                                                                 y correctores.
         imprimir las pruebas previas y los borradores    2 semanas              Agencia implementadora, jefe del equipo, encargado del
         de cuestionarios.                                                       desarrollo de la prueba y redactores de ítems.
         Preparar los paquetes de pruebas previas y       2 a 3 semanas          Agencia implementadora.
         borradores de cuestionarios y distribuirlos.
3   Administrar las pruebas previas y los           2 a 3 semanas          Agencia implementadora y examinadores.
    borradores de cuestionarios en las escuelas.
    Calificar los ítems manualmente (si fuera       2 semanas              Jefe del equipo, encargado del desarrollo de la prueba,
    necesario).                                                            especialistas en las diversas materias y redactores de ítems.
    ingresar los datos de las pruebas previas.      1 semana               Analista de datos de la agencia implementadora y personal
                                                                           de captura de datos.
4   Analizar los datos de las pruebas previas y     2 semanas              Agencia implementadora, analistas de datos, redactores de
    los cuestionarios.                                                     ítems y encargado del desarrollo de la prueba.
    Seleccionar ítems para las pruebas y            2 semanas              Encargado del desarrollo de la prueba, analistas, redactores
    cuestionarios.                                                         de ítems y actores clave.
5   Producir las pruebas, los cuestionarios y los   2 semanas              Agencia implementadora, encargado del desarrollo de la
    manuales de administración definitivos.                                prueba, profesionales de diseño y diagramación, correctores
                                                                           y redactores de ítems.
    imprimir las pruebas y cuestionarios.           4 semanas              Agencia implementadora, jefe del equipo y encargado del
                                                                           desarrollo de la prueba.
    Preparar los paquetes de pruebas y              2 a 3 semanas (según   Agencia implementadora y encargado del desarrollo de la
    cuestionarios y distribuirlos.                  la distancia y         prueba.
                                                    accesibilidad)

                                                                                                                                 (continúa)
                                                                                                                                              iNTRODUCCiÓN
                                                                                                                                              | 7
                                                                                                                                                             8




TAblA 1.1 (continúa)

Etapa      Actividad                                                    Tiempo aproximado   Personas que participan
6          Administrar las pruebas y los cuestionarios                  3 a 4 semanas       Agencia implementadora, encargado del desarrollo de la
           en las escuelas.                                                                 prueba y examinadores.
           Calificar los ítems manualmente (si fuera                    3 a 4 semanas       Encargado del desarrollo de la prueba y redactores de ítems.
           necesario).
7          ingresar y depurar datos.                                    4 a 6 semanas       Analista de datos y personal de captura de datos.
                                                                                                                                                           | DESARROLLO DE PRUEbAS Y CUESTiONARiOS




           Analizar los datos.                                          2 a 3 semanas       Analista de datos, redactores de ítems y encargado del
                                                                                            desarrollo de la prueba.
8          Redactar los informes definitivos.                           4 a 5 semanas       Analista de datos, redactores de ítems y encargado del
                                                                                            desarrollo de la prueba.
a. Se necesitará tiempo adicional si se deben traducir los ítems a otros idiomas.
                                                      iNTRODUCCiÓN   | 9



refieren a los aspectos de la evaluación que reciben una mayor aten-
ción en esta obra. El libro también incluye una cantidad de notas o
comentarios comunes para más de un aspecto de la evaluación; están
reiterados para facilitar la lectura de aquellos interesados en un único
aspecto de la evaluación nacional.
   En la tabla 1.1 se brinda información adicional sobre el desarrollo
de la prueba y el esquema del cuestionario. En esta tabla se describe
un proceso de elaboración de pruebas y cuestionarios de logros acadé-
micos que comprende ocho etapas e indica quiénes son las personas
responsables de los componentes de cada etapa.
   El disco compacto (CD) que acompaña este libro ofrece muchos
ejemplos de ítems de las pruebas, ítems de los cuestionarios y manua-
les de administración de las pruebas. El Apéndice C presenta más
detalles del contenido del CD. El presente material ha sido extraído
de evaluaciones nacionales e internacionales, y pretende familiarizar a
los equipos de evaluación nacionales con los ítems y tipos de ítem de
varias áreas curriculares y con los cuestionarios diseñados para alum-
nos, maestros, escuelas, directores y padres.
             2
Ca p í t u l o                DESARROLLO DE
                              UN MARCO DE
                              EVALUACIÓN




                                Contar con un marco que brinde un esquema o
          plan general para guiar el desarrollo de las pruebas de evaluación, los
          cuestionarios y los procedimientos es crucial para determinar los conte-
          nidos de esa evaluación. (Linn y Dunbar 1992; Mullis et al. 2006). Dicho
          marco ayuda a generar una clara comprensión del constructo que se
          pretende evaluar (por ejemplo, el rendimiento en lectura o matemáti-
          cas) y los distintos procesos del mismo. Debe incluir una definición de lo
          que se está evaluando, determinar las características de las tareas que se
          emplearán en el desarrollo de la prueba y establecer las bases para inter-
          pretar los resultados (Kirsch 2001; Messick 1987). Un marco puede
          ayudar a explicar el propósito de la evaluación. Puede facilitar los deba-
          tes y la toma de decisiones entre los distintos actores educativos acla-
          rando los conceptos clave antes de que se inicie la evaluación. El marco
          también puede determinar las variables clave que probablemente ten-
          gan correlación con el puntaje de las pruebas y puede ayudar a asegurar
          que esas variables se incluyan en el diseño de la evaluación nacional.
             Desde el principio, el comité director debe definir lo que se ha de
          medir. Con frecuencia, el documento del currículo nacional contendrá
          definiciones sobre las áreas temáticas clave. Las definiciones de lectura,
          por ejemplo, han variado en el tiempo y entre los distintos sistemas
          educativos. En algunos casos, ha sido equivalente a la capacidad de

                                                                                 11
12   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



pronunciar palabras. En otros, se refiere a la capacidad de reconocer
palabras individuales y asignarles su significado. La lectura también ha
sido definida como la capacidad de comprender o captar el significado
de un texto. Las definiciones más recientes van más allá de las simples
habilidades de decodificación e incluyen la capacidad de aplicar la
información contenida en los textos así como también de compren-
derlos. También reconocen que los estudiantes y los adultos leen con
distintos propósitos, por ejemplo por placer o por información. Estas
nuevas definiciones se reflejan en las pruebas al incluir distintas for-
mas de textos, como por ejemplo, cuentos, fragmentos de artículos de
diarios, anuncios comerciales, señales y gráficas.
   En el desarrollo de las pruebas debe quedar claro el propósito para
el cual se recopilan los datos. Es de gran importancia que en las etapas
iniciales se realicen consultas con actores y grupos de expertos clave a
fin de determinar claramente el propósito de la evaluación nacional y,
por ende, qué debe evaluar la prueba, quiénes deben ser evaluados,
cuándo deben evaluarse y en qué idioma deben impartirse las prue-
bas. Los expertos en currículo deben ser parte de estas decisiones,
junto con los responsables de las políticas y de la gestión educativa, ya
que son los que estarán en condiciones de emplear los resultados de
la evaluación como base para las políticas educativas, para la asigna-
ción de recursos y para la implementación de reformas.
   Las evaluaciones nacionales pueden ser herramientas poderosas para
medir la eficiencia de algunos aspectos del currículo. Un buen diseño de
la evaluación también puede reforzar las metas del currículo simulando
los tipos de habilidades y saberes que los alumnos deben demostrar.
Estos tipos de habilidades y los contextos en los cuales se evalúan debe-
rían respaldar las metas de las políticas educativas globales en las áreas
clave del aprendizaje. Los ejemplos de algunos de los contextos globales
de las evaluaciones nacionales en los recuadros 2.1 y 2.2 reflejan varias
prioridades educativas.


DOCUMENTO DE ESPECIFICACIONES TÉCNICAS DE lA
PRUEbA O TAblA DE ESPECIFICACIONES

El documento de especificaciones técnicas de la prueba, o tabla de
especificaciones, es el documento esencial que guía su desarrollo, su
                                  DESARROLLO DE UN MARCO DE EVALUACiÓN          | 13




 RECUADRO 2.1


  Currículo de matemáticas de Papúa Nueva guinea

  El currículo 2003 para las escuelas primarias de Papúa Nueva Guinea a nivel
  elemental de matemáticas en el contexto cultural actual se propone con la
  siguiente justificación global:

     Todos los ciudadanos tienen derecho a participar en el desarrollo futuro de
     Papúa Nueva Guinea. Por esta razón, es necesario que los alumnos
     desarrollen con solidez conocimientos, habilidades y comprensión en
     matemáticas... los alumnos de [nivel] elemental serán capaces de
     relacionar los nuevos conceptos matemáticos de los cinco ejes temáticos
     dentro de este programa con su conocimiento actual de su contexto
     cultural, de modo tal que puedan aplicar con seguridad las matemáticas
     en su vida diaria. El curso de matemáticas en el contexto cultural de
     primaria brinda muchas oportunidades para el aprendizaje pertinente y
     orientado hacia los principios de la vida en el hogar. (Papúa Nueva Guinea,
     Departamento de Educación 2003: 2)

  Esta justificación (junto con los documentos de la política ministerial y con una
  importante reestructuración de la educación primaria y preprimaria) está
  dirigida a integrar las matemáticas de la primaria en la cultura de la
  comunidad de los alumnos. Las reformas han establecido la prioridad en la
  integración de las matemáticas del nivel primario con la cultura local y en la
  aplicación de los conocimientos matemáticos en la vida cotidiana. Una
  evaluación nacional reciente desarrollada para el seguimiento del rendimiento
  de los alumnos hizo hincapié en el empleo de contextos realistas para los
  cuestionarios y para la evaluación de las habilidades y conocimientos que
  tengan aplicaciones prácticas.




análisis y sus reportes. Describe los datos que deben ser recopilados,
define la extensión de la prueba y especifica la proporción de ítems
que abordarán los distintos aspectos del currículo dentro de una
prueba. Unas buenas especificaciones técnicas deberán señalar lo
siguiente:

•	 La proporción de ítems dentro de la prueba, en su forma final, que
   abordan cada una de las áreas del currículo (por ejemplo, matemá-
   ticas, lengua, ciencias).
•	 La proporción de ítems dentro de un área del currículo que evalúan
   diferentes habilidades (por ejemplo, en matemáticas: números,
14    | DESARROLLO DE PRUEbAS Y CUESTiONARiOS




 RECUADRO 2.2


     Currículo de lengua (inglés) de Nueva Zelanda

     Los objetivos generales del currículo de lengua (inglés) de Nueva Zelanda
     establecen:

        Los alumnos deben ser capaces de interesarse en el lenguaje y disfrutar de
        él en todas sus variedades así como comprender, responder y utilizar de
        manera eficaz el lenguaje oral, escrito y visual en una diversidad de
        contextos. (Nueva Zelanda, Ministerio de Educación 2002: 9)

     Estos objetivos destacan la importancia del interés y el placer en la lectura y
     en la comprensión de una amplia variedad de textos. El recurso a textos y a
     tareas agradables y significativas es un aspecto clave que debe tomarse en
     consideración en las evaluaciones globales en la materia inglés. El énfasis en
     el idioma en todas sus formas refleja un fuerte compromiso con el
     reconocimiento y la valoración de la cultura de la lengua oral de los alumnos
     maoríes, así como también de las formas escritas del inglés. Varias
     evaluaciones nacionales reflejan estos objetivos.




   medidas, espacio y patrones; en escritura: ideas, conocimiento del
   contenido, estructura, estilo, vocabulario, ortografía y gramática).
•	 La proporción de ítems que abordan distintas habilidades del pro-
   ceso cognitivo (como por ejemplo conocimiento o memoria, inter-
   pretación o reflexiones).
•	 La proporción de ítems de opción múltiple y de respuesta abierta.
•	 La proporción de ítems dedicados a textos de estímulo en distintos
   tipos de lectura (como por ejemplo textos narrativos, expositivos,
   instructivos y argumentativos) o en matemáticas (tales como tablas,
   gráficas y diagramas).

   Las especificaciones técnicas de la prueba que se muestran en la
tabla 2.1 se basan en un currículo de matemática para los grados
intermedios de la escuela primaria. Se diseñaron subpruebas
independientes para medir las habilidades de los alumnos para reali-
zar cómputos básicos, comprender conceptos matemáticos y resol-
ver problemas. Por ejemplo, la celda formada por la intersección del
área de contenido “fracciones” y la de comportamiento intelectual
“capacidad de resolución de problemas rutinarios” representa el
objetivo “capacidad de resolver problemas rutinarios con fracciones”.
     TAblA 2.1
     Especificaciones técnicas para una prueba de matemáticas en el ciclo medio de la escuela primaria
                                                                                Comportamiento intelectual
                                 Cálculo                                          Conceptos                                            Resolución de problemas
                                                                                               Capacidad Capacidad                                      Capacidad
                                                                                              de trasladar  de leer e         Capacidad Capacidad de de resolver
                                    Capacidad        Comprensión Comprensión Comprensión elementos de interpretar             de resolver   analizar y  problemas
                     Conocimiento de realizar        de conceptos de principios de estructura una forma a gráficas y          problemas      realizar       no
     Áreas de        de términos y operaciones       matemáticos matemáticos matemática           otra     diagramas           rutinarios comparaciones rutinarios          Total
     contenido        hechos (A1)     (A1)     Total     (B1)         (B2)          (B3)          (B4)        (B5)    Total       (C1)         (C2)        (C3)    Total   General
     1. Números           1            25         26            1       4            7             2           4       18        14            2            2       18      62
        enteros
     2. Fracciones                         4       4            4       1            2                                  7         5                                  5      16
     3. Decimales                          8       8                                 5                         1        6         5                                  5      19
     4. Medidas           2                        2                                               3           2        5         3                                  3      10
     5. Geometría                                  0            2       2                                               4                                            0       4
     6. Cuadros y                                  0                                                                    0                      4                     4       4
        gráficas
     Total General        3            37         40            7       7            14            5           7       40        27            6            2       35     115

     Fuente: Centro para la investigación Educativa 1978: 44.




15
16   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



Un comité de especialistas en la materia, que incluyó a los docentes,
decidió dedicar cinco ítems a ese objetivo. La celda que contiene los
ítems que evalúan la capacidad de realizar operaciones con números
enteros recibió la ponderación más alta (25 ítems). Muchas celdas no
tuvieron ningún ítem. La importancia relativa atribuida a cada obje-
tivo se usó como guía para el desarrollo de la prueba y la posterior
redacción de la versión final de la prueba.
   Las especificaciones técnicas para matemáticas tomadas a partir del
Estudio Internacional de Tendencias en Matemáticas y Ciencias
(prueba TIMSS)1 en la tabla 2.2 definen los formatos de los ítems y
los procesos cognitivos que se abordarán de manera algo diferente en
el tercer y cuarto grado.
   Sin duda, las especificaciones técnicas varían de acuerdo con la com-
prensión del constructo que se pretende medir y con el propósito de la
evaluación. Quienes participan en el desarrollo de la prueba deben com-
prender y aprobar las implicaciones de unas especificaciones técnicas en
términos de qué debe evaluarse y qué debe dejarse fuera de la prueba.
   Debido a las limitaciones de tiempo y de recursos, no es posible
evaluar cada subeje de un área del currículo o todos los temas inclui-
dos en un programa de estudios. Los ítems de la prueba siempre
deben estar dirigidos a las habilidades centrales. Deberá consultarse a
los expertos en currículo o en las materias para determinar cuáles son
las habilidades centrales. La importancia que las especificaciones


TAblA 2.2
Especificaciones técnicas para TIMSS matemáticas, 3.° y 4.° grado
                                        Número         Ítems de        Ítems de         Ítems de
Expectativas de                         total de        opción        respuestas       respuesta
rendimiento                              ítemsa         múltiple         cortas           amplia
Conocimiento                               42             35                7               0
Ejecución de
procedimientos rutinarios                  16             13                3               0
Empleo de procedimientos
complejos                                  24             21                2               1
Resolución de problemas                    20             10                3               7
Fuente: iEA, http://timss.bc.edu/timss1995i/TiMSSPDF/AMitems.pdf.
a. La cantidad de ítems refleja la combinación total de ítems que se utilizó para formar 26 grupos de
   pruebas en ocho cuadernillos de prueba diferentes. No se requirió que ninguno de los alumnos
   rindiera la prueba completa.
                                      DESARROLLO DE UN MARCO DE EVALUACiÓN       | 17



técnicas de la evaluación nacional asignen a los subejes o dominios de
un currículo también depende de la manera en que se vaya a comuni-
car los datos de la prueba (por puntaje general o por dominio del
currículo). Deberá consultarse a los responsables de las políticas edu-
cativas para establecer cómo prefieren que se comuniquen los datos
de las pruebas.
   Si los datos se han de transmitir como un único puntaje general para
cada estudiante en un área del currículo, por ejemplo en matemáticas,
entonces se requieren al menos 25 o 30 ítems. Puede que se requieran
datos en un número de ítems un poco más pequeño para informar acerca
de un subeje, como por ejemplo la comprensión de los alumnos del
espacio o de la resolución de problemas en una prueba de matemáticas.
   La tabla 2.3 brinda un ejemplo del cuadro de especificaciones de
contenido para una prueba de matemáticas para alumnos de 3.°, 5.° y
8.° grado en Papúa Nueva Guinea. Observe que en la prueba para 3.°
grado, más del 80 por ciento de los ítems están dedicados a números
y su aplicación, espacio y forma y medidas. Solo cuatro ítems se refie-
ren a patrones y probabilidad. Para el 8.° grado los ítems se distribu-
yen de manera más pareja entre los distintos subejes.
   Las especificaciones técnicas en general se basan en un currículo
sugerido (o pretendido). Sin embargo, si no se consideran tanto el
currículo implementado (lo que los docentes enseñan) como el currí-
culo alcanzado (lo que los alumnos han aprendido) puede que la
prueba resulte demasiado difícil o demasiado fácil. Por lo tanto, no
proporcionará una descripción significativa del grado de rendimiento
de los alumnos de la población objetivo. Si la mayor parte de los
alumnos no logra responder correctamente los ítems, la prueba no


TAblA 2.3
Especificaciones técnicas de los contenidos de matemáticas para Papúa
Nueva guinea
             Números y Forma y                        Patrones Total de
Grado        aplicación espacio Medidas Probabilidad y álgebraa ítems
3.° grado         10             7          4              2                 2   25
5.° grado         10            10          7              4                 4   35
8.° grado         10            10          8              6                 6   40
Fuente: material inédito, Departamento de Educación de Papúa Nueva Guinea.
a. Álgebra aplica solamente al octavo grado.
18   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



muestra si estos alumnos están capacitados para demostrar habilida-
des con un nivel de dificultad apenas inferior o muy por debajo del
nivel de los ítems comprendidos en la prueba. Del mismo modo, si la
mayoría de los alumnos responden todos los ítems correctamente, la
prueba no indica si son capaces de demostrar habilidades con una
dificultad apenas superior o muy por encima de la de los ítems de la
prueba. Los datos provenientes de las pruebas demasiado difíciles o
demasiado fáciles son de escasa utilidad para los responsables políti-
cos, para las escuelas o para los docentes.
   La dificultad de la prueba depende del fin que persigue. Si el pro-
pósito es monitorear el desempeño de todos los alumnos en la pobla-
ción objetivo, entonces la distribución de la dificultad de los ítems de
la prueba deberá concordar con la distribución de logros de dicha
población. Como regla general, dos tercios de la prueba deben corres-
ponder a ítems en los cuales dos tercios de la población tengan entre
un 30 y un 70 por ciento de probabilidades de responder correcta-
mente. (En promedio, la probabilidad debe ser del 50 por ciento para
ayudar a maximizar la variación en los puntajes de los alumnos en
estas pruebas). El restante tercio de la prueba deberá dividirse de
forma equitativa entre los ítems en los que es probable que más del
70 por ciento de los alumnos que realizan la prueba respondan correc-
tamente e ítems donde es probable que menos del 30 por ciento lo
haga. Si bien la sensibilidad a los rendimientos de los alumnos que
reflejan estas cifras es importante, no debe generar la exclusión de
áreas importantes del currículo simplemente porque el desempeño de
los alumnos en estas áreas sea muy deficiente o muy bueno. La idonei-
dad de los ítems deberá establecerse en un programa de pruebas pre-
vias, en las cuales esos ítems se emplean con alumnos con características
similares a los de la población objetivo de la evaluación nacional.
   Algunas evaluaciones nacionales establecen niveles de rendimiento
o desempeño que se basan en una norma predefinida e identifican a los
alumnos que han alcanzado ese nivel. Si ese nivel es muy alto, la prueba
identificará a un pequeño número de alumnos que demuestran dicho
nivel de habilidades, pero presentará muy poca información acerca del
nivel de rendimiento del resto de la población, excepto que el nivel está
por debajo de la norma. Si esa norma es muy baja, la prueba identificará
a la gran masa de alumnos que demuestran este nivel de destreza, pero
                              DESARROLLO DE UN MARCO DE EVALUACiÓN   | 19



presentará muy poca información acerca de niveles superiores de
destrezas que también podrían haber adquirido estos alumnos.


VAlIDEZ

La validez es un constructo amplio que implica realizar interpretacio-
nes y usos adecuados de los resultados o de la información obtenida de
la prueba (Messick 1989). Una de las facetas de la validez es el grado
de representatividad del contenido de la prueba en lo que se refiere al
currículo o al constructo que se pretende medir. El encargado del
desarrollo de la prueba es responsable de coordinar un grupo de refe-
rencia de especialistas en las diversas materias, por ejemplo especialis-
tas en currículo, a fin de garantizar que los ítems representen un
muestreo adecuado del currículo o del constructo. El grupo de exper-
tos no debe incluir a los redactores de los ítems. En esta instancia, la
validez es una cuestión de criterio y no de estadística. El grupo de
expertos deberá determinar si la prueba representa una cobertura ade-
cuada de la materia específica (por ejemplo matemáticas de 4.° grado)
y deberá considerar si el desempeño en la prueba brinda evidencias
adecuadas del rendimiento del estudiante en esa área temática.


IDIOMA DE lA PRUEbA

El marco de la prueba deberá clarificar y justificar el o los idiomas que
se utilizarán en las pruebas de evaluación nacionales. El idioma de
una prueba generalmente es el medio de instrucción. La traducción
de los ítems de las pruebas, en aquellos casos en los que la educación
se imparte en distintas lenguas, en general resulta costosa y demanda
mucho tiempo. Las versiones traducidas de las pruebas deben ser lo
más equivalentes posible si se pretende usar los datos con fines
comparativos. A continuación se presentan algunas cuestiones que se
deben considerar al incluir en la prueba un área particular del currí-
culo utilizando más de un idioma.

•	 Si los recursos son limitados, puede que sea preferible evaluar a los
   alumnos de mayor edad en un idioma común de instrucción.
20    | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



•	 Si se reducen las palabras utilizadas en los ítems de la prueba hasta
   el mínimo indispensable se pueden reducir los costos de traduc-
   ción, pero generalmente también se descontextualiza el ítem, y por
   consiguiente se vuelve menos auténtico.
•	 Puede que sea preferible excluir a algunos alumnos de la población
   objetivo de una evaluación nacional en lugar de intentar adaptarla
   a todos los grupos lingüísticos.
•	 Algunas veces el idioma de instrucción pretendido no es la lengua
   en la que en realidad se enseña. En tales casos, los ítems de la
   prueba de evaluación nacional podrían utilizar la lengua real de
   enseñanza.
•	 En el caso de los alumnos de menor edad, especialmente si el
   idioma de enseñanza no es su primera lengua, la prueba se puede
   realizar de forma oral. El examinador lee cada una de las pregun-
   tas en voz alta o las graba y les da a los alumnos un tiempo sufi-
   ciente para que respondan. Este método de ayuda puede resultar
   particularmente adecuado para las pruebas de matemáticas y cien-
   cias para alumnos de menor edad, que podrían demostrar un
   mayor grado de conocimientos de la materia en pruebas orales que
   en una prueba que exige que lean los ítems por sí solos. Las prue-
   bas diseñadas para evaluar las habilidades de lectura independiente
   de cada uno de los alumnos, por supuesto, no deberán adminis-
   trarse de forma oral.




FORMATO DEl ÍTEM

En las evaluaciones escritas en papel, los alumnos responden una serie
de preguntas o entradas. Las respuestas escritas o dibujadas se usan
como prueba de su nivel de conocimiento, competencia o compren-
sión. Existen cuatro formatos básicos para los ítems o maneras en que
el alumno puede presentar sus respuestas:

•	   Opción múltiple
•	   Respuesta cerrada
•	   Respuesta corta abierta
•	   Ensayo o respuesta amplia
                                        DESARROLLO DE UN MARCO DE EVALUACiÓN            | 21



   En los ítems de opción múltiple (véase el recuadro 2.3) el alumno
debe seleccionar una de varias opciones (en general, 4). Las opciones
pueden estar escritas en letras o como imágenes con leyendas. Pueden
estar en una lista —una debajo de la otra—, en una fila horizontal o
en dos columnas. Los alumnos indican sus respuestas rellenando un
círculo, encerrando una letra o número en un círculo, o marcando un
casillero para seleccionar una porción de texto o un diagrama. Los
ítems de opción múltiple tienen una opción “correcta” inequívoca y
varias opciones posibles pero incorrectas. El disco compacto (CD)
que acompaña este libro contiene muchos ejemplos de ítems de
opción múltiple para lengua, matemáticas y ciencias para alumnos de
nivel primario y posprimario.
   Las preguntas de respuesta cerrada (véase el recuadro 2.4) tienen
una respuesta correcta que escribe el alumno. Generalmente las varia-
ciones mínimas en la forma de expresar la respuesta son aceptables.
Puede ser que los alumnos deban escribir una o dos palabras, subrayar
una palabra o número dentro de un texto o tabla, dibujar una línea en
una cuadrícula, o indicar un área en un diagrama. Es posible que en



 RECUADRO 2.3


  Ejemplos de ítems de opción múltiple

  1. ¿Cuál de los siguientes elementos es más probable que se mida en
     mililitros?

      A. La cantidad de líquido que contiene una cuchara de té

      b. El peso (masa) de un alfiler

      C. La cantidad de gasolina que contiene un tanque

      D. El espesor de 10 hojas de papel
  Fuente: iEA 1998, ítem de muestra.
  Nota: A es la respuesta correcta.

  2. Una botella de jugo de manzana cuesta $1,95. El pan cuesta $2,75. ¿Cuál
     de las siguientes opciones es lo mínimo que se necesita para comprar el
     jugo de manzana y el pan?
     o $3,75                o $4,00               o $4,80                o $5,00
  Fuente: Consejo Australiano de investigación Educativa, sin fecha, ítem de muestra.
  Nota: $4,80 es la respuesta correcta.
22    | DESARROLLO DE PRUEbAS Y CUESTiONARiOS




 RECUADRO 2.4


     Ejemplo de ítem de respuesta cerrada

     En el siguiente enunciado numérico:

     2000 + _____ + 30 + 9 = 2739

     ¿Qué número va en _____ para que el enunciado sea correcto?

     Respuesta: ____________
     Fuente: iEA 1998, ítem de muestra.




 RECUADRO 2.5


     Ejemplos de ítems de respuesta corta abierta

     a. ¿Cómo se puede averiguar la edad de un árbol después de cortarlo?




     b. Escribir un ejemplo de cómo las máquinas ayudan a las personas a hacer su
        trabajo.




     Fuente: iEA 1998, ítem de muestra.




los ítems de respuesta cerrada, los alumnos también tengan que selec-
cionar varias opciones que cumplan con determinados criterios o
hacer corresponder una serie de pares de oraciones o diagramas.
(Véase en el CD, por ejemplo, los ítems 6, 9, 11 y 19 de la Prueba de
matemáticas 1990-2000 para 4.° grado de ENPE y los ítems S011032
y S031053 de la Prueba de ciencias para 4.° grado de la Encuesta
TIMSS).
   En los ítems de respuesta corta abierta (véase el recuadro 2.5) los
alumnos deben generar una respuesta para la cual pueden existir
varias opciones diferentes pero correctas. En general, la respuesta se
debe dar con una breve explicación, la demostración de un proceso o
un dibujo detallado (más de uno o dos renglones). Es posible que el
                                    DESARROLLO DE UN MARCO DE EVALUACiÓN     | 23



alumno deba escribir una o dos oraciones, completar una serie de
pasos o ecuaciones o completar varios aspectos de un dibujo, gráfica o
diagrama. (Véase en el CD, por ejemplo, los ítems 6, 7 y 11 del
“Apéndice B: Rescate del delfín”, ítems de muestra de Lectura interna-
cional para 4.° grado de la encuesta PIRLS 2006).
   En los ítems de Ensayo o respuesta amplia (véase el recuadro 2.6),
los alumnos deben responder desarrollando un tema con respuestas


 RECUADRO 2.6


  Ejemplo de instrucciones para la escritura de un ensayo

  Las instrucciones para la redacción de un ensayo pueden ser escritas o
  ilustradas. Es importante que los alumnos entiendan qué tipo de ensayo se les
  pide que hagan. Por ejemplo, puede ser que tengan que explicar sus ideas,
  expresar una opinión, escribir un texto persuasivo o narrar una historia. Esta
  información suele formar parte de las instrucciones que se dan durante la
  administración de la prueba.

      La ilustración que se muestra en el siguiente ejemplo se usó en Papúa
  Nueva Guinea para evaluar la destreza de los alumnos en la redacción de un
  texto narrativo. El examinador les indicó que podían usar las ideas de la
  ilustración o las propias para escribir una historia sobre la caza.




  Escribir una historia sobre la caza.
  Fuente: Departamento de Educación de Papúa Nueva Guinea 2004.
24   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



extensas, a veces de cierta complejidad. El texto de la respuesta puede
ocupar una o más páginas o incluir diagramas. Existen muchas formas
“correctas” de responder un ensayo o un ítem de respuesta amplia.
(Véase, por ejemplo, la pregunta 9 del CD, “Un juez justo”, ítems de
lectura, Lectura Internacional del programa PISA 2000, y los ítems 33,
35 y 39 de Lectura principal ENPE, 1990-2006: 4.° grado).
   Los tres primeros formatos de ítems comúnmente son los más usa-
dos en evaluaciones nacionales, en parte por el costo que implica cali-
ficar manualmente una gran cantidad de ensayos de manera confiable.
El documento marco de la prueba debe indicar los porcentajes esti-
mados de los diferentes tipos de ítems de la prueba final. También
debe incluir muestras de tipos de ítems para ayudar a los integrantes
del comité director y a otros actores a familiarizarse con el enfoque de
la evaluación.
   La elección del formato del ítem y de su forma de puntuación influye
significativamente en el costo total de la prueba. La calificación manual
que exigen algunos ítems es más costosa, lleva más tiempo y por ende
demora la publicación del informe. Se deben desarrollar guías para ese
tipo de calificación y se deben contratar y capacitar correctores. Cuanto
más complejas sean las guías de puntuación, mayores serán los costos.
Los ítems de ensayos y de respuestas amplias suelen ser más costosos.
La calificación de los ítems de opción múltiple suele ser menos costosa
pero su elaboración es más cara comparada con otros tipos de ítems.
A continuación se describen algunas cuestiones de costos a tener en
cuenta al seleccionar el formato de ítem para la prueba.
   En general, el software de análisis de datos califica los ítems de
opción múltiple como correctos o incorrectos y no es necesario califi-
carlos antes del análisis. Solo hay que ingresar las respuestas de los
alumnos en la computadora. Esto se puede hacer electrónicamente,
mediante escaneo de las respuestas, o manualmente. El escaneo es el
método menos costoso para pruebas a gran escala. Se necesitan equi-
pos especiales y en algunos casos asistencia técnica de respaldo. Los
ítems escaneados pueden limitarse a un formato particular de res-
puesta (por ejemplo, sombreado del círculo). Pero si el ingreso de
datos es manual, se pueden incluir más estilos de opción múltiple
(por ejemplo, encerrar palabras en un círculo, marcar casilleros o unir
con líneas las opciones elegidas).
                             DESARROLLO DE UN MARCO DE EVALUACiÓN   | 25



   La calificación de los ítems de opción múltiple no debe quedar
limitada a correctos o incorrectos sin un análisis previo de los datos,
ya que se puede obtener información de diagnóstico valiosa acerca del
desempeño del alumno si se registra cada opción. Si se escanean los
datos, se debe asegurar que todas las respuestas queden registradas. Si
se emplea un esquema uniforme se reduce el costo del ingreso manual
de ítems de opción múltiple.
   Los ítems de respuesta cerrada se deben calificar manualmente ya
que varias respuestas diferentes pueden ser correctas. Las guías de
calificación deben especificar el rango de respuestas aceptables y no
aceptables. En general, el rango de opciones correctas posibles para
este tipo de ítems es limitado. Dichas guías son relativamente simples
y directas y el tiempo de capacitación de correctores es en general
breve, pero se deben implementar y mantener controles de calidad.
   Los ítems de respuesta corta abierta se califican manualmente.
Como la cantidad y el rango de respuestas aceptables y no aceptables
pueden ser amplios, las guías de calificación pueden llegar a ser bas-
tante complejas y demandar mayor capacitación del corrector. El
cotejo continuo durante la corrección es fundamental para controlar
la calidad.
   Los ítems de respuesta amplia tienen guías de calificación comple-
jas y demandan una capacitación amplia del corrector. Para el control
de calidad de estos ítems es fundamental la doble corrección continua
de todos o algunos de los textos. Las guías de calificación también
demandan un proceso de elaboración exhaustivo a efectos de la capa-
citación y deben incluir ejemplos de respuestas que se correspondan
con cada uno de los niveles de la guía.
   Se pueden combinar distintos formatos de ítems en la misma
prueba. Por ejemplo, una prueba puede contener ítems de opción múl-
tiple, algunos de respuesta cerrada y otros de respuesta corta abierta.
   Los redactores de ítems deben tratar de asegurar que el formato de
los ítems de cada prueba sea una manera adecuada y eficaz de evaluar
la comprensión de un logro de aprendizaje en particular. También
deben tratar de minimizar el volumen innecesario de lectura, redac-
ción o cálculo requerido para responder un ítem en particular.
   La decisión acerca del o los formatos de los ítems que se utilizarán
y su proporción en una prueba debe tomarse teniendo en cuenta si el
26   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



formato es apropiado para medir un constructo o área de conocimiento
o habilidad, y también considerando las restricciones prácticas, tales
como la pericia necesaria para desarrollar distintos formatos de ítems
y el costo de calificarlos manualmente. En la tabla 2.4 se sintetizan
algunas ventajas y limitaciones de los formatos de ítems.

TAblA 2.4
Ventajas y limitaciones de los formatos de los ítems
 Formato del
 ítem                        Ventajas                        Limitaciones
 Opción             Muchos ítems de una misma  •   
                 •                                    Se necesita experiencia 
 múltiple           prueba pueden abordar una         para desarrollar ítems de
                    diversidad de logros.             buena calidad.
                    Los ítems permiten 
                 •                                    Los alumnos no pueden 
                                                   •   
                    establecer diferencias sutiles    demostrar su comprensión.
                    en el conocimiento y              Los alumnos pueden 
                                                   •   
                    comprensión de los alumnos.       adivinar la respuesta.
                    No se requiere calificación 
                 •   
                    manual, por lo que la
                    evaluación es relativamente
                    económica.
 Respuesta          Los alumnos generan o 
                 •                                      Los ítems suelen abordar 
                                                     •   
 cerrada            recuerdan la información.           un número limitado de
 (respuesta de      La calificación manual es 
                 •                                      logros (principalmente,
 una o dos          relativamente clara y directa.      recuerdo y recuperación de
 palabras)                                              información).
 Respuesta          Es posible pedir a los 
                 •                                      Se necesita experiencia 
                                                     •   
 corta abierta      alumnos que demuestren              para redactar claramente
 (respuesta de      niveles de compresión altos.        ítems específicos.
 una o dos          Los ítems pueden abordar 
                 •                                      Se necesitan correctores 
                                                     •   
 oraciones)         una diversidad de                   capacitados y medidas de
                    resultados.                         control de calidad, con lo
                    A veces puede medir la 
                 •                                      cual aumentan los costos.
                    comprensión parcial.                Los ítems que llevan más 
                                                     •   
                                                        tiempo para que el alumno
                                                        responda reducen la
                                                        diversidad de logros que
                                                        se pueden abordar.
 Ensayo o           Los alumnos pueden 
                 •                                      Puede abordar un número 
                                                     •   
 respuesta          demostrar una compresión            limitado de logros.
 amplia             profunda.                           Se necesitan correctores 
                                                     •   
                    Puede medir una diversidad 
                 •                                      capacitados y medidas de
                    de comprensión parcial.             control de calidad, lo que
                                                        genera mayores costos.
                                    DESARROLLO DE UN MARCO DE EVALUACiÓN        | 27



TAblA 2.5
Prueba de matemáticas de Papúa Nueva guinea - Formatos de ítems
Grado - Nivel               Opción múltiple                Respuesta corta abierta
3.° grado                          20                                 5
5.° grado                          25                                10
8.° grado                          25                                15
Fuente: Departamento de Educación de Papúa Nueva Guinea 2004.




   Las pruebas de matemáticas de Papúa Nueva Guinea cambian la
proporción de ítems de opción múltiple por preguntas de respuesta
corta abierta, según el grado que se evalúa (véase la tabla 2.5). La
prueba de 8.° grado, por ejemplo, tiene más ítems que la de 3.° grado.
Este aumento se debe, en gran parte, a una mayor presencia de ítems
de respuesta corta abierta.
   El tiempo asignado para que los alumnos realicen la prueba debe
ser suficiente para permitir que la mayoría pueda responder la mayor
cantidad de ítems. Es importante recopilar información sobre el
tiempo que les demanda hacer la prueba previa o los ítems de la
prueba de campo. La extensión de la prueba puede variar pero los
alumnos deberían poder completar la gran mayoría de los ítems
aproximadamente en 40 minutos. Es posible que las pruebas con
ítems en su mayor parte de opción múltiple tengan más ítems que las
que tienen mayoría de respuestas cortas. Las pruebas para alumnos de
escuelas secundarias pueden incluir más ítems y se les puede dar más
tiempo para realizarlas. Si no están familiarizados con los formatos de
los ítems en una evaluación, seguramente necesitarán más tiempo
para responder.



POblACIÓN ESCOlAR A EVAlUAR

El documento marco de la prueba debe definir la población objetivo
de la evaluación (por ejemplo, 4.° grado) e indicar por qué se selec-
cionó esa población en particular. En un país determinado, el docu-
mento marco podría justificar, por ejemplo, que se seleccione 3.°
grado con el argumento de que el abandono escolar es importante
después de ese grado; podría justificar que se tome la prueba en 4.°
28   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



grado porque la mayoría de los alumnos ya debería poder leer en ese
grado, o podría justificar que se tome en el último grado de la escuela
primaria para evaluar los logros del aprendizaje de los alumnos en
este punto importante del sistema educativo. El documento marco
también podría especificar subpoblaciones de alumnos que se podrían
excluir de la muestra nacional, por ejemplo alumnos con necesidades
educativas especiales o alumnos de escuelas pequeñas en zonas
alejadas.



INFORME DE RESUlTADOS

Desde el principio, se debe lograr un acuerdo con el comité director
sobre cómo se deben informar los resultados. La Evaluación
Nacional de Lectura en Lengua Inglesa de Irlanda informó puntajes
distintos para tipos de texto y para proceso cognitivo. El documento
marco de esta evaluación nacional proponía evaluar dos escalas
de tipos de texto (literario e informativo) y dos escalas de proceso
(recuperación e inferencia-interpretación) para 1.° grado. Para el
nivel de 5.° grado, el documento proponía evaluar tres subescalas de
tipos de textos (literario, informativo continuo e informativo discon-
tinuo) y tres escalas de proceso (recuperación, inferencia e interpre-
tación-evaluación) (Eivers et al. 2005). En la Encuesta Internacional
sobre Alfabetización de Adultos se utilizaron textos discontinuos en
la escala documentos para evaluar el desempeño. El marco del
Estudio Internacional de Progreso en Comprensión Lectora (PIRLS)
especificaba que los ítems de las pruebas se ordenarían en escalas
para dos objetivos de lectura: como experiencia literaria y para obte-
ner y aplicar la información. También proponía combinar ambas
escalas y asignar un puntaje general de comprensión lectora
(Campbell et al. 2001).
   Debe hacerse saber al comité director que el informe de resultados
por subescalas depende del análisis de los ítems. Las evaluaciones a
nivel internacional y muchas a nivel nacional emplean la modeliza-
ción de respuesta a los ítems para determinar si concuerdan debida-
mente con las subescalas. En esta etapa, podría asesorarse al comité
director, a través de una introducción no técnica al concepto de
                             DESARROLLO DE UN MARCO DE EVALUACiÓN   | 29



informe de resultados por niveles de rendimiento, que comúnmente
se conocen como niveles de competencia, y se podría solicitar la opi-
nión de sus miembros con respecto a la forma en que prefieren que se
informen esos resultados. El desempeño de los alumnos se puede des-
cribir en porcentajes de ítems respondidos correctamente o de nive-
les, por ejemplo, avanzado (supera el nivel esperado) competente
(alcanza el nivel esperado), básico (no alcanza el nivel esperado) o
inferior al básico (desempeño por debajo del nivel básico).
Probablemente, debe reconsiderarse la cantidad de niveles de compe-
tencia luego del análisis de las pruebas previa y final. El volumen 4 de
esta serie, Análisis de los datos de una evaluación nacional del rendi-
miento académico, abarca la teoría de respuesta al ítem y los niveles de
competencia.
   El marco también debe indicar los tipos de informes de evaluación
nacional que se van a publicar al finalizar dicha evaluación. Estos
informes podrían incluir un informe técnico, una serie de informes
resumidos para determinado público, por ejemplo, capacitadores
docentes, encargados del plan de estudios y responsables de las políti-
cas, y comunicados e informes de prensa.



CONTEXTOS

Muchos responsables de las políticas educativas emplean las evalua-
ciones nacionales para recopilar información contextual adicional
sobre factores que pueden afectar o influir directamente en la calidad
del aprendizaje escolar en áreas específicas del currículo. El comité
director deberá indicar pautas generales en la selección de las varia-
bles contextuales que se pretenden evaluar. Esta información, a su
vez, puede ser utilizada por la agencia implementadora como guía en
el desarrollo de los cuestionarios. La información contextual puede
ser particularmente útil para los responsables de las políticas si pre-
tenden comprender las razones de las diferencias en los niveles de
logro de los alumnos.
   Muchas evaluaciones enfatizan los contextos de la escuela y del
hogar. Los factores del hogar generalmente incluyen la condición
socioeconómica, muchas veces medida según los bienes que posee el
30   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



hogar, el nivel de educación de los padres, el idioma que se habla en
el hogar, la estructura y tamaño de la familia, la orientación académica
a su alcance, los procesos del hogar (tales como leer a los niños u otras
formas de orientación que fomenten el aprendizaje), y las relaciones
hogar-escuela.2 Los contextos escolares frecuentemente incluyen los
recursos escolares y del aula, la administración y organización escolar,
la naturaleza y nivel de capacitación de los docentes, las estrategias de
enseñanza y el ambiente del aula. Algunas evaluaciones recogen datos
sobre las actitudes de los alumnos respecto de la escuela y áreas temá-
ticas individuales, los intereses y conductas de los alumnos (por ejem-
plo, la cantidad de tiempo dedicado a ayudar en el hogar, a trabajar o
a leer por placer). Los detalles de cómo diseñar y redactar los ítems de
los cuestionarios se tratan más adelante en este libro, y el CD que
acompaña esta obra contiene ejemplos de ítems de cuestionarios dise-
ñados para obtener información contextual de los alumnos, los padres,
los docentes y los directivos de la escuela.



NOTAS

1. Después de su tercera implementación, esta serie de estudios se denominó
   Estudio Internacional de Tendencias en Matemáticas y Ciencias y conservó
   la sigla TIMSS.

2. Téngase en cuenta que en algunos países existe una aversión a recopilar
   datos de antecedentes socioeconómicos.
             3
Ca p í t u l o               REDACCIÓN DE LOS
                             ÍTEMS




                               Este capítulo describe las características de un
          buen ítem en una prueba, las pautas para redactar ítems, la estructura
          y la organización de los ítems para elaborar una prueba y la puntua-
          ción de los ítems.1 También se describen las funciones del personal
          que participa en el desarrollo de la prueba: el equipo de redacción de
          ítems y otros revisores, que trabajan bajo la dirección del encargado
          del desarrollo de la prueba.
             Se debe tener en cuenta que la calidad de una prueba depende en
          gran parte de la claridad con la que la prueba cumple con su propó-
          sito y la precisión con la que los ítems coinciden con unas especifica-
          ciones técnicas bien trazadas. Los ítems buenos son claros, relevantes
          para el currículo y se enfocan en un aspecto de la enseñanza. Establecen
          tareas interesantes y genuinas que son justas para los estudiantes de
          diferentes idiomas y con diferentes características culturales.
             Un buen ítem tiene las siguientes características:

          •	 Aborda un área clave de aprendizaje.
          •	 Es una tarea constructiva y significativa.
          •	 Se puede identificar con características importantes establecidas en
             el marco o en los documentos de diseño del proyecto.
          •	 Es justo.


                                                                               31
32   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



•	 El estímulo sigue temas centrales, no detalles periféricos o triviales.
•	 Le dice claramente a los estudiantes lo que deben hacer.
•	 Es autosuficiente y no depende del entendimiento de un ítem
   previo.
•	 Si es sobre vocabulario, se dirige al significado de la palabra en su
   contexto, en lugar del conocimiento general.
•	 Preferentemente, se expresa en términos positivos; los negativos
   tienden a provocar confusión.

   Los redactores de ítems pueden beneficiarse enormemente del
examen de modelos de ítems de alta calidad relevantes. Muchas
organizaciones examinadoras publican ítems de muestra en Internet.
Los ítems de prueba publicados también pueden provenir de prue-
bas internacionales, tales como el Estudio Internacional de
Tendencias en Matemáticas y Ciencias (TIMSS), el Programa para la
Evaluación Internacional de Alumnos (PISA) y el Estudio sobre el
Progreso Internacional de la Competencia en Lectura (PIRLS), así
como evaluaciones internacionales de otros países, como la
Evaluación Nacional del Progreso Educativo (NAEP) de EE. UU.
El disco compacto (CD) complementario incluye muchos ejemplos
de ítems de estas y otras fuentes. En el apéndice B se detallan los
sitios web. Los ítems de prueba publicados se pueden utilizar en
otras pruebas, siempre que el material contenido y la redacción del
ítem sean apropiados. Este material puede ser una fuente económica
y útil de ítems de prueba. Estos ítems (junto con las respuestas)
suelen encontrarse en Internet. Por lo tanto, tales ítems no deben
utilizarse si es probable que los estudiantes tengan acceso a ellos
antes de realizar la prueba de evaluación nacional. También se puede
obtener permiso de las autoridades competentes para utilizar ítems
apropiados de pruebas no divulgados. Este enfoque puede ser más
económico que el desarrollo de ítems. Sin embargo, los expertos en
currículo deberán revisar tales ítems y examinarlos previamente
para determinar si son adecuados.
   El desarrollo de la pericia en la redacción de ítems para cada sec-
ción del diseño de un proyecto lleva tiempo. Los redactores de ítems
deben tener un entendimiento común de la terminología de los ítems
y de lo que estos deben medir. Para alcanzar este entendimiento,
                                             REDACCiÓN DE LOS ÍTEMS   | 33



deben tratar de clasificar cada borrador de ítem mientras lo elaboran,
mediante los siguientes criterios:

•	 Formato del ítem (por ejemplo, de opción múltiple, de respuesta
   cerrada o de respuesta abierta).
•	 Tipo de texto (para una prueba de comprensión lectora) (por
   ejemplo, narrativo o expositivo).
•	 Nivel de grado (por ejemplo, 5.° grado).
•	 Resultado del aprendizaje (por ejemplo, suma de números
   enteros de dos dígitos o identificación de la idea principal en una
   historia).
•	 Proceso cognitivo (por ejemplo, conocimiento, memoria, interpre-
   tación o síntesis).

   No siempre se puede saber el nivel del proceso cognitivo relacionado
con la respuesta a un ítem. Si los estudiantes no estuvieran familiariza-
dos con un proceso, tal como el resumen de un párrafo informativo, tal
vez les sea necesario un nivel de procesamiento superior al que se nece-
sitaría si estuvieran acostumbrados a hacer resúmenes.



DIFICUlTAD DE lOS ÍTEMS

Obtener un nivel de dificultad apropiado para los ítems es una tarea
exigente para la mayoría de los redactores. En muchos países, el con-
tenido del currículo previsto es demasiado difícil para la mayoría de
los estudiantes. Por consiguiente, los redactores de ítems a menudo
deben redactar un borrador de varios ítems para medir habilidades
más fáciles que aquellas enumeradas en los currículos previstos. Por
ejemplo, las pruebas de rendimiento académico en matemáticas dise-
ñadas para 5.° grado con frecuencia incluyen ítems basados en objeti-
vos que los estudiantes deberían haber alcanzado en 3.° y 4.° grado.
   Es más probable que los docentes con experiencia tengan mejor
percepción sobre los probables niveles de dificultad de los ítems que
los funcionarios educativos o los académicos. Sin embargo, aunque el
juicio del docente es útil, no es adecuado. Es esencial someter a prueba
los ítems previamente en muestras de estudiantes más o menos
34   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



similares a aquellos existentes en la población objetivo para obtener
datos iniciales objetivos sobre los niveles de dificultad de los ítems.
Esto puede ayudar a evitar el error frecuente de realizar pruebas con
ítems que terminan siendo demasiado difíciles.
   Muchos factores pueden ocasionar que ciertos ítems, que el redac-
tor consideró simples, resulten bastante difíciles. Asimismo, algunos
ítems que se diseñaron para ser difíciles pueden redactarse o presen-
tarse de tal modo que pueden resultar bastante fáciles. En el caso de
los ítems que usan el formato de opción múltiple, los redactores
deben evitar lo siguiente:

•	 Introducir en el enunciado y la clave pistas gramaticales o lógicas
   que apunten a la respuesta correcta, tal como un enunciado
   que contenga un sustantivo en singular para opciones en plural
   excepto una.
•	 Introducir términos absolutos, tales como “siempre” o “nunca”, que
   pueden excluir algunas opciones o llevar a la respuesta correcta.
•	 Redactar la respuesta correcta de manera mucho más larga o deta-
   llada que las otras opciones.
•	 Incluir palabras clave o frases del material de estímulo en la opción
   correcta, pero no en las otras opciones.
•	 Disponer las opciones en un orden ilógico o con un patrón confuso.
•	 Dar pie a que las opciones y la clave se superpongan considerable-
   mente, de modo que la distinción de la “mejor” respuesta dependa
   de las habilidades lingüísticas y no del conocimiento de lo que se
   evalúa.
•	 Incluir preguntas que se puedan responder sin hacer referencia al
   estímulo.

  En el caso de los ítems con formato de respuesta construida, es
importante desarrollar criterios de puntuación claros que obtengan lo
que el ítem intenta medir.



SESgO DE lOS ÍTEMS

Los estudiantes son portadores de experiencias culturales y conocimien-
tos diversos. No deberían ser penalizados ni favorecidos por experiencias
que no incumben al conocimiento, las habilidades y el entendimiento
                                            REDACCiÓN DE LOS ÍTEMS   | 35



que la prueba intenta evaluar. Por ejemplo, los ítems sobre un deporte
masculino popular pueden desfavorecer a las mujeres.
   Los ítems también pueden estar sesgados si molestan a ciertos estu-
diantes, pero no a otros. El material de estímulo no debe herir suscep-
tibilidades éticas, culturales o de otro tipo. No se debe dar cabida a
que algunos estudiantes se ofendan, asusten o molesten debido al
material de la prueba. El encargado del desarrollo de la prueba debe
sensibilizar a los redactores de ítems sobre las diferentes formas de
sesgo. Se debe alentar a los comités de revisión a que estén atentos a
ítems de prueba o cuestionario que puedan estar sesgados o que pue-
dan ofender. El cuarto volumen de esta serie, Análisis de los datos de
una evaluación nacional del rendimiento académico, presenta una téc-
nica estadística que se puede utilizar para ayudar a detectar ítems
sesgados en las etapas de prueba previa y prueba final.



MATERIAl DE ESTÍMUlO

El material de estímulo contextualiza el ítem. Puede ser un segmento
de un texto, un diagrama, un gráfico, una tabla, un mapa, un cuadro o
cualquier combinación de los mismos.
   La mayor parte del desarrollo de una prueba comienza con la selec-
ción o la creación del material de estímulo apropiado. Por lo general,
las pruebas de comprensión lectora se basan en textos de gran exten-
sión que se prestan a una serie de ítems o una unidad que aborda una
diversidad de habilidades relevantes. Las pruebas de matemáticas y
ciencias pueden incluir un material de estímulo breve, tal como núme-
ros para sumar o una ecuación que se debe completar. Los ítems de
matemáticas y ciencias también pueden incluir un estímulo más com-
plejo, como un gráfico, un cuadro, una tabla o un diagrama con una
serie de ítems asociados que abordan una cierta serie de habilidades.
   El material de estímulo debe presentar de forma clara las caracte-
rísticas principales que se deben evaluar. No debe contener detalles
superfluos, repetitivos o innecesarios. Un buen material de estímulo
tiene las siguientes características:

•	 Es sustancial y vale la pena examinarlo con atención.
•	 Es probable que sea de interés para la audiencia objetivo.
36    | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



•	 Está bien escrito y bien diseñado.
•	 Es óptimo en cuanto a su nivel de desafío; ni demasiado difícil ni
   demasiado fácil.
•	 No presenta desafíos engañosos.
•	 Es correcto en cuanto a los hechos.
•	 Ofrece la oportunidad de usar preguntas indagatorias.
•	 Es autosuficiente.

   Cuando sea apropiado, es importante proporcionar contexto para el
material de estímulo. El contexto se puede indicar mediante un enca-
bezado o una introducción breve. Por ejemplo, un fragmento de una
novela de ciencia ficción se puede presentar de la siguiente manera:
“Este fragmento pertenece a una novela que se sitúa en el futuro”.
   Es preferible que las imágenes sean una parte intrínseca del mate-
rial de estímulo, que proporcionen un significado adicional. Si las imá-
genes se incluyen simplemente como decoración, no deben ayudar a
los estudiantes a entender del texto.
   A veces, el material de estímulo crea un contexto artificial e innece-
sario para un ítem. El recuadro 3.1 contiene material irrelevante. Este
ítem trata en realidad sobre el área de una superficie. En la vida real,
Irene no estaría preocupada por la menor cantidad de papel que usaría.
En realidad, podría necesitar una pequeña cantidad adicional para
doblar los bordes. Los estudiantes más aptos podrían responder a este
ítem de forma incorrecta al calcular el papel adicional. El ítem se


 RECUADRO 3.1


     Ejemplo de material de estímulo irrelevante

     irene tiene que envolver con papel esta caja. ¿Qué cantidad mínima de
     papel deberá usar?




                                                     80 cm
                                                          REDACCiÓN DE LOS ÍTEMS   | 37



redacta mejor simplemente de la siguiente manera: “La longitud de un
lado de un cubo es de 80 cm. ¿Cuál es el área de la superficie del cubo?”
   Un estímulo que intenta describir el contexto de la vida real debe
ser preciso en cuanto a los hechos. La información en el recuadro 3.2
probablemente sea inexacta. Por lo general, los seres humanos no pre-
sentan el tipo de patrón de crecimiento mostrado. Los niños que tien-
den a ser altos a menudo demuestran este atributo desde muy
pequeños. Si el material de estímulo requiere patrones de crecimiento
desiguales, puede ser preferible utilizar plantas en lugar de seres
humanos con fines comparativos.
   Los ítems se deben redactar con el lenguaje más simple y claro
posible. La redacción debe ser simple para que sea razonable esperar
que los estudiantes lo entiendan:

•	   Evitar vocabulario complejo.
•	   Evitar oraciones largas.
•	   No utilizar oraciones complicadas.
•	   No utilizar una lógica difícil.



 RECUADRO 3.2


     Ejemplo de un ítem con información inexacta o engañosa

     El gráfico muestra el cambio en la altura de Mario y Lita a medida que
     crecen.




                                 160                             Mario
                 estatura (cm)




                                 120
                                                                      Lita

                                  80


                                  40


                                  0
                                       2   4     6         8     10
                                               edad (años)
38   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



•	 Evitar las preguntas ambiguas o vagas.
•	 Evitar los dobles negativos.
•	 Evitar las incoherencias (por ejemplo, el uso de diferentes unidades
   de medición en las opciones o diferentes términos para referirse a
   lo mismo).
•	 No utilizar expresiones vagas o términos extraños que no se defi-
   nan de forma adecuada.



FORMATO DE lOS ÍTEMS

Se describen dos formatos importantes: de opción múltiple y de res-
puesta corta (consulte el capítulo 2).2 Considere utilizar un formato
de opción múltiple a los siguientes efectos:

•	 Limitar la cantidad de opciones.
•	 Obtener una respuesta concisa.
•	 Evitar que los estudiantes tengan que copiar grandes secciones del
   texto de estímulo.
•	 Cubrir un amplio número de temas de forma eficiente.

   Considere utilizar un formato de respuesta corta (de respuesta
cerrada o de respuesta abierta) a los siguientes efectos:

•	 Evaluar el significado que los estudiantes deben generar por su
   cuenta.
•	 Evaluar los diferentes niveles de entendimiento, mediante un ítem
   de crédito parcial que otorgue un puntaje completo para una res-
   puesta que muestre la comprensión de una idea compleja y que
   otorgue un puntaje parcial para una respuesta que muestre la
   comprensión de una parte simple de la idea.
•	 Evaluar un número restringido y claramente definible de posibles
   respuestas correctas.
•	 Buscar una respuesta en una situación donde la respuesta correcta
   aparecería con claridad en un formato de opción múltiple debido a
   la falta de opciones incorrectas convincentes.

   Para responder ítems de respuesta corta, los estudiantes deben
tener un dominio adecuado del vocabulario y la expresión. No utilice
                                                     REDACCiÓN DE LOS ÍTEMS   | 39



preguntas de respuesta corta si es probable que los estudiantes copien
una gran parte del texto de estímulo.


Redacción de los ítems de opción múltiple

Un ítem de opción múltiple consta de un enunciado y cierta cantidad
de opciones de respuesta. A veces, cuando es necesaria una respuesta
verdadero/falso, solo se requieren dos opciones. Sin embargo, estos
ítems son algo ineficaces. Es más común proporcionar cuatro o cinco
opciones. La opción correcta es la clave y las opciones incorrectas son
los distractores (recuadro 3.3).
   El enunciado de un ítem puede adoptar varias formas, tales como:

•	 Una oración inconclusa.
•	 Una pregunta definida de forma explícita.
•	 Una oración a la que le falta información (Carlos tiene ________
   hermanos).

   Si el enunciado es una oración incompleta, debe contener sufi-
ciente información como para indicar la naturaleza de la pregunta.
El estudiante no debe necesitar leer los distractores para inferir la
pregunta. Todas las opciones de una oración incompleta deben:

•	   Ser gramaticalmente coherentes con el enunciado.
•	   Estar escritas en un estilo similar.
•	   Estar puntuadas correctamente.
•	   Comenzar con una letra en minúscula y terminar con un punto.

 RECUADRO 3.3


     Ejemplo de un ítem de opción múltiple
     Tula tiene 3 flores. Papá le da 2 flores más.     enunciado
     ¿Cuántas flores tiene Tula en total?
     A 2

     B 3              distractores

     C 4

     D 5               clave (respuesta correcta)
40    | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



   Al redactar ítems de opción múltiple se deben recordar los siguien-
tes puntos:

•	 Puntuar las oraciones completas de manera correcta. En el
   recuadro 3.4, todas las opciones son oraciones completas con la
   puntuación apropiada.
•	 Puntuar las listas de manera apropiada. En el recuadro 3.5, las
   opciones son listas de palabras. Estas opciones no tienen signos de
   puntuación.
•	 Minimizar la cantidad de lectura. Para minimizar la cantidad de
   lectura requerida, el redactor del ítem debe colocar la mayor parte
   posible del ítem en el enunciado (consulte el recuadro 3.6).
•	 Evitar enunciados negativos. Debido a que un enunciado negativo
   causa confusión, se debe evitar su uso. Si el enunciado solo se puede



 RECUADRO 3.4


     Puntuación en oraciones completas

     ¿Qué opinó Miho del mercado?

     A Estaba lleno de gente y la comida era buena.

     b Era económico y la comida era deliciosa.

     C La comida era buena, pero no había nadie allí.

     D Era económico, pero la comida no era muy buena.




 RECUADRO 3.5


     Puntuación en una lista

     ¿Durante cuánto tiempo se quedará Joe en la casa de su abuelo en bali?

     A una semana

     b dos semanas

     C un mes

     D dos meses
                                                  REDACCiÓN DE LOS ÍTEMS    | 41



 RECUADRO 3.6


   Minimizar la cantidad de texto que debe leerse

   ¿Durante cuánto tiempo se quedará Joe en la casa de su abuelo en bali?

   No esto                                   Sino esto

   Carl fue                                  Carl y su familia fueron

   A al río con su familia.                  A al río.

   b a la playa con su familia.              b a la playa.

   C al campo con su familia.                C al campo.

   D a las montañas con su familia.          D a las montañas.




 RECUADRO 3.7


   Ítem con un enunciado negativo

   ¿Qué le dijeron los padres de Mario a Mario que no podía tener en su casa?

   A un perro

   b sus zapatos malolientes

   C la manta del caballo

   D una canasta con frutas




   expresar de forma negativa, resalte la palabra “no” con negrita o
   cursiva (consulte el recuadro 3.7). Si el enunciado negativo es
   inevitable, las opciones nunca deben ser negativas.
•	 Variar el uso de distractores emparejados. Los métodos de construc-
   ción de distractores deben variar a lo largo de la prueba para que los
   patrones no salten a la vista y ayuden al estudiante. Por ejemplo, no es
   aconsejable emparejar la clave (B) con su opuesto (A) (recuadro 3.8).
   Si el patrón en el recuadro 3.8 se repite durante la prueba, se hará
   evidente para algunos estudiantes familiarizados con las pruebas que
   solamente necesitan tener en cuenta los distractores emparejados
   (A y B). Una solución es redactar algunos ítems en los que la clave no
   sea uno de los opuestos emparejados. Otra solución es incluir dos
   pares de opuestos en un ítem, como se muestra en el recuadro 3.9.
42    | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



 RECUADRO 3.8


     Distractores mal emparejados

     A Tom no le gustó la chaqueta porque

     A era demasiado grande.

     b era demasiado pequeña.

     C era del color equivocado.

     D no era lo suficientemente abrigada.




 RECUADRO 3.9


     Uso de pares en los distractores

     A Tom no le gustó la chaqueta porque era demasiado

     A grande.

     b liviana.

     C pequeña.

     D pesada.




•	 Evitar el uso de determinados distractores. Los distractores que con-
   tienen palabras como siempre y nunca, ninguna de las anteriores y
   todas las anteriores deben evitarse porque a menudo es fácil que el
   estudiante las descarte.
•	 Utilizar una cantidad de distractores adecuada. Se deben desarrollar
   ítems con una clave y cuatro distractores convincentes (cinco
   opciones en total), si es posible, y, luego, examinar previamente
   todos los distractores. Se deben usar los distractores que tienen las
   mejores propiedades estadísticas (consúltese el volumen 4 de esta
   serie, Análisis de los datos de una evaluación nacional del rendimiento
   académico.
•	 Variar la posición de la clave. La posición de la clave debe variar de
   un ítem al otro. No debe haber un patrón obvio en cuanto a su ubi-
   cación. Las opciones se pueden organizar de la más corta a la más
                                             REDACCiÓN DE LOS ÍTEMS   | 43



  larga, de la más larga a la más corta o de modo aleatorio. Es necesario
  asegurarse de que la clave no sea siempre la opción más larga.

  Las buenas opciones tienen las siguientes características:

•	 Son de extensión similar y están escritas con un estilo similar a la
   clave. La clave no debe destacarse por su extensión, redacción u
   otra cualidad superficial en relación con los distractores.
•	 Varían en estilo de ítem a ítem. No son repetitivas.
•	 No dan pistas de la respuesta a otro ítem.
•	 No incluyen distractores parcialmente correctos, tales como
   opciones emparejadas, donde cada distractor contiene una opción
   incorrecta y una correcta.
•	 No desorientan ni confunden mediante la falta de claridad o
   ambigüedad.
•	 No se superponen en cuanto al significado. Los distractores deben
   tener significados diferentes entre sí. Los distractores no deben ser
   sinónimos. Un significado particular en un distractor no debe estar
   incluido en el significado general de otro distractor.
•	 Incluyen una clave que es indiscutiblemente correcta o una res-
   puesta precisa y justificable a la pregunta, y no simplemente la
   mejor de las opciones que se presentan.
•	 Tienen distractores que son indiscutiblemente incorrectos, aunque
   razonables y convincentes. Todo distractor que sea ridículamente
   erróneo reduce el número de opciones reales disponibles para el
   estudiante y no contribuye en nada al ítem.


Redacción de los ítems de respuesta corta

Los ítems de respuesta corta deben enfocarse claramente en dejar
patente la habilidad que se desea evaluar. Los ítems de respuesta corta
son claros y precisos. Las guías de corrección se deben desarrollar al
mismo tiempo que los ítems. El CD complementario incluye ejemplos
de guías de corrección para ítems de respuesta corta. Por ejemplo, con-
súltese PISA Mathematics Released Items 2006 [Ítems publicados de
matemáticas PISA 2006] y Reading International Grade 4 PIRLS 2001
Sample Items Scoring Guide [Guía de corrección de ítems de muestra de
comprensión lectora internacional de 4.° grado PIRLS 2001].
44   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



   En general, los ítems de respuesta corta se clasifican como de res-
puesta abierta cuando una respuesta correcta requiere una o dos ora-
ciones, o varios agregados a un diagrama. Los ítems de respuesta
abierta a menudo tienen un número de respuestas correctas posibles.
Los ítems de respuesta corta se clasifican como de respuesta cerrada
cuando una o dos palabras, o una línea en un diagrama, son suficientes
para la respuesta. En general, los ítems de respuesta cerrada tienen un
número muy limitado de respuestas correctas.
   Los ítems de respuesta abierta deben abordar habilidades sustancia-
les en áreas clave del currículo para justificar el tiempo de examen que
los estudiantes necesitarán para responderlos. Aun así, los estudiantes
deben dar respuestas correctas breves a los ítems de respuesta abierta.
La mayor parte del tiempo que los estudiantes le dedican a un ítem
debe ser para conseguir una solución en lugar de anotar la respuesta.
   Es importante tener en cuenta qué respuesta podría ser errónea en
un ítem de respuesta corta. Si fuera probable que todas las respuestas
coherentes imaginables sean correctas, tal vez el ítem contribuya poco
a la evaluación de una habilidad en particular. El ítem se debe estruc-
turar para garantizar que haya respuestas incorrectas convincentes.
   Asegúrese de que los ítems de respuesta corta tengan más de dos
respuestas posibles. Los ítems para los que solo existen dos opciones
posibles, tales como “abierto” o “cerrado”, le dan a los estudiantes un
50 % de posibilidades de adivinar la respuesta correcta. Este tipo de
ítem se puede extender al pedirles a los estudiantes que justifiquen
sus respuestas. Al ítem, entonces, podría asignársele un puntaje de
acuerdo con la selección correcta de “abierto” o “cerrado” y la explica-
ción. Los estudiantes que seleccionan la opción correcta sin propor-
cionar una explicación recibirían un puntaje de cero.
   Los ítems no deben proporcionar una ayuda exhaustiva al lector en
la comprensión del significado del estímulo. Por ejemplo, un ítem no
debe resumir las ideas clave de un párrafo del estímulo ni explicitar
una inferencia en el estímulo. Es preferible citar el estímulo, en lugar
de resumir o interpretar su significado.
   Un peligro que existe con los ítems de respuesta abierta es que los
estudiantes los respondan superficialmente. Por ejemplo, la respuesta
“porque es importante” podría ser una respuesta técnicamente correcta,
pero insuficiente para varias preguntas. Algunas veces, puede incluirse
                                                     REDACCiÓN DE LOS ÍTEMS     | 45



una respuesta potencialmente superficial a una pregunta para elimi-
narla del número de respuestas correctas posibles. Por ejemplo, un
ítem se puede redactar de la siguiente forma: “¿En esta historia, por
qué es importante el accidente de Jemina?” Los estudiantes no pueden
responder a este ítem con “porque el accidente es importante”. Con
frecuencia, instrucciones tales como “explique su respuesta” o “justifi-
que su respuesta” son necesarias en los ítems de respuesta abierta para
evitar una respuesta corta de “sí” o “no”.
   Un ítem de respuesta corta eficaz debe establecer una tarea clara y
específica que busque una respuesta específica. El ítem les debe permitir
a los estudiantes que demuestren su dominio de la habilidad requerida
de un modo razonablemente rápido. El ejemplo en el recuadro 3.10 no
logra alcanzar ninguno de estos objetivos. No se le dice a los estudiantes



 RECUADRO 3.10


   Ítem de respuesta abierta confuso con indicaciones
   poco claras
   Se debe hacer una caja abierta a partir de un papel rectangular duro, de
   150 cm por 100 cm, cortando cuadrados del mismo tamaño en cada esquina
   y utilizando cinta adhesiva para unir los bordes. ¿Qué tamaño de cuadrado
   se cortará de la esquina? Justifique el(los) motivo(s) para elegir este tamaño.

   _____________________________________________________________

   _____________________________________________________________

   Guía de corrección: El número de puntos varía de 0 a 3.

   3 puntos: describe un cuadrado con lados de 20 cm y una caja con
      dimensiones de 110 cm por 60 cm por 20 cm; también explica que este
      tamaño de caja tiene la capacidad más grande.

   2 puntos: describe que en cada esquina debe cortarse un cuadrado de
      20 cm, pero no ofrece explicación.

   1 punto: describe todo tamaño de cuadrado posible con un lado inferior a
      50 cm.

   0 puntos: ofrece dimensiones del cuadrado superiores a 50 cm (una respuesta
      imposible).

   9 faltantes.
46    | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



 RECUADRO 3.11


     Un buen ejemplo de un ítem con respuesta cerrada

     Todas las personas cavan a la misma velocidad.

     Una persona puede terminar de cavar un jardín en 12 horas.

     Dos personas pueden terminar de cavar el mismo jardín en 6 horas. ¿Cuánto
     tiempo les lleva a 4 personas? ________

     ¿Cuánto tiempo le lleva a x personas? ________




que necesitan hacer una caja lo más grande posible. Sin embargo, esta
respuesta es el criterio para un puntaje de 3 puntos. La calidad del ítem
también es deficiente porque consume demasiado tiempo. Las habilida-
des que se evalúan no justifican la cantidad de tiempo que los estudian-
tes necesitarían para experimentar con las posibilidades y llegar a la
respuesta correcta. El problema necesita simplificarse para que los estu-
diantes puedan demostrar las habilidades relevantes de forma eficiente.
   Cuando un estudiante no responde a un ítem en particular por una
de varias razones (tal como omitirlo porque se consideró difícil o por
no tener la oportunidad de intentarlo porque el ítem no estaba en el
cuadernillo de prueba asignado), con frecuencia se asigna un valor de
código (no un puntaje) de 9 para denotar los datos faltantes. Los datos
faltantes se explican con más detalle en el volumen 3, Implementación
de una evaluación nacional del rendimiento académico.
   Los ítems de respuesta corta deben redactarse con claridad y senci-
llez (consulte el recuadro 3.11).


Desarrollo de las guías de corrección para los ítems de
crédito parcial

Las respuestas a algunas preguntas de respuesta corta tienen dos o más
categorías de respuesta correcta. Se conocen como ítems de crédito
parcial. La guía de corrección debe distinguir entre las respuestas más
exhaustivas, precisas o sofisticadas y las respuestas incompletas o par-
cialmente correctas. A las mejores respuestas se les asigna un puntaje
más alto. El ejemplo en el recuadro 3.12 es la guía de corrección para
                                                  REDACCiÓN DE LOS ÍTEMS    | 47



un ítem de crédito parcial que consiste en dibujar un cuadrado y que
puede recibir un puntaje de hasta 3 puntos.
  Los siguientes tipos de ítems pueden recibir puntaje como ítems
de crédito parcial:

•	 Se les pide a los estudiantes que detallen dos motivos para el com-
   portamiento de un personaje. Los estudiantes que dan dos motivos
   correctos reciben un puntaje de 2 y aquellos que dan un motivo
   correcto reciben un puntaje de 1.
•	 Se les da un puntaje más alto a los estudiantes que demuestran un
   entendimiento más sofisticado; por ejemplo, un puntaje de 2 pun-
   tos en una prueba de comprensión lectora podría reflejar la com-
   prensión de la ironía en un fragmento de texto, mientras que se
   asigna un puntaje de 1 punto a una comprensión lectora literal.
•	 Un puntaje de 2 puntos puede incluir la identificación tanto de la
   causa como de la consecuencia, mientras que un puntaje de 1
   punto requiere la identificación correcta de solamente una de ellas.
•	 En matemáticas, se asigna un puntaje de 3 a la solución correcta a
   un problema y una explicación apropiada del método de



 RECUADRO 3.12


  Ítem de crédito parcial

  La longitud del lado de un cuadrado es de 10 cm.

  Dibuje este cuadrado en el espacio que aparece a continuación. Use una
  regla.

  Guía de corrección:

  3 puntos: dibuja un cuadrado con 4 lados de 10 cm de longitud y 4 ángulos
  rectos.

  2 puntos: dibuja un rectángulo con 2 lados de 10 cm de longitud y 4 ángulos
  rectos.

  1 punto: dibuja una figura de 4 lados con 2 lados de 10 cm de longitud,
  pero sin ángulos rectos.

  0 puntos: dibuja cualquier otra figura.

  9 faltantes.
48    | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



     resolución; un puntaje de 2 a la solución correcta sin una explicación
     y un puntaje de 1 a una descripción de un método apropiado con
     cálculos incorrectos.

   La distinción entre los puntajes de crédito total o parcial debe ser
clara. Asegúrese de que los ejemplos de las respuestas de 1 punto, pro-
porcionados en la guía de corrección, no estén mal redactados ni sean
respuestas breves que en realidad satisfacen los criterios de 2 o 3 puntos.
También es importante aclarar la diferencia entre las respuestas de 1
punto y las respuestas incorrectas. Esta distinción puede ser la más difícil
de hacer al asignarle un puntaje a algunos ítems de crédito parcial.
   Los siguientes ejemplos muestran que los ítems de respuesta abierta
de respuesta corta no siempre permiten un crédito parcial. El ítem en el
recuadro 3.13 muestra que aunque los estudiantes pueden brindar una
variedad de respuestas, pueden obtener un puntaje de 1 o de 0 puntos.


 RECUADRO 3.13


     Ejemplo de un ítem de respuesta abierta con guía de
     corrección
     John y Michael encuentran un árbol con 400 mangos.
     John dice que ahora existe una probabilidad del 160 % de que Michael le
     acierte a un mango. ¿Está de acuerdo con John o no?
     Explique.



     Guía de corrección:
     1 punto: No está de acuerdo Y se refiere al límite del porcentaje.

                 No está de acuerdo porque no se puede obtener el 160 %.
                 No está de acuerdo porque es imposible.
                 No está de acuerdo porque el 100 % es lo máximo que se puede
                 obtener.
     0 puntos: Está de acuerdo (con o sin explicación).

                 No está de acuerdo Y no se refiere al límite del porcentaje.
                 No está de acuerdo porque hay más de 160 mangos.
     9 faltantes.
     Fuente: Departamento de Educación de Filipinas 2004.
                                                         REDACCiÓN DE LOS ÍTEMS   | 49



   Es importante examinar previamente los ítems de crédito parcial
para garantizar que las categorías de crédito parcial sean sólidas desde
el punto de vista estadístico (consúltese el capítulo 5). En el
recuadro 3.14 se presenta un ejemplo de ítem de respuesta corta con
una guía de corrección colapsada. En la prueba previa, se asignó un
puntaje de 2 puntos para las respuestas de “80 %” u “80 por ciento” y
de 1 punto para los estudiantes que simplemente escribieron “80”.
Las estadísticas muestran que los estudiantes que dieron una res-
puesta de “2 puntos” tuvieron un puntaje promedio mucho más ele-
vado en la prueba de matemáticas y los estudiantes que dieron una
respuesta de “1 punto” tuvieron un puntaje promedio general similar
al de quienes obtuvieron un puntaje de cero en este ítem. Como
resultado de esta información obtenida de la prueba previa, se cambió
la guía de corrección y se otorgó 1 punto a los estudiantes que respon-
dieron con “80 %” u “80 por ciento” y cero puntos a los estudiantes
que respondieron “80” o dieron otra respuesta inaceptable.


 RECUADRO 3.14


  Ejemplo de un ítem de respuesta cerrada con guía de
  corrección
  Árbol de mango

     Michael está tratando de acertarle con su tirachinas a algunos mangos en
     su granja. Cuando el árbol tiene 50 mangos, existe una probabilidad del
     20 % de que le acierte a uno.

     Su probabilidad de darle a un mango se duplica cuando el número de
     mangos se duplica.

     Calcule la chance de que Michael le dé a un mango en un árbol con 200
     mangos.



  Guía de corrección:

  1 punto:    80 % u 80 por ciento.
  0 puntos: cualquier otra respuesta, incluso 80 sin especificar “%” o “por
     ciento”.

  9 faltantes.
  Fuente: Departamento de Educación de Filipinas 2004.
50   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



Redacción de ítems por unidades

Las unidades son grupos de ítems con un estímulo en común. Una
unidad puede constar de una historia breve o un gráfico seguido de un
conjunto de preguntas. A la redacción de ítems asociados con unida-
des se aplican los mismos principios básicos para la redacción de ítems
de opción múltiple o de respuesta corta.
   Al redactar el borrador de un ítem basado en unidades se deben
tener en mente ciertos puntos:

•	 Los ítems deben ser independientes el uno del otro. Los estudian-
   tes no deben necesitar responder un ítem de forma correcta para
   responder otros ítems correctamente.
•	 Los ítems no se deben superponer. Cada ítem debe evaluar clara-
   mente un aspecto diferente del estímulo.
•	 Los ítems deben evaluar un número de habilidades. Por ejemplo,
   los ítems no deben evaluar de forma repetida la recuperación de
   información directamente expresada o la idea principal de cada
   párrafo del estímulo.
•	 Los ítems de una unidad deben cubrir un rango de niveles de difi-
   cultad y comenzar, por lo general, con un ítem fácil.
•	 La información proporcionada en el enunciado o en las opciones
   múltiples de un ítem no deben ayudar al estudiante a que responda
   otro ítem.
•	 Los ítems deben evaluar aspectos sustanciales (y evitar aspectos
   triviales) del estímulo.
•	 Los ítems deben estar en la misma página que la unidad o en la
   página contigua (en el caso de estímulos extensos).

   Las unidades con ocho o más ítems suelen tener ítems duplicados,
solapados o triviales. Algunos ítems se pueden eliminar durante su
presentación ante los comités encargados de revisarlos. Otra posibili-
dad es que el equipo de desarrollo de la prueba elabore dos formula-
rios para la prueba previa, con la mitad de los ítems en un formulario
y el resto en el segundo.
   La sección de lengua en el CD complementario contiene muchos
ejemplos de unidades seguidas de un conjunto de preguntas.
(Consúltese, por ejemplo, los ítems del CD luego de “Hare Heralds
the Earthquake” [Hare predice el terremoto] en Reading International
                                             REDACCiÓN DE LOS ÍTEMS   | 51



Grade 4 PIRLS 2001 Sample Items [Ítems de muestra de comprensión
lectora internacional de 4.° grado PIRLS 2001] o “Petra’s Deal”
[El acuerdo de Petra] en Reading Australia Year 3 Sample Questions
[Preguntas de muestra de comprensión lectora de 3.° año de Australia]).


ÍTEMS DE PRÁCTICA

Los ítems de práctica son esenciales para garantizar que los estudian-
tes no sean penalizados por su falta de familiaridad con el formato de
los ítems o con el modo en que deben presentar sus respuestas a las
preguntas de la prueba. En general, el examinador revisa los ítems de
práctica junto a los estudiantes, de acuerdo con instrucciones muy
específicas incluidas en el manual de administración de las pruebas.
   Cuando las pruebas incluyen ítems de respuesta corta, es especial-
mente importante que los estudiantes comprendan qué tipo de res-
puesta se espera que den. Por ejemplo, los estudiantes necesitan
entender dónde deben escribir sus respuestas para completar una
secuencia numérica o cuánto se espera que escriban como respuesta a
un ítem que requiere una explicación. Se les debe decir a los estudian-
tes que no serán sancionados por cometer errores ortográficos o grama-
ticales mínimos, a menos que sea parte de lo que se está evaluando. Las
instrucciones deben alentarlos a que intenten responder todos los ítems.
   Se deben desarrollar preguntas de práctica para todos los formatos
de respuesta de la prueba. Por este motivo, las preguntas de práctica
suelen escribirse hacia el final de la fase de desarrollo de la prueba,
cuando ya se conocen los tipos de preguntas que aparecerán en la
prueba. Los ítems de práctica deben ser muy fáciles; por ejemplo, se
les podría pedir a los estudiantes que escriban la respuesta a 2 + 2 en
la línea que se muestra junto a la suma:
                           2 + 2 = _______
   El énfasis se encuentra en la manera en la que los estudiantes pre-
sentan sus respuestas. En este caso, los estudiantes deben escribir sus
respuestas en la línea.
   El comité encargado de revisar los ítems debe revisar todos los
ítems de práctica, que también se deben examinar previamente. Si se
utilizan varios formularios de prueba previa, con cada formulario se
deben usar los mismos ítems de práctica.
52   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



DIAgRAMACIÓN Y DISEÑO DE lOS ÍTEMS

La diagramación y el diseño del ítem son cruciales para la claridad y
el atractivo de una prueba. Es más probable que los estudiantes inten-
ten resolver los ítems en una prueba que esté bien presentada y sea
fácil de leer. Los diseñadores de la prueba deben adoptar un estilo de
diagramación coherente y agradable. Se pueden usar un diseño y dia-
gramación profesionales para crear todas las imágenes. El CD comple-
mentario proporciona muchos ejemplos de ítems bien presentados
respaldados por ilustraciones de buena calidad.

Pautas básicas

A continuación, aparecen algunas pautas básicas para una diagrama-
ción y diseño de examen exitosos.

•	 Use un tamaño de fuente grande (por ejemplo, 36 puntos) para
   numerar los ítems, de modo que los estudiantes puedan ubicar
   cada ítem con facilidad.
•	 Deje un espacio adecuado si los estudiantes deben escribir una res-
   puesta. (Esto es especialmente necesario para los estudiantes de
   escuela primaria, que pueden tener una caligrafía grande).
•	 Deje suficiente espacio entre los ítems para que los estudiantes
   puedan ver con claridad dónde termina un ítem y dónde comienza
   el siguiente.
•	 Utilice la longitud de la línea para la respuesta de un ítem para
   indicar cuánto se espera que escriban los estudiantes. Una línea
   corta es adecuada para una respuesta de una palabra. Dos o tres
   líneas más extensas sugieren que el estudiante debe escribir una o
   dos oraciones como respuesta al ítem.
•	 Dele a cada ítem una etiqueta única e imprima esta etiqueta al lado
   del número de ítem en una fuente pequeña en escala de grises
   sobre el margen izquierdo. Una etiqueta de identificación única
   ayudará a garantizar el seguimiento preciso de los ítems. Los núme-
   ros de los ítems pueden variar, en especial si los ítems aparecen en
   varios cuadernillos de examen.
•	 Sea coherente en cuanto al uso de comillas simples o dobles, cur-
   siva, subrayado, negrita y mayúsculas.
                                            REDACCiÓN DE LOS ÍTEMS   | 53



•	 Asegúrese de que la diagramación y las imágenes utilizadas en los
   ítems de la prueba previa sean lo más cercanas posible a la presen-
   tación de los ítems en el formulario final de la prueba. Los cambios
   en el diseño y la diagramación de los ítems pueden afectar la difi-
   cultad de un ítem.



Calidad de las imágenes

Las imágenes de una prueba deben ser claras, con lenguaje y enca-
bezados simples y apropiados. Un artista gráfico debe ilustrar las
imágenes. Las imágenes escaneadas o las que se toman de Internet
suelen no ser de calidad suficiente. En general, las fotografías son
también inadecuadas porque aumentan los costos de impresión.
Generalmente, un artista gráfico debe volver a dibujar las fotogra-
fías. Al utilizar el mismo artista gráfico para dibujar todas las imáge-
nes, fotográficas o de otro tipo, se le da coherencia a la diagramación
y al diseño.
   Siempre que sea posible, se deben utilizar imágenes para mejorar la
claridad y reducir la cantidad de palabras en un ítem (consúltese el
recuadro 3.15). Las imágenes simples son las más eficaces. La imagen
debe presentar el concepto de forma clara e impecable (consúltese el
recuadro 3.16). No necesitan tener un aspecto real. Si es posible, se
deben usar dibujos de líneas y se deben evitar los sombreados extensos.
   Los gráficos y los mapas se deben etiquetar de forma clara y cohe-
rente (consúltense los recuadros 3.17 y 3.18).
   Como se muestra en el recuadro 3.19, dejar espacios en los gráficos
permite que el material de estímulo se lea con facilidad.
   Al momento de decidir el tamaño de la fuente y la longitud de la
línea, los diseñadores de la prueba deben tener en cuenta lo siguiente:

•	 Usar una fuente de 14 puntos para 3.° y 4.° grado, y una fuente de
   12 puntos para grados superiores.
•	 Reducir el ancho de los textos de estímulo a aproximadamente
   entre 10 y 14 palabras por renglón.
•	 Asegurarse de que los cortes de línea se ubiquen en lugares
   razonables. No permitir que una única palabra quede sola en una
   nueva línea.
54    | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



 RECUADRO 3.15


     Uso de ilustraciones para reducir la cantidad de palabras

     La siguiente imagen describe un experimento científico mucho mejor de lo
     que podría hacerlo un párrafo con muchas palabras:
      ¿Qué parte de la planta absorbe la MAYOR PARTE del agua?



                                    Parte A



                                    Parte B


                                           Parte C


                                          Parte D



                   A   Parte A
                   B   Parte B
                   C   Parte C
                   D   Parte D
         S011026




     Fuente: iEA 2007, ítem de ejemplo.




  La diagramación de las opciones múltiples debe ser coherente. Se
debe identificar cada opción. Se recomiendan las siguientes opciones
de diagramación:

•	 Una columna vertical de opciones etiquetadas de arriba a abajo:

     A

     B

     C

   D
•	 Una línea horizontal de opciones etiquetadas de izquierda a derecha:
   A               B              C                D
                                                          REDACCiÓN DE LOS ÍTEMS    | 55



RECUADRO 3.16


 Uso de imágenes simples

 Esta imagen expresa un sistema complejo de un modo simple:




                                  B

                                   C
                 A
                                            D
                                                                  E




 Fuente: Departamento de Educación de Filipinas 2004.




RECUADRO 3.17


 gráficos con etiquetas claras

 Las etiquetas claras y coherentes como las que aparecen en el siguiente
 gráfico ayudan a los estudiantes a entender rápidamente las preguntas
 complejas:
 Esta tabla muestra las temperaturas a diferentes horas durante cuatro días.
 ¿Qué día y a qué hora se observó una temperatura en la tabla igual a la que
 se muestra en el termómetro?
                                                                                   40°
                                                                                   35°
                                 Temperatura
                                                                                   30°
                  6 a.m.       9 a.m.   Mediodía        3 p.m.   6 p.m.            25°
  Lunes              15°        17°        24°            21°         16°          20°
                                                                                   15°
  Martes             20°        16°        15°            10°          9°          10°
  Miércoles            8°       14°        16°            19°         15°          5°

  Jueves               8°       11°        19°            26°         20°


 A. Lunes, mediodía                                                         Termómetro
 b. Martes, 6 a.m.
 C. Miércoles, 3 p.m.
 D. Jueves, 3 p.m.
 Fuente: Mullis et al. 2000.
56    | Desarrollo De pruebas y cuestionarios



 RECUADRO 3.18


     Mapas con etiquetas claras

     se debe tener cuidado al etiquetar los elementos de un mapa y hacerlo de
     forma clara. en el siguiente mapa, todos los nombres de los continentes se
     muestran completamente en mayúscula, mientras que los océanos se
     muestran con mayúscula inicial y, luego, minúscula:

                                                 Océano
                                                  Ártico




                                                                   ASIA
                      AMÉRICA                         EUROPA
                     DEL NORTE


                                    Océano
                                    Atlántico
                                                                                      Océano
                                                     ÁFRICA
          Océano                                                                      Pacífico
          Pacífico
     Ecuador
                                 AMÉRICA
                                 DEL SUR                       Océano
                                                               Índico
                                                                          AUSTRALIA




                                                 Océano
                                                Antártico




                             Áreas donde viven los dugongos

     Fuente: Departamento de educación de papúa nueva Guinea 2004.




•	 Dos	columnas	verticales	de	opciones,	etiquetadas	de	arriba	a	abajo	
   en	 la	 primera	 columna	 y,	 luego,	 de	 arriba	 a	 abajo	 en	 la	 segunda	
   columna:

	 A	        	            	           C

	 B	        	            	           D
                                                                 REDACCiÓN DE LOS ÍTEMS            | 57




RECUADRO 3.19


 Dejar espacios en el material de estímulo

 El espacio en este dibujo permite la legibilidad del material de estímulo:




              La figura anterior muestra una caja que contiene un material que podría ser un
              sólido, un líquido o un gas. A continuación, el material se pone dentro de una caja
              que es cuatro veces más grande.




              Observe las imágenes a continuación. Muestran cómo se verán los diferentes tipos
              de material cuando se pongan en una caja más grande.

              A. identifique qué figura muestra un sólido, cuál muestra un líquido y cuál muestra
              un gas. (Escriba la palabra Sólido, Líquido o Gas en la línea al lado de cada figura a
              continuación. Utilice cada palabra solo una vez).




              b. Explique sus respuestas.
    S031372




 Fuente: iEA 2003, ítem de ejemplo.
58    | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



El EQUIPO DE REDACCIÓN DE ÍTEMS

El encargado del desarrollo de la prueba dirige y gestiona el equipo que
redacta los ítems y supervisa el programa completo, desde el desarrollo
y la presentación ante el comité encargado de revisar los ítems, hasta la
prueba previa y la selección de los formularios finales de la prueba.
Debe tener un buen trato “personal” y habilidades organizativas.
   Entre sus responsabilidades se incluyen las siguientes:

•	   Seleccionar al equipo de redactores de ítems.
•	   Garantizar que el equipo de redactores entienda el proyecto.
•	   Perfeccionar el proyecto.
•	   Establecer un conjunto de reglas o protocolos para presentar, clasi-
     ficar y guardar los ítems.
•	   Garantizar que los redactores de los ítems estén al tanto de la can-
     tidad de espacio en la página que pueden ocupar los ítems.
•	   Establecer y supervisar los procesos de presentación de los ítems
     ante el comité.
•	   Comparar el progreso del desarrollo de los ítems con el proyecto
     de prueba.
•	   Revisar los ítems con grupos de expertos o grupos de interés clave.
•	   Supervisar la calidad de los ítems.
•	   Hacer un seguimiento del desarrollo de los ítems con respecto a los
     calendarios establecidos.
•	   Anotar los detalles de todos los ítems desarrollados, entre ellos los
     antecedentes de la prueba previa y los cambios hechos durante el
     análisis.
•	   Garantizar que el proyecto se refleje en la prueba final.

   La redacción de los ítems requiere de atención al detalle, creativi-
dad, rigor intelectual, profundidad de conocimiento del contenido y
un buen entendimiento del desarrollo de los estudiantes en un área de
aprendizaje. Es ideal que los redactores de ítems demuestren las
siguientes características:

•	 Deben mostrar iniciativa y predisposición a realizar una investigación
   extensa en busca de materiales de estímulo interesantes, y deben tener
   la capacidad de desarrollar materiales de estímulo de alta calidad.
                                             REDACCiÓN DE LOS ÍTEMS   | 59



•	 Deben tener la capacidad de aceptar comentarios sobre su trabajo
   y de realizar comentarios sobre el trabajo de otros redactores de
   ítems con el mismo grado de imparcialidad crítica.
•	 Deben demostrar el deseo de lograr la excelencia y la predisposición
   a estar atentos a los detalles al desarrollar y perfeccionar los ítems.

   Vale la pena considerar una prueba de selección inicial al seleccio-
nar a los redactores de ítems. La prueba puede consistir en darles a los
potenciales redactores 30 minutos para generar ítems que se basen en
un conjunto de materiales de estímulo. Esta prueba puede estar
seguida de una entrevista durante la cual se les pida a los candidatos
que expliquen razonadamente sus respuestas a la prueba de selección.
El comité entrevistador puede verificar la voluntad de los potenciales
redactores de ítems de aceptar críticas sobre su trabajo.
   Es ideal que algunos redactores de ítems con experiencia partici-
pen en la capacitación de los nuevos redactores de ítems. Estos redac-
tores con experiencia pueden provenir de otro país y haber sido
contratados como asesores si no hay nadie disponible con la experien-
cia adecuada dentro del país. Los redactores de ítems que son asesores
pueden realizar sesiones de capacitación, revisar los ítems mientras se
desarrollan o ambas cosas. A los redactores de ítems que trabajen a
tiempo completo luego de la capacitación les puede llevar varios
meses alcanzar el punto en el que comiencen a producir ítems de una
calidad razonable.
   En la capacitación se deben abordar las siguientes preguntas:

•	   ¿Cuál es el propósito general de la prueba?
•	   ¿Qué contextos de estímulo son apropiados para los ítems?
•	   ¿Qué aspectos del currículo cubrirá la prueba?
•	   ¿Qué proporción de ítems cubrirán los diferentes aspectos del
     currículo?
•	   ¿Qué idioma (o idiomas) se usarán?
•	   ¿Cuál es el nivel apropiado de simplicidad en el vocabulario y la
     gramática utilizados?
•	   ¿Qué formatos de ítem se usarán y en qué proporción?
•	   ¿Cuáles son las especificaciones de la publicación (número de pági-
     nas del cuadernillo de la prueba, tamaño de la página, número de
     ítems por página)?
60   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



•	 ¿Cuántos ítems se proponen para la versión final de la prueba?
•	 ¿Cuántos ítems se deben desarrollar?
•	 ¿Cómo se revisarán los borradores de los ítems de la prueba?
•	 ¿Cuál es el margen de tiempo para el desarrollo, la prueba previa y
   la selección de los formularios finales?
•	 ¿Se deben tener en consideración asuntos culturalmente sensibles
   o restricciones al redactar el borrador del material de estímulo y los
   ítems?

   Los redactores de los ítems deben tener un entendimiento común de
las respuestas a estas preguntas. También deben supervisar regularmente
su propio trabajo y el de los demás. Todos los redactores de ítems deben
tener copias de las especificaciones técnicas de la prueba terminadas, así
como un entendimiento común de sus contenidos.
   La especificación en detalle del estilo de la presentación de ítems
desde el principio ahorra mucho tiempo a largo plazo. El encargado
del desarrollo de la prueba debe establecer una hoja de estilo que
especifique exactamente cómo se presentarán los ítems y las guías de
corrección. La hoja de estilo debe cubrir todos los aspectos de diagra-
mación, entre ellos la selección de fuentes y su tamaño, el uso de
sangrías, la disposición de los encabezados y los tipos de detalles que
se deben incluir, como se muestra en el ejemplo en el recuadro 3.20.
   Esta guía muestra que los redactores de ítems deben darle un título
a su unidad en Arial negrita de 16 puntos con mayúscula. El resto del
texto para el ítem está en Times New Roman. La mayor parte está
escrita en 12 puntos. La pregunta se debe etiquetar, en negrita, como
“Pregunta 1”. El nombre de la unidad debe aparecer de la siguiente
forma. El ítem y el espacio para la respuesta del alumno se encuentran
debajo de la pregunta. El redactor del ítem inserta y completa una
tabla para mostrar el tipo de texto, el formato del ítem y los procesos
que utilizan los alumnos para responder el ítem. La guía de puntua-
ción se etiqueta de la siguiente forma. Los criterios para el puntaje se
muestran en cursiva, con ejemplos de respuestas de alumnos presen-
tados como viñetas con sangría en 10 puntos. Al seguir la guía, los
redactores del ítem pueden ayudar a garantizar que los ítems de la
prueba previa y los finales estén preparados de un modo coherente,
general y eficiente.
                                                    REDACCiÓN DE LOS ÍTEMS     | 61



 RECUADRO 3.20


  Ejemplo de hoja de estilo para los redactores de ítems

  TRADICIONES DE PASCUA (título, 16 puntos, Arial negrita)

  Pregunta 1: Tradiciones de Pascua (subtítulo, 12 puntos, Times New
  Roman negrita)

  ¿Qué regalos se dieron el domingo de Pascua? (pregunta, 12 puntos,
  Times New Roman negrita)

  <insertar media línea> (instrucción para la publicación en cursiva y entre
  paréntesis)


      Tipo de texto         Formato del ítem               Proceso
      información           De respuesta cerrada           Recuperación


  (tabla con 3 columnas y 2 filas: títulos de la columna, 12 puntos, Times New
  Roman negrita; cuerpo de la tabla 12 puntos, Times New Roman sin negrita)

  guía de corrección (subtítulo, 12 puntos, Times New Roman negrita)

  1 punto:      se refiere a los huevos (12 puntos, Times New Roman cursiva)

                •  Se regalaron huevos. (viñeta, 10 puntos, Times New Roman)

                •  Decoraron los huevos.

  0 puntos:     se refiere a panqueques, otros o respuesta vaga

                •  Panqueques.

                •  Se regalaron cosas.




   Los redactores de ítems deben recibir comentarios periódicos y
claros, y supervisión constructiva en cuanto a sus propios ítems y el
modo en que coinciden con las especificaciones técnicas, para que
puedan aprender de sus errores, desarrollar sus habilidades y perfec-
cionar sus ítems. Los redactores de ítems deben reunirse con regulari-
dad y con frecuencia en comités encargados de revisar los ítems a fin
de criticar su trabajo. El encargado de la prueba debe estar preparado
para reemplazar a los redactores que no puedan desarrollar ítems de
alta calidad luego de un período de capacitación razonable.
62   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



COMITÉS ENCARgADOS DE REVISAR lOS ÍTEMS

Un comité encargado de revisar los ítems consta de un pequeño grupo
(de entre tres y seis) redactores de ítems que revisan conjuntamente el
material que uno o más de ellos han desarrollado. El objetivo del comité
es aceptar, modificar o rechazar el material. El enfoque de equipo, que
es parte del proceso de control de calidad, ayuda a obtener múltiples
perspectivas sobre ítems individuales. A menos que los redactores de
ítems tengan mucha experiencia, los ítems generalmente se someten a
una revisión significativa luego de la revisión hecha por el comité.
   Los miembros del comité deben preparar sus críticas antes de que
se reúna el comité encargado de revisar los ítems. Deben tener abun-
dante tiempo para examinar los ítems y hacer un borrador de las
mejoras sugeridas.
   El comité debe someter a crítica cuidadosa el contexto del material
de estímulo, el contenido, la redacción, el lenguaje, el esquema y las
ilustraciones para garantizar que cada aspecto del estímulo sea rele-
vante para el proyecto, su inclusión en la prueba valga la pena y sea
claro y conciso. A continuación, debe examinar exhaustivamente cada
ítem para garantizar que la redacción no sea ambigua, que el formato
sea adecuado y que el ítem aborde con claridad las habilidades y áreas
de contenido especificadas en el proyecto. El conjunto de ítems tam-
bién se examina para considerar el grado en que el equilibrio general
de los ítems refleja las especificaciones técnicas. Los miembros del
comité deben explorar cada posibilidad de mejorar el estímulo y los
ítems y, cuando sea necesario, hacer sugerencias de nuevos ítems.
   Durante el proceso del comité encargado de revisar los ítems, los
redactores de ítems deben explicar su trabajo y estar preparados para
aceptar críticas constructivas. El líder del comité debe garantizar que
haya un consenso amplio sobre los cambios que se van a realizar en
los ítems individuales. Los redactores de los ítems deben documentar
los cambios sugeridos y, posteriormente, revisar los ítems.
   Puede ser necesario un experto en idiomas en los comités donde
los redactores de ítems estén redactando pruebas en una lengua que
no es la materna. El experto en idiomas debe tener una buena com-
prensión de las aptitudes lingüísticas de la población objetivo de la
prueba.
                                              REDACCiÓN DE LOS ÍTEMS   | 63



   En el comité se puede incluir a un experto en el área, en especial si
el área del contenido es compleja. La participación de un experto en
algunos comités puede ser útil para aclarar los problemas de conte-
nido, pero no es necesario que esta participación sea continua. Es
poco probable que el experto tome parte en los puntos más delicados
de la redacción del ítem.
   Es aconsejable no incluir a responsables políticos ni grupos de inte-
rés clave en los comités encargados de revisar los ítems. No les con-
ciernen los detalles más técnicos de las deliberaciones del comité.
   Los miembros del comité deben tener en cuenta cada aspecto de
un ítem:
•	   ¿Se evalúa el contenido correcto?
•	   ¿El formato del ítem es adecuado para los estudiantes objetivo?
•	   El ítem, ¿es importante o es trivial?
•	   ¿La redacción del ítem es clara e inequívoca?
•	   ¿Hay errores ortográficos o se omiten palabras?
•	   Si el ítem es de opción múltiple, ¿las opciones son similares y
     significativas?
•	   Si el ítem es de opción múltiple, ¿la opción correcta se deduce con
     claridad y de forma inequívoca a partir de la información dada
     (el enunciado, el material de estímulo o ambos)?
•	   ¿El esquema del ítem es atractivo y ordenado?
•	   La mayoría de los ítems, ¿presentan alguna dificultad que le permi-
     tirá a entre el 40 % y el 80 % de los estudiantes evaluados dar la
     respuesta correcta?
•	   Si el ítem requiere de un puntaje de crédito parcial, ¿es probable
     que al menos el 10 % de quienes responden consiga tal puntaje?
•	   ¿El ítem parece ser imparcial y justo para la mayoría de los subgru-
     pos de la población objetivo?
   El comité también debe considerar las siguientes formas de mejo-
rar el ítem:
•	   Acortarlo.
•	   Agregar más información.
•	   Cambiar una expresión o la redacción.
•	   Agregar un diagrama o una ilustración.
•	   Reformularlo en un formato de ítem diferente.
64   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



   Los redactores de ítems deben recibir comentarios periódicos y
frecuentes desde el momento en que comienzan a desarrollarlos. Los
comités encargados de revisar los ítems se deben reunir una vez por
semana, si es posible.
   La revisión de los materiales puede ser una tarea compleja. El
comité necesita un líder que garantice que las recomendaciones sean
unánimes y que se alcance un consenso sobre los cambios que se van
a realizar. El redactor de ítems no es la persona correcta para decidir
qué cambios se adoptan o se dejan de lado. Las recomendaciones del
líder del comité deben ser lo suficientemente precisas como para
garantizar que el redactor del ítem tenga en claro qué cambios hacer.
   Rehacer los ítems de otras personas puede suscitar fuertes debates
en algunos casos. El líder del comité debe centrar la discusión en la
mejora del ítem y garantizar que el comité trabaje de forma construc-
tiva hacia este objetivo.
   Se debe revisar el trabajo de todos los miembros del comité, entre
ellos los redactores de ítems con experiencia. Es normal, en especial
para los nuevos redactores de ítems, esperar sugerencias de revisiones
extensas. La crítica de los ítems no se debe ver como una crítica hacia
el individuo. Se debe reemplazar a los redactores que no acepten la
discusión a fondo y la reformulación de sus ítems.



OTROS REVISORES

Los grupos de expertos o los grupos de interés clave deben tener la
oportunidad de revisar el conjunto de ítems varias veces durante su
desarrollo. Este procedimiento puede ayudar a garantizar que los
ítems de la prueba sean de buena calidad y coherentes con las especi-
ficaciones técnicas. Por lo general, el encargado del desarrollo de la
prueba presenta todos los ítems, o una selección, ante un grupo de
referencia seleccionado para este propósito.
   La primera revisión con el grupo de referencia debe llevarse a cabo
en un momento razonable a comienzos del proceso de desarrollo de
los ítems, a fin de garantizar que los redactores estén trabajando en la
dirección correcta. El grupo de referencia puede sugerir el ajuste de
algunos aspectos del proyecto, en especial si los redactores tienen
                                             REDACCiÓN DE LOS ÍTEMS   | 65



problemas para cumplir algunas de las especificaciones. Además, los
redactores de ítems tal vez necesiten indicaciones más específicas
sobre el material aceptable e inaceptable.
   Normalmente, se realiza una revisión luego de finalizado el borra-
dor de todos los ítems, para garantizar que los grupos de interés aprue-
ben los ítems antes de que se lleve a cabo la prueba previa. Una
revisión final permite que los grupos de interés clave aprueben la
selección de ítems para el formulario de prueba final.



SEgUIMIENTO DE lOS ÍTEMS

Es crítico hacer un seguimiento de los ítems. Cada ítem debe tener
una etiqueta única para que se le pueda hacer un seguimiento en cada
etapa, desde la prueba previa hasta el análisis. Se deben desarrollar
aproximadamente entre más del doble y el triple de ítems de los que
se requieren para los formularios de examen finales. Por lo general, es
necesario producir varios cuadernillos de cada nivel escolar para la
prueba previa. En los diferentes cuadernillos deben aparecer algunos
de los mismos ítems. Esto permite que todos los ítems previamente
examinados se relacionen en la misma escala y se comparen. La eti-
queta de cada ítem debe ser independiente del orden del ítem en el
cuadernillo, de modo que los ítems duplicados en diferentes cuader-
nillos y los ítems únicos se puedan identificar con claridad.
   El seguimiento de los ítems durante el análisis puede ser compli-
cado. Si el analista omite darle una etiqueta única a un ítem, puede ser
muy difícil hacerle un seguimiento. Los programas informáticos pue-
den agravar el problema. Con frecuencia, los programas numeran los
ítems de forma automática. Si los ítems se toman del análisis de la
prueba previa, el programa volverá a numerarlos, por lo que quizás el
número de ítem en el análisis ya no coincida con su número en el
análisis inicial o en el cuadernillo de examen. Darle a cada ítem la
misma etiqueta única en el cuadernillo de prueba y en cada uno de los
análisis ayudará a evitar este problema.
   Las etiquetas de los ítems deben ser lo más significativas posible. El
encargado del desarrollo de la prueba debe coordinarse con el analista
de datos para establecer cuántos caracteres se pueden utilizar para
66    | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



una etiqueta. Los paquetes de programas para análisis tienen diferen-
tes límites. Una agencia de evaluación utiliza la siguiente convención
de etiquetado para una prueba de comprensión lectora, escritura y
matemáticas administrada durante varios años:

•	 El primer carácter es C, M o E, por comprensión lectora, matemá-
   ticas o escritura.
•	 Los caracteres 2 y 3 indican el año en que se administró el ítem
   (por ejemplo, 07 para 2007).
•	 Los caracteres 4, 5 y 6 representan el ítem (comenzando con 001).

   Por ejemplo, M06003 indica que el ítem es un ítem de una prueba
de matemáticas administrado en 2006 y que es el tercer ítem en el
conjunto de ítems.
   Los ítems se deben etiquetar durante el desarrollo. En los cuader-
nillos de prueba previa y en los formularios finales se debe impri-
mir la misma etiqueta. Las etiquetas se pueden imprimir en una
fuente pequeña en escala de grises sobre el margen opuesto a los
números de ítem en los cuadernillos de prueba, como se muestra a
continuación:

     M06003       5        Complete esta suma.
                           6 + 7 = ______________

   Mantener un historial completo de cada ítem que se desarrolle es
esencial. El analista de datos necesita un registro de las claves para los
ítems de opción múltiple y la ubicación de los ítems en los cuaderni-
llos de prueba previa. Con frecuencia, los informes requieren informa-
ción sobre el formato de los ítems y los procesos evaluados por cada
uno de ellos. El encargado del desarrollo de la prueba debe preparar y
conservar una hoja de cálculo como registro de cada ítem, sus clasifi-
caciones y su estado, y todo cambio que se pueda haber hecho al ítem.
   El siguiente es un ejemplo de algunos de los encabezados de
columna en un registro de hoja de cálculo de todos los ítems de com-
prensión lectora para una prueba:

•	 nombre de la unidad         nombre dado a la unidad (por ejemplo,
                               “Autos de carrera”)
•	 etiqueta del ítem           etiqueta de 6 dígitos (por ejemplo, C06003)
                                            REDACCiÓN DE LOS ÍTEMS   | 67



•	 contenido del ítem       redacción de la pregunta de la prueba
•	 estado actual            descripción que indica si el ítem está
                            disponible para su uso (por ejemplo, publi-
                            cado como ítem de práctica, rechazado
                            por el cliente, permiso de derechos de au-
                            tor rechazado)
•	 clave                    respuesta correcta para una pregunta de
                            opción múltiple
•	 puntaje máx.             puntaje máximo para el ítem
•	 tipo de texto            género del texto (por ejemplo, narrativo o
                            informativo)
•	 formato del ítem         formato de la pregunta de la prueba (por
                            ejemplo, de opción múltiple)
•	 proceso                  proceso cognitivo (por ejemplo, recupera-
                            ción)
•	 notas del análisis       cambios realizados al ítem luego de la
                            prueba previa

   Los ítems se deben guardar en un lugar seguro. Todo material rele-
vante relativo al desarrollo de una unidad o un ítem se debe guardar
con ese ítem. Incluso se debe conservar el material que no se utilice
en la prueba previa, dado que se puede utilizar más tarde en el mismo
nivel escolar o en otro. La fuente de los documentos o las ilustraciones
se debe registrar y guardar con la unidad o el ítem, de modo que se
pueda solicitar el permiso de derechos de autor si es necesario.
Se deben conservar copias de los documentos originales para que se
pueda identificar toda modificación posterior.
   La mayoría de los ítems se pueden guardar en formato electrónico.
Como precaución, consérvense archivos de seguridad de los ítems en
una computadora o disco aparte. El etiquetado correcto y la clasifica-
ción total y precisa ayudan a garantizar que los ítems se almacenen en
las carpetas de archivos (de computadora) apropiadas y que otros los
puedan recuperar con facilidad. Los ítems suelen estar bajo revisión
constantemente, e incluso sufrir cambios en las guías de corrección y
las ilustraciones, así como mejoras mínimas en la redacción. La última
versión del ítem debe destacarse en la información de la carpeta de
archivos.
68   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



NOTAS

1. Para mayor información sobre la estructura de los ítems de prueba,
   consulte Chatterji (2003), Haladyna (1999), Kubiszyn y Borich (2000) y
   Linn y Miller (2004).

2. La Evaluación Nacional del Progreso Educativo de los EE. UU. incluye un
   componente de escritura (Consejo Directivo de Evaluaciones Nacionales,
   sin fecha).
             4
Ca p í t u l o               ENSAYO DE LOS
                             ÍTEMS




                               Para elaborar pruebas de evaluación nacionales se
          utiliza, en gran medida, la tecnología desarrollada durante el diseño
          de las pruebas destinadas a evaluar e informar sobre el rendimiento
          académico de estudiantes individuales. Dado que tales pruebas se uti-
          lizan para discriminar entre los desempeños de los estudiantes, todos
          ellos realizan esencialmente la misma prueba. El propósito de una
          evaluación nacional es muy diferente: no pretende discriminar entre
          los estudiantes, sino describir el grado en que los estudiantes de un
          sistema educativo en su conjunto (o una parte claramente definida
          del mismo) han adquirido los conocimientos y habilidades estableci-
          dos en un plan de estudios. Para ello, la prueba deberá proporcionar
          una cobertura curricular adecuada, lo cual puede requerir una mues-
          tra del plan de estudios mucho mayor que la necesaria en pruebas
          diseñadas para evaluar a estudiantes individuales. La necesidad de una
          cobertura curricular amplia se intensifica cuando la evaluación pre-
          tende identificar las áreas del currículo en las que los estudiantes pre-
          sentan puntos fuertes y débiles.
             Para abordar estas cuestiones, numerosas evaluaciones nacionales e
          internacionales utilizan un número de ítems mucho mayor que en las
          pruebas diseñadas para evaluar a estudiantes individuales. Sin embargo,



                                                                                69
70   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



para evitar imponer una carga demasiado pesada sobre los estudiantes,
cada uno de ellos responde únicamente a una fracción del número
total de ítems de la evaluación. Por lo tanto, se deben proporcionar
varios conjuntos alternativos de ítems en un cuadernillo de diseño
rotativo. El número exacto varía de una evaluación nacional a otra.
   Este enfoque, aunque deseable en muchos sentidos, conlleva una
serie de complicaciones para la administración de una evaluación
nacional. En primer lugar, el diseño de la prueba es complejo, ya que
se debe garantizar la superposición entre preguntas y la coincidencia
entre submuestras. En segundo lugar, la administración es más com-
pleja, dado que es necesario garantizar que los cuadernillos se entre-
guen a los estudiantes correctos y que las instrucciones proporcionadas
a los estudiantes sean adecuadas para todos los cuadernillos. Por
último, la combinación de datos de varios conjuntos de ítems requiere
utilizar procedimientos estadísticos relativamente complejos. Por
estas razones, muchos países en desarrollo no han utilizado cuaderni-
llos de prueba múltiples en sus evaluaciones nacionales.
   La mayoría de los comentarios en las páginas siguientes, y también
en el capítulo 5, son válidos tanto para situaciones en las que un
equipo de evaluación nacional utiliza cuadernillos de prueba múlti-
ples como para aquellas en las que se opta por un único cuadernillo
para medir los logros de aprendizaje en un área temática. Ambos
enfoques obligan a asegurarse de que las pruebas previas se realicen
de forma cuidadosa.
   Las pruebas previas o pruebas piloto son un elemento esencial del
desarrollo de pruebas. Las pruebas previas se administran a alumnos
que tengan las mismas características que los que van a participar en
la prueba final. Se deben incluir escuelas de diferentes tamaños, en
diferentes áreas y con estudiantes de diferentes niveles socioeconómi-
cos. Idealmente, la prueba previa se debe llevar a cabo con un año de
antelación, en la misma época del año que la prueba final programada.
Por ejemplo, si la prueba previa se realiza con estudiantes de quinto
grado en octubre de 2005, la prueba final se debe realizar con estu-
diantes de quinto grado en octubre de 2006. En la práctica, esto puede
no ser posible, y puede que haya que realizar la prueba previa con
estudiantes que tienen un par de meses más o menos de experiencia
escolar que el grupo objetivo. Por ejemplo, se puede realizar la prueba
                                               ENSAYO DE LOS ÍTEMS   | 71



previa con estudiantes de sexto grado al principio del año escolar para
obtener datos para una prueba que se va a administrar a estudiantes
de quinto grado al final del año escolar.
   Los estudiantes que participen en la prueba previa no deben rea-
lizar la prueba final. Si la prueba final se va a administrar a un grupo
de muestra aleatorio seleccionado estadísticamente, el grupo de
muestra final se debe seleccionar antes de elegir las escuelas para la
prueba previa.
   Una buena práctica es realizar una prueba previa con un número
de ítems dos o tres veces mayor que el necesario para la prueba final.
Los formularios de la prueba previa deben tener una duración similar
a la de la prueba final. Es de gran ayuda etiquetar los formularios con
el grado en orden alfabético; por ejemplo, si se dispone de cinco for-
mularios, los del tercer grado se identificarían como 3A, 3B, 3C, 3D y
3E, mientras que los del octavo grado se identificarían como 8A, 8B,
8C, 8D y 8E.
   Se requieren varios formularios de prueba previa para cada grado.
Lo ideal sería distribuir los formularios de grado al azar en cada
clase. Si, por ejemplo, se utilizan tres formularios para el quinto
grado (5A, 5B y 5C), cada escuela debe recibir una mezcla de los
tres. Si no es posible seguir este procedimiento, es importante asegu-
rarse de que cada modelo de formulario se distribuya de forma
transversal en toda la muestra de la prueba previa. Por ejemplo, el
formulario 5A no se debe entregar únicamente a alumnos urbanos,
el 5B a alumnos de zonas rurales del norte y el 5C a alumnos de
zonas rurales del sur. Debe haber la máxima equivalencia posible
entre los distintos formularios en lo que respecta a las especificacio-
nes técnicas de la prueba.
   Es esencial que los formularios estén vinculados entre sí para
poder agrupar los ítems y compararlos. La vinculación significa que
algunos ítems se repiten en formularios distintos. Es inevitable que
algunos formularios de la prueba previa sean más difíciles que otros.
La vinculación de los formularios permite determinar la dificultad
global de los ítems, sin importar el formulario en el que aparecen. La
vinculación horizontal solo es necesaria en pruebas para un único
grado, mientras que para pruebas en varios grados se requiere vincu-
lación vertical.
72   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



   Cada uno de los ítems de la prueba previa debe ser respondido por
un mínimo de 200 estudiantes de cada grado. Si, por ejemplo, una
prueba previa dispone de tres formularios para el quinto grado, al
menos 600 estudiantes deben participar en la prueba. Se necesitan al
menos 150 respuestas de los 200 estudiantes para cada ítem de la
prueba previa. Es inevitable que se pierdan algunos datos durante una
prueba previa. Es posible que, por motivos justificados, una escuela se
retire del programa de pruebas previas en el último momento o que
administre la prueba a menos estudiantes de los previstos. Además, es
improbable que todos los estudiantes respondan a todos los ítems de
la prueba previa.
   Debido a que las pruebas previas se deben llevar a cabo en las mismas
condiciones que la prueba final, el tiempo del que los estudiantes
disponen para realizar la prueba debe ser el mismo que en la prueba
final. Es posible que no se conozca el número de ítems que los estudian-
tes son capaces de completar durante ese tiempo. Si es así, elabore una
prueba previa de muestra y ensáyela en algunas clases antes de preparar
la prueba previa, para asegurarse de que el número de ítems de cada
formulario de la prueba previa sea realista. Una evaluación nacional no
es una prueba de velocidad. La mayoría de los estudiantes deben dispo-
ner de tiempo suficiente para responder a la mayoría de los ítems.
   Intente completar todas las pruebas previas a lo largo de un periodo
de dos o tres semanas.
   Las pruebas previas permiten evaluar la idoneidad y la calidad de
los ítems. También permiten perfeccionar numerosos aspectos de la
administración de las pruebas. Se debe solicitar a los administradores
de las pruebas previas que proporcionen la información solicitada a
continuación:

•	 ¿Han tenido los estudiantes suficientes preguntas de práctica, y han
   sido las instrucciones y explicaciones lo suficientemente claras?
•	 ¿La duración de la prueba ha sido adecuada o excesiva, y cuántos
   estudiantes aproximadamente han finalizado la prueba diez minu-
   tos antes de agotarse el tiempo disponible?
•	 ¿Parecían los estudiantes estar inmersos en la prueba?
•	 ¿Contaban los estudiantes con suficientes recursos, tales como lapi-
   ceros y gomas de borrar?
                                                ENSAYO DE LOS ÍTEMS   | 73



•	 ¿Son adecuadas las instalaciones escolares para realizar una prueba?
•	 ¿Han comprendido los profesores y los estudiantes el propósito de
   la prueba?


DISEÑO DEl FORMUlARIO DE lA PRUEbA PREVIA

El análisis de los datos de la prueba previa sirve de base para seleccio-
nar ítems para la prueba final. En muchas evaluaciones nacionales se
elaboran modelos distintos de cuadernillos de prueba vinculados para
cada grado. Este enfoque proporciona una cobertura curricular mayor
que una única prueba y, al mismo tiempo, contribuye a garantizar que
los estudiantes no sean sometidos a pruebas desmesuradamente lar-
gas. Las pruebas se deben diseñar y vincular correctamente para ase-
gurarse de que los datos se puedan combinar en una única escala. Los
analistas de datos, estadísticos o informáticos profesionales deben par-
ticipar en el diseño de la prueba previa para ayudar a garantizar que
se cumplan los requisitos relativos a los datos.1
   Los formularios vinculados comparten algunos ítems. Por lo gene-
ral, se necesitan entre ocho y diez ítems comunes. Hay varias maneras
de vincular los formularios. Cuando se trata de un conjunto único de
ítems comunes de enlace, se repiten los mismos ocho o diez ítems de
enlace en cada formulario. Se debe tener en cuenta que si el resultado
del análisis de los ítems de enlace no es bueno (características estadís-
ticas mediocres), la vinculación entre los formularios será débil y, por
consiguiente, la calidad del análisis global se verá perjudicada.
   Una segunda manera es la vinculación circular. Se utilizan conjun-
tos distintos de ítems entre parejas de formularios. Por ejemplo, se
puede vincular el formulario 3A al formulario 3B con el conjunto
de ítems X, el formulario 3B al formulario 3C con el conjunto de
ítems Y y el formulario 3C de nuevo al formulario 3A con el con-
junto de ítems Z. De esta forma, cada formulario contiene ítems
exclusivos que no aparecen en ninguno de los otros formularios
(figura 4.1).
   Una tercera forma es la vinculación lineal, que sigue el modelo de la
vinculación circular, pero excluyendo los vínculos del conjunto de
preguntas Z. Por lo tanto, el formulario 3A estaría vinculado al 3B y el
74   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS




 FIgURA 4.1

 Ejemplo de vinculación circular de ítems

         Formulario 3A         Formulario 3B      Formulario 3C
         conjunto de           conjunto de        conjunto de
         preguntas X           preguntas X        preguntas Y
         conjunto de           conjunto de        conjunto de
         preguntas Z           preguntas Y        preguntas Z
         conjunto de           conjunto de        conjunto de
         preguntas             preguntas          preguntas
         exclusivas de 3A      exclusivas de 3B   exclusivas de 3C




formulario 3B al 3C, pero no se establecería una vinculación entre los
formularios 3A y 3C.
   Si no está claro el resultado que se obtendrá con los ítems, se reco-
mienda utilizar la vinculación circular y más ítems de enlace de los
necesarios. En la vinculación circular se conservan los vínculos entre
los formularios, incluso si un conjunto de ítems de enlace falla.
   La vinculación puede ser tanto horizontal (dentro de un grado)
como vertical (en varios grados; por ejemplo, entre los grados 3.°
y 5.°). Si los formularios de la prueba final no se van a vincular verti-
calmente, entonces la prueba previa debe contar con una vinculación
horizontal profunda. También se puede incluir una vinculación verti-
cal mínima para permitir la comparación entre datos de la prueba
previa de grados distintos. Técnicamente, solo son necesarios entre
ocho y diez ítems comunes a los distintos grados. Es más difícil deter-
minar cómo debe ser una pregunta con una buena vinculación verti-
cal que con una buena vinculación horizontal. Debido a que se trata
de una prueba previa y se desconoce la calidad de los ítems de enlace,
se recomienda incluir al menos dieciséis ítems de enlace vertical dis-
tribuidos en cada uno de los formularios. Si los formularios definitivos
se deben vincular verticalmente, es importante que el ensayo cuente
con más ítems de enlace vertical de los necesarios en la prueba final,
para poder seleccionar los mejores ítems de enlace para el formulario
definitivo. En la figura 4.2 se muestra un modelo de prueba previa
alternativo con formularios finales vinculados verticalmente. El
modelo se basa en tres formularios—A, B y C—distribuidos aleatoria-
mente dentro de cada clase.
                                                          ENSAYO DE LOS ÍTEMS    | 75




 FIgURA 4.2

 Modelo para ítems de vinculación vertical

                   de 4 a 5 ítems
 3.° Grado                          3.° Grado                          3.° Grado
                   comunes en
 Formulario A                       Formulario B                       Formulario C
                   3A y 3B
 de 8 a 10 ítems                    de 8 a 10 ítems                    de 8 a 10 ítems
 comunes en                         comunes en                         comunes en
 3A y 5A                            3B y 5B                            3C y 5C
                                                      de 4 a 5 ítems
                                                      comunes en
  5.° Grado                         5.° Grado         5B y 5C          5.° Grado
  Formulario A                      Formulario B                       Formulario C


 de 8 a 10 ítems                    de 8 a 10 ítems                    de 8 a 10 ítems
 comunes en                         comunes en                         comunes en
 5A y 7A                            5B y 7B                            5C y 7C

  7.° Grado        de 4 a 5 ítems
                                    7.° Grado                          7.° Grado
  Formulario A     comunes en
                                    Formulario B                       Formulario C
                   7A y 7B
 de 8 a 10 ítems                    de 8 a 10 ítems                    de 8 a 10 ítems
 comunes en                         comunes en                         comunes en
 7A y 10A                           7B y 10B                           7C y 10C
                                                      de 4 a 5 ítems
                                                      comunes en
  10.° Grado                        10.° Grado        10B y 10C        10.° Grado
  Formulario A                      Formulario B                       Formulario C




   En este ejemplo bastante elaborado, cada uno de los formularios
3A, 5A, 7A y 10A está vinculado verticalmente de forma lineal
mediante entre 8 y 10 ítems. Los ítems están vinculados de manera
similar en los formularios B y C. En total, hay entre 8 y 10 ítems de
enlace horizontal entre los formularios A y B en el 3.° grado y el 7.°
grado, y entre 8 y 10 ítems de enlace horizontal entre los formularios
B y C en el 5.° grado y el 10.° grado. Este número de vínculos hori-
zontales es aceptable. Si los formularios no se van a distribuir aleato-
riamente en cada clase, o si los redactores de los ítems no están seguros
de la calidad de los ítems de enlace horizontal, se deberían incluir más
vínculos horizontales en cada grado.
   Es preferible situar los ítems de enlace en la parte inicial o central
de los formularios de las pruebas, en lugar de la parte final, para evitar
76   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



la posibilidad de que los estudiantes no respondan a estos ítems. Los
ítems de enlace se deben colocar en un orden similar y posiciones
similares en cada uno de los cuadernillos para que no sea posible atri-
buir diferencias en el rendimiento de los alumnos a diferencias en la
posición o el orden de los ítems. Es inevitable que existan pequeñas
diferencias en la ubicación de los ítems de enlace. Se deben evitar
grandes diferencias.
   La dificultad de los ítems de enlace se debe situar en el promedio.
En general, los estudiantes de capacidad promedio de la población
objetivo deben tener una probabilidad de entre el 40 y el 60 % de
responder correctamente a estos ítems. Debido a que se trata de una
prueba previa, no se conocerá la dificultad de los ítems para la pobla-
ción de la prueba previa; por ello, los redactores de los ítems tendrán
que estimar su dificultad lo mejor que puedan. Si los redactores de los
ítems no están seguros de la precisión de sus estimaciones, se reco-
mienda aumentar el número de ítems de enlace.
   Si los ítems están dispuestos en unidades, es mejor vincular los
formularios mediante ítems extraídos de dos o más unidades, en caso
de que los ítems asociados a una unidad no den buen resultado. No es
necesario utilizar todos los ítems de una unidad para la vinculación;
algunos ítems pueden ser comunes y otros exclusivos, como se mues-
tra en la tabla 4.1. Ambas unidades—«Encontrar una mascota» y
«Monte Avarapa»—aparecen en los formularios 3A y 3B del 3.° grado.
Tres de los ítems son comunes a todas las unidades y todos los formu-
larios. La prueba previa tiene ítems adicionales exclusivos.
   Si la prueba previa incluye una combinación de formatos de ítems,
los ítems de enlace también deben reflejar esta combinación.
   Los ítems deben estar acompañados de etiquetas únicas impresas
en escala de grises en todos los formularios en los que aparecen.


TAblA 4.1
Ítems de enlace en dos unidades de lectura
                       Ítems comunes a   Ítems exclusivos   Ítems exclusivos
Unidad de lectura          3A y 3B            de 3A              de 3B
«Encontrar una
mascota»                    3, 4, 6            2, 7               1, 5
«Monte Avarapa»             1, 2, 5             3                  4
                                                      ENSAYO DE LOS ÍTEMS       | 77



TAblA 4.2
Parte de una hoja de cálculo para controlar los ítems en los distintos
formularios
 Nombre       Etiqueta
 de la          de la      Formulario    Formulario    Formulario   Formulario
 unidad       pregunta        5A            5B            5C           5D
 «Perros»    R070101            1            1              4               4
 «Perros»    R070102            3            3              5               5
 «Perros»    R070103                         2
 «Perros»    R070104            2
 «Ellie»     R070201                                        1
 «Ellie»     R070202                                        2               1
 «Ellie»     R070203                                        3               2
 «Ellie»     R070204                                                        3
 «bang»      R070301            4                                           6
 «bang»      R070302            5                                           7




Los ítems con la misma etiqueta deben ser completamente idénti-
cos, salvo por el orden de aparición en el formulario de prueba.
Los ítems con una formulación ligeramente distinta deben tener
etiquetas distintas.
    El redactor de los ítems debe crear una hoja de cálculo con una
lista de todos los ítems; los encabezados deben indicar en qué formu-
larios y en qué orden aparecen los ítems. La tabla 4.2 muestra un
ejemplo de hoja de cálculo que cubre tres unidades («Perros», «Ellie»
y «Bang») de una prueba de lectura del 5.° grado. A la izquierda se
muestran los ítems para tres unidades. Los números de las columnas
indican el orden de aparición de cada uno de los ítems en los formu-
larios de la prueba previa. Los primeros dos ítems de «Perros» son
comunes a los cuatro formularios.



IMPRESIÓN Y REVISIÓN DE lA PRUEbA PREVIA

El aspecto de los ítems en la prueba previa debe ser idéntico a su
aspecto en el formulario definitivo. Igualmente, el material de estí-
mulo, los gráficos y las ilustraciones se deben presentar de la misma
78    | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



forma que aparecerán en la prueba final. Lo ideal es que el orden de
aparición de los ítems de enlace también sea idéntico, pero, en la prác-
tica, puede variar ligeramente.
   El material de estímulo para los ítems de lectura debe aparecer
(a) en la misma página que los ítems o (b) en la página izquierda, con
los ítems en la página derecha para permitir a todos los alumnos des-
plazarse fácilmente entre los ítems y el texto.
   La portada del cuadernillo de la prueba previa no necesita tener
toda la información requerida para el formulario definitivo. Se debe
solicitar información del estudiante como escuela, grado, sexo, lengua
materna y edad. Debido a que, por lo general, no se realizan informes
de las pruebas previas, normalmente no es necesario que los estudian-
tes incluyan su nombre en la prueba previa. Es posible que en la
prueba previa no se solicite alguna información de referencia que sí
será necesaria en el formulario definitivo. El diseño de los ítems debe
ser coherente en todos los formularios.
   La siguiente lista de control puede servir de ayuda para preparar o
corregir la versión impresa de los materiales de la prueba previa:

•	   Encabezados (grandes y claros)
•	   Márgenes: superior, inferior, izquierda y derecha (uniformes)
•	   Números de página (uniformes)
•	   Números de ítem (grandes y claros)
•	   Etiquetas de ítems (presentes)
•	   Líneas para que los estudiantes escriban sus respuestas (claras y de
     longitud adecuada)
•	   Texto del ítem (tamaño de fuente de 12 o 14 puntos)
•	   Número de palabras por línea (de 10 a 12)
•	   Material de estímulo (claro, preferentemente en una fuente dis-
     tinta a la de los ítems)
•	   Material de estímulo e ítems asociados (en la misma página o pági-
     nas opuestas)
•	   Encabezados y pies de página (uniformes y útiles)
•	   Revisión ortográfica (realizada).

   Algunas pruebas incluyen opciones de calificación en escala de
grises. Por ejemplo, se puede asignar un valor de 0 o 1 a una pregunta
                                                 ENSAYO DE LOS ÍTEMS   | 79



para calificarla como incorrecta o correcta, respectivamente.
Normalmente, la opción de calificación para ítems no respondidos
es 9, como se indica en el capítulo 3. Los correctores simplemente
deben trazar un círculo en torno a la puntuación adecuada. Las pun-
tuaciones incluidas sirven para recordar a los correctores las opciones
de calificación.
   Todos los cuadernillos de pruebas y manuales de administración se
deben revisar a fondo. Los revisores deben responder a los ítems de la
prueba como si estuvieran realizándola. También deben asegurarse de
que los materiales cumplan los siguientes criterios:

•	   Instrucciones iniciales e ítems de práctica claros e inequívocos.
•	   Ítems claros e inequívocos.
•	   Material de estímulo claro y fácil de leer.
•	   Opciones de respuesta múltiple con una respuesta correcta y las
     demás claramente incorrectas.
•	   Todas las opciones de respuesta múltiple deben tener sentido.
•	   Espacio suficiente para que los estudiantes anoten las respuestas, si
     es necesario.
•	   Material de estímulo para la lectura en la misma página que los
     ítems o en la página de la izquierda, con los ítems en la página
     opuesta, a la derecha.
•	   Los ítems de una unidad son independientes; es decir, la respuesta
     a un ítem no se encuentra en el enunciado o en las opciones de otro
     ítem.
•	   Los ítems de enlace son idénticos.
•	   No hay errores ortográficos ni gramaticales.
•	   El diseño de los distintos formularios de prueba es uniforme.

   La revisión es esencial. Se pueden producir, y se producen, graves
errores en prácticamente todas las fases del proceso de las pruebas pre-
vias. Una prueba previa con errores tipográficos e incoherencias repre-
senta una tremenda pérdida de tiempo, esfuerzo y dinero. Además,
reduce la utilidad de los datos, debido a que los ítems incorrectos de la
prueba previa no se pueden utilizar en el formulario definitivo de la
prueba. Por ello, es importante recurrir a revisores calificados y propor-
cionarles tiempo suficiente para la revisión y la corrección.
80   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



  Los cuadernillos de la prueba previa se deben revisar al recibirlos
de la imprenta. Se deben realizar comprobaciones aleatorias en cada
paquete o caja de cuadernillos para garantizar lo siguiente:

•	 Todas las páginas se han impreso claramente.
•	 Las páginas aparecen en el orden correcto.
•	 No hay páginas duplicadas.
•	 Los estímulos de lectura de cada unidad están en las páginas
   correctas.
•	 Las ilustraciones son claras.

   Los cuadernillos de la prueba previa se deben imprimir y compro-
bar con suficiente antelación, antes de enviarlos a las escuelas. Contar
con un plazo suficiente permitirá volver a imprimirlos, si es necesario.
Debido a que, por lo general, las tiradas de las pruebas previas son
pequeñas, volver a imprimirlas, si es necesario, representa un gasto
relativamente pequeño.



IMPlEMENTACIÓN DE lA PRUEbA PREVIA

Los estudiantes no deben tener ninguna duda acerca de cómo respon-
der a las preguntas de la prueba previa o de las fases de la prueba final.
Las pruebas se han diseñado para comprobar los conocimientos en un
área curricular importante, no la habilidad de los estudiantes para
adivinar cómo responder. Los estudiantes deben tener suficientes
oportunidades para responder ítems de práctica durante las pruebas
previas, tanto al comienzo de la prueba como al comienzo de las sec-
ciones dentro de la prueba. Es especialmente importante proporcio-
nar un número suficiente de ítems de práctica (por ejemplo, tres o
cuatro) a los estudiantes de sistemas educativos sin tradición en la
realización de pruebas del tipo de respuesta múltiple.
   El número de ítems de los formularios de la prueba previa puede
ser igual o ligeramente inferior al de los formularios finales. Es impor-
tante que todos los estudiantes respondan a todos los ítems de la
prueba previa. Si la prueba previa es demasiado larga o tiene demasia-
dos ítems difíciles al final, entonces pocos de los últimos ítems de la
prueba tendrán respuestas.
                                                ENSAYO DE LOS ÍTEMS   | 81




 RECUADRO 4.1


  Ejemplo de pregunta de respuesta múltiple y formato
  abierto
  13 + 7 + 8 =

  (A) 28   (b) 30   (C) 38   (D) 110

  O

  13 + 7 + 8 = ________________




   Es conveniente que los formularios comiencen con algunos ítems
sencillos para animar a los estudiantes menos aventajados a realizar
la prueba. A menudo, es recomendable combinar la dificultad de
ítems sucesivos para que los estudiantes perseveren en lugar de ren-
dirse al encontrar una serie de ítems difíciles. Intente que la dificul-
tad global de cada prueba previa sea aproximadamente similar. Evite
que algún formulario esté lleno de ítems difíciles, porque es posible
que los estudiantes renuncien a intentarlo. Si esto ocurre, no habrá
datos suficientes de los últimos ítems del formulario para analizar la
prueba previa.
   Las pruebas previas permiten ensayar versiones alternativas de los
ítems en distintos formularios. Las pruebas previas permiten, por
ejemplo, ensayar un ítem con formato de respuesta múltiple y el
mismo ítem con formato abierto (recuadro 4.1).
   También se pueden ensayar distintos textos para un ítem de
respuesta abierta. Tenga en cuenta que no se deben utilizar versio-
nes alternativas para los ítems de enlace, estos ítems deben ser
idénticos.



CORRECCIÓN DE lA PRUEbA PREVIA

La finalidad de la recogida de datos piloto de las pruebas previas es
obtener información que ayude a seleccionar los ítems de buena cali-
dad para la prueba final. En general, no es necesario que las puntua-
ciones y los nombres de los estudiantes estén vinculados. Los principales
82   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



problemas para la corrección de las pruebas previas son el control de
la calidad y la coherencia en el tratamiento de las respuestas de los
estudiantes.
   Todas las correcciones requieren procedimientos de control de
calidad. Normalmente, el ingreso manual de datos y puntuaciones
de pruebas previas suele ser rentable debido a que el número de
ítems es manejable. Los evaluadores y el personal de captura de
datos deben estar debidamente capacitados. El encargado del desa-
rrollo de la prueba debe velar por que la calidad del trabajo del
personal mencionado sea revisada dos veces al día para garantizar la
consistencia y confiabilidad. Las comprobaciones pueden ser más
frecuentes en las primeras etapas y tal vez menos frecuentes en eta-
pas posteriores, si se observa que el trabajo de un evaluador es
satisfactorio.
   Conocer el porcentaje de estudiantes que no responden a los ítems
de una prueba previa proporciona información útil sobre cómo
estructurar el formulario definitivo de la prueba. A continuación se
proporcionan pautas generales relativas a esta cuestión:

•	 Si al menos el 15 % de los estudiantes no respondieron a varios
   ítems en la parte final de la prueba, es posible que la prueba previa
   haya sido demasiado larga. Considere hacer la prueba final más
   fácil, más corta, o ambas cosas.
•	 Si al menos el 15 % de los estudiantes no respondieron a un ítem
   que no estaba en la parte final de la prueba, es posible que haya
   algún problema en la manera en que se presentó el ítem o que sea
   demasiado difícil. Posiblemente, los estudiantes pasaron por alto el
   ítem, no sabían cómo responder o no entendían el texto. Considere
   revisar y ensayar un ítem nuevo.
•	 Si un determinado grupo de la población (por ejemplo, el 15 % o
   más de las niñas) no respondió a una pregunta pero la mayoría de
   los demás sí lo hizo, es posible que la pregunta esté sesgada.
   Considere la posibilidad de no incluirla en la prueba final.
•	 Si al menos el 15 % de los estudiantes sistemáticamente no inten-
   taron responder a ítems con un formato en particular (por ejemplo,
   ítems de respuesta abierta), es posible que estos estudiantes no
   entendieran cómo responder o que necesitaran oportunidades para
                                                   ENSAYO DE LOS ÍTEMS   | 83



  aprender a responder ítems de este tipo. Considere añadir ítems de
  práctica o ejemplo adicionales con este formato y ensaye estos
  ítems de nuevo.

   En general, la puntuación de las preguntas omitidas es 9. Asegúrese
de que ningún ítem de la prueba tenga una posible puntuación
correcta de 9. Si es así, se debe utilizar la letra X (u otra letra del alfa-
beto) para indicar la puntuación de las omisiones.
   Los evaluadores y correctores deben tener claras las reglas para
calificar las respuestas omitidas. Generalmente, una respuesta omitida
es aquella en la que el estudiante no ha escrito nada en absoluto.
Cualquier intento de responder a un ítem, incluso si es ilegible o inin-
teligible, se trata generalmente como respuesta incorrecta en lugar de
respuesta omitida.
   Se deben diseñar guías de corrección de ítems de respuesta múlti-
ple para que el desarrollador o el revisor de la prueba obtengan la
mayor cantidad posible de datos útiles de cada ítem.
   Por ejemplo, se puede codificar una pregunta con cuatro respuestas
posibles como 1, 2, 3, 4, 8 o 9. Se pueden utilizar más números para
reflejar más opciones.
   Los números 1, 2, 3 y 4 indican la opción seleccionada por el estu-
diante. Se puede utilizar el valor 7 para indicar que el estudiante ha
seleccionado dos o más opciones y que, posiblemente, no comprende
cómo responder a ítems de respuesta múltiple. En el libro 4 de esta
serie, Análisis de los datos de una evaluación nacional del rendimiento
académico, utilizamos un valor de 8 para indicar que el estudiante no
respondió al ítem y de 9 para indicar que un ítem en particular no se
planteó al estudiante (ya que estaba en otro formulario de prueba) y,
por tanto, no se debe calificar como incorrecto.
   Los ítems de respuesta múltiple nunca se deben ingresar en una
computadora como correctos o incorrectos. El diseño de los ítems de
respuesta múltiple debe seguir un patrón implícito de numeración,
desde el 1 al 4 o el 5, en función del número de opciones.
   El corrector o la persona responsable de la captura de datos simple-
mente registra el número (implícito) de la opción seleccionada por el
estudiante para cada pregunta de respuesta múltiple. El corrector o la
persona responsable de la captura de datos no necesita saber cuál es la
84    | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



opción correcta o si la respuesta del estudiante es correcta o inco-
rrecta. Una hoja de entrada puede tener el aspecto del ejemplo del
recuadro 4.2.
    El redactor de los ítems debe proporcionar al analista de datos una
lista de las opciones correctas o claves para cada ítem, que el analista
ingresará en el programa informático. A continuación, el software de
análisis registrará las respuestas de los estudiantes como correctas o
incorrectas, de acuerdo con la lista de claves. Conocer las opciones
incorrectas seleccionadas por los estudiantes proporciona a los redac-
tores de ítems información importante acerca de la calidad de los
ítems de respuesta múltiple y su posible utilidad para el formulario de
la prueba final. Por ejemplo, si casi ningún estudiante selecciona una
de las dos respuestas incorrectas, es evidente que estas dos opciones
no sirven como distractores eficaces.
    Los ítems de respuesta cerrada y los ítems de respuesta abierta se
puntúan habitualmente con 0 (incorrecto), 1 (correcto) o 9 (omi-
tido). Un ítem de crédito parcial se puede puntuar con 0, 1, 2 o 9.
    Corregir manualmente ítems de pruebas previas requiere una for-
mación y un control de calidad similares a los necesarios para pun-
tuar manualmente la prueba final. Un redactor de ítems experimentado
debe impartir la formación y supervisar la corrección de los ítems de
la prueba previa. El disco compacto adjunto contiene ejemplos de
guías de corrección de ítems de respuesta abierta para lenguaje, mate-
máticas y ciencias.



 RECUADRO 4.2


     Ejemplo de hoja de captura de datos para una prueba
     previa

                                                Orden de aparición de las
                                                preguntas en el formulario
     Alumno          P1    P2   P3   P4   ←     de prueba
     Ahmed buta       2     3    2    1
                                                Opción seleccionada por
     Miriam Wisim     4     3    2    4   }←    cada alumno para cada
     Almet Duras      2     3    1    4         pregunta
                                                ENSAYO DE LOS ÍTEMS   | 85



   Los redactores de ítems utilizan las respuestas de las pruebas pre-
vias para revisar y perfeccionar sus guías y categorías de corrección
antes de comenzar la corrección de la prueba previa. Antes de que
comience la corrección manual, los redactores de ítems deben tomar
una muestra de cuadernillos de la prueba previa completados y com-
parar las respuestas reales de los estudiantes a ítems de respuesta
corta con las respuestas previstas en las guías de corrección. Los redac-
tores de ítems deben utilizar las muestras para incluir ejemplos de
respuestas de estudiantes en sus guías de corrección. Las guías de
corrección deben incluir tanto respuestas incorrectas como correctas.
La guía de corrección de ítems de crédito parcial del recuadro 3.12
muestra ejemplos de respuestas reales de estudiantes para cada cate-
goría de la guía de corrección, incluidas respuestas de valor cero.
   Los redactores de ítems deben perfeccionar o ampliar sus guías de
corrección para tener en cuenta el rango de respuestas reales propor-
cionadas por los estudiantes. En ocasiones, estas revisiones pueden ser
muy extensas. Los estudiantes tienden a dar respuestas imprevistas
aunque correctas, o formas inusuales pero precisas de expresar sus
ideas. Se deben añadir ejemplos así a las guías de corrección, si son
razonablemente habituales. Si muchos estudiantes dan respuestas
difíciles de clasificar como correctas o incorrectas, los redactores de
ítems tienen que mejorar sus guías de corrección para clarificar estas
distinciones. Una comisión, o el encargado del desarrollo de la prueba,
debe revisar las guías de corrección actualizadas antes de corregir los
cuadernillos de la prueba previa.
   Durante la corrección manual, los redactores de ítems deben reci-
bir información de los correctores acerca de mejoras adicionales que
pueda ser conveniente realizar en las guías de corrección. Si es nece-
sario revisar de forma sustancial la guía de corrección para un ítem, se
tendrá que cambiar la puntuación del ítem en función de la guía de
corrección revisada, para garantizar la coherencia.
   Es esencial revisar las guías de corrección para que los criterios de
corrección y los ejemplos proporcionados reflejen el rango real de
respuestas de los estudiantes. Si las guías de corrección no se revisan,
se perderán algunos ítems debido a la posibilidad de que ninguna de
las respuestas de los estudiantes cumpla los requisitos demasiado exi-
gentes de la guía. La corrección de otros ítems puede ser poco
86   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



confiable debido a que los evaluadores no sepan cómo corregir las
respuestas si no entran dentro de las pautas de calificación y tengan
que aplicar su propio criterio personal.
   Por lo general, las puntuaciones más altas en ítems de crédito par-
cial denotan una respuesta más sofisticada o extensa. Una puntuación
de 2 sugiere una respuesta «mejor» que una puntuación de 1. Los
datos de ítems de crédito parcial de las pruebas previas se pueden
utilizar para recopilar información sobre las categorías de respuestas
de los estudiantes, la cual puede ayudar a perfeccionar los ítems de la
prueba previa o las guías de corrección. Las respuestas a un ítem de
crédito parcial de una prueba previa se pueden codificar como 0, 1, 2
o 3, aunque puede que estas puntuaciones no sean jerárquicas. En
sistemas de puntuación no jerárquicos, una puntuación de 3 no se
considera más sofisticada que una puntuación de 2 o 1. Cada una de
las puntuaciones—1, 2, y 3—denota una respuesta correcta, pero
de tipo diferente. Por ejemplo, puede haber tres maneras diferentes de
resolver un problema de matemáticas. La guía de corrección puede
ser bastante compleja y permitir estas tres posibilidades. Si todos los
estudiantes de la prueba previa eligen el mismo método, el redactor
de ítems puede revisar la guía de corrección para centrarse en el
método más popular con una breve referencia a otras posibilidades.
La guía de corrección se revisaría para la prueba final para incluir una
puntuación de 1 para una respuesta correcta, independientemente
del método utilizado para resolver el problema.
   Los redactores de ítems deben informar al analista de datos cuando
se utilicen ítems de crédito parcial para denotar categorías en lugar de
jerarquías, lo que permitirá al analista diferenciar entre las respuestas.
El analista puede asignar una puntuación de 1 a cada respuesta de la
categoría correcta. Por lo tanto, es muy importante que los correctores
comprendan cuándo están corrigiendo ítems jerárquicos de crédito
parcial y cuándo categorías de crédito parcial. Todos los ítems de cré-
dito parcial de las pruebas finales se deben tratar como jerárquicos.
   El volumen 4 de esta serie, Análisis de los datos de una evaluación
nacional del rendimiento académico, incluye una sección especial sobre
el análisis de los datos de una prueba previa o piloto. Expone los enfo-
ques de análisis tanto de la teoría clásica de las pruebas (TCP) como
de la teoría de respuesta al ítem (TRI). La TRI se utiliza con
                                               ENSAYO DE LOS ÍTEMS   | 87



frecuencia para analizar ítems de pruebas, vincular formularios de
prueba y desarrollar escalas para reportar los resultados en evaluacio-
nes nacionales (Beaton y Johnson 1989). Tiene una serie de ventajas
cuando se aplica al cambio de escala de los datos de evaluaciones. La
TRI permite caracterizar un ítem de forma independiente de cual-
quier muestra de individuos que responden al mismo y permite carac-
terizar a un encuestado individual independientemente de cualquier
muestra de ítems planteados a esa persona. Por tanto, la TRI es parti-
cularmente útil cuando se plantean varios conjuntos de ítems a estu-
diantes en una evaluación. Sin embargo, también tiene algunas
desventajas—en particular, la complejidad del procedimiento, que
requiere considerable habilidad y experiencia—. Cuando en un país
no se dispone de la habilidad y experiencia necesarias, se considera
aceptable la aplicación de la TCP.



CONFIAbIlIDAD

Tanto las pruebas previas como las pruebas finales deben proporcio-
nar evidencias acerca de la confiabilidad de las mismas. Una medida
de la confiabilidad es un indicador de la consistencia de los resultados
de la prueba. La confiabilidad depende de la calidad de los ítems de
una prueba, la prueba misma, la forma en que se administran las
pruebas, las características del grupo de alumnos (por ejemplo, el
esfuerzo que hacen al realizar la prueba previa o las pruebas de eva-
luación nacionales) y la calidad de la corrección de los ítems. La con-
fiabilidad se trata en el volumen 4, Análisis de los datos de una
evaluación nacional del rendimiento académico.
   Los índices de confiabilidad de la prueba varían entre 0 y 1, donde
0 representa una prueba en la que las respuestas de los estudiantes
son totalmente inconsistentes (por ejemplo, una prueba en la que
todos los estudiantes responden todos los ítems al azar) y 1 representa
una prueba que mide un dominio con coherencia perfecta.
   La agencia implementadora debe obtener evidencias de confia-
bilidad acerca de la medida en que los ítems individuales de la
prueba previa se relacionan entre sí. Esta información proporcio-
nará una medida de la coherencia interna de los ítems de la prueba.
88   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



Tenga en cuenta que este enfoque presupone que los ítems selec-
cionados miden un único constructo o rasgo, como la capacidad
para el lenguaje o las matemáticas. Normalmente, los equipos de
las evaluaciones nacionales e internacionales tienden a omitir los
ítems que no son relativamente homogéneos, es decir, que no miden
un único constructo o rasgo. La homogeneidad se puede evaluar
aplicando un enfoque como el alfa de Cronbach, las fórmulas 20 o
21 de Kuder-Richardson, o un coeficiente de confiabilidad dividido
en dos mitades, todo lo cual se puede encontrar en el software
estadístico SPSS©.
   Si las pruebas de la evaluación incluyen ítems de respuesta abierta
o de respuesta libre, la agencia implementadora debe comprobar que
el método de corrección sea fiable. Este organismo debe asegurarse de
que todos los evaluadores o correctores de ítems de respuesta abierta
estén capacitados para juzgar si las respuestas de los estudiantes son
aceptables. La formación para ello requerirá que los correctores traba-
jen con el equipo de desarrollo de las pruebas para elaborar una lista
de respuestas aceptables y no aceptables para cada pregunta de res-
puesta abierta. Después de la formación, los correctores, trabajando
en parejas independientes, deben corregir todos los ítems de respuesta
abierta de al menos sesenta cuadernillos de la prueba previa seleccio-
nados aleatoriamente. A continuación, se debe calcular el porcentaje
de coincidencia exacta entre los evaluadores para el conjunto com-
pleto de ítems. Cuando sea evidente que hay confusión entre los
correctores acerca de si una respuesta determinada es aceptable, la
agencia implementadora debe pedir a los desarrolladores de la prueba
que proporcionen aclaraciones. La corrección cuidadosa de los ítems
de respuesta abierta debe contribuir a garantizar que apenas haya
espacio para desacuerdos acerca de las respuestas aceptables o no
aceptables a la hora de corregir los ítems de una evaluación nacional.
El disco compacto que se adjunta contiene una serie de ejemplos de
correcciones de ítems de respuesta abierta.
             5
Ca p í t u l o               SELECCIÓN DE LOS
                             ÍTEMS DE LA PRUEBA




                              La selección de ítems de la prueba previa para
          la prueba final (tratada en cierto detalle en Análisis de los datos de
          una evaluación nacional del rendimiento académico, volumen 4 de
          esta serie), depende en primer lugar, y de manera clave, del marco
          de evaluación, especialmente de las especificaciones técnicas.
          En segundo lugar, depende de las propiedades de medición de
          los ítems.
             Normalmente, se adoptan los siguientes criterios de selección para
          cada ítem:

          •	 El ítem se ajusta a las especificaciones técnicas.
          •	 El porcentaje de alumnos que responde correctamente al ítem
             oscila entre el 40 y el 80 por ciento.
          •	 El ítem tiene una tasa baja de respuestas faltantes.
          •	 El índice de discriminación (correlación entre el puntaje del ítem y
             el puntaje total de la prueba) es superior a 0,2.
          •	 La inclusión de este ítem mejora la confiabilidad de la prueba.
          •	 El sesgo del ítem está dentro de límites aceptables para los grupos
             de alumnos principales.




                                                                              89
90   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



  Las siguientes consideraciones son específicas para los ítems de res-
puesta múltiple:

•	 La correlación punto biserial de la clave es positiva y superior a 0,2.
•	 Todos los distractores son verosímiles (es decir, han sido selecciona-
   dos por al menos el cinco por ciento de los alumnos) y tienen una
   correlación punto biserial cero o negativa.

   La tabla 5.1 muestra un resultado típico del análisis de un ítem de
respuesta múltiple. A nivel estadístico, el ítem funciona bien.
   Los encabezados muestran el número de categorías u opciones del
ítem (A, B, C, D). La opción D es la clave u opción correcta y esto se
muestra con una puntuación de 1 entre corchetes. Las opciones A, B
y C se muestran con una puntuación de 0 entre corchetes. La fila rotu-
lada como “Recuento” muestra el número de alumnos que seleccionó
cada opción: 254 alumnos seleccionaron la opción correcta. La fila
rotulada “Porcentaje” presenta datos porcentuales (el recuento expre-
sado como porcentaje del número de alumnos). El 67 por ciento de los
alumnos eligió la opción correcta. Este resultado muestra que el ítem
está dentro de un rango de dificultad aceptable. El ítem es relativa-
mente fácil. Sólo el 3,7 por ciento de los alumnos seleccionó la opción
B, lo que sugiere que esta opción es débil o inverosímil. Reescribir esta
opción para hacerla más verosímil podría mejorar este ítem y el ítem
tendría que volver a ser sometido a una prueba previa. La fila siguiente
muestra la correlación punto biserial para cada opción. La correlación
punto biserial para la respuesta correcta es de 0,39. Las correlaciones
punto biseriales para las respuestas incorrectas son todas negativas.


TAblA 5.1
Ejemplo de resultado del análisis de un ítem de respuesta múltiple
                                            Opción
 Criterio            A [0]          B [0]            C [0]           D [1]
 Recuento             90             14               21             254
 Porcentaje          23,7            3,7              5,5            67,0
 Correlación
 punto biserial     −0,26          −0,21             −0,16           0,39
Capacidad
media               −0,02          −0,48             −0,14           0,54
                                  SELECCiÓN DE LOS ÍTEMS DE LA PRUEbA   | 91



En los ítems de respuesta múltiple, la correlación punto biserial de la
clave es igual al índice de discriminación del ítem. La última fila mues-
tra la capacidad media. La capacidad media de los alumnos que eligie-
ron la opción correcta es considerablemente más alta que la de aquellos
que seleccionaron opciones incorrectas. Este resultado también mues-
tra que el ítem funciona bien.
   Las siguientes consideraciones son específicas para los ítems de res-
puesta abierta:

•	 Si el ítem se califica de manera dicotómica, el índice de discrimina-
   ción (la correlación entre el puntaje del ítem y el puntaje total) es
   superior a 0,2.
•	 Si el ítem otorga crédito parcial, el índice de discriminación es
   positivo y superior a alrededor de 0,3.
•	 Si el ítem se califica de manera dicotómica, la mayoría de los ítems
   deberían estar en el rango de dificultad del 40 al 80 por ciento.
•	 Si el ítem otorga crédito parcial, cada categoría de puntaje debe
   recibir al menos el cinco por ciento de las respuestas.
•	 Si el ítem otorga crédito parcial, el porcentaje general de alumnos
   que responde a un ítem de manera correcta, calculado combinando
   las respuestas a diferentes categorías parcialmente correctas, está
   en el rango del 40 al 80 por ciento.
•	 Si el ítem otorga crédito parcial, la capacidad media de los alumnos
   se reduce claramente desde las categorías más altas a las categorías
   más bajas de ítems de crédito parcial.

   En la tabla 5.2 se muestra un resultado típico del análisis de un
ítem de respuesta abierta y de crédito parcial con buenos valores esta-
dísticos. Los encabezados de las columnas muestran las categorías de
las respuestas de los alumnos. Los alumnos obtuvieron un puntaje de
0 si respondieron al ítem de manera incorrecta. Una respuesta parcial-
mente correcta obtuvo un puntaje de 1 y una respuesta completa-
mente correcta obtuvo un puntaje de 2. Las respuestas faltantes
aparecen como 9 y también obtuvieron un puntaje de 0. El índice de
discriminación general es de 0,47, que es alto. Nótese que para los
ítems de crédito parcial, el índice de discriminación no es igual a la
correlación punto biserial de la categoría con mayor puntaje.
El recuento y el porcentaje de respuestas correctas figuran en las dos
92   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



TAblA 5.2
Ejemplo de resultado del análisis de un ítem de respuesta abierta y de
crédito parcial
               Categoría de respuesta de los alumnos         Índice de
Criterio       0 [0]      1 [1]     2 [2]      9 [0]   discriminación = 0,47
Recuento       1466       425       268        809
Porcentaje     49,4       14,3       9,0       27,3
Punto
biserial       0,09       0,11      0,45       −0,48
Capacidad
media          −1,66      0,53      0,90       −1,90




primeras filas. Casi la mitad de los alumnos que respondieron a este
ítem lo hicieron incorrectamente. Más del cinco por ciento seleccionó
cada una de las categorías de crédito parcial, lo que sugiere que vale
la pena conservarlas. La correlación punto biserial crece desde el pun-
taje de 0 hasta el puntaje de 2, mostrando que las categorías se com-
portan de acuerdo a lo esperado. La capacidad media de los alumnos
que obtuvieron puntajes de categoría 2 es −0,9. Los alumnos que
obtuvieron puntajes de categoría 0 tienen una capacidad media
de −1,53. La diferencia es superior a 0,5 y respalda el mantener las dos
categorías en las guías de corrección porque diferencian entre estu-
diantes de capacidades bastante diferentes.
   El porcentaje de alumnos que no respondió a este ítem es bastante
alto: el 27,3 por ciento. Esta tabla debe ser analizada dentro del con-
texto de respuestas faltantes de la prueba en general. En este caso, la
mayor parte de los ítems de respuesta abierta tuvieron porcentajes de
respuestas faltantes de más de 20. El problema fue causado por la
falta de familiaridad de los alumnos y la reticencia a responder a este
tipo de ítems, más que por un problema particular con el ítem.
   El nivel de dificultad general de la prueba final debería ser adecuado
para su propósito. Una prueba final diseñada para monitorear el des-
empeño de todos los alumnos en la población objetivo debería tener
un nivel de dificultad que se ajuste a la capacidad de la población.
Las evaluaciones diseñadas para diferentes propósitos, tales como
identificar a los estudiantes que alcanzan un valor de referencia
                                  SELECCiÓN DE LOS ÍTEMS DE LA PRUEbA   | 93



predeterminado, pueden incluir muchos ítems fáciles o muchos ítems
difíciles, dependiendo de cuál sea esa referencia.
    La experiencia hasta la fecha en el desarrollo de pruebas previas
para evaluación nacional sugiere que los redactores de ítems tienden a
desarrollar ítems que, en conjunto, son demasiado difíciles. Parte de
esta tendencia puede provenir de la experiencia previa de estos redac-
tores elaborando preguntas para exámenes públicos, en los cuales las
preguntas tienden a tener un grado bastante alto de dificultad. Más
aún, los redactores de ítems de pruebas previas tienden a vivir en
zonas urbanas y no tienen una apreciación correcta de los bajos niveles
de rendimiento que se pueden encontrar en zonas rurales remotas.
    Si muchos de los ítems de prueba previa son demasiado difíciles y
si la prueba previa no tiene suficientes ítems fáciles como para ajus-
tarse a los criterios establecidos en las especificaciones técnicas, se
requerirá otra ronda de pruebas previas con una nueva serie de ítems
más fáciles. Asimismo, si no hay suficientes ítems difíciles, se necesita-
rán pruebas previas adicionales con ítems más complejos.
    La persona que analizará los datos de la prueba final también debe-
ría analizar los datos de la prueba previa. Cualquier problema con la
forma en que los redactores de ítems informan acerca de las clasifica-
ciones de ítems y las claves, o con la forma en que se otorgó puntaje a
los ítems, puede resolverse durante el análisis de la prueba previa.
    El equipo de redacción de ítems debería participar de la interpre-
tación del análisis de datos de la prueba previa y de las decisiones
respecto de qué ítems retirar de la prueba final y qué ítems con valo-
res estadísticos débiles incluir de todas maneras. Las decisiones res-
pecto de la inclusión o exclusión de ítems deben tener en cuenta las
especificaciones técnicas y las áreas del plan de estudios que la prueba
debe evaluar.
    En general, solo se utiliza un modelo de prueba final por grado.
Puede consistir en dos o tres pruebas separadas, tales como una
prueba de matemáticas, una de lectura y una de escritura. Estas
pruebas pueden combinarse en un cuadernillo único, o imprimirse en
cuadernillos separados.
    Los problemas de las pruebas previas relacionados con la necesidad
de contar con ítems de enlace y su selección y ubicación también se
aplican a la prueba final, de existir varios modelos.
94   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



   Algunos ítems tienen mucho sentido conceptual pero presentan
valores estadísticos deficientes. Este resultado puede indicar un pro-
blema con la forma en la que el ítem fue presentado. Los alumnos
pueden no estar familiarizados con el vocabulario o la forma en la que
deben mostrar sus respuestas, o el material de estímulo puede resultar
confuso. Idealmente, los ítems con valores estadísticos muy deficien-
tes deberían ser revisados y ensayados una vez más. Sin embargo,
cuando ítems con valores estadísticos deficientes abordan criterios
importantes de las especificaciones técnicas y no hay otros ítems
disponibles, puede ser necesario incluirlos en la prueba final.
   En principio, los ítems nunca deberían ser alterados entre la prueba
previa y los modelos finales porque la alteración podría afectar las
estadísticas del ítem de forma impredecible. En la práctica, las agen-
cias de pruebas tienden a hacer alteraciones menores sobre algunos
pocos ítems, generalmente no más de cuatro o cinco en una prueba de
30 ítems. Estas alteraciones menores pueden incluir:

•	 Cambiar una o dos palabras para mejorar la claridad o para reducir
   la dificultad del vocabulario.
•	 Retirar la opción más débil en un ítem de opción múltiple de cinco
   opciones.
•	 Corregir errores gramaticales o mejorar la claridad de expresión.
•	 Mejorar la disposición, como por ejemplo la posición de las etiquetas
   en un diagrama o la coherencia de los títulos.



NOTA

1. Los ejemplos que se utilizan en este capítulo están basados en análisis de
   ítems usando el enfoque de la teoría clásica de las pruebas. El libro 4 de
   esta serie, Análisis de los datos de una evaluación nacional del rendimiento
   académico, cubre este enfoque en más detalle. También presenta otro
   método de análisis de ítems, la teoría de respuesta al ítem, que utiliza un
   enfoque estadístico y una terminología diferentes.
             6
Ca p í t u l o               PRODUCCIÓN DE LA
                             PRUEBA DEFINITIVA




          DISEÑO DE lA PRUEbA DEFINITIVA

          El analista de datos o estadístico debe participar en el diseño del
          formulario definitivo. Debe verificar que se cumplan los siguientes
          requisitos:

          •	 La organización de la información sobre el alumno en la portada de
             la prueba es adecuada para el análisis.
          •	 El método para registrar las respuestas a los ítems es adecuado para
             el análisis.
          •	 Las propiedades y el alcance de las guías de corrección son adecua-
             dos para el análisis.
          •	 Las vinculaciones horizontales con datos sobre pruebas de años
             anteriores o las vinculaciones verticales que pudieran requerirse
             son confiables desde el punto de vista estadístico.

             La información sobre el alumno que debe figurar en la portada de
          los cuadernillos de prueba está relacionada con el objetivo de la
          prueba y con el modo en que los datos de la prueba serán reportados.
          Los alumnos deben ser capaces de brindar la información solicitada




                                                                              95
96    | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



de manera fácil y precisa. La información de la portada normalmente
incluye lo siguiente:

•	   Nombre de la escuela
•	   Nombre completo del alumno
•	   Sexo
•	   Edad o fecha de nacimiento
•	   Grado o clase a la que concurre
•	   Información sobre el idioma

   En algunos países, los alumnos suelen contar con un número único
de identificación nacional. En caso de estar disponibles, estos números
deben utilizarse.
   También es útil incluir un apartado en la portada para que el
examinador registre si los alumnos no realizaron parte o la totalidad
de la prueba por ausencia o enfermedad, o si se brindó ayuda especial
para escribir las respuestas a los alumnos con discapacidades (véase el
recuadro 6.1).
   Generalmente, es más fácil garantizar que la identidad de los alum-
nos esté bien registrada y vinculada con los datos correspondientes si
se agrupan todas las pruebas en un solo cuadernillo. Se pueden evitar
posibles problemas de identificación si la información de la portada
del cuadernillo de pruebas único se ingresa de manera legible y pre-
cisa antes de la primera sesión de evaluaciones. Si se utiliza un cuader-
nillo único, el examinador debe tomar los recaudos necesarios para
asegurarse de que estos sean entregados a los alumnos correspondien-
tes en cada sesión de prueba subsiguiente.
   Es necesario contar con procedimientos eficaces para que los can-
didatos reciban los cuadernillos correspondientes cuando se utilizan
varios cuadernillos de pruebas. Cuando se utilizan varios cuadernillos,
se presentan los siguientes riesgos:

•	 Los alumnos pueden escribir sus nombres de manera diferente en
   cuadernillos diferentes.
•	 Los alumnos pueden usar nombres diferentes en cuadernillos dife-
   rentes; por ejemplo, una forma abreviada de su nombre en un cua-
   dernillo y su nombre completo en los otros, un nombre religioso o
   cultural en un cuadernillo y el apellido en otro, o su primer nombre
   en un cuadernillo y su segundo nombre en otro.
                                         PRODUCCiÓN DE LA PRUEbA DEFiNiTiVA   | 97




 RECUADRO 6.1


  Ejemplo de una portada de pruebas

  EVALUACiÓN DEL MONiTOREO DE LA EDUCACiÓN: CUARTO GRADO

  Esta sección debe ser completada por el alumno:

  Escuela
  Provincia
  Grado
  Nombre
  Apellido
  Soy niño        Soy niña
  Edad:       años y     meses
  El idioma que más hablo en mi casa es el inglés. Sí             No
  Esta sección debe ser completada por el examinador:

  El alumno estuvo ausente en las siguientes pruebas de este cuadernillo:
  Lectura
  Matemáticas
  El alumno recibió ayuda especial en lectura          matemáticas
  Describir la ayuda brindada:
  Fuente: Departamento de Educación de Papúa Nueva Guinea 2004.




•	 Los alumnos pueden escribir su nombre completo, o parte de él, de
   manera ilegible en, al menos, uno de los cuadernillos.
•	 Los alumnos pueden omitir escribir su nombre en uno o más
   cuadernillos.

   La organización de la información y las guías generales sobre la
administración de las pruebas deben ser claras y concisas. En lo posi-
ble, el diseño de la prueba previa y el de la prueba definitiva deben
ser iguales.
   La prueba debe contener ítems fáciles al principio para dar
confianza a los alumnos más flojos. Luego, deben continuar los ítems
que presenten algún grado de dificultad, sin seguir ningún orden en
particular, de manera que los alumnos no decidan abandonar tras
98   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



esforzarse por resolver una serie de ítems difíciles. También es impor-
tante brindar a los alumnos más lentos la oportunidad de intentar
algunos ítems difíciles, ubicando dichos ítems en la primera parte de
la prueba. La prueba debe finalizar con ítems difíciles, pues los
alumnos con menor capacidad son menos propensos a completarla.
Los ítems relacionados con un estímulo en común (por ejemplo, un
párrafo o un mapa) deben estar juntos, sin importar su nivel de
dificultad.
   Las guías generales sobre la ubicación de los ítems de enlace son
las mismas para el formulario definitivo que para la prueba previa
(véase el capítulo 4). Los ítems de vinculación horizontal se utili-
zan para crear vínculos con pruebas anteriores cuando se compara
el desempeño en el tiempo. Los ítems de vinculación vertical se
necesitan para comparar el desempeño entre grados escolares. Los
ítems de enlace deben ubicarse (a) al principio o en la parte central
del cuadernillo y (b) en ubicaciones similares en cada cuadernillo
de prueba.
   Los ítems en los cuadernillos de prueba deben estar identificados
en escala de grises para poder ubicarlos (véase el capítulo 3).
   El encargado del desarrollo de las pruebas debe entregarle una pla-
nilla al analista de datos en la cual se indique dónde aparecen los
ítems en cada cuadernillo, incluyendo los ítems de enlace.
   La manera en que los alumnos anotarán sus respuestas debe haber
sido definida durante el diseño de las especificaciones técnicas (véase
el capítulo 2). Generalmente, los alumnos anotan la respuesta al ítem
en los cuadernillos de prueba. El diseño de los ítems debe brindar
espacio suficiente para que los alumnos anoten sus respuestas y tam-
bién debe proporcionar un espacio para que los evaluadores anoten
su puntuación.
   En otras instancias, especialmente en los grados de nivel superior,
es posible utilizar formularios de respuestas por separado. Estos for-
mularios deben mostrar claramente cómo vincular la respuesta al
ítem o la opción impresa en el cuadernillo de prueba con su ubicación
en el formulario de respuestas. Si los ítems en el cuadernillo de prueba
están organizados en unidades, lo más práctico es organizar los formu-
larios de respuestas en unidades similares.
                                  PRODUCCiÓN DE LA PRUEbA DEFiNiTiVA   | 99



IMPRESIÓN Y CORRECCIÓN

Los siguientes factores determinan la extensión del cuadernillo de
prueba:

•	   La cantidad de áreas temáticas cubiertas
•	   La amplitud de la cobertura dentro de las áreas temáticas
•	   El formato de los ítems
•	   Las ilustraciones
•	   La extensión del material de estímulo
•	   El tamaño de la fuente
•	   El presupuesto para la impresión

   Los redactores de los ítems deben conocer desde el principio la
cantidad de páginas sugeridas para el formulario definitivo de la
prueba. Si es evidente que la extensión de la prueba será limitada,
tanto el material de estímulo como los diagramas e ilustraciones debe-
rán reducirse. Independientemente del espacio disponible, el diseño
de los ítems debe ser claro y ordenado.
   Los cuadernillos con menos de 20 páginas (10 hojas) normalmente
se imprimen en hojas tamaño A4 (210 × 297 milímetros) y se engra-
pan en un lado. Los cuadernillos más extensos suelen estar impresos
en hojas de tamaño A3 (420 × 297 milímetros) y engrapados en el
centro.
   Generalmente, los cuadernillos que contienen más páginas permi-
ten incluir una amplia variedad de material de estímulo interesante y
también ítems más creativos. El inconveniente es que imprimirlos y
distribuirlos es más costoso. También ocupan más lugar durante el
embalaje y la corrección, lo que puede aumentar considerablemente
los costos totales.
   Normalmente, las pruebas se imprimen en ambas caras de la hoja.
La calidad del papel debe ser adecuada para asegurar que los ítems
impresos de un lado de la hoja no interfieran en la lectura de los ítems
impresos del otro lado de la misma hoja.
   Las fotografías requieren papel de alta calidad para lograr mayor
nitidez. Los diagramas con muchos detalles también deben ser impre-
sos en papel de alta calidad.
100   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



   Si los alumnos deben responder en los cuadernillos de prueba, el
papel de los mismos debe ser suficientemente fuerte para que escri-
ban sus respuestas sin romperlo y para que escriban en ambas caras de
la hoja sin que se vea la respuesta del otro lado.
   El papel de la portada suele ser de mejor calidad que el que se uti-
liza para el resto del cuadernillo de prueba, pero esto suele aumentar
los costos y no es necesario.
   Normalmente, es más práctico imprimir los cuadernillos para dife-
rentes grados con tintas de diferentes colores. Esto ayuda a garantizar
que a cada alumno se le entregará el cuadernillo correspondiente. Los
colores de tinta seleccionados deben ser fáciles de leer.
   Los formularios definitivos deben ser revisados por un corrector
con experiencia. También es aconsejable pedir a colegas competentes
que no hayan participado en el desarrollo de las pruebas que lean el
formulario definitivo para verificar que tenga sentido para quienes
usarán la prueba.
   Hay dos momentos fundamentales en la revisión de los formularios
definitivos de las pruebas. Una vez elaborados los formularios defini-
tivos, deben ser corregidos por el encargado del desarrollo de las prue-
bas, por los redactores de los ítems correspondientes y, finalmente, por
un corrector profesional. Los formularios definitivos deben corregirse
por segunda vez cuando se tengan las “pruebas de imprenta”. Las
pruebas de imprenta son imágenes de las páginas del cuadernillo tal
cual serán reproducidas. La imprenta normalmente entregará las
pruebas de imprenta algunos días después de recibir la prueba. El
encargado del desarrollo de las pruebas puede aceptar la responsabi-
lidad de corregirlas o puede optar por encargar a un corrector profe-
sional. Se deben destinar al menos dos días para la revisión y corrección
de los formularios definitivos. Puede necesitarse más tiempo, según la
disponibilidad del personal para la corrección de los cuadernillos.
   A menudo, los correctores encuentran cientos de errores pequeños,
especialmente, errores en el uso de mayúsculas, puntuación, formato,
distribución y ortografía. Si la corrección de las pruebas previas ha
sido minuciosa y exhaustiva, y si se han efectuado pocos cambios sus-
tanciales en los ítems, en teoría, la corrección de los formularios defi-
nitivos debería detectar pocos errores, o ninguno. En la práctica, esto
casi no ocurre. Pueden aparecer errores en los formularios definitivos
                                 PRODUCCiÓN DE LA PRUEbA DEFiNiTiVA   | 101



donde no aparecieron antes. Los correctores suelen necesitar varios
días para revisar exhaustivamente los formularios definitivos de la
prueba y las guías generales de administración, aun cuando las pruebas
previas han sido corregidas antes.
   La impresión de trabajos extensos debe encargarse con varias sema-
nas y hasta meses de anticipación. La imprenta sugerirá una fecha de
entrega. En algunas ocasiones, el equipo de evaluación nacional puede
negociar el pago de incentivos por la entrega anticipada y proponer
descuentos o penalizaciones por el retraso en la entrega. Las impren-
tas pueden cometer errores en la impresión de los cuadernillos; la
falta de algunas páginas en algunos de ellos siendo el error más fre-
cuente. El encargado del desarrollo de las pruebas debe revisar de
manera aleatoria las cajas de los cuadernillos definitivos impresos para
detectar errores.
             7
Ca p í t u l o               CALIFICACIÓN
                             MANUAL DE LOS
                             ÍTEMS




                              El equipo de corrección nacional debe asegu-
          rarse de que los correctores que realizan la calificación manual de
          los formularios definitivos estén debidamente capacitados. En esta
          fase, las guías para la evaluación y puntuación de pruebas o rúbri-
          cas, revisadas durante la prueba previa, deben ser casi definitivas.
          Antes de que comience la calificación manual definitiva, los redac-
          tores de los ítems pueden seleccionar una pequeña muestra de for-
          mularios de prueba completados, verificar la claridad y eficacia de
          las guías para la evaluación y puntuación, e introducir pequeñas
          modificaciones.
             La instalación de un centro de corrección de pruebas para la califi-
          cación manual y el establecimiento de procesos de calificación manual
          efectivos deben planearse con considerable anticipación. El equipo de
          corrección nacional debe haber abordado las siguientes preguntas
          antes de que comience la calificación manual:

          •	 ¿Dónde se guardarán los materiales que conforman las pruebas?
          •	 ¿Cómo serán trasladados a los centros de corrección de pruebas?
          •	 ¿Cómo se garantizará la seguridad de los materiales? (Las pruebas
             y las guías para su evaluación y puntuación deben custodiarse).



                                                                             103
104   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



•	 ¿En qué horarios se realizará la calificación manual? ¿La califica-
   ción se organizará en unidades diarias, en turnos (incluyendo un
   turno nocturno)? ¿Los correctores trabajarán durante los fines
   de semana?
•	 ¿Cómo registrarán los datos los correctores?
•	 ¿Qué herramientas de corrección se necesitan? Generalmente, se
   prefiere la tinta roja o verde, dado que esos colores se ven clara-
   mente en los cuadernillos de los alumnos. Las notas o señaladores
   autoadhesivos son útiles para marcar aquellos ítems sobre los cua-
   les los correctores tienen dudas.
•	 ¿Los correctores serán remunerados según la cantidad de pruebas
   corregidas o según la cantidad de tiempo dedicado a la corrección?
   Ambos métodos presentan ventajas y desventajas. Si se considera la
   cantidad de pruebas corregidas, los correctores pueden darse prisa
   y realizar una corrección descuidada con el fin de acumular la
   mayor cantidad de pruebas posible. En el caso de la remuneración
   por tiempo, los correctores pueden no dedicarse completamente a
   la tarea y el rendimiento puede ser bajo. Un acuerdo equilibrado
   podría ser la remuneración según el tiempo dedicado, pero con la
   exigencia de una cantidad mínima de pruebas completadas por día.

   En un centro de corrección de pruebas se necesitan correctores,
correctores expertos y un jefe de correctores. Los responsables de la
selección de los correctores deben entrevistar a los aspirantes y verifi-
car sus referencias.
   El jefe de correctores es el responsable de todas las operaciones
diarias. Debe garantizar el cumplimiento del horario por parte de los
correctores, resolver cuestiones relacionadas con la corrección, super-
visar los procedimientos de control de calidad y mantener la seguri-
dad de las pruebas. Además, debe ser un corrector con experiencia y
con capacidad demostrada para la gestión de operaciones, preparado
para despedir a aquellos miembros del equipo que no realicen su tra-
bajo como se espera.
   Los correctores expertos son los responsables de supervisar la
corrección de pruebas en un área temática en particular e implemen-
tar procedimientos de control de calidad. Cada prueba debe tener al
menos un corrector experto (por ejemplo, un corrector experto en
                                  CALiFiCACiÓN MANUAL DE LOS ÍTEMS   | 105



matemáticas y un corrector experto en comprensión lectora). Estos
correctores deben ser expertos en un área temática, tener experiencia
en la corrección e imponer respeto.
   Los correctores asignan puntajes a las respuestas de los alumnos.
Normalmente, los maestros son buenos correctores. Deben ser dili-
gentes, constantes y confiables, y deben conocer su área temática.
   Generalmente, el encargado del desarrollo de las pruebas designa a
redactores de ítems de áreas temáticas pertinentes para que capaciten
a los correctores. Preferiblemente, la persona a cargo de la capacita-
ción de los correctores debe ser un experto en la materia. El encar-
gado del desarrollo de las pruebas puede ocuparse de capacitar a los
correctores en su área temática. Lo ideal es que la persona que llevó a
cabo la capacitación de correctores durante las pruebas previas lo
haga también en las pruebas definitivas.
   Debe preverse tiempo suficiente para organizar varios periodos de
capacitación para cada grupo de correctores. La capacitación debe
hacer hincapié en el hecho de que los correctores leerán una variedad
de respuestas correctas posibles. Algunas de ellas pueden no ser como
las que habitualmente leen, pueden ser diferentes a las respuestas de
un libro de texto o pueden estar mal redactadas o contener vocabula-
rio poco convencional. La capacitación de los correctores debe tratar
los siguientes aspectos:

•	 Los correctores tienen poca, o ninguna, libertad para determinar la
   pertinencia de una respuesta; no hay lugar para opiniones o prefe-
   rencias personales.
•	 Los alumnos no deben ser penalizados por las faltas de ortografía o
   los errores gramaticales en comprensión lectora, matemáticas o
   ciencia, a menos que el trabajo sea imposible de comprender.
•	 Los correctores deben consultar a un corrector experto cuando no
   estén seguros de cómo puntuar una respuesta específica.
•	 Los correctores deben utilizar la misma puntuación (normalmente
   o) de manera uniforme para todas las respuestas incorrectas y todas
   las respuestas ilegibles o incomprensibles, incluyendo la escritura
   de una sola letra o una simple línea.
•	 Los correctores deben utilizar el mismo código de puntuación
   (normalmente 9) de manera uniforme para indicar que el alumno
106   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



   no intentó responder el ítem, es decir, que no hay ni siquiera mar-
   cas con lápiz en el espacio destinado para la respuesta.
•	 Para facilitar la captura de datos, los correctores deben utilizar sola-
   mente el espacio asignado en el cuadernillo al realizar la califica-
   ción manual.
•	 Los correctores no son los responsables de computar los puntajes
   para llegar a un total.
   Durante la capacitación, debe ponerse el acento en asegurar que
los correctores comprendan qué implica la tarea de corregir y asignar
puntajes y en mantener la coherencia en la evaluación y puntuación
de las pruebas. Los métodos para la capacitación suelen variar.
El siguiente método es una sugerencia, pero pueden existir otros.

•	 El capacitador les pide a los correctores que respondan cada ítem
   de calificación manual en la prueba. Este proceso ayuda a que los
   correctores se familiaricen con los ítems y garantiza que los hayan
   leído y comprendido de manera adecuada.
•	 El capacitador le entrega a cada corrector cuatro o cinco cuader-
   nillos de pruebas completados. Luego, analiza el primer ítem y la
   guía de corrección y, finalmente, los correctores asignan una pun-
   tuación a este ítem en sus cuadernillos de pruebas. El capacita-
   dor fomenta la discusión grupal de dudas o discrepancias sobre
   cómo asignar puntos a un ítem. Se anima a los correctores a
   compartir las respuestas que difieran de las respuestas sugeridas
   en las guías de corrección. Luego de que el primer ítem ha sido
   debidamente discutido, el capacitador pasa al ítem siguiente y su
   correspondiente guía de corrección. Este método habitualmente
   toma varias horas.
•	 Los correctores participan en una segunda sesión de capacitación
   en la cual trabajan en pares. Asignan puntuación a algunas pruebas
   de manera individual y, luego, verifican el trabajo del compañero y
   discuten las diferencias en sus criterios. Si no logran llegar a un
   acuerdo, deben consultar al capacitador. Luego de que las sesiones
   de capacitación han finalizado, el corrector experto asume la res-
   ponsabilidad de dirigir a los correctores. El corrector experto debe
   comunicar al capacitador los problemas que puedan surgir durante
   la corrección de las pruebas.
                                  CALiFiCACiÓN MANUAL DE LOS ÍTEMS   | 107



•	 Durante la evaluación y puntuación real de los cuadernillos de
   pruebas, el corrector experto debe seleccionar algunos ítems pro-
   blemáticos cada día y fomentar pequeñas discusiones sobre ellos
   para mantener el foco y la coherencia.

   Para lograr una buena verificación de los ítems de respuesta corta
en la evaluación nacional se debe incluir una revisión inicial de prác-
ticamente todos los cuadernillos de pruebas. Generalmente, esta revi-
sión la realizan los correctores expertos. El tiempo de revisión puede
reducirse gradualmente al 10 % o el 20 % de los cuadernillos a medida
que los correctores muestran coherencia y confiabilidad en sus eva-
luaciones y puntuaciones.
   Si se emplea un grupo numeroso de correctores, se necesitarán
varios correctores expertos para asegurar la calidad de la verificación
y para brindar observaciones inmediatas a los correctores sobre los
errores que cometan. El corrector experto puede solicitar a los correc-
tores que vuelvan a asignar puntuaciones a algunos ítems en cuader-
nillos que ya han sido evaluados cuando hayan cometido errores en su
corrección. Los procedimientos para la evaluación de discrepancias
también deben ser claros. Generalmente, la puntuación asignada por
el corrector experto es la que tiene validez.
   Las pruebas de lengua pueden incluir uno o más ítems que soli-
citan una redacción como respuesta. Las redacciones habitual-
mente son evaluadas dos veces. El segundo corrector asigna un
puntaje a la redacción sin conocer el puntaje o la calificación que le
ha asignado el primer corrector. Luego, se comparan las dos pun-
tuaciones. Generalmente, se aceptan diferencias de un punto y, en
tal caso, los dos puntajes se promedian. En caso de que haya dife-
rencias notables entre los puntajes de los correctores, al menos uno
de los dos puntajes deberá modificarse. Este cambio deberá ser con-
sensuado entre ambos correctores. Si los correctores no logran lle-
gar a un acuerdo, el asunto debe enviarse al corrector experto para
que decida.
   La calificación manual requiere mucha concentración. Los correc-
tores no deben trabajar durante mucho tiempo en un mismo día o sin
descanso. Habitualmente, un periodo de entre seis horas y seis horas y
media por día es lo máximo que se permite. Un día de trabajo debe
108   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



consistir en una sesión de corrección de tres horas en la mañana, un
pequeño receso y una sesión de tres horas en la tarde con un pequeño
receso. Los correctores más lentos pueden necesitar media hora más
para completar el número de pruebas exigido por día. Los correctores
deben completar planillas de asistencia diaria.
PA RT e
          2   ELABORACIÓN DE
              CUESTIONARIOS
             8
CA P Í T U L O                DISEÑO DE
                              CUESTIONARIOS




                                Un cuestionario es un conjunto de ítems diseñado
          para obtener información de una persona. La clase de información
          puede variar ampliamente y puede incluir datos sobre características
          personales, calificaciones y prácticas laborales, condiciones y recursos
          laborales o información en cuanto al origen de las personas y sus acti-
          tudes, creencias u opiniones sobre ciertos temas.
             Una evaluación nacional busca obtener un cálculo estimativo confia-
          ble del rendimiento de los estudiantes (medido por medio de un exa-
          men diseñado especialmente) e información (medida por medio de un
          cuestionario) sobre las variables principales asociadas con las diferencias
          en el rendimiento de los estudiantes. Las pruebas recopilan información
          sobre el desempeño de los estudiantes y los cuestionarios, cuando se los
          utiliza junto con las pruebas, recopilan datos sobre variables que podrían
          asociarse con las diferencias en los niveles de desempeño de los estu-
          diantes o ayudar a explicarlas. Por ejemplo, los datos de los cuestionarios
          pueden indicar que las escuelas que no cuentan con biblioteca se
          relacionan con un desempeño deficiente o que las escuelas en las que
          los docentes participan con regularidad en programas de desarrollo
          profesional se asocian con un rendimiento estudiantil alto. Estos datos
          indican formas en las que los recursos educativos podrían canalizarse de
          manera provechosa para mejorar el aprendizaje de los estudiantes.

                                                                                 111
112   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



   Un buen cuestionario recopila datos sobre variables para las que los
responsables políticos desean información precisa, variables que ellos
pueden modificar y sobre las que desean influir, variables que, según
la evidencia aportada por las investigaciones, pueden modificar el ren-
dimiento de los estudiantes.
   Un error habitual en el diseño de cuestionarios es la recopilación
de demasiada información. Generalmente, los responsables políticos
están interesados en información sobre solamente una pocas variables
clave. Además, incluso si existen buenas razones científicas para reco-
pilar cierta clase de datos, la consideración de las consecuencias polí-
ticas y sociales de la recopilación de datos podría indicar que una
evaluación nacional no es el mejor mecanismo para ello.
   La información, generalmente, puede recopilarse de otras fuen-
tes que no sean cuestionarios en los países que guardan registros
confiables y precisos sobre las características de las escuelas, los
docentes y los estudiantes. Vale la pena averiguar si los registros
gubernamentales son una fuente útil de información, porque el
acceso a tales registros puede ser más barato y fácil que la adminis-
tración de cuestionarios.
   El diseño del cuestionario debe describir claramente qué tipo de
datos se recopilarán, cómo se analizarán y registrarán, y de qué manera
los resultados podrían contribuir a mejorar la educación. Los pasos
principales en el diseño del cuestionario son los siguientes:

•	 Decidir cuál es el propósito de un cuestionario y cómo se utilizarán
   los datos.
•	 Desarrollar un plan que especifique los encuestados, las áreas de
   interés, los tipos de ítems y el protocolo de codificación o puntaje
   y de administración (que puede ser completado por el entrevista-
   dor o autocompletado).
•	 Redactar los ítems y utilizar grupos (o comités) de expertos en el
   tema para revisarlos y mejorarlos, y diseñar el formato del formula-
   rio de modo que los encuestados puedan usarlo fácilmente y que
   quienes ingresan los datos puedan procesarlos eficientemente.
•	 Especificar un plan de análisis de datos para el procesamiento de la
   información recopilada y la creación de variables e indicadores de
   medición, para el análisis estadístico posterior.
                                            DiSEÑO DE CUESTiONARiOS   | 113



•	 Realizar un cuestionario de prueba previa o de campo para estable-
   cer la idoneidad de los ítems y las categorías de respuesta.
•	 Analizar los datos del cuestionario de prueba previa, mejorarlo y
   producir los cuestionarios finales para su administración.

   La tabla 8.1 brinda detalles de los pasos en el desarrollo del cues-
tionario y de las personas que participan.
   Los cuestionarios y las instrucciones para su administración deben
prepararse y someterse a un ensayo previo o de campo al mismo
tiempo que las pruebas. De esta manera, los proyectos de los cuestio-
narios deben desarrollarse al mismo tiempo que los proyectos de las
pruebas, y los cuestionarios deben escribirse y planificarse al mismo
tiempo que se redactan y ensayan los ítems de las pruebas.



CONTENIDO DEl CUESTIONARIO

Un cuestionario debe recopilar información sobre variables clave que
podrían ayudar a explicar las diferencias en el desempeño de los estu-
diantes en una prueba de rendimiento de los estudiantes. Sin embargo,
una infinidad de combinaciones de variables pueden afectar el desem-
peño de los estudiantes. Un cuestionario puede centrarse en solo unas
pocas variables.
   Los responsables políticos generalmente desean conocer sobre las
variables asociadas con los temas educativos en su país, tales como el
idioma de instrucción, las desigualdades en la distribución de los recur-
sos educativos o las actitudes hacia la educación de las niñas. Los respon-
sables políticos quizá no sepan qué variables investigar. Es posible que
señalen una lista de variables desde su observación y experiencia perso-
nal, o variables que piensan que “deben” figurar en un cuestionario. Es
necesario reducir dicha lista a unos pocos requerimientos que posible-
mente puedan utilizarse para dar forma al contenido del cuestionario.
   Puede que los responsables políticos desconozcan que el proceso
de análisis y reporte de los datos del cuestionario es costoso y requiere
conocimientos técnicos. Debido a que los recursos siempre son
limitados, es necesario que los cuestionarios sean concisos y muy per-
tinentes. La recopilación de datos debe ser técnicamente aceptable si
TAblA 8.1
Partes del desarrollo del cuestionario
 Parte              Descripción                                                     Personas que participan
                                                                                                                                                         114


 1. Propósito       Esclarecer el propósito y la posible utilización de los datos   Responsables políticos, grupos de interés clave y encargado
                    del cuestionario.                                               del desarrollo de la prueba
 2. Proyecto        Diseñar el modelo de cuestionario para especificar los          Encargado del desarrollo de la prueba, expertos, analistas de
                    encuestados, las áreas de interés, los tipos de ítems, la       datos, redactores de ítems experimentados, docentes
                    codificación y el protocolo de administración.                  experimentados, responsables políticos y grupos de interés clave
 3. Ítems           Redactar ítems de cuestionarios.                                Encargado del desarrollo de la prueba y redactores de ítems
                    Mejorar para obtener claridad y utilidad en los comités de      Encargado del desarrollo de la prueba y redactores de ítems
                    cuestionarios.
                    Revisar los cuestionarios.                                      Encargado del desarrollo de la prueba, responsables políticos
                                                                                    y grupos de interés clave
 4. Plan de         Especificar el plan para procesar la información, para crear    Analista de datos y encargado del desarrollo de la prueba
    análisis de     variables e indicadores de mediciones y para los tipos de
    datos           análisis.
                                                                                                                                                       | DESARROLLO DE PRUEbAS Y CUESTiONARiOS




 5. Prueba previa   Diseñar, producir y corregir los cuestionarios para la          Encargado del desarrollo de la prueba, redactores de ítems,
                    prueba previa.                                                  profesionales de diseño y diagramación y correctores
                    Redactar instrucciones de administración para la prueba         Encargado del desarrollo de la prueba y redactores de ítems
                    previa de cuestionarios e instruir a los examinadores.
                    Realizar la prueba previa de los cuestionarios al mismo         Encargado del desarrollo de la prueba, gerente de logística y
                    tiempo que se realiza el ensayo de las pruebas.                 examinadores
 6. Cuestionario    Analizar los datos de la prueba previa del cuestionario.        Encargado del desarrollo de la prueba y analista de datos
    final           Mejorar las instrucciones de administración y del cuestionario Encargado del desarrollo de la prueba, redactores de ítems y
                    en función de los datos de la prueba previa y las              analista de datos
                    observaciones aportadas por el administrador de la prueba.
                    Producir el formulario final del cuestionario.                  Encargado del desarrollo de la prueba, redactores de ítems,
                                                                                    profesionales de diseño y diagramación, y correctores
                                          DiSEÑO DE CUESTiONARiOS   | 115



estos se van a utilizar para explicar el desempeño de los estudiantes.
Los modelos utilizados por otras evaluaciones nacionales pueden
proporcionar una orientación aproximada. Cada país tiene sus pro-
pias necesidades, sin embargo, y estas deben determinar la naturaleza
adecuada de cada cuestionario.
   Es posible que el encargado del desarrollo de la prueba o la persona
responsable de la producción del cuestionario tenga que orientar a los
responsables políticos sobre las variables clave que pueden brindar
información útil. Para esto, es posible que tenga que presentar a dichos
responsables ejemplos relevantes para ayudarles a considerar cómo
podrían utilizar la información recopilada. Esta información ayudará
posteriormente a perfeccionar la lista de variables que se abordarán.
   Debido a que los cuestionarios se diseñarán para abordar temas que
los encuestados probablemente conozcan, los temas para los estudian-
tes, padres, docentes y directores serán distintos. En la siguiente
sección se sugieren algunos temas apropiados para los cuestionarios
de cada uno de estos grupos.


Cuestionarios para estudiantes

Los cuestionarios para estudiantes pueden recopilar la siguiente
información:

•	 Sexo, edad e idioma de origen (generalmente todos se recopilan en
   el frente del cuadernillo del examen).
•	 Antecedentes educativos, tales como años de escolaridad y perío-
   dos de ausencia escolar.
•	 Oportunidades de asistir a la escuela.
•	 Expectativas de éxito y actitudes familiares y personales sobre
   el valor de la escuela.
•	 Percepción del entorno del aula, como sentido de seguridad, com-
   pañerismo de otros estudiantes o apoyo docente.



Cuestionarios para padres

Los cuestionarios para padres pueden recopilar la siguiente
información:
116   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



•	 Nacionalidad, sexo e idioma de origen.
•	 Entorno doméstico, como acceso a libros, escritorios e iluminación.
•	 Origen familiar, como educación de los padres e idioma que se
   habla en el hogar.
•	 Actitudes hacia la educación, como el compromiso de mandar a los
   hijos a la escuela, la percepción del valor y de la importancia de la
   educación o la percepción de la calidad de la educación.
•	 Atención a las tareas para el hogar y recursos de estudio que se
   brindan en el hogar para los hijos.
•	 Accesibilidad económica y física a la educación para los hijos.
•	 Expectativas de rendimiento educativo de los hijos.
•	 Participación en las escuelas, tales como la participación en el aula
   o en comisiones.
•	 Naturaleza de los informes escolares sobre el progreso de los hijos
   y sus valores.
•	 Apoyo financiero para escolaridad en forma de pago de los libros
   de texto y aranceles.

Cuestionarios para docentes

Los cuestionarios para docentes pueden recopilar la siguiente
información:

•	 Sexo y edad.
•	 Idioma materno.
•	 Condiciones de enseñanza, como tamaño de la clase, acceso a
   recursos, porcentaje de alumnos que cuentan con libros de texto,
   acceso a docentes suplentes en caso de enfermedad y asistencia con
   alumnos difíciles.
•	 Experiencia educativa, formación docente y cantidad de años en la
   escuela.
•	 Compromiso profesional con el aprendizaje, como acceso a desa-
   rrollo profesional e interés en el mismo, interés en la enseñanza y
   tiempo empleado en la planificación de las clases.
•	 Disponibilidad de apoyo educativo mediante visitas al aula por
   parte de los directores, inspectores escolares o supervisores.
•	 Metodología de la enseñanza, como idioma de instrucción, utiliza-
   ción de las evaluaciones y estilo de enseñanza.
                                           DiSEÑO DE CUESTiONARiOS   | 117



•	 Satisfacción con las condiciones laborales, como antigüedad, nivel
   de salario y supervisión.
•	 Relaciones con la comunidad escolar, como interacción con los
   padres, participación en comisiones escolares y en los eventos de la
   comunidad local.
•	 Distancia entre el domicilio del docente y la escuela.


Cuestionarios para directores

Los cuestionarios para directores pueden recopilar la siguiente
información:

•	 Sexo y edad.
•	 Formación y experiencia educativa y en gestión.
•	 Entorno escolar, como calidad de los edificios e instalaciones, así
   como disponibilidad de recursos.
•	 Informes escolares, como la fluctuación de la cantidad de estudian-
   tes, el grado de ausentismo estudiantil y docente, y la frecuencia de
   cambio de escuela de los estudiantes.
•	 Compromiso profesional con el liderazgo escolar, como el acceso e
   interés en el desarrollo profesional y el interés en la educación.
•	 Estilo de liderazgo y utilización del tiempo.
•	 Satisfacción con las condiciones laborales, como antigüedad, nivel
   de salario y frecuencia de supervisión.
•	 Relaciones con la comunidad escolar, como interacciones con los
   padres y participación en eventos de la comunidad local.


ESPECIFICACIONES TÉCNICAS DEl CUESTIONARIO

Es necesario un documento de especificaciones técnicas que guíe el
desarrollo del cuestionario. Este describe las cuestiones normativas
clave que serán el eje del cuestionario; identifica a los encuestados;
enumera las variables clave que deben ser abordadas y especifica el
formato de los ítems, las categorías de respuesta y el protocolo de
administración.
   El recuadro 8.1 brinda un ejemplo de especificaciones técnicas del
cuestionario utilizadas para recopilar información sobre los valores y las
118    | DESARROLLO DE PRUEbAS Y CUESTiONARiOS




 RECUADRO 8.1


  Especificaciones técnicas para el cuestionario sobre valores y actitudes

  Parte I
                                                          Creencias sobre        Percepciones de
                                   Actitudes hacia la     la vida en Papúa       la comunidad
      Áreas de interés             escuela                Nueva Guinea           local
      Cantidad de preguntas        10                     15                     15
      Encuestados                  3.° grado              5.° grado              5.° grado
                                   5.° grado              8.° grado              8.° grado
                                   8.° grado
      Categorías de respuesta Sí o no                     Sí o no                Sí o no


  Parte II
                                        Creencias sobre la vida en       Percepciones de la
      Actitudes hacia la escuela        Papúa Nueva Guinea               comunidad local
      Creencias sobre el                Actitudes hacia la               Nivel de cooperación en
      rendimiento personal,             educación: enseñanza en          la comunidad local
      duración prevista de la           lengua vernácula,                percibido: apoyo a las
      escolarización y planes           educación obligatoria, rol       escuelas, participación
      personales a futuro               de las escuelas, educación       local en eventos de la
                                        de las niñas y roles de las      comunidad e intercambio
                                        mujeres                          de recursos
      Percepción de amabilidad          Actitudes hacia la               Actitud percibida de la
      por parte de los docentes,        comunidad: intención             comunidad local hacia las
      compañerismo de los               personal de permanecer en        niñas y las mujeres
      estudiantes, hostigamiento        la comunidad local o
      y deseos de hacer amigos          motivos para irse de ella
      fuera del pueblo

  Parte III
                         Creencias sobre la vida en
      Valores            Papúa Nueva Guinea                    Percepciones de la comunidad local
      Valores sobre la   Actitudes hacia la resolución         Niveles percibidos de empleo
      resolución de      de conflictos y las peleas            positivo en la comunidad local y
      conflictos                                               utilización de medios pacíficos de
                                                               resolución de problemas
      Valores sobre      Actitudes hacia el alcohol y          Percepción de problemas causados
      hábitos de         las drogas                            por el uso de las drogas y el alcohol
      higiene personal                                         en la comunidad local

  Fuente: Departamento de Educación de Papúa Nueva Guinea 2004.
                                          DiSEÑO DE CUESTiONARiOS   | 119



actitudes de los estudiantes hacia la escuela y su comunidad local. Las
reformas recientes en educación y los nuevos materiales curriculares
presentados a las escuelas habían enfatizado el enseñar a los estudiantes
a valorar su comunidad local y a adquirir destrezas que los ayuden a
contribuir positivamente a la vida de su pueblo cuando sean adultos.
Los responsables políticos de Papúa Nueva Guinea deseaban recopilar
información sobre las expectativas de los alumnos y las percepciones de
estos sobre la escuela y la comunidad. El cuestionario se administró a
todos los estudiantes que realizaron las pruebas de evaluación nacional.



ÍTEMS DE lOS CUESTIONARIOS

Al decidir la cantidad de ítems en un cuestionario deben considerarse
varias cuestiones, entre ellas la cantidad de tiempo disponible para
responder a las preguntas, los recursos disponibles para el análisis y la
complejidad del análisis requerido. Es preferible un cuestionario breve
y limitado que se analice adecuadamente y brinde información útil
antes que uno largo y exhaustivo que nunca se procesa por completo.
   La cantidad de ítems necesarios para medir una variable específica
depende de la naturaleza de la variable. Algunas variables, tales como
el sexo o la edad, se pueden medir directamente. Otras, tales como el
nivel socioeconómico, tienden a construirse mediante distintos ítems,
como el nivel de educación de los padres, su situación laboral, la ubi-
cación de la vivienda y la propiedad de los bienes. Los datos derivados
de una medición directa se denominan variable bruta. Una variable
agregada combina datos de dos o más ítems para representar un cons-
tructo. Generalmente, a los responsables políticos les resulta más fácil
interpretar los resultados de análisis basados en variables brutas que
los resultados basados en variables agregadas.
   Las decisiones sobre si es necesaria una variable bruta o agregada
para respaldar un constructo deberían basarse en unas buenas prácti-
cas y condiciones de investigación en el país. Tanto las encuestas
nacionales como las internacionales han utilizado variables agregadas.
En un estudio internacional, por ejemplo, las variables “leer con un
fin utilitario” y “leer por placer” se basaban en variables agregadas
(consulte la tabla 8.2).
120   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



TAblA 8.2
Funciones de la comprensión lectora en un estudio internacional:
Ponderaciones utilizadas para crear dos nuevas variables, “leer con fines
utilitarios” y “leer por placer”
                                                                       Ponderaciones
 Ítem (abreviado)                                               Fines utilitarios         Placer
 Me ayuda en la escuela.                                              0,75
 Me ayuda a aprobar los exámenes.                                     0,74
 Me ayuda con futuras materias escolares.                             0,73
 Me ayuda a trabajar mejor.                                           0,65
 Puedo ir a la universidad.                                           0,65
 Me ayuda a conseguir un buen trabajo.                                0,63
 Mis padres creen que es importante.                                  0,58
 Lo disfruto.                                                                             0,76
 Es emocionante.                                                                          0,72
 Es interesante.                                                                          0,71
 Es como viajar a otro mundo.                                                             0,68
 Me gusta pensar sobre las cosas que leo.                                                 0,54
 Me divierte creer que soy un personaje de la
 historia.                                                                                0,53
 Me gusta leer solo.                                                                      0,53
 Me ayuda a relajarme.                                                                    0,50
 Fuente: datos extraídos de Greaney y Neuman 1990 (tabla 8, se excluyeron las cargas de
 menos de 0,2).


   Las cuestiones específicas de los países son importantes al momento
de decidir cuántos ítems se necesitan para medir una variable. Por ejem-
plo, en un país donde las condiciones de formación docente son casi
uniformes y todos los docentes tienen al menos dos o tres años de for-
mación terciaria en instituciones reconocidas, puede ser suficiente una
sola variable bruta que mida los años de formación terciaria. En un país
donde las condiciones de formación docente varían ampliamente, la
calidad de las instituciones educativas es desigual y es posible que
muchos docentes hayan recibido capacitación directamente en el
puesto de trabajo, sin embargo, puede ser necesario juntar una cantidad
de variables brutas para representar un constructo de formación docente
que refleje de manera adecuada esta situación. De manera similar, en
un país rico, los recursos de estudio en el hogar pueden medirse simple-
mente con una variable bruta en relación con el acceso a Internet, pero
                                           DiSEÑO DE CUESTiONARiOS   | 121



en un país pobre, los recursos de estudio en el hogar pueden represen-
tarse mejor como la suma de variables brutas, entre ellas el acceso a un
escritorio, una silla, una lámpara, lápices, papel y libros de texto.
   Las decisiones sobre si utilizar una sola variable bruta o una variable
agregada para obtener una medición también depende de las creencias
sobre la importancia de las posibles variables brutas. Por ejemplo, al
medir la experiencia docente, si la calidad de esta varía ampliamente
según dónde están empleados los docentes y se cree que la ubicación
del trabajo anterior del docente podría incidir también en el desem-
peño de los estudiantes, entonces debería recopilarse información sobre
dónde ha trabajado el docente al igual que sobre el tiempo que se ha
desempeñado en la enseñanza. Si existe la creencia de que la cantidad
de años de experiencia docente podría incidir en el rendimiento de los
estudiantes, sin importar dónde se ha obtenido esta experiencia, enton-
ces una sola variable bruta probablemente sea suficiente.



FORMATO DE lOS ÍTEMS

Los ítems de elección forzada son bastante más fáciles, rápidos y menos
costosos de procesar que los ítems de respuesta abierta. Debido a que los
ítems de elección forzada brindan una cantidad limitada de categorías de
las cuales seleccionar una respuesta, el procesamiento de datos es simple-
mente cuestión de ingresar la selección del encuestado en una computa-
dora. Por el contrario, las respuestas a ítems de respuesta abierta deben
procesarse manualmente antes de que se ingresen en una computadora.
   Los datos del cuestionario suelen resumirse para su informe. Por
ejemplo, las respuestas a una pregunta sobre el tiempo que los estu-
diantes tardan en trasladarse a la escuela cada día pueden clasificarse
en unos pocos intervalos amplios, tales como “menos de una hora”,
“entre una y dos horas” y “más de dos horas”. En una versión abierta
de este ítem, algunos estudiantes proporcionarán el tiempo en minu-
tos y otros en horas, otros podrían escribir “mucho tiempo” y otros
responderán de manera ilegible. El rango de respuestas será extenso y
clasificarlas necesariamente conllevará un elemento de subjetividad,
incluso requerirá el tomar decisiones sobre cómo clasificar las res-
puestas tales como “mucho tiempo”.
122   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



   Son preferibles los ítems de elección forzada cuando se puede
especular con bastante seguridad el rango posible y las diferencias en
las categorías de respuestas de la mayoría de los encuestados. Sin
embargo, si existe cierta incertidumbre, entonces pueden utilizarse
categorías diferenciadas con más precisión que las requeridas, a efec-
tos del informe. Después de ingresados los datos, se puede decidir qué
categorías brindan poca información y cuáles pueden combinarse o
descartarse (por ejemplo, si nadie las seleccionó).
   Puede ser factible el uso de ítems de respuesta abierta si el cuestio-
nario se administra a una pequeña muestra y hay recursos disponibles
para clasificar las respuestas manualmente. Realizar pruebas previas o
pruebas de campo con ítems de respuesta abierta a veces es útil para
brindar información con el fin de generar categorías para una versión
de elección forzada de los ítems en la administración final.



IDIOMA DEl CUESTIONARIO

El idioma utilizado en el cuestionario debe ser aquel en el que es más
factible que los encuestados puedan leer y escribir con fluidez. Sin
embargo, la elección del idioma debe permitir economías de escala.
Los cuestionarios se suelen administrar en el mismo idioma que el
material de la prueba.



ENCUESTADOS

Dado que siempre se recopila algo de información general sobre el
estudiante en la portada del cuadernillo de prueba, la selección de los
encuestados para el cuestionario depende de lo que deseen saber los
responsables políticos y de la viabilidad de obtener esta información
de manera confiable y eficiente.
   Los siguientes son algunos de los problemas relacionados con los
encuestados:

•	 Es posible que los alumnos sean demasiado jóvenes para completar
   un cuestionario de manera confiable o precisa.
                                         DiSEÑO DE CUESTiONARiOS   | 123



•	 La falta de recursos puede limitar la administración de los cuestio-
   narios a un grupo pequeño, tal como docentes o directores, en lugar
   de a miles de estudiantes.
•	 Es posible que muchos padres sean analfabetos o que no sean con-
   fiables en cuanto a la devolución del cuestionario.
•	 Es posible que los docentes y directores no estén motivados a
   completar un cuestionario largo o puede que tengan miedo de
   responder honestamente a una pregunta.

   Sea cual fuere la decisión sobre los encuestados, la muestra selec-
cionada para un cuestionario debe ser representativa de la población.
Si el cuestionario se administra a los estudiantes, la muestra que se
extrajo para la prueba debe responder el cuestionario. Debe consul-
tarse a los expertos en muestras sobre el tamaño necesario de ellas
para su administración a docentes, directores y padres.


ADMINISTRACIÓN DEl CUESTIONARIO

Los cuestionarios normalmente se responden por escrito o se admi-
nistran en una entrevista. Esto último requiere un entrevistador capa-
citado para realizar las preguntas y anotar las respuestas del
entrevistado (quizá mediante la aplicación de los códigos que se
encuentran en el formulario del cuestionario).
   En evaluaciones a gran escala, la mayoría de los cuestionarios se
escriben y administran en grupo para minimizar los costos. Los
cuestionarios deben incluir instrucciones sobre cómo responder las
preguntas. Las instrucciones podrían incluir los motivos para la reco-
pilación de la información.
   La recopilación de los datos del cuestionario puede realizarse bajo
la supervisión de un trabajador de campo, quien recoge los formula-
rios después de que los encuestados los hayan respondido.


PlAN DE ANÁlISIS DE lOS DATOS

Un plan de análisis de los datos especifica la clase de información
brindada por cada ítem del cuestionario y cómo se utilizará la
124   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



información en el análisis. La asistencia estadística de expertos en el
diseño del plan aumentará la certeza de que los datos se podrán
analizar significativamente y los resultados serán rigurosos y justifica-
bles (consulte el volumen 4, Análisis de los datos de una evaluación
nacional del rendimiento académico).
   El plan deberá reflejar lo siguiente:

•	 Las características de medición de las variables. La manera en que
   los datos del cuestionario pueden analizarse depende de las carac-
   terísticas de medición de las variables. Las cifras asignadas a varia-
   bles categóricas o de referencia (por ejemplo, el sexo) son solo
   etiquetas y pueden utilizarse únicamente para distinguir entre
   grupos. Las cifras adjuntas a escalas ordinales (por ejemplo, para
   representar las respuestas a un cuestionario que indican el grado de
   consenso con un enunciado) brindan información sobre valores
   relativos, aunque en los análisis estadísticos a menudo se las trata
   como si tuvieran las propiedades de las escalas de intervalo (por
   ejemplo, la temperatura) o de proporción (por ejemplo, la cantidad
   de años de experiencia docente).
•	 Cómo se sumarán los datos de una cantidad de variables para
   producir una nueva variable y cómo se utilizará esta nueva variable.
   Por ejemplo, un índice de pobreza podría construirse a partir de
   variables tales como el ingreso doméstico, la ubicación de la
   vivienda, la cantidad de habitaciones en la vivienda, la propiedad
   de la vivienda, la cantidad de hijos y el nivel de educación de los
   padres. En el diseño del plan se debe considerar cómo se sumarán
   las variables para representar la pobreza.
             9
Ca p í t u l o                REDACCIÓN DE
                              ÍTEMS PARA
                              CUESTIONARIOS




                                 El modo en que está configurado un ítem debe
          dejar en claro qué información se requiere. Más aún, los encuestados
          deben poder proporcionar la información. Por lo tanto, no se les pedirá
          a los alumnos de menor edad que recuerden cuántos días han estado
          ausentes durante el año escolar, ya que lo más probable es que no
          puedan recordarlo de manera confiable. A lo sumo, podrían recordar
          cuántos días no asistieron durante la semana anterior.
             La redacción de los ítems debe ser tan simple y clara como sea posi-
          ble. El vocabulario debe ser familiar y las oraciones breves y directas.
          A menos que el cuestionario se administre de forma oral, todos los
          encuestados deben poder leerlo. También es importante que todos los
          encuestados interpreten los ítems del mismo modo. De lo contrario,
          resultará difícil la interpretación de los resultados de manera coherente.
             La primera parte de un ítem en un cuestionario puede ser una pre-
          gunta, una oración incompleta o un enunciado que los encuestados
          deben evaluar.
             El estilo en el que se dirige al encuestado debe ser coherente.
             Puede utilizarse cualquiera de los siguientes:

          •	 Referirse a “tú”; por ejemplo, “¿Cuántos años tienes?”
          •	 Referirse a “yo”; por ejemplo, “Yo vengo a la escuela en…”


                                                                                125
126   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



PREgUNTAS

Las preguntas deben ser claras e inequívocas. La siguiente pregunta es
ambigua.

  ¿Cuánto tiempo hace que es docente?

   Esta pregunta confunde el tiempo que ha transcurrido desde la
formación con el tiempo dedicado a la enseñanza. Cualquiera que
haya dejado la enseñanza y, luego, la haya retomado, por ejemplo, una
mujer que se tomó un tiempo para criar a su familia, no estará segura
de cómo responder. No está claro si esta pregunta es una medida de la
experiencia docente o del tiempo transcurrido desde la formación.
Aquí hay al menos dos preguntas:

  ¿Cuándo finalizó su formación docente?

  ¿Cuántos años de experiencia docente tiene?

   La segunda pregunta aún resulta problemática, ya que no queda
claro cómo deberían medirse los años de experiencia docente. Por
ejemplo, ¿cinco años de experiencia de trabajo a tiempo parcial,
un día a la semana, deberían contarse como cinco años o como el
equivalente a un año? Si casi todos los cargos docentes en el país son
de tiempo completo, entonces la ambigüedad es improbable, pero si
muchos cargos son de tiempo parcial, es probable. La pregunta
debería ser la siguiente:

  ¿Cuántos años de experiencia docente de tiempo completo (o equivalente
  a tiempo completo) tiene?

   Es posible que sea necesario definir lo que se quiere decir con
“equivalente”.



ENUNCIADOS

Los ítems que generalmente comienzan con un enunciado requieren
que los encuestados realicen alguna evaluación de él, tal como “muy
de acuerdo”, “de acuerdo”, “en desacuerdo” o “muy en desacuerdo”.
                             REDACCiÓN DE ÍTEMS PARA CUESTiONARiOS   | 127



   Los enunciados negativos, tales como “no me gusta la escuela”, deben
evitarse, ya que pueden resultar confusos. Si se pregunta a los estudian-
tes si están de acuerdo o en desacuerdo, aquellos a quienes les guste la
escuela deben seleccionar la categoría “en desacuerdo”. Los niños
pequeños con frecuencia encuentran difíciles los dobles negativos.
   Mantenga los enunciados tan neutros como sea posible. Un enun-
ciado que diga “me gusta la escuela” es mejor que uno que diga “me
encanta la escuela”. Los estudiantes pueden expresar mayor afición a
la escuela si seleccionan “muy de acuerdo” para su respuesta.
   Los enunciados deben centrarse en un tema. Así, deben evitarse los
enunciados tales como “me esfuerzo y me va bien en mis tareas”. Los
estudiantes a los que les va bien en la escuela sin esforzarse no sabrán
qué respuesta elegir. Los estudiantes que se esfuercen mucho posible-
mente estén de acuerdo con este enunciado; sin embargo, puede que
no les vaya bien en sus tareas. El enunciado se expresa mejor como dos
enunciados: “Me esfuerzo en la escuela”; “me va bien en mis tareas”.



CATEgORÍAS DE RESPUESTA

Las buenas categorías de respuesta tienen el mismo significado para
todos los encuestados. Las siguientes categorías de respuesta pueden
tener distinto significado para diferentes personas:

  ¿Cuántos libros hay en la biblioteca del aula?
  A. ninguno
  B. unos pocos
  C. algunos
  D. muchos

  Las categorías de respuesta para el ítem deben cuantificarse de
modo que el significado quede claro:

  ¿Cuántos libros hay en la biblioteca del aula?
  A. no hay biblioteca
  B. de 1 a 10
  C. de 11 a 20
  D. más de 20
128   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



   En ocasiones, las categorías de respuesta pueden tener distintos
significados para diferentes encuestados, pero esta diferencia es parte
de la información buscada, como lo muestra el siguiente ítem:

  ¿Qué tan buena es la biblioteca de tu escuela?
  A. no hay biblioteca
  B. mala
  C. adecuada
  D. buena
  E. excelente

   Si el ítem es sobre el nivel de satisfacción del encuestado con
respecto a la biblioteca escolar, sin importar ninguna medición
objetiva de su calidad, entonces este es un buen ítem. Si el ítem se
combina con ítems que cuantifican, por ejemplo, aproximada-
mente cuántos estantes de libros o instalaciones de computadoras
tiene la biblioteca, entonces la percepción del encuestado puede
compararse con mediciones más objetivas de las instalaciones de la
biblioteca.
   Las categorías de respuesta deben tener en cuenta el nivel de pre-
cisión de respuesta que es posible que puedan dar los encuestados.
Es probable que los encuestados desconozcan la cantidad exacta de
libros en una biblioteca, a menos que esta sea muy pequeña.
   Las categorías de respuesta deben cubrir todas las respuestas
posibles. Si existen categorías principales y otras menores, es preferi-
ble enumerar las principales e incluir la opción “otros”. La realización
de una prueba previa ayuda a identificar las categorías principales.
   Las categorías de respuesta no deben superponerse ni dejar
lagunas. Ambos errores se muestran en la siguiente pregunta:

  ¿Cuánto tiempo hace que es docente en esta escuela?
  A. menos de 5 años
  B. menos de 10 años
  C. más de 10 años

   Los profesores con menos de 5 años de experiencia docente no
saben si deben elegir la primera opción o la segunda, mientras que
aquellos con 10 años de experiencia docente no tienen una opción
que elegir.
                              REDACCiÓN DE ÍTEMS PARA CUESTiONARiOS   | 129



  Los ítems de los cuestionarios que comienzan con un enunciado
que los encuestados deben evaluar pueden tener muchas categorías
de respuesta diferentes. Es importante que estas no se superpongan.
Algunos ejemplos de categorías de respuesta usadas en el cuestionario
para docentes del Estudio Internacional de Tendencias en Matemáticas
y Ciencias (TIMSS) son los siguientes:
•	 Sí, no.
•	 Muy de acuerdo, de acuerdo, en desacuerdo, muy en desacuerdo.
•	 Casi todos los días, una o dos veces a la semana, una o dos veces al
   mes, nunca o casi nunca.
•	 En absoluto, un poco, bastante, mucho.
•	 No es importante, un poco importante, muy importante.


TRATAMIENTO DE TEMAS DElICADOS

Algunos temas son delicados, p. ej., si los docentes tienen un segundo
empleo para complementar sus salarios. Si es probable que la mayoría
de los encuestados no responda con honestidad a una pregunta,
debería excluirse. Es posible que los responsables políticos estén muy
interesados en esta información, pero no tiene mucho sentido recopi-
lar datos que no son confiables. A veces, en su lugar se puede recopilar
información que no sea tan delicada.
   Es posible que al incluir preguntas sobre temas delicados, los
encuestados se sientan ofendidos y no deseen responder el resto de los
ítems o que devuelvan el cuestionario. Si hay dudas sobre la sensibilidad
de los temas, lo mejor es no incluirlos.


DISEÑO DEl CUESTIONARIO

Hay dos consideraciones importantes en cuanto al diseño y formato de
los cuestionarios: (a) facilidad de uso para el encuestado y (b) facilidad
de uso para el procesamiento de datos. Los cuestionarios son fáciles de
utilizar cuando cumplen con las siguientes características:

•	 Una manera simple y coherente de responder a las preguntas.
•	 Una presentación ordenada.
130   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



•	 Preguntas separadas fácilmente identificables.
•	 Categorías de respuesta que se asocian claramente con cada
   pregunta.
•	 Encabezados, fuentes y formato coherentes.
•	 Categorías de respuesta codificadas para el ingreso de los datos.

    Las categorías de respuesta pueden establecerse de diferentes
maneras. Pueden figurar en una columna, de manera vertical o en una
fila horizontal. Los encuestados pueden marcar una letra o un número
con un círculo, o pueden tildar una casilla para indicar su elección.
Es preferible tener un estilo de respuesta coherente.
    En el recuadro 9.1 se brinda un ejemplo de un ítem en el que las
respuestas no se identifican claramente con las categorías de respuesta.
El recuadro 9.2 muestra un ajuste mejor.



REVISIÓN DE lOS CUESTIONARIOS

Redactar cuestionarios es mucho más difícil de lo que parece. Todos
los ítems deben ser cuidadosamente examinados y revisados para
garantizar que sean claros e inequívocos. Es muy recomendable con-
sultar a un comité para revisar el cuestionario. Entre los miembros
del comité debe haber redactores de ítems, personas familiarizadas



 RECUADRO 9.1


  Correspondencia deficiente entre las casillas y las
  categorías de respuesta
  El siguiente ejemplo muestra una correspondencia deficiente entre las casillas
  y las categorías de respuesta:

      ¿Cuánto tiempo te toma todos los días llegar a la escuela?

      menos de 15 minutos           15 minutos          30 minutos

      45 minutos         1 hora         más de 1 hora

  Las casillas se encuentran entre las categorías de respuesta en lugar de estar
  claramente alineadas con cada categoría.
                                  REDACCiÓN DE ÍTEMS PARA CUESTiONARiOS       | 131




 RECUADRO 9.2


  Mejor correspondencia de casillas y categorías de
  respuesta
  El siguiente ejemplo muestra una buena correspondencia entre las casillas
  y las categorías de respuesta:

  ¿Con qué frecuencia las siguientes personas te ayudan con la tarea de la
  escuela para el hogar?

                        Nunca    Unas pocas   Cerca de     Varias    Varias
                        o casi    veces al    una vez    veces por veces por
                        nunca       año       por mes       mes     semana
   a) Tu madre. . .
   b) Tu padre. . .
   c) Tus hermanos
      y hermanas. . .
   d) Uno de tus
      abuelos. . .




con las características de la población encuestada y personas que sean
capaces de garantizar que los ítems sean culturalmente adecuados.
Actualmente, algunas evaluaciones nacionales e internacionales con-
trolan la interpretación que los encuestados hacen de los ítems antes
de su administración principal.
   Es de utilidad que los miembros del comité intenten completar el
cuestionario como si fueran los encuestados. Este proceso ayudará a
identificar si hay categorías de respuesta que podrían no ser claras,
que podrían superponerse o que podrían no incluir algunas clases de
respuesta.
   Los miembros del comité deben criticar los ítems, en especial, en lo
referido a su claridad de expresión y la pertinencia de las categorías de
respuesta. Deben garantizar que la expresión sea lo más clara y simple
posible, que el estilo de los ítems sea coherente y que se los presente
en un orden lógico con instrucciones adecuadas.
   Los miembros del comité deben verificar que los ítems se corres-
pondan con el proyecto de cuestionario y garantizar que cada ítem
brinde la información requerida. También es necesario que se verifique
132   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



que la cantidad de ítems utilizados sea adecuada para medir cada
variable con suficiente precisión.
    Una vez mejorado el cuestionario, se debe dar a los responsables
políticos la oportunidad de revisarlo. Es necesario que los responsa-
bles políticos aprueben los ítems, en especial si tratan temas política-
mente delicados. Los responsables políticos también deben verificar
que los ítems aporten información de utilidad.
    Después de la mejora del cuestionario, debe realizarse una prueba
previa o una prueba de campo junto con los materiales del examen.
La prueba previa brinda una oportunidad de mejorar la calidad de los
ítems, y reduce el tiempo y los costos del procesamiento de datos del
cuestionario final. Los ítems que no funcionan (por ejemplo, aquellos
en los que se confunden los encuestados) pueden quitarse y las cate-
gorías de respuesta ampliarse o resumirse.
    Luego de la administración del cuestionario, el examinador debe
recabar observaciones de los encuestados (estudiantes o docentes)
sobre los ítems que no son claros o que no contienen la información
adecuada. Los examinadores deben verificar que ningún ítem resulte
ofensivo por tocar temas delicados.
    Un análisis estadístico más formal de las respuestas puede indicar
que las categorías de respuesta deben diferenciarse más. Por ejemplo,
si la mayoría de los estudiantes selecciona una categoría de respuesta
en particular para un ítem. La categoría debe separarse en categorías
más diferenciadas para obtener información más precisa.
    Si el rango de respuestas posibles para un ítem es potencialmente
muy amplio y difícil de prever, el ítem debe dejarse como de res-
puesta abierta en la prueba previa. Posteriormente, las respuestas
pueden clasificarse y utilizarse para generar categorías para un ítem
de elección forzada en el cuestionario final.
    El CD complementario contiene ejemplos tomados de cuestiona-
rios para estudiantes, docentes, directores y padres de evaluaciones
nacionales e internacionales.
    También incluye ejemplos de guías de corrección para respuestas
abiertas.
             10
Ca p í t u l o
                                  CODIFICACIÓN DE
                                  LAS RESPUESTAS
                                  DEL CUESTIONARIO




                                    Las categorías de respuesta deben codificarse
          para la captura de datos. La codificación puede ser alfabética o numérica.
             Los códigos alfabéticos generalmente requieren que los encuesta-
          dos marquen una letra con un círculo para su respuesta. Este método
          puede no ser apropiado para los alumnos de menor edad. El tildar
          casillas o sombrear círculos puede resultar más fácil para las personas
          con capacidades de comprensión lectora limitadas. Si los ítems utilizan
          este sistema, deben codificarse de manera numérica.
             Si se utiliza la codificación numérica, la primera categoría de
          respuesta se codifica como 1, la segunda categoría como 2 y así suce-
          sivamente. La captura de datos resulta más eficaz si los códigos están
          impresos en los cuestionarios. Puede utilizarse una fuente pequeña en
          escala de grises, como se muestra en el recuadro 10.1. En el ejemplo,
          las categorías de respuesta se numeran debajo de las casillas: cami-
          nando es la categoría 1, en transporte público es la categoría 2 y así
          sucesivamente. Los estudiantes marcan las casillas que les parecen
          adecuadas. La persona que ingresa los datos coloca el número de la
          casilla que el estudiante seleccionó.
             Si los encuestados tienen la oportunidad de seleccionar más de una
          categoría de respuesta para un ítem, cada categoría se debe considerar



                                                                                133
134       | DESARROLLO DE PRUEbAS Y CUESTiONARiOS




 RECUADRO 10.1


   Ejemplo de codificación en escala de grises

   Hoy vine a la escuela

   caminando           en transporte público       en transporte privado       montando un animal.
                   1                           2                           3                         4



 RECUADRO 10.2


   Ejemplo de tratamiento de los ítems como categorías individuales
   para la captura de datos
   Si estuvo ausente la semana pasada, marque una o más casillas para mostrar el motivo.

            Estuve enfermo.
      1

            Tuve que ayudar a mis padres.
      1

            Había mal clima.
      1

            No tenía alimentos.
      1

            Mi familia tuvo problemas.
      1

            No tenía un uniforme limpio o ropa apropiada.
      1

            No era seguro (problemas relacionados con la paz y el orden).
      1

            Otros. _______________________________________
      1



como un ítem individual, tanto para la captura de datos como para
su procesamiento. Este procedimiento posibilita un seguimiento de las
categorías que seleccionó cada encuestado. El ítem del recuadro 10.2
se presenta al encuestado como una pregunta con múltiples respuestas
posibles; sin embargo, a los efectos de la captura de datos, se considera
                     CODiFiCACiÓN DE LAS RESPUESTAS DEL CUESTiONARiO   | 135



como ocho ítems individuales. Las respuestas a la primera categoría
(ausente por enfermedad) se registran como 1 o ausente; las respues-
tas a la segunda categoría (ayudó a sus padres) se registran como 1 o
ausente; las respuestas a la tercera categoría (mal clima) se registran de
manera similar y así sucesivamente para cada una de las ocho
categorías.



PREPARACIÓN DE lOS CUESTIONARIOS PARA lA CAPTURA
DE DATOS

Los datos del cuestionario se pueden escanear con un equipo especial
o pueden ingresarse manualmente. El diseño y la disposición del cues-
tionario tendrán que personalizarse si se va a utilizar un escáner.
   Si la captura de datos se realiza manualmente, se puede ingre-
sar la información directamente desde el cuestionario si se han
codificado las categorías de respuesta. Sin embargo, las personas
que realizan la captura de datos pueden tener dificultades para
mantener un nivel alto de exactitud, especialmente si no están
familiarizados con este tipo de trabajo. También es probable que la
exactitud se vea afectada si la disposición de los ítems varía en gran
parte o si algunos ítems tienen una gran cantidad de categorías de
respuestas.
   La captura de datos será más fácil si los evaluadores y correctores
escriben el código de la categoría seleccionada sobre el margen
izquierdo cerca de cada número de ítem. De esta manera, la captura
de datos se convierte simplemente en el ingreso de los códigos escri-
tos en el margen. Agregar casillas ligeramente sombreadas en el mar-
gen para que evaluadores y correctores escriban los códigos hará que
el proceso resulte más eficiente.



RESPUESTAS AMbIgUAS O FAlTA DE CÓDIgO

En ocasiones, los encuestados no responden los ítems o los responden
de manera ambigua, por ejemplo, si seleccionan más de una categoría
de respuesta cuando las categorías son mutuamente excluyentes.
136   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



    La recopilación de información sobre la falta de respuestas indica
si los encuestados fallaron regularmente en responder a algunos ítems.
Por ejemplo, es posible que el cuestionario sea demasiado extenso, de
modo que los ítems que se encuentran al final no se hayan respondido,
o es posible que un ítem esté muy cerca de otros y pueda pasarse por
alto con facilidad. La recopilación de información sobre respuestas
ambiguas también podrá indicar si un ítem posiblemente no ha resul-
tado claro para muchos encuestados o si estos no comprendieron
cómo debían completar el cuestionario.
    La persona que ingresa los datos debe saber cómo codificar la falta
de respuestas o las respuestas ambiguas. Los códigos para la falta de
respuesta o para respuestas ambiguas no deben confundirse con los
códigos que se utilizan para las categorías de respuesta.
    Para indicar falta de respuesta o ningún intento puede utilizarse
una letra del alfabeto, como la X. El código para respuestas ambiguas
puede ser una segunda letra, como la Y. Los ítems de opción múltiple
en los exámenes utilizan los códigos 9 para “ausente” y 8 para la selec-
ción de dos opciones o más. Estos códigos generalmente no se utilizan
para los cuestionarios ya que algunos ítems de los cuestionarios
probablemente tendrán 8 o 9 categorías de respuesta.
             11
Ca p í t u l o
                                 COTEJO DE LOS
                                 CUESTIONARIOS
                                 CON LOS DATOS
                                 DE LA PRUEBA




                                   La manera en la que se hacen coincidir los
          datos del cuestionario y de la prueba se orientará según las necesida-
          des del análisis y el informe. Todas las coincidencias deben estable-
          cerse de manera clara e inequívoca antes de la recopilación de los
          datos. Todo error de coincidencia que se descubra después de haber
          recopilado los datos puede ser difícil de corregir o incluso imposible.
          Estos errores pueden hacer que haya que abandonar algunos análisis
          planificados.



          CUESTIONARIOS PARA ESTUDIANTES

          La manera más fácil de que los datos de los cuestionarios y las pruebas
          de los alumnos coincidan es imprimir las pruebas y los cuestionarios
          en un solo cuadernillo. Los alumnos registran sus nombres en el cua-
          dernillo y el examinador se asegura de que el alumno trabaje en su
          propio cuadernillo en cada una de las sesiones de la prueba.
             Si las pruebas y los cuestionarios son documentos separados,
          uno de los métodos para que los datos coincidan es sobreimprimir o
          etiquetar tanto las pruebas como los cuestionarios con el nombre de



                                                                             137
138   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



los estudiantes. Los nombres se toman de la lista de inscritos de la
escuela y su redacción debe ser idéntica en cada etiqueta. Nuevamente,
el examinador debe asegurarse de que los estudiantes trabajen en
las pruebas y cuestionarios que presentan sus nombres claramente
etiquetados.
    Si no es posible etiquetar con anterioridad los cuadernillos y
cuestionarios individuales, los cuestionarios de los estudiantes deben
contener la información identificadora suficiente que permita rela-
cionarlos con los datos del examen. Es preferible asignar una identi-
dad (ID) numérica a los estudiantes y asegurarse de que utilicen el
mismo número identificativo en cada cuadernillo y cuestionario.
El examinador deberá supervisar este procedimiento. El analista
de datos también requerirá la lista de los nombres de los estudian-
tes y de los números identificativos, ya que se podrá recurrir a la
lista de nombres como respaldo en caso de que ocurran errores de
identificador.
    No es conveniente depender de los nombres de los estudiantes
para identificar los formularios. A menos que los nombres sean com-
pletamente idénticos en cada formulario y que la persona que procesa
los datos los ingrese de manera idéntica, sin errores de escritura,
la computadora no podrá reconocerlos. La identificación tendrá que
realizarse, en ese caso, manualmente, una tarea cara y que lleva mucho
tiempo. Algunos estudiantes harán que resulte más complicada la
identificación por nombres al usar nombres diferentes (tales como
formas abreviadas, apodos o nombres religiosos) en distintos formula-
rios, escribir de manera ilegible en uno o más formularios, o no escribir
sus nombres en uno o más formularios.



CUESTIONARIOS PARA PADRES

Los datos de los cuestionarios para padres generalmente se correla-
cionan con los datos de los estudiantes. Es probable que la correla-
ción se realice mediante el nombre de los estudiantes. Se presenta el
mismo problema que se describió para el cuestionario de los
estudiantes. Se deben establecer procedimientos que aseguren la
coherencia.
             COTEJO DE LOS CUESTiONARiOS CON LOS DATOS DE LA PRUEbA   | 139



CUESTIONARIOS PARA DOCENTES Y DIRECTORES

Los cuestionarios para docentes y directores generalmente se correla-
cionan solo con el grado y la escuela. Si se conoce el grado del estu-
diante, puede utilizarse la información del docente en el análisis de los
datos del estudiante. El examinador debe controlar que los docentes
y directores hayan brindado esta información en los cuestionarios.
   Al recibirse los cuestionarios cumplimentados por las escuelas, los
correspondientes a cada escuela deben guardarse en un paquete
aparte. De este modo, incluso si no se proporcionó la información de
la escuela en algunos cuestionarios, se puede obtener la información
pertinente de otros cuestionarios del mismo paquete.
PA RT e
          3   DISEÑO DE UN
              MANUAL PARA LA
              ADMINISTRACIÓN
              DE LA PRUEBA
             12
CA P Í T U L O                   MANUAL DEL
                                 EXAMINADOR




                                   Es necesario un manual para guiar la adminis-
          tración de la prueba, que debe ser estandarizado para que todos los
          estudiantes realicen la prueba en las mismas condiciones. El propósito
          principal del manual es especificar las condiciones exactas según las
          cuales se debe llevar a cabo la prueba, entre ellas los requerimientos
          de preparación y los procedimientos para garantizar la seguridad. Los
          estudiantes que realicen la prueba deben responder a las mismas
          preguntas de práctica y recibir las mismas indicaciones sobre cómo
          mostrar sus respuestas. A todos se les debe dar la misma cantidad de
          tiempo para realizar la prueba con el mismo grado de supervisión.
             El desempeño de los estudiantes en una evaluación nacional debe
          ser una medida de su capacidad para responder los ítems sin apoyo
          externo. Los estudiantes deben comprender lo que deben hacer y
          cómo mostrar sus respuestas, pero no se les debe dar ninguna otra
          ayuda ni pueden tener acceso a otros recursos que no formen parte de
          la prueba. Seguir con los procedimientos establecidos en el manual de
          administración contribuirá a asegurar que así sea. El CD complemen-
          tario contiene ejemplos de administración de pruebas y de manuales
          de coordinación escolar.




                                                                            143
144   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



CONTENIDOS DEl MANUAl

Los manuales de administración deben brindar información que res-
ponda a cada una de las siguientes preguntas:

•	 ¿Para qué se realiza la prueba?
   ° Una breve explicación del propósito de la prueba y la forma en la
     que se utilizarán los datos.

•	 ¿Qué pruebas se realizarán, qué estudiantes se evaluarán y cuándo
   serán evaluados?
   °  Qué pruebas se administrarán en la escuela.
   °  Qué estudiantes realizarán cada prueba.
   °  Fecha y hora de la administración de la prueba.
   °  Orden de administración de las pruebas.
   °  Duración de la administración de cada prueba.
   °  Toda pausa necesaria entre las administraciones de las pruebas.
   °  Toda posibilidad de flexibilidad en el cronograma de administración.

•	 ¿Qué materiales se necesitan para la prueba?
   ° Lista de todos los materiales que se proporcionan para la prueba.
   ° Cantidades de cada uno de los materiales proporcionados para la
     prueba, tales como uno por estudiante o uno por docente.
   ° Lista de los materiales que debe proporcionar la escuela, tales
     como lápices y borradores.

•	 ¿Cómo debe disponerse la sala para la prueba?
   ° Instalaciones materiales que debe proveer la escuela, tales como
     escritorios y sillas.
   ° Deben quitarse de la sala o cubrirse los recursos que podrían
     ayudar a los estudiantes, tales como cuadros de las tablas de mul-
     tiplicar o carteles que muestren reglas gramaticales.

•	 ¿Qué preparación se necesita?
   ° Cómo podría el director motivar al personal y a los estudiantes
     a apoyar la administración de la prueba antes de que se lleve
     a cabo.
   ° La información que podría necesitar el examinador, tal como una
     lista de los nombres de la clase.
                                          MANUAL DEL EXAMiNADOR   | 145



  °   Cómo deberían clasificarse, numerarse o nombrarse los cuaderni-
      llos de la prueba para que estén listos para utilizarse.
  °   Cómo deberían organizarse los grupos de alumnos para la prueba.

•	 ¿Cómo se debe llevar a cabo la prueba?
   ° La manera en la que los alumnos deben escribir los nombres en
     los cuadernillos de la prueba y registrar la información general en
     la portada.
   ° Cuándo y cómo el administrador debe controlar que los alumnos
     hayan registrado la información en la portada del cuadernillo de la
     prueba.
   ° Cómo deben administrarse y explicarse las preguntas de
     práctica.
   ° Qué indicaciones sobre la prueba deben recibir los estudiantes.
   ° Qué nivel de apoyo puede ofrecer el examinador durante la prueba.
   ° Cuánto tiempo tienen los estudiantes para completar la prueba.
   ° Qué condiciones debe mantener el examinador durante la prueba.
   ° Quién podrá ingresar a la sala durante la administración de la
     prueba.

•	 ¿Cómo se guardarán los materiales de la prueba?
   ° Procedimientos para garantizar la seguridad del material de la
     prueba antes, durante y después de la misma.

•	 ¿A quién se puede contactar para solicitar ayuda?
   ° Datos de contacto de personas que pueden brindar ayuda con
     problemas o proporcionar información adicional.

   Es posible que se incluya otra información en el manual de admi-
nistración para agilizar el traslado de los cuadernillos de prueba den-
tro y fuera de las escuelas. Es probable que esta información varíe
según si las pruebas son administradas por una agencia externa o por
los docentes de la escuela.



USO DEl MANUAl

Tanto el director de la escuela como el examinador deben utilizar el
manual. Algunas evaluaciones preparan manuales diferentes para
146   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



directores o para quienes tienen la responsabilidad general de llevar
a cabo las actividades de la evaluación nacional dentro de cada
escuela.
   El director necesita el manual para garantizar que su escuela
esté adecuadamente preparada para la administración de la prueba.
Debe saber lo suficiente sobre la prueba como para alentar al per-
sonal y a los estudiantes a apoyar su realización, y para alentar a
los estudiantes a que se esfuercen tanto como puedan. El director
o el coordinador de la escuela para la evaluación nacional (si se ha
designado uno) debe contar con información suficiente como para
poder organizar la escuela y asegurarse de que los alumnos indica-
dos estén disponibles en el momento requerido y con el material
adecuado, que tengan espacio suficiente para realizar la prueba
y que los materiales de la prueba puedan guardarse de manera
segura.
   Los examinadores necesitan el manual para indicarles exactamente
qué es lo que deben hacer para administrar la prueba de manera
correcta, y cuándo y cómo administrarla. Deben controlar que haya
suficiente disponibilidad de materiales para la prueba y que se selec-
cione a los estudiantes adecuados para realizarla. Deben saber qué
información sobre la prueba brindarle a los estudiantes, cómo expli-
carles las preguntas de práctica y de cuánto tiempo disponen los estu-
diantes para realizar la prueba. También deben saber qué
procedimientos de seguridad seguir para guardar los materiales de la
prueba.



CARACTERÍSTICAS DEl MANUAl

Un buen manual contiene toda la información necesaria y es fácil de
utilizar. La información está ordenada de manera lógica, las instruc-
ciones son claras y están completas, y el lenguaje es simple y directo.
La organización de la información en viñetas, casillas o tablas hará que
sea más fácil de leer. Un buen manual debe tener un índice de conte-
nidos con títulos claros (consulte el recuadro 12.1).
                                                   MANUAL DEL EXAMiNADOR     | 147




RECUADRO 12.1


 Instrucciones del manual de administración

 En una evaluación nacional, aparecía la siguiente información en una fuente
 grande (Arial 14) y ocupaba la portada completa del manual de
 administración:

    lea este manual de administración antes de que los estudiantes
    realicen la prueba.

    Los estudiantes deben realizar esta prueba en DOS DÍAS.

    •  La prueba se divide en cuatro sesiones. Los estudiantes deben realizar
       dos sesiones cada día.

    •  Los estudiantes deben tener una pausa entre cada sesión.

    •  No permita que los estudiantes lleven a cabo toda la prueba sin
       interrupción.

    Reglas de administración

    •  Los docentes deben supervisar todas las sesiones en todo momento.

    •  NO está permitido que los estudiantes se lleven el cuadernillo de la
       prueba fuera de la sala o que trabajen en él después de que se haya
       marchado el docente.

    •  Los estudiantes deben utilizar los lápices proporcionados con borrador
       en el extremo.

    •  Al realizar la prueba, no deben utilizar materiales del aula, tales como
       cuadernillos de trabajo, diccionarios o calculadoras.

    •  No deben recibir ayuda para responder las preguntas. Por ejemplo, si
       un estudiante no entiende qué debe hacer, explique las preguntas de
       práctica otra vez e indíquele que haga su mejor intento, pero no brinde
       otro tipo de ayuda.

    Seguridad de la prueba

    •  Los materiales de la prueba deben GUARDARSE DE MANERA SEGURA
       EN TODO MOMENTO.

    •  Los cuadernillos de la prueba de los estudiantes NO deben copiarse
       por ningún motivo.

    •  Los estudiantes NO deben llevarse a casa los cuadernillos de la prueba.

 Fuente: Departamento de Educación de Papúa Nueva Guinea 2004.
148   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



¿CUÁNTA INFORMACIÓN SE NECESITA?

La información sobre las condiciones generales de administración de
la prueba y la preparación de los materiales debe ser al mismo tiempo
exhaustiva y tan breve como sea posible (consulte el recuadro 12.2).
   Las instrucciones que el examinador da a los estudiantes deben ser
totalmente por escrito. Todo lo que el examinador deba decirle a los
estudiantes sobre la prueba, las preguntas de práctica o las condicio-
nes de administración de la prueba debe estar en forma escrita. El
examinador debe leer del manual sin modificar las frases. Este proce-
dimiento garantiza que todos los estudiantes que realizan la prueba
reciban exactamente las mismas instrucciones.



 RECUADRO 12.2


  Información para docentes y directores

  La información sobre los materiales de la prueba debe ser concisa y debe
  describirse de modo que resulte fácil de verificar. El siguiente extracto de una
  evaluación a gran escala que se realizó en Papúa Nueva Guinea indica al
  director qué materiales se han enviado a la escuela y cómo saber qué clases
  participarán en la prueba:

      Materiales de la prueba
      Su inspector superior de escuela primaria le dirá qué clases de su escuela
      deben participar en esta prueba.
      Debe haber recibido los siguientes materiales:


      •  una carta de presentación para el director

      •  un cuadernillo de prueba para cada estudiante que participa

      •  un manual de administración para cada docente que administra la prueba

         un cuestionario de antecedentes docentes para cada docente que 
      •   
         administra la prueba

      •  un lápiz con borrador en el extremo para cada estudiante que participa

      Si falta algún material o no cuenta con el material suficiente, comuníquese
      con el inspector superior de escuela primaria.
  Fuente: Departamento de Educación de Papúa Nueva Guinea 2004.
                                                 MANUAL DEL EXAMiNADOR      | 149



PREgUNTAS DE PRÁCTICA

El recuadro 12.3 muestra instrucciones de procedimiento generales y
una descripción del propósito de las preguntas de práctica. Las ins-
trucciones que da el administrador aparecen escritas y resaltadas en
un cuadro sombreado. El administrador debe leer estas instrucciones
tal como están impresas. La ilustración del dinero que forma parte de
las preguntas de práctica en el cuadernillo también aparece en el
manual de administración para que el examinador sepa qué ven los
estudiantes sin tener que leer del manual y de uno de los cuadernillos
de los estudiantes al mismo tiempo.




 RECUADRO 12.3


  Administración de los ítems de práctica

  El siguiente extracto muestra parte de las instrucciones para el planteamiento
  de algunas preguntas de práctica:

     Día uno: Sesión 1

     PREGUNTAS DE PRÁCTiCA DE MATEMÁTiCAS PARA 3.° GRADO
     (aproximadamente 10 minutos)

     Asegúrese de que cada estudiante tenga el cuadernillo de la prueba con
     su nombre escrito en la portada. Las preguntas de práctica son para
     demostrar a los estudiantes las distintas maneras en las que mostrarán sus
     respuestas.
     Pida a los estudiantes que abran sus cuadernillos en Preguntas de práctica
     de matemáticas (primera hoja).

     Diga

      Hoy vamos a trabajar en matemáticas para poder averiguar todo lo
      que ustedes pueden hacer en matemáticas. Primero, resolveremos
      unas preguntas de práctica para que sepan qué hacer y cómo mostrar
      sus respuestas.
     Sostenga el cuadernillo de un estudiante y señale las preguntas de
     práctica. Verifique que todos hayan encontrado las preguntas indicadas.



                                                                         (continúa)
150   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS




      Diga

       Veamos la pregunta de práctica uno. Se las leeré.

       Aquí hay una imagen de dinero.




       ¿Cuánto dinero hay en total?

       ¿Son 2 toeas, 7 toeas, 25 toeas o 205 toeas?

       Coloreen el círculo pequeño al lado de la respuesta correcta.
       Coloreen solo un círculo.

      Espere hasta que todos los alumnos hayan terminado y, luego, verifique
      sus respuestas.

      Diga

       La respuesta es 25 toeas. Debían colorear el círculo pequeño al lado
       de 25 toeas. Si cometieron un error, bórrenlo y coloreen en la
       respuesta correcta.

      De ser necesario, espere hasta que todos los alumnos hayan corregido su
      trabajo.
  Fuente: Departamento de Educación de Papúa Nueva Guinea 2004.




ENSAYO

El manual debe estar preparado para ensayarse en la prueba previa o
de campo de los ítems de la prueba. Al realizar una prueba previa, se
destacarán las ambigüedades o los malentendidos que requieran un
                                           MANUAL DEL EXAMiNADOR   | 151



esclarecimiento o una mejora en la versión final. Debido a que las
condiciones de la prueba previa o de campo deben ser lo más pareci-
das posible a las de la administración final, el manual debe estar tan
terminado como sea posible al momento de esa prueba.
   Las instrucciones generales sobre la administración de la prueba
generalmente pueden redactarse en cualquier momento después de
finalizado el proyecto. Los proyectos deben especificar todos los
requisitos relacionados con la cantidad de pruebas y su duración, y
qué alumnos deben realizarlos. Durante la prueba previa, el adminis-
trador debe recopilar información como la siguiente para ayudar al
encargado del desarrollo de la prueba a mejorar la prueba final:

•	 Si los estudiantes necesitaron todas las preguntas de práctica, si
   estas fueron suficientes y si las explicaciones fueron suficiente-
   mente claras.
•	 Si la prueba fue de la extensión adecuada o si fue demasiado larga,
   y aproximadamente cuántos estudiantes la terminaron 10 minutos
   antes (si en la misma clase se utilizan distintos formularios, el exa-
   minador puede comparar el tiempo que los estudiantes necesitaron
   para cada formulario).
•	 Si los estudiantes parecieron concentrados en la prueba.
•	 Si los estudiantes tuvieron recursos adecuados y suficientes, tales
   como lápices o borradores.
•	 Si las instalaciones de la escuela fueron adecuadas para llevar a
   cabo la prueba.


REVISIÓN

El encargado del desarrollo de la prueba y los redactores de los ítems
son los responsables de la revisión y la mejora de las instrucciones de
las preguntas de práctica. Las preguntas de práctica y las instrucciones
de administración deben darse a la misma clase de comité que se esta-
blece para revisar los ítems.
   El encargado del desarrollo de la prueba y la persona responsable
de la logística de su distribución y producción deben revisar y mejorar
los procedimientos para el traslado de los cuadernillos de prueba den-
tro y fuera de las escuelas.
152   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



   Varias personas con formación similar a la de los examinadores
también deben revisar todo el manual, con el fin de verificar que las
instrucciones sean claras y esclarecer toda ambigüedad que pudiera
surgir.
   Como todos los materiales de prueba, el manual se debe corregir
con regularidad y de manera exhaustiva por expertos en estas tareas.
Las instrucciones para las preguntas de práctica y para la administra-
ción de la prueba solo se pueden corregir adecuadamente si los correc-
tores cuentan también con copias de los cuadernillos de la prueba de
los estudiantes correspondientes.
            13
Ca p í t u l o                   EL EXAMINADOR




          ElECCIÓN DEl EXAMINADOR

          Las personas deben estar seguras de que la prueba se administró bajo
          condiciones estandarizadas. Los examinadores deben ser considerados
          confiables.
             La elección del examinador depende de las condiciones existentes
          en cada país. Los inspectores escolares pueden ser examinadores
          ideales en algunos países y problemáticos en otros. Si los inspectores
          ven la administración de la prueba como una tarea adicional fuera
          de la descripción de su trabajo, que consume recursos escasos o que es
          de poco interés para ellos, es posible que no estén motivados para
          realizar correctamente la tarea.
             En algunas evaluaciones nacionales se utilizan examinadores exter-
          nos. En el mejor de los casos, se trata de personas que pueden seguir
          instrucciones con exactitud, que tienen el tiempo y los recursos para
          realizar la tarea adecuadamente y que no tienen intereses particulares
          en el resultado de la prueba, más que su correcta administración.
          En Timor Oriental, por ejemplo, se capacitó y se pagó a censistas
          para que administraran una evaluación nacional en las escuelas.
          Eran personas que comprendían la importancia de recopilar los datos
          de manera sistemática y no tenían ningún interés en el desempeño de

                                                                            153
154   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



los estudiantes. Su trabajo se supervisó para garantizar que fuese de
un estándar adecuado.
   En algunos países, la administración de una evaluación nacional por
parte de los docentes comprometería gravemente la credibilidad de
los datos, pero en otros es posible que no. El problema principal de
pedir a los docentes que administren la prueba es que pueden ofrecer
ayuda a los estudiantes, intencionalmente o no. Hay muchas razones
posibles para este fenómeno. A algunos docentes puede preocuparles
que los datos de la prueba se utilicen para juzgar su desempeño como
docentes. Pueden sentir que deben ayudar a los estudiantes para, así,
mantener su trabajo o su estatus profesional. Los directores pueden
sentir que su estatus está incluso más amenazado. Algunos docentes
pueden creer que la prueba no es una medición justa de su enseñanza
o del desempeño de los estudiantes y pueden sentirse obligados a
brindar ayuda para hacer que la prueba sea “justa”. Algunos docentes
pueden tener las mejores intenciones de administrar la prueba como
se indica, pero es posible que no puedan salirse de su rol de docente.
Es posible que ayuden a los estudiantes sin darse cuenta de lo que
hacen o porque no soportan ver que tienen dificultades sin ofrecerles
ayuda.
   El volumen 3 de esta serie, Implementación de una evaluación nacio-
nal del rendimiento académico, aborda la elección de examinadores y
describe algunas de las ventajas y desventajas de los diferentes tipos
de examinadores.



CUMPlIMIENTO DE lAS INSTRUCCIONES

El manual debe distinguir entre instrucciones específicas que deben
seguirse al pie de la letra e instrucciones más generales que permiten
al examinador cierto grado de adaptación a las condiciones de la clase.
El examinador no debe desviarse de las instrucciones específicas. Un
ensayo previo del manual ayudará a identificar cualquier error o
ambigüedad en las instrucciones.
   Los examinadores deben ayudar a los alumnos solo a entender lo
que deben hacer y cómo expresar sus respuestas. Deben dejar en claro
que no pueden ayudar a ningún alumno a responder las preguntas.
                                                EL EXAMiNADOR   | 155



Tampoco deben ofrecer ayuda para interpretar alguna pregunta,
explicar el significado de alguna palabra o sugerir modos en los que el
estudiante podría intentar responder una pregunta. Si un estudiante
solicita ayuda, el examinador debe decirle al estudiante que intente
hacer lo mejor que pueda.
   Los examinadores no deben traducirles la prueba en otro idioma a
los estudiantes, a menos que las instrucciones autoricen específica-
mente esta función.
   En algunas pruebas, los examinadores pueden leerles las preguntas
a los alumnos. El examinador debe leer en forma pausada y clara toda
la prueba en voz alta a la clase, pregunta por pregunta, o puede leer
preguntas aisladas según lo soliciten los estudiantes. En todo caso, el
examinador debe leer las palabras exactas de la pregunta en el idioma
en que estén impresas.
   Los examinadores deben tener un reloj. Deben tomar nota en
la pizarra o en un papel de la hora exacta a la que comienza la
prueba y la hora a la que finaliza. Deben garantizar que los estudian-
tes conozcan el tiempo del que disponen para realizar la prueba.
Generalmente, esto implica decirle a los estudiantes de cuánto tiempo
disponen al comienzo y hacerles un recordatorio cuando falten
10 minutos, 5 minutos o cuando queden 2 minutos, según la exten-
sión de la prueba.
   Los examinadores deben alentar en voz baja a los estudiantes a que
intenten completar la prueba si resulta obvio que emplean demasiado
tiempo en una pregunta y son reticentes a avanzar. Pueden hacerlo
susurrando al estudiante que escriba su mejor respuesta y que, luego,
intente la siguiente pregunta.
   Durante la administración de la prueba, solo se permiten en la sala
los materiales que se especifican en el manual. Generalmente, los
estudiantes traen al examen sus propios lápices y borradores. No se
deben permitir cartucheras ni mochilas. Todo lo que pueda ayudar a
los estudiantes a responder las preguntas de la prueba debe sacarse de
la sala. Los estudiantes no deben tener acceso a recursos tales como
diccionarios o calculadoras, a menos que las condiciones de la prueba
específicamente lo autoricen.
   El examinador, los estudiantes que participan y, posiblemente,
un supervisor deben ser las únicas personas en la sala durante la
156   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



administración de la prueba. Ni el director ni ningún otro docente
deben poder caminar por la sala. Debe notificarse al encargado de la
prueba cualquier cambio inevitable en las condiciones de administra-
ción de la prueba.
   Durante la administración de la prueba, el examinador deberá
recopilar información sobre cualquier variación que ocurriera en las
condiciones de administración para estudiantes en particular. Con fre-
cuencia, la portada de los cuadernillos de la prueba tendrá espacio
para que el examinador indique que los estudiantes estuvieron ausen-
tes en toda la prueba o en una parte de esta. Si un estudiante tiene
que salir de la sala más temprano por enfermedad y no completa la
prueba, el examinador debe registrar esta información.
   El CD que acompaña este libro contiene ejemplos de instrucciones
generales y específicas para los examinadores. También brinda algunas
sugerencias sobre cómo diseñar un manual de administración de la
prueba.



CONTROl DE CAlIDAD

Los examinadores deben seleccionarse por su aptitud para la tarea.
Deben hablar el idioma en el que está escrito el manual con fluidez.
Además, deben comprometerse a realizar bien su tarea.
   Independientemente de su nivel de antigüedad en el empleo o
sus títulos académicos, los examinadores necesitan una capacita-
ción. Deben asistir a una sesión de capacitación que explique
el propósito de la prueba y su función en la administración de
esta. Deben entender por qué es importante seguir las instrucciones
y se les debe dar la oportunidad de ensayar cómo administrar la
prueba con otros colegas examinadores. Deben tener la oportuni-
dad de formular preguntas sobre los procedimientos descritos en el
manual.
   Si los docentes van a administrar la prueba a sus propios alumnos,
la capacitación debe garantizar que entiendan el propósito de la
prueba y se les debe tranquilizar asegurándoles que los datos no se
utilizarán para juzgarlos. Deben entender la importancia de no ayudar
a los alumnos a responder las preguntas.
                                                                 EL EXAMiNADOR       | 157



             Los examinadores deben ser supervisados por lo menos en algún
          momento mientras administran la prueba. Puede que no sea posible
          supervisar a todos, pero debe ser factible controlar al azar a algunos
          examinadores.
             También puede ser que se les pida a los examinadores que comple-
          ten y firmen una lista de verificación de sus tareas con el fin de garan-
          tizar que han cumplido su trabajo.



          lISTA DE VERIFICACIÓN DEl EXAMINADOR

          Los detalles de lo que debe figurar en la lista de verificación del exa-
          minador podrán variar, según quién administre la prueba y los proce-
          dimientos desarrollados para seguir los cuadernillos y garantizar la
          seguridad. El recuadro 13.1 brinda un ejemplo de una lista de verifi-
          cación de administración utilizada en Filipinas. Otro ejemplo puede
          observarse en el volumen 3 de esta serie, Implementación de una
          evaluación nacional del rendimiento académico.



RECUADRO 13.1


 lista de verificación de administración: Un ejemplo de Filipinas

 El examinador debe marcar cada ítem para mostrar que lo ha completado y firmar el
 formulario al final.

  Nombre                                                        Fecha
  Tarea                                   Referencia            Hora     Completado
   1. Completar el formulario de          Formulario STbA       10 min
      asignación de cuadernillos de la
      prueba de los estudiantes (STbA)
      mediante la inserción del número
      de examen en orden consecutivo y
      de los nombres de los alumnos en
      orden alfabético.
   2. Administrar el cuestionario a los   Formulario de         15 min
      docentes.                           cuestionario para
                                          docentes


                                                                                 (continúa)
158    | DESARROLLO DE PRUEbAS Y CUESTiONARiOS




 RECUADRO 13.1 (continúa)


      Nombre                                                          Fecha
      Tarea                                    Referencia             Hora     Completado
       3. Completar el formulario de           Formulario de          10 min
          observaciones.                       observaciones del
                                               docente
       4. Distribuir los exámenes asignados    Formulario STbA        10 min
          a cada estudiante y marcar ausente
          a los estudiantes que no estén
          presentes.
       5. Leer la introducción de              Lineamientos para el   5 min
          Lineamientos.                        examinador, pág. 7
       6. Pedir a los alumnos que completen    Lineamientos para el   5 min
          los datos sobre sí mismos en la      examinador, pág. 9
          portada de la prueba.
       7. Verificar que cada estudiante haya                          10 min
          completado los datos sobre sí
          mismos requeridos en la portada.
       8. Seguir las instrucciones para la     Lineamientos para el   60 min
          Sesión 1.                            examinador, pág. 11-13
       9. Para los descansos, pedir a los                             15 min
          estudiantes que salgan de la sala
          en fila y que dejen los exámenes
          sobre sus escritorios.
      10. Seguir las instrucciones para la     Lineamientos para el   60 min
          Sesión 2.                            examinador, pág. 15-17
      11. Para los descansos, pedir a los                             15 min
          estudiantes que salgan de la sala
          en fila y que dejen los exámenes
          sobre sus escritorios.
      12. Seguir las instrucciones para la     Lineamientos para el   70 min
          Sesión 3.                            examinador, pág. 19-21
      13. Recoger todos los cuadernillos de    Formulario STbA        10 min
          examen y marcar su devolución
          mediante el formulario STbA.
      14. Contabilizar todas las pruebas y     Formulario STbA        5 min
          asegurarse de que se hayan
          devuelto todas.
      15. Despedir a la clase.                                        2 min

                                                                                    (continúa)
                                                                          EL EXAMiNADOR   | 159




RECUADRO 13.1 (continúa)


  Nombre                                                                 Fecha
  Tarea                                          Referencia              Hora       Completado
  16. Firmar el formulario STbA.                 Formulario STbA         2 min
  17. Recoger y guardar todos los                                        10 min
      materiales de la prueba en la caja
      proporcionada, entre ellos los
      siguientes:
        i. Formulario STbA
       ii. Cuestionario para docentes
      iii. Formulario de observaciones
           del docente
      iv. Todas las pruebas completadas
       v. Todas las pruebas sin utilizar
  18. Guardar los materiales de manera                                   10 min
      segura.
  19. Devolver los materiales a su               Formulario de           Tiempo
      supervisor superior de distrito (SSD)      distribución de         de
      para la Evaluación regional de             ERMCi del SSD           traslado
      matemáticas, ciencias e inglés
      (ERMCi).
  20. Devolver esta lista de verificación        Lista de verificación   2 min
      completa a su SSD.                         administraiva de
                                                 ERMCi
  Firma del examinador ___________________________________
 Fuente: Departamento de Educación de Filipinas 2004.
             14
Ca p í t u l o                    INFORMACIÓN A
                                  LAS ESCUELAS
                                  SOBRE LA
                                  EVALUACIÓN
                                  NACIONAL



                                   Es necesario que los estudiantes estén motiva-
          dos a esforzarse en la evaluación nacional. A los estudiantes general-
          mente se los motiva más cuando los docentes les explican el propósito
          de la prueba y cuando se garantiza que entiendan que los resultados
          se utilizarán para ayudar a mejorar la enseñanza y no para juzgarlos.
             Todos los estudiantes necesitan sentirse animados a participar,
          especialmente aquellos con menos capacidades. La decisión sobre
          cuándo informar a los estudiantes sobre las fechas de la prueba depen-
          derá de las circunstancias de la escuela. Si los estudiantes se sienten
          atemorizados por la prueba y eso hará que dejen de asistir a la escuela,
          entonces es preferible no decirles con exactitud cuándo se adminis-
          trará. Si se sienten emocionados ante la posibilidad de realizar la
          prueba y es más probable que concurran a la escuela, entonces es
          preferible decirles cuándo se administrará.
             La agencia que la implementa debe garantizar que las escuelas
          estén informadas sobre el propósito de la prueba con antelación a su
          administración. Se puede brindar la información mediante semina-
          rios, cartas o teléfono. Es recomendable ser sincero y claro sobre los
          datos que se recopilarán, cómo se reportarán y utilizarán, y qué
          retroalimentación (si la hubiera) recibirá la escuela acerca del desem-
          peño de los estudiantes.

                                                                              161
162   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



   Se informará a los directores y a los docentes de las escuelas que
participan que sus escuelas y sus clases han sido seleccionadas para
ayudar a aumentar la información sobre lo que los estudiantes saben
y lo que no. Esta información se recopila para ayudar a mejorar el
sistema de educación nacional. En las evaluaciones nacionales realiza-
das a una muestra no se juzga a las escuelas o clases. También se debe
informar a los directores y a los docentes de las escuelas que partici-
pan que todos los datos de los exámenes y las respuestas a los cuestio-
narios serán confidenciales.
   Es necesario contar con procedimientos que garanticen que las
escuelas hayan acordado participar en la evaluación antes de que se
asignen examinadores externos a cada una de ellas. También es nece-
sario garantizar que los examinadores externos cuenten con las pre-
sentaciones necesarias, tales como una carta de aval, para asegurarse
de que la escuela les brindará el apoyo necesario para que cumplan
con sus responsabilidades. El volumen 3, Implementación de una
evaluación nacional del rendimiento académico, contiene sugerencias
adicionales sobre cómo informar a las escuelas e incluye el borrador
de una carta.
APÉNDICE

         A
                         GLOSARIO



      análisis clásico de ítems: Una metodología estadística para el análisis
      de los datos de la prueba.
      análisis de datos: Uso de una metodología estadística para analizar
      e interpretar los datos de la prueba.
      analista de datos: La persona responsable del análisis estadístico de
      los datos.
      área de aprendizaje: Un eje principal en el plan de estudios, tal como
      matemáticas o ciencias.
      centro de corrección: El lugar donde se lleva a cabo la puntuación
      manual de los ítems de la prueba y donde se capacita y se supervisa a
      los correctores.
      clave de opción múltiple: La opción correcta en un ítem de opción
      múltiple.
      cohorte completa: Todos los estudiantes en un país que cumplen con
      ciertos criterios, tales como estar en un determinado año académico
      en un momento dado.
      comité de revisión de ítems: Un grupo pequeño compuesto por entre
      tres y seis personas que de manera crítica revisan y mejoran todos los
      aspectos de los ítems para garantizar que sean de excelente calidad.

                                                                         163
164   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



condiciones estandarizadas: Condiciones de prueba que se especifi-
can en el manual de administración y que permanecen iguales para
todos los estudiantes a quienes se les administra la prueba. Todos los
estudiantes reciben la misma cantidad de apoyo, se les dan las mismas
instrucciones y tienen la misma cantidad de tiempo para realizar la
prueba.

confiabilidad de la prueba: El grado en el que la evidencia recopilada
es suficiente para realizar generalizaciones.

conjunto de ítems: Un conjunto de ítems evaluados en una prueba de
campo o prueba previa y de ítems seguros de pruebas anteriores que
son apropiados para su uso en exámenes futuros.

corrección: Una revisión detallada de todos los aspectos de un texto
para garantizar que sea claro, coherente y que no tenga errores.

corrector: Una persona que otorga puntajes manualmente a los ítems
según una guía de puntuación.

corrector jefe: La persona responsable de la dirección del centro de
corrección y de la resolución de las discrepancias de puntaje.

corrector principal: Un corrector experimentado responsable del
cotejo de la puntuación manual para garantizar la coherencia y con-
fiabilidad del trabajo de los correctores.

correlación punto biserial: Método utilizado en el análisis de los ítems
para brindar una medición de la correlación (relación) entre el pun-
taje (correcto o incorrecto) que los estudiantes obtienen por un ítem
individual y el puntaje total que obtienen en el resto de los ítems.

datos: Información recopilada de una prueba, generalmente ingresada
en un programa de computadora.

datos agregados: Combinación de datos para dar un puntaje total, tal
como un puntaje individual a partir de una prueba de 30 ítems.

distractores: Las opciones incorrectas en un ítem de opción múltiple.

doble evaluación: Un proceso en el que se califican dos veces las res-
puestas a los ítems generadas por los estudiantes. El segundo corrector
no ve el primer puntaje.
                                                        GLOSARiO   | 165



ensayo: Una respuesta escrita extensa a una instrucción, generalmente
de media página o más.

ensayo de prueba: Otro nombre para una “prueba previa” o “prueba
de campo” que se lleva a cabo antes de la prueba final con una
pequeña muestra de estudiantes, con el fin de establecer la calidad
y la pertinencia de los ítems, los cuestionarios y los manuales de
administración.

enunciado: La parte de un ítem de opción múltiple que antecede a las
opciones, generalmente una pregunta, una oración incompleta o una
indicación.

escala de grises: Un sombreado de impresión de color gris suave.

especificaciones técnicas: Especificaciones sobre los criterios que
deben cumplir los ítems de la prueba final, entre ellos la proporción
de ítems que aborda cada aspecto de un área curricular, la duración
de la prueba, el formato de los ítems y cualquier otro criterio o limi-
tación respecto del desarrollo de la prueba.

evaluación por cotejo: Una revisión del puntaje manual para contro-
lar que coincida de manera sistemática con las categorías de puntaje
de la guía de corrección. Por lo general, la verificación la realiza el
corrector principal en el lugar para ofrecer retroalimentación inme-
diata a los correctores sobre la calidad de su trabajo.

evaluación de discrepancias: Procedimiento para resolver los punta-
jes contradictorios que surgen del cotejo o de la doble evaluación de
las respuestas generadas por el estudiante. Por lo general, estos proce-
dimientos son gestionados por el corrector jefe.

examinador: Una persona que supervisa la realización de la prueba y
es responsable de garantizar que las condiciones de la prueba están
estandarizadas según el manual de administración.

formulario final: Los cuadernillos de prueba que se administran a una
población de muestra.

guías de corrección: Descripción de las categorías de puntuación que
se utilizan para clasificar las respuestas a los ítems generadas por los
estudiantes.
166   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



hoja de respuestas: Una hoja separada del cuadernillo de prueba que
utilizan los estudiantes para registrar sus respuestas a los ítems de la
prueba.

ítem: Una parte única de una prueba con un puntaje individual. Puede
ser una pregunta, una oración sin terminar o una parte única de una
prueba o cuestionario con un puntaje o código individual.

ítem de crédito parcial: Un ítem que tiene una o más categorías de
respuesta correcta. Estas categorías generalmente son jerárquicas para
los ítems en el formulario final de la prueba, pero pueden no serlo
para la prueba preliminar, de campo o para el ensayo de ítems.

ítems discriminantes: Ítems que diferencian los desempeños de los
estudiantes de gran capacidad y de poca: es decir, es más probable que
los estudiantes que tienen gran capacidad respondan el ítem correcta-
mente que los que tienen poca.

ítems de enlace: Ítems que se replican en dos o más cuadernillos de
prueba para permitir que se comparen los datos de la evaluación de
los cuadernillos.

ítems no sesgados: Ítems que examinan el rendimiento de los estu-
diantes de manera justa y no favorecen a ciertos grupos según carac-
terísticas que no tienen importancia para el conocimiento o las
destrezas que se evalúan.

ítems de opción múltiple: Ítems que requieren que los estudiantes
seleccionen la única respuesta correcta para una pregunta a partir de
una serie de opciones.

ítems de respuesta corta abierta: Ítems que requieren que un estu-
diante genere una respuesta breve, tal como una o dos oraciones, o
varias modificaciones a una tabla, un cuadro o un diagrama.

ítems seguros: Ítems que se han mantenido fuera del dominio público.
Es posible que hayan sido administrados en una prueba anterior,
pero las condiciones de esa prueba han impedido su duplicación o
divulgación.

manual de administración: Un conjunto escrito de instrucciones
acerca de cómo, cuándo y dónde deben llevarse a cabo las pruebas.
                                                          GLOSARiO   | 167



El manual también puede incluir información sobre el traslado de los
cuadernillos de prueba dentro y fuera de las escuelas.

marco: Un documento que define el propósito de la prueba e indica
qué se debe medir, cómo debe medirse, por qué se mide y cómo debe
reportarse.

material de estímulo: Textos, diagramas o cuadros que brindan el con-
texto para uno o más ítems.

muestra aleatoria: Un grupo de estudiantes seleccionado estadística-
mente que cumple con ciertos criterios, entre ellos la distribución de
variables clave que coincide con la distribución de las mismas varia-
bles en la cohorte completa.

objetividad de la prueba: El grado en el que la prueba no se ve alte-
rada por la elección de la tarea o del asesor; es decir, la tarea es justa,
completa y tiene criterios claros para determinar la puntuación.

población objeto de la prueba: Los estudiantes a quienes se adminis-
trará la prueba.

preguntas de respuesta cerrada: Ítems que requieren que los estu-
diantes generen una respuesta breve con un pequeño conjunto limi-
tado de respuestas correctas.

prueba: Uno o más ítems a los que los estudiantes responden en condi-
ciones estandarizadas. Los ítems se diseñan para permitir que los estu-
diantes demuestren sus conocimientos, destrezas y entendimiento.

prueba de campo: Otro nombre para un “ensayo de prueba” que se
lleva a cabo antes de la prueba final con una pequeña muestra de
estudiantes, con el fin de establecer la calidad y la pertinencia de los
ítems y de los manuales de administración.

prueba piloto: Otro nombre para un “ensayo de prueba” que se lleva
a cabo antes de la prueba final con una pequeña muestra de estudian-
tes, con el fin de establecer la calidad y la pertinencia de los ítems, los
cuestionarios y los manuales de administración.

prueba previa: Otro nombre para un “ensayo de prueba” que se lleva
a cabo antes de la prueba final con una pequeña muestra de alumnos,
168   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



con el fin de establecer la calidad y la pertinencia de los ítems, los
cuestionarios y los manuales de administración.

puntaje: Puntos que se asignan a la respuesta de un estudiante según
las categorías de una guía de puntuación.

puntaje dicotómico: Un ítem que se puntuó como correcto o inco-
rrecto, de modo que tiene dos posibles puntajes: 0 y 1.

puntuación manual: La asignación de puntajes a las respuestas de
los estudiantes a los ítems realizada por personas (no por máquinas)
que otorgan puntajes.

responsables políticos: Funcionarios gubernamentales que dan forma
a las políticas educativas.

respuestas faltantes: Ítems que el estudiante no ha intentado
responder.

respuestas incorrectas: Ítems en los cuales la respuesta del estudiante
encaja en la categoría de puntaje 0.

subcapítulo: Aspectos o agrupamientos dentro de las áreas de apren-
dizaje del plan de estudios; por ejemplo, es posible que matemáticas
se encuentre dividida en subcapítulos de números, espacios, patrones
y mediciones.

tabla de especificaciones: Otro nombre para las especificaciones
técnicas.

unidad: Un grupo de ítems que se basa en una porción común de
material de estímulo.

utilidad de la prueba: El grado en el que la prueba sirve a su
propósito.

validez de la prueba: Un concepto amplio que implica hacer interpre-
taciones adecuadas y usar los puntajes o la información de la prueba
de forma apropiada.

vinculación circular: La vinculación de un grupo de formularios de
prueba, desde el primero hasta el último.
                                                     GLOSARiO   | 169



vinculación horizontal: La vinculación de los ítems entre formularios
en el mismo nivel o año académico.

vinculación lineal: La vinculación de un grupo de formularios de
prueba de uno al otro sin que el primer formulario se conecte nueva-
mente con el último.

vinculación longitudinal: La vinculación en el tiempo de los formula-
rios de prueba.

vinculación vertical: La vinculación de los formularios de la prueba
utilizados en distintos años académicos mediante la utilización de
ítems comunes.
APÉNDICE

           B
                           LECTURAS ADICIONALES



      Allen, N. L., J. R. Donoghue, y T. L. Schoeps. 2001. Informe técnico de la
      evaluación NAEP 1998 Washington, DC: Centro Nacional de Estadísticas
      Educativas.

      Baker, F. 2001. The Basics of Item Response Theory. College Park, MD:
      Centro de Información sobre Evaluaciones ERIC, Universidad de Maryland.

      Beaton, A. E., y E. G. Johnson. 1989. “Overview of the Scaling Methodology
      used in the National Assessment.” Journal of Educational Measurement
      29: 163–75.

      Bloom, B. S., M. D. Engelhart, E. J. Furst, W. H. Hill, y D. R. Krathwohl.
      1956. Taxonomía de objetivos educativos: Manual 1—Aspecto cognitivo.
      Londres: Longmans, Green.

      Campbell, J. R., D. L. Kelly, I. V. S. Mullis, M. O. Martin, y M. Sainsbury.
      2001. Marcos teóricos y especificaciones de evaluación de PIRLS 2001.
      Chestnut Hill, MA: Centro de Estudios Internacionales, Boston College.

      Centro de Investigación Educativa 1978. Pruebas de evaluación Drumcora,
      Manual, Nivel II, Formulario A. Dublín: Centro de Investigación Educativa.

      Chatterji, M. 2003. Designing and Using Tools for Educational Assessment.
      Boston: Allyn y Bacon.

      Consejo de Investigación Educativa de Australia. Sin fecha. Literacy and
      Numeracy National Assessment (LANNA), preguntas de muestra,


                                                                                     171
172   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



Aritmética año 5. http:// www.acer.edu.au/documents/LANNA
_Y5NumeracyQuestions.pdf.

Consejo Directivo de Evaluaciones Nacionales. Sin fecha. Writing
Framework and Specifications for the 1998 National Assessment of Educational
Progress. Washington, DC: Departamento de Educación de EE. UU.

Departamento de Educación de Filipinas 2004. Region-wide Assessment for
Mathematics, Science, and English (RAMSE): Basic Education Assistance for
Mindanao (BEAM). Manila: Departamento de Educación de Filipinas.

Departamento de Educación de Papúa Nueva Guinea 2003. Cultural
Mathematics Elementary Syllabus. Port Moresby: Departamento de
Educación de Papúa Nueva Guinea.

———. 2004. National Curriculum Standards Monitoring Test. Port
Moresby: Departamento de Educación de Papúa Nueva Guinea.

Eivers, E., G. Shiel, R. Perkins y J. Cosgrove. 2005. Evaluación nacional de
comprensión lectora en inglés, 2004 Dublín: Centro de Investigación
Educativa.

Forster, M. 2000. A Policy Maker’s Guide to International Achievement
Studies. Camberwell, Australia: Consejo de Investigación Educativa de
Australia.

———. 2000. A Policy Maker’s Guide to Systemwide Assessment Programs.
Camberwell, Australia: Consejo de Investigación Educativa de Australia.

Greaney, V., y S. B. Neuman. 1990. “The Functions of Reading: A Cross-
Cultural Perspective.” Reading Research Quarterly 25 (3):172–95.

Haladyna, T. M. 1999. Developing and Validating Multiple-Choice Test Items.
2.ª ed. Hillsdale, NJ: Lawrence Erlbaum.

Harlen, W., ed. 2008. Student Assessment and Testing. Vols. 1–4. Londres:
Sage.

Howie, S. 1987. “Large-Scale Educational Assessment as Policy Research:
Aspirations and Limitations.” European Journal of Psychology and Education
2 (2): 157–65.

IEA (Asociación Internacional para la Evaluación del Rendimiento
Educativo). 1998. Third International Mathematics and Science Study—
TIMSS Sample Items. Chestnut Hill, MA: Centro de Estudios
Internacionales, Boston College. http://www.edinformatics.com/timss
/pop1/mpop1.htm, http:// timss.bc.edu/timss1995i/TIMSSPDF/BSItems
.pdf/, and http://www.ed.gov/inits/Math/timss4_8.html.
                                                   LECTURAS ADiCiONALES      | 173



———. 2007. TIMSS 2003, Science Items, Released Set. Fourth Grade.
S011026. Chestnut Hill, Mass.: Centro de Estudios Internacionales
TIMSS y PIRLS, Boston College. timss.bc.edu/PDF/T03_RELEASED
_S4.pdf.

Kirsch, I. 2001. The International Adult Literacy Survey (IALS):
Understanding What Was Measured. Informe de investigación RR-01-25.
Princeton, NJ: Servicio de Pruebas Educativas (ETS).

Kubiszyn, T., y G. Borich. 2000. Educational Testing and Measurement.
Nueva York: Wiley.

Linn, R. L., y M. D. Miller. 2004. Measurement and Assessment in Teaching:
Student Exercise Manual. Upper Saddle River, NJ: Prentice Hall.

Linn, R. L., y S. B. Dunbar. 1992. “Issues in the Design and Reporting of the
National Assessment of Educational Progress.” Journal of Educational
Measurement 29 (2): 177–94.

Messick, S. 1987. “Large-Scale Educational Assessment as Policy Research:
Aspirations and Limitations.” European Journal of Psychology and Education
2 (2): 157–65

———. 1989. “Validity.” En Educational Measurement, 3.ª ed., ed.
R. L. Linn, 13–103. New York: American Council on Education/MacMillan.

Ministerio de Educación de Nueva Zelanda 2002. English in the
New Zealand Curriculum. Wellington: Medios de Aprendizaje para el
Ministerio de Educación de Nueva Zelanda.

Mullis, I. V. S, A. M. Kennedy, M. O. Martin, y M. Sainsbury. 2006. Marcos
teóricos y especificaciones de evaluación: Estudio Internacional de Progreso en
Comprensión Lectora 2.ª ed. Chestnut Hill, MA: Centro de Estudios
Internacionales TIMSS y PIRLS, Boston College.

Mullis, I. V. S., M. O. Martin, E. J. Gonzalez, y S. J. Chrostowski. 2004.
Informe internacional de matemática TIMSS 2003: Conclusiones de la
evaluación del Estudio Internacional de Tendencias en Matemáticas y
Ciencias de la IEA para cuarto y octavo grados. Chestnut Hill, MA:
Centro de Estudios Internacionales TIMSS y PIRLS, Boston College.

Mullis, I. V. S., M. O. Martin, E. J. Gonzalez, K. D. Gregory, R. A. Garden,
K. M. O’Connor, S. J. Chrostowski, y T. A. Smith. 2000. Informe
internacional de matemática TIMSS 1999. Conclusiones de la Repetición del
Tercer Estudio Internacional de Matemáticas y Ciencias de IEA para octavo
grado. Chestnut Hill, Mass.: Centro de Estudios Internacionales, Boston
College. timssandpirls. bc.edu/timss1999i/pdf/T99i_Math_2.pdf.
174   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



Nitko, A. J. 2004. Educational Assessment of Students. 4ta ed. Upper Saddle
River, NJ: Pearson, Merrill, Prentice Hall.

PISA (Programa para la Evaluación Internacional de Alumnos). 2004.
Aprender para el mundo del mañana: Primeros resultados de PISA 200. París:
Organización para la Cooperación y el Desarrollo Económicos.
APÉNDICE

         C
                         EJEMPLOS DE ÍTEMS
                         DE PRUEBAS, ÍTEMS DE
                         CUESTIONARIOS Y
                         MANUALES DE
                         ADMINISTRACIÓN EN EL CD



      El disco compacto (CD) que acompaña a este libro contiene ejemplos
      de ítems de pruebas de rendimiento académico, guías para la evalua-
      ción y puntuación de pruebas, ítems de cuestionarios y manuales que
      han sido utilizados en diversos contextos, incluyendo evaluaciones
      nacionales e internacionales. La figura C.1 muestra la organización de
      los contenidos en el CD. La mayoría de los ítems, cuestionarios y
      manuales han sido publicados y se puede acceder a ellos en Internet.
      Se han reproducido en un CD para asistir a los equipos de evaluaciones
      pertenecientes a países en los que el acceso a Internet puede presentar
      dificultades. Agradecemos el apoyo de los editores y las organizaciones
      que autorizaron la reproducción de sus materiales originales en este
      CD, y los incluimos en una lista al final de este apéndice.
         Los ejemplos que se incluyen en el CD ofrecen a los equipos a
      cargo de las evaluaciones nacionales ideas sobre los siguientes
      aspectos: tipos y formatos de ítems, guías para la evaluación y pun-
      tuación de pruebas, cobertura del contenido del currículo, estruc-
      tura de las pruebas y los cuestionarios, y tipo de información
      publicada en los manuales de administración de las pruebas. Los
      equipos de evaluación nacional pueden utilizar esta información
      para diseñar sus propios instrumentos de evaluación, sus guías para



                                                                         175
176    | DESARROLLO DE PRUEbAS Y CUESTiONARiOS




 FIgURA C.1

 guía para acceder a los materiales en el CD sobre pruebas, cuestionarios y
 manuales

                                        Ejemplos en el CD

             Ítems de las pruebas y
                                                   Cuestionarios                     Manuales
            pautas para la puntuación

      Lenguaje                        Alumno                    Coordinador de la
                                                                    escuela

    Matemáticas                       Docente                     Examinador y
                                                                  administrador
                                                                 de cuestionarios
       Ciencia                  Director y escuela

                                       Padre

Nota: Hacer clic sobre el archivo “fuentes” para acceder a la fuente de ítems, cuestionarios y
manuales individuales publicados, y a una lista de direcciones de sitios web (en caso de que
corresponda) de los cuales se obtuvo dicha información.




la evaluación y puntuación de pruebas, y sus manuales. Deben tener
en cuenta el currículo, la pertinencia del vocabulario y el formato
de las pruebas a la hora de seleccionar o adaptar el material.



ÍTEMS DE PRUEbAS DE RENDIMIENTO ACADÉMICO

El CD contiene ítems de pruebas de matemáticas, lenguaje y ciencia.
Esperamos que resulten útiles para los redactores de ítems de esas
áreas, pues deberán desarrollar instrumentos de evaluación basados
en su currículo nacional. No pretendemos que los equipos de evalua-
ción nacional copien estos ítems. Dentro de cada materia, en primer
lugar, se presentan archivos con ítems para grados de educación pri-
maria, seguidos por archivos con ítems para el nivel de educación
posprimaria y, finalmente, archivos con ítems que cubren tanto los
niveles de educación primaria como los de posprimaria.
   El CD recopila ítems extraídos de diferentes estudios nacionales de
matemáticas, comprensión lectora y escritura, realizados en los
Estados Unidos con alumnos de cuarto, octavo y décimo segundo
grado, y de diferentes estudios con alumnos de 9, 13 y 17 años.
Asimismo, contiene ítems de pruebas de matemáticas de cuarto grado
                    EJEMPLOS DE ÍTEMS Y MANUALES DE ADMiNiSTRACiÓN   | 177



realizadas en el estado de Massachusetts e ítems utilizados en estu-
dios nacionales realizados en Australia e Irlanda. El CD también
presenta ítems publicados por tres programas internacionales de eva-
luación: el Estudio Internacional de Tendencias en Matemáticas y
Ciencias (TIMSS) que evalúa el rendimiento en matemáticas y cien-
cias de alumnos de tercer, cuarto, séptimo y octavo grado y el último
año de educación posprimaria; el Estudio sobre el Progreso
Internacional de la Competencia en Lectura (PIRLS) que evalúa el
lenguaje en alumnos de 4 grado; y el Programa para la Evaluación
Internacional de Alumnos (PISA) que evalúa el desempeño de los
alumnos de 15 años en lenguaje, matemáticas y ciencia.
   Algunos de los ítems de las pruebas de lenguaje se aplican a textos
extensos, un formato que puede no ser el adecuado en algunas evalua-
ciones nacionales. En ciertos casos, el formato del ítem para descargar
es diferente al formato utilizado en el cuadernillo de prueba original.
Es importante tener en cuenta que algunos de los ítems fueron dise-
ñados para evaluar dos o más niveles de grado escolar.
   El material incluido en el CD también contiene guías para la eva-
luación y puntuación de pruebas específicas.



CUESTIONARIOS

El CD contiene ejemplos de cuestionarios individuales para alumnos,
maestros, padres, escuelas y directores. La mayoría de los cuestiona-
rios han sido utilizados en estudios internacionales en países indus-
trializados. Varios de ellos pertenecen a contextos educativos y
escolares específicos. Los equipos de evaluación nacional deben con-
siderar la posibilidad de adaptar algunas de las preguntas más relevan-
tes para que estas reflejen la realidad económica, social y escolar de
sus países.



MANUAlES

El CD incluye manuales que brindan instrucciones específicas sobre
cómo administrar las pruebas y los cuestionarios. También contiene
manuales que describen los roles y las responsabilidades de quienes
178   | DESARROLLO DE PRUEbAS Y CUESTiONARiOS



coordinan las evaluaciones dentro de las escuelas. Entre las responsa-
bilidades se incluyen las tareas que deben realizarse antes, durante y
después de la administración de las pruebas y los cuestionarios. Los
ejemplos abarcan temas tales como la preparación de los examinado-
res; la enumeración de materiales e insumos adecuados (por ejemplo,
pruebas, cuestionarios, lápices y un reloj); la disposición de los asientos
para minimizar el riesgo de que los alumnos se copien; el tratamiento
de los ítems de ejemplo; la implementación de pautas de tiempo; y la
identificación de tareas que debe realizar el examinador una vez
terminada cada sesión.
   Algunos materiales tendrán más relevancia en algunos países que
en otros. Por ejemplo, algunos manuales hacen referencia a la correc-
ción electrónica de pruebas o a los formularios de respuestas, que no
suelen ser utilizados en las evaluaciones nacionales en los países en
desarrollo. Se advierte a los usuarios que no deben replicar el conte-
nido de los manuales, sino que deben seleccionar ideas que se adap-
ten a sus contextos nacionales en particular. Los ejemplos se incluyen
con el fin de ayudar a los equipos de evaluación nacional a desarro-
llar manuales basados en sus propias pruebas. Algunos manuales
incluyen sugerencias sobre la selección de muestras de alumnos
dentro de las escuelas.



AgRADECIMIENTOS

El Centro Nacional para Estadísticas de la Educación del Departamento
de Educación de EE. UU. (http://nces.ed.gov/nationsreportcard/about)
ha autorizado la reproducción de los ítems de pruebas, los manuales
para examinadores y los cuestionarios de la Evaluación Nacional del
Progreso Educativo.
   La Asociación Internacional para la Evaluación del Rendimiento
Educativo (http://www.iea.nl/ y http://timss.bc.edu/) ha autorizado
la reproducción de los ítems, los cuestionarios y los manuales para
examinadores y coordinadores de escuelas de TIMSS y PIRLS.
   La Organización para la Cooperación y el Desarrollo Económicos
(http://www.pisa.oecd.org/dataoecd/51/27/37474503.pdf) ha autorizado
                    EJEMPLOS DE ÍTEMS Y MANUALES DE ADMiNiSTRACiÓN   | 179



la reproducción de los ítems, los cuestionarios y los manuales para
examinadores y coordinadores de escuelas de PISA.
    El CD contiene ítems de matemáticas que han sido publicados por
el Departamento de Educación de Massachusetts y que se encuentran
disponibles en el sitio web del departamento en http://www.doe
.mass.edu/mcas/testitems.html.
    El Consejo Australiano de Investigación Educativa ha autorizado la
reproducción de ejemplos de ítems y guías para la evaluación y pun-
tuación de su Evaluación Nacional de Lectoescritura y Aritmética
Elemental, comprensión lectora en tercer, quinto y séptimo año
(http://www.acer.edu.au/lanna/).
    El Centro de Investigación Educativa, Dublín (http://www.erc.ie
/index.php?s=7), ha autorizado la reproducción de ítems de inglés y
matemáticas, un cuestionario y un manual para examinadores.
    El CD contiene un archivo que enumera las fuentes de los ítems,
cuestionarios o manuales publicados y una lista de direcciones de
sitios web (en caso de que corresponda) de los cuales se obtuvo dicha
información. Pulse sobre el archivo “Fuentes” en el CD para acceder a
esa información.
                           ECOAUDITORÍA
    Declaración de beneficios medioambientales
El Grupo Banco Mundial tiene el compromiso de reducir su huella ambien-
tal. En apoyo a dicho compromiso, la División de Publicaciones y
Conocimiento impulsa las opciones de edición electrónica y la tecnología de
impresión por encargo, desde centros regionales distribuidos por todo el
mundo. En conjunto, estas iniciativas permiten reducir las tiradas y las dis-
tancias de envío, lo que redunda en un menor consumo de papel, menor uso
de productos químicos, menores emisiones de gases de efecto invernadero y
menor cantidad de residuos.
    La División de Publicaciones y Conocimiento sigue las normas reco-
mendadas sobre el uso de papel establecidas por la Green Press Initiative
(Iniciativa de Prensa Ecológica). La mayor parte de nuestros libros se
imprime con papel certificado por el Consejo de Administración de
Bosques (FSC), y el contenido en papel reciclado de casi todos ellos
oscila entre el 50 y el 100 por ciento. La fibra reciclada del papel de nues-
tros libros es o bien sin blanquear o blanqueada mediante procesos total-
mente libres de cloro (TCF), procesos de fabricación sin cloro (PCF) o
procesos de blanqueo libre de cloro elemental mejorado (EECF).
    Puede encontrarse más información sobre la filosofía ambiental del
Banco en http://www.worldbank.org/en/about/what-we-do/crinfo.