45411 Preencha a ficha de cadastro no final deste livro e receba gratuitamente informações sobre os lançamentos e as promoções da Elsevier. Consulte também nosso catálogo completo, últimos lançamentos e serviços exclusivos no site www.elsevier.com.br Do original: Developing Tests and Questionnaires for a National Assessment of Educational Achievement Copyright © 2008, by The international Bank for Reconstruction and Development/The World Bank Publicado originalmente em Inglês pelo Banco Mundial. Em caso de discrepâncias, prevalecerá a versão original em inglês. Esta obra foi elaborada pela equipe do Banco Internacional para Reconstrução e Desenvolvimento/Banco Mundial. As afirmações, interpretações e conclusões aqui contidas não expressam necessariamente a opinião dos diretores executivos da instituição ou dos governos que eles representam. O Banco Mundial não garante a exatidão dos dados incluídos nesta publicação. As fronteiras, cores, denominações e outras informações mostradas em qualquer mapa neste estudo não implicam nenhuma opinião da parte do Banco Mundial em relação à situação jurídica de qualquer território, bem como o endosso ou a aceitação de suas fronteiras. This work was originally published by The World Bank in English as National Assessments of Educational Achievement, Volume 2: Developing Tests and Questionnaires for a National Assessment of Educational Achievement in 2008. This Brazilian Portuguese translation was arranged by Elsevier Brazil. Elsevier Brazil is responsible for the quality of translation. In case of any discrepancies, the original language will govern. The findings, interpretations, and conclusions expressed herein are those of the author(s) and do not necessarily reflect the views of the Executive Directors of The World Bank or the governments they represent. The World Bank does not guarantee the accuracy of the data included in this work. The boundaries, colors, denominations, and other information shown on any map in this work do not imply any judgement on the part of The World Bank concerning the legal status of any territory or the endorsement or acceptance of such boundaries. Direitos e permissões O material contido nesta publicação é protegido por direito autoral. A cópia e/ou transmissão sem permissão de uma parte ou de todo o conteúdo poderão ser consideradas violação da lei aplicável. O Banco Internacional para Reconstrução e Desenvolvimento/Banco Mundial estimula a disseminação desta obra e normalmente permitirá com rapidez a reprodução de trechos deste relatório. Para obter permissão de fotocópia ou reimpressão de qualquer parte deste livro, envie um pedido contendo informações completas para Copyright Clearance Center Inc., 222 Rosewood Drive, Danvers, MA 01923, USA; telefone: 978-750-8400; fax: 978-750-4470; Internet: www.copyright.com. Todas as outras perguntas sobre direitos e licenças, inclusive direitos subsidiários, devem ser dirigidas ao Office of the Publisher, The World Bank, 1818 H Street NW, Washington, DC 20433, USA. Fax: 202-522-2422; e-mail: pubrights@worldbank.org. © 2011, The International Bank for Reconstruction and Development/The World Bank Todos os direitos reservados e protegidos pela Lei no 9.610, de 19/02/1998. Copidesque: Shirley Lima da Silva Braz Revisão: Andréa Campos Bivar e Jussara Bivar Editoração Eletrônica: Estúdio Castellani Elsevier Editora Ltda. Conhecimento sem Fronteiras Rua Sete de Setembro, 111 – 16o andar 20050-006 – Centro – Rio de Janeiro – RJ – Brasil Rua Quintana, 753 – 8o andar 04569-011 – Brooklin – São Paulo – SP – Brasil Serviço de Atendimento ao Cliente 0800-0265340 sac@elsevier.com.br ISBN 978-85-352-3961-4 Edição original: ISBN 978-0-8213-7497-9 CIP-Brasil. Catalogação-na-fonte Sindicato Nacional dos Editores de Livros, RJ A561d Anderson, Prue, 1954- Desenvolvimento de testes e questionários para avaliação do desempenho educacional / Prue Anderson e George Morgan ; tradução Maria Lúcia de Oliveira. – Rio de Janeiro : Elsevier, 2011. il. – (Pesquisas do Banco Mundial sobre avaliações de desempenho educacional ; v. 2) Tradução de: Developing tests and questionaires for a national assessment of educational achievement Apêndice Inclui bibliografia ISBN 978-85-352-3961-4 1. Testes e medidas educacionais – Estados Unidos. 2. Avaliação educacional – Estados Unidos. 3. Rendimento escolar – Estados Unidos. I. Morgan, George, 1945-. II. Título. III. Série. 10-4461. CDD: 371.261 CDU: 37.091.26 AGRADECIMENTOS U ma equipe conduzida por Vincent Greaney (consultor do Grupo de Educação da Rede de Desenvolvimento Humano do Banco Mun- dial) e Thomas Kellaghan (Centro de Pesquisas Educacionais, St. Patrick’s College, Dublin) preparou a série da qual este é o Volume 2. Também con- tribuíram para a série: Sylvia Acana (Uganda National Examinations Board), Prue Anderson (Australian Council for Educational Research), Fernando Cartwright (Canadian Council on Learning), Jean Dumais (Statistics Can- ada), Chris Freeman (Australian Council for Educational Research), Hew Gough (Statistics Canada), Sara Howie (University of Pretoria), George Morgan (Australian Council for Educational Research), T. Scott Murray (UNESCO Institute e Statistics) e Gerry Shiel (Educational Research Cen- tre, St. Patrick’s College, Dublin). O trabalho foi realizado sob a direção geral de Ruth Kagia, diretora do Setor de Educação do Banco Mundial, e Robin Horn, gerente do Setor de Educação. Robert Prouty iniciou e super- visionou o projeto até agosto de 2007. Marguerite Clarke supervisionou as últimas etapas, até a revisão e a publicação. Somos gratos às contribuições do painel de revisão: Al Beaton (Bos- ton College), Irwin Kirsch (Educational Testing Service) e Benoit Millot (Banco Mundial). Comentários adicionais muito úteis foram feitos por Helen Abadzi, Regina Bendokat, Marguerite Clarke, Robin Horn, Eliza- beth King, Maureen Lewis, Harry Patrinos, Carlos Rojas, Jee-Peng Tan, Eduardo Velez e Raisa Venalainen. Recebemos valiosos subsídios e apoio de Carly Cheevers, David Har- ding, Aidan Mulkeen, Aleksandra Sawicka, Thi Tran, Hilary Walshe e Hans Wagemaker. Desejamos agradecer às seguintes instituições a permissão de repro- duzir seu material no texto: Australian Council for Educational Research (Conselho Australiano de Pesquisas Educacionais), Educational Resear- ch Centre, Dublin (Centro de Pesquisas Educacionais, Dublin); Inter- national Association for the Evaluation of Educational Achievement (Associação Internacional para Avaliação do Aproveitamento Escolar); Massachusetts Department of Education (Departamento de Educação de Massachusetts); National Center for Education Statistics of the U.S. Department of Education (Centro Nacional de Estatísticas de Educação do Departamento de Educação, EUA), Organisation for Economic Co- operation and Development (Organização para a Cooperação e o De- senvolvimento Econômico, OCDE) e Papua New Guinea Department of Education (Departamento de Educação de Papua Nova Guiné). A diagramação, a edição e a produção dos livros foram coordenados por Mary Fisk e Paola Scalabrin, do Escritório de Publicações do Banco Mundial. O Irish Educational Trust Fund; o Bank Netherlands Partnership Pro- gram; o Educational Research Center, Dublin, e o Australian Council for Educational Research deram generoso apoio à preparação e publica- ção desta série. A tradução desta série para o português só foi possível com o genero- so apoio da Russia Education Aid for Development Trust Fund. PREFÁCIO A qualidade de qualquer exercício de avaliação escolar depende da qualidade dos instrumen- tos utilizados. De fato, se esses instrumentos estiverem mal concebidos, a avaliação pode ser uma perda de tempo e di- nheiro. Este livro descreve como desenvolver instrumentos tecnicamente robustos para uma avaliação nacional do aproveitamento escolar, com foco especial na realização dessa tarefa em países em desenvolvimento. O Volu- me 1 descreve os principais objetivos e características de avaliações nacionais e se destina principalmente a formuladores de políticas e responsáveis por decisões na área da educação. O segundo livro e a maior parte dos seguintes fornecem, passo a passo, os detalhes sobre desenho, implementação, análise e apresentação das constatações de uma avaliação nacional e se destinam principalmente às equipes de avaliação nacional. Desenvolvimento de testes e questionários para avaliação do desempenho educacional aborda a elaboração de dois tipos de instrumentos de coleta de dados: testes de aproveitamento dos alunos e questionários sobre fa- tores socioeconômicos e contextuais. A Parte I cobre o desenvolvimento de um marco de referência da avaliação, a construção de uma tabela de especificações para o teste, a elaboração de itens, a realização do pré- teste (ou teste piloto) e a formatação do teste final. A Parte II delineia as etapas e atividades observadas na construção de questionários sobre fa- tores socioeconômicos e contextuais. Os questionários serão usados para obter informações sobre alunos, professores, diretores ou pais relativas a variáveis que poderiam ajudar a explicar as diferenças no desempenho dos alunos no teste de aproveitamento. A Parte III descreve como criar um manual para aplicação do teste, de forma a garantir que todos os alunos façam o teste em condições padronizadas. O Volume 3 enfoca questões práticas que devem ser levadas em conta na implementação de um programa de avaliação nacional em larga escala, incluindo logística, amostragem e limpeza e gerenciamento de dados. O Volume 4 trata de como gerar dados sobre itens e sobre pontuações de tes- tes e como estabelecer relação entre as pontuações do teste e outros fatores educacionais. Finalmente, o Volume 5 aborda como redigir relatórios com base nas constatações da avaliação nacional e como usar os resultados para aprimorar a qualidade do processo decisório das políticas educacionais. À medida que os leitores avançarem na leitura deste volume, deve fi- car evidente que o desenvolvimento de instrumentos de avaliação é um exercício complexo, que demanda muito tempo e requer conhecimentos, habilidades e recursos consideráveis. Ao lado disso, a experiência tem de- monstrado que os benefícios resultantes de instrumentos bem concebidos podem ser substanciais em termos da qualidade da informação fornecida sobre os níveis de aproveitamento dos alunos e sobre os fatores escolares e não escolares que poderiam contribuir para elevar aqueles níveis de apro- veitamento. Instrumentos de boa qualidade podem fazer com que as cons- tatações sejam vistas como mais confiáveis pelos formuladores de políticas e por outros interessados. Também podem aumentar a probabilidade de que os formuladores de políticas usem os resultados de uma avaliação nacional para desenvolver planos e programas sólidos destinados a aprimorar a quali- dade do ensino. Se os resultados dos testes e questionários alcançarem esses resultados, estarão mais que justificados o tempo e o esforço envolvidos em seu desenvolvimento. Marguerite Clarke Especialista Sênior em Educação Banco Mundial OS AUTORES E ORGANIZADORES AUTORES Prue Anderson é pesquisadora sênior do Conselho Australiano de Pes- quisas Educacionais (Australian Council for Educational Research). Desenvolveu materiais de avaliação da leitura para programas de testes de sistemas educacionais com alunos dos ensinos fundamental e médio. Tem trabalhando com programas de acompanhamento educacional na Austrália, em Brunei, Papua Nova Guiné e nas Filipinas. Atualmente, é gerente de projetos do programa de Avaliação de Escolas Internacionais. Outras áreas de seu interesse profissional incluem (1) mapeamento de dados de avaliação e sua comparação com resultados do currículo e mar- cos de referência e (2) mensuração de resultados sociais da educação. George Morgan é consultor educacional. Foi pesquisador sênior da Divi- são de Mensuração e chefe do Grupo de Desenvolvimento de Testes de Matemática e Ciências do Conselho Australiano de Pesquisas Educacio- nais durante quase 30 anos. Desenvolveu currículos de matemática e ciên- cias e materiais de avaliação em todos os níveis educacionais, e trabalhou com programas de testes em grande escala. Mais recentemente, tem-se dedicado a projetos de avaliação no Camboja, Timor Leste, na República Democrática Popular do Laos, em Papua Nova Guiné e Samoa. ORGANIZADORES Vincent Greaney é consultor educacional. Foi especialista-chefe de edu- cação do Banco Mundial e trabalhou em diversos países da África, Ásia e do Oriente Médio. Ex-professor; pesquisador do Centro de Pesquisas Educacionais do St. Patrick’s College, Dublin; e professor visitante Ful- bright na Western Michigan University, Kalamazoo; é membro do Hall of Fame de Leitura da Associação Internacional de Leitura. Suas áreas de interesse incluem avaliação, educação de professores, leitura e promo- ção da coesão social por meio da reforma de livros didáticos. Thomas Kellaghan é diretor do Centro de Pesquisas Educacionais do St. Patrick’s College, Dublin, e é membro da Academia Internacional de Educação. Trabalhou na University of Ibadan na Nigéria e na Queen’s University em Belfast. Suas áreas de interesse em pesquisa incluem ava- liações e exames, condições adversas para a educação e relações casa-es- cola. Foi presidente da Associação Internacional para Avaliação Escolar de 1997 a 2001. Trabalhou com questões de avaliação na África, Ásia, América Latina e no Oriente Médio. SUMÁRIO PARTE I: A CONSTRUÇÃO DE TESTES DE APROVEITAMENTO 1 1 INTRODUÇÃO 3 2 DESENVOLVIMENTO DE UM MARCO DE REFERÊNCIA DA AVALIAÇÃO 9 Tabela de especificações do teste 11 Validade 17 Idioma do teste 17 Formato do item 18 População-alvo de alunos a ser avaliada 25 Apresentação de resultados 26 Contextos 27 3 ELABORAÇÃO DE ITENS 29 Grau de dificuldade do item 31 Tendenciosidade do item 33 Material de estímulo 33 Formato do item 36 Itens de prática 48 Diagramação e elaboração dos itens 49 A equipe de elaboração de itens 55 Painéis de itens 59 Outros revisores 62 Rastreamento de itens 63 4 PRÉ-TESTE DE ITENS 67 Desenho do formulário do pré-teste 70 Impressão e revisão do pré-teste 75 Realização do pré-teste 78 Pontuação do pré-teste 79 Confiabilidade 84 5 SELEÇÃO DE ITENS DO TESTE 87 6 PRODUÇÃO DO TESTE FINAL 93 Desenho do teste final 93 Impressão e revisão 96 7 PONTUAÇÃO MANUAL DOS ITENS DO TESTE 101 PARTE II: CONSTRUÇÃO DE QUESTIONÁRIOS 8 DESENHO DE QUESTIONÁRIOS 109 Conteúdo do questionário 111 Tabela de especificações do questionário 116 Itens do questionário 116 Formato do item 119 Idioma do questionário 120 Respondentes 121 Aplicação do questionário 122 Plano de análise de dados 122 9 ELABORAÇÃO DE ITENS DE QUESTIONÁRIOS 125 Questões 126 Afirmações 126 Categorias de respostas 127 Lidando com questões delicadas 129 Diagramação do questionário 130 Revisão dos questionários 131 10 CODIFICAÇÃO DAS RESPOSTAS DOS QUESTIONÁRIOS 133 Preparação dos questionários para a entrada de dados 135 Códigos em branco ou respostas ambíguas 135 11 CORRESPONDÊNCIA ENTRE QUESTIONÁRIOS E DADOS DO TESTE 137 Questionários dos alunos 137 Questionários dos pais 138 Questionários do professor e do diretor 139 PARTE III: DESENHO DE UM MANUAL PARA APLICAÇÃO DO TESTE 141 12 O MANUAL DO APLICADOR DE TESTE 143 Conteúdo do manual 144 Uso do manual 145 Características de um manual 146 Quanto de detalhe é necessário? 148 Questões de prática 149 Teste dos itens 149 Revisão 151 13 O APLICADOR DO TESTE 153 Escolha do aplicador do teste 153 Observação de instruções 154 Garantia da qualidade 156 Lista de verificação do aplicador 156 14 INFORMANDO AS ESCOLAS SOBRE A AVALIAÇÃO NACIONAL 159 APÊNDICES A GLOSSÁRIO 161 B LEITURA ADICIONAL 167 C EXEMPLOS DE ITENS DE TESTE E DE QUESTIONÁRIO E MANUAIS DE APLICAÇÃO 171 Itens do teste de aproveitamento 172 Questionários 173 Manuais 173 Agradecimentos 174 ÍNDICE 177 QUADROS 2.1 Currículo de Matemática em Papua Nova Guiné 11 2.2 Currículo de Inglês da Nova Zelândia 12 2.3 Exemplos de Itens de Múltipla Escolha 19 2.4 Exemplo de um Item de Resposta Fechada 20 2.5 Exemplos de Questões Abertas de Resposta Curta 20 2.6 Exemplo de um Estímulo para Redação 21 3.1 Exemplo de Material de Estímulo Irrelevante 35 3.2 Exemplo de um Item com Informação Inexata ou Enganosa 35 3.3 Exemplo de um Item de Múltipla Escolha 37 3.4 Pontuação em Sentenças Completas 38 3.5 Pontuação numa Lista 38 3.6 Reduzindo a Leitura 39 3.7 Item com um Comando Negativo 39 3.8 Distratores Mal Emparelhados 40 3.9 Lidando com Pares de Distratores 40 3.10 Item Aberto Confuso com Instruções Pouco Claras 43 3.11 Bom Exemplo de um Item de Resposta Fechada 44 3.12 Item com Crédito Parcial 45 3.13 Exemplo de um Item de Resposta Aberta com Guia de Pontuação 46 3.14 Exemplo de um Item Fechado com Guia de Pontuação 47 3.15 Uso de Imagens para Reduzir Palavras 51 3.16 Como Simplificar as Imagens 52 3.17 Como Dar Nomes Claros aos Gráficos 52 3.18 Como Dar Nomes Claros aos Mapas 53 3.19 Deixando Espaço no Material de Estímulo 54 3.20 Exemplo de Folha de Estilo para Elaboradores de Itens 58 4.1 Exemplo de um Item nos Formatos de Múltipla Escolha e Aberto 79 4.2 Exemplo de uma Folha de Entrada de Dados para o Pré-teste 81 6.1 Exemplo de uma Folha de Rosto de Teste 94 8.1 Atitudes e Valores da Tabela de Especificações do Questionário 117 9.1 Alinhamento Ruim de Caixas e Categorias de Respostas 130 9.2 Melhor Alinhamento de Caixas e Categorias de Respostas 131 10.1 Exemplo de Codificação em Escala Cinza 134 10.2 Exemplo de Tratamento de Itens como Categorias Separadas para a Entrada de Dados 134 12.1 Instruções do Manual de Aplicação 147 12.2 Informação para Professores e Diretores 148 12.3 Aplicação de Itens de Prática 149 13.1 Lista de Verificação da Aplicação: Um Exemplo das Filipinas 157 FIGURAS 1.1 Fluxograma de uma Avaliação Nacional 4 1.2 Visão Geral das Atividades de Avaliação Nacional 5 4.1 Exemplo de Ligação Circular de Itens 71 4.2 Modelo para Ligação Vertical de Itens 73 C.1 Guia dos Materiais Encontrados na Internet sobre Testes, Questionários e Manuais 172 TABELAS 1.1 Etapas da Avaliação Nacional para Desenvolvimento de Teste e Elaboração de Questionário 6 2.1 Tabela de Especificações para um Teste de Matemática do Primeiro Ciclo do Ensino Fundamental 13 2.2 Tabela de Especificações de Matemática do TIMMS, 3 a e 4a Séries 14 2.3 Tabela de Especificações do Conteúdo de Matemática em Papua Nova Guiné 16 2.4 Vantagens e Limitações de Diferentes Formatos de Itens 24 2.5 Formato de Itens do Teste de Matemática de Papua Nova Guiné 25 4.1 Itens de Ligação em Duas Unidades de Leitura 74 4.2 Parte de uma Planilha para Rastrear Itens em Diferentes Formulários 75 5.1 Exemplo de Resultado da Análise de um Item de Múltipla Escolha 88 5.2 Exemplo de Resultado da Análise de um Item Aberto de Crédito Parcial 90 8.1 Componentes do Desenvolvimento de Questionário 112 8.2 Funções da Leitura num Estudo Internacional: Pesos Usados para Criar Duas Novas Variáveis , “Leitura com um Objetivo Utilitário” e “Leitura por Prazer” 118 ABREVIAÇÕES ACPA Alocação do Caderno de Prova do Aluno CCN Comissão de Coordenação Nacional ID Número de Identificação NAEP Avaliação Nacional do Progresso Educacional – Estados Unidos PIRLS Estudo Internacional sobre o Progresso do Letramento em Leitura PISA Programa Internacional de Avaliação de Alunos TCT Teoria Clássica dos Testes TIMSS Estudo das Tendências Internacionais no Estudo de Matemática e Ciências TRI Teoria de Resposta ao Item PA R T E I A CONSTRUÇÃO DE TESTES DE APROVEITAMENTO CAPÍTULO 1 INTRODUÇÃO U ma avaliação nacional envolve muitas ativi- dades, desde o momento em que se decide realizá-la até o momento em que alguém começa a ler um relatório com as constatações. Cada livro desta série de cinco volumes descreve algumas das atividades envolvidas numa ava- liação nacional, com ênfase especial na realização dessa avaliação em países em desenvolvimento. Provavelmente, parte da tecnologia neces- sária para realizar uma avaliação nacional satisfatória em países que ca- recem de forte tradição em pesquisas educacionais empíricas não estará disponível localmente. Portanto, esta série buscou explicar em detalhes as atividades de uma avaliação e, onde se mostrar relevante, ajudar os leitores (que, presumimos, serão os responsáveis por pelo menos alguns dos aspectos de uma avaliação) a compreender por que é necessário de- senvolver essas atividades. O Ministério da Educação ou a comissão de coordenação nacional (CCN) nomeada por ele terão, usualmente, a responsabilidade geral de orientar e apoiar uma avaliação nacional. Sob a supervisão do mi- nistério ou da CCN, a maior parte do trabalho será realizada por um órgão de implementação que, por sua vez, supervisionará o trabalho do gerente de desenvolvimento de teste, dos especialistas em cada dis- 4 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL ciplina e dos especialistas em análise estatística, além de ser o respon- sável pelas providências logísticas envolvidas na realização da avaliação nacional. Este livro, Desenvolvimento de testes e questionários para ava- liação do desempenho educacional, cobre, basicamente, as atividades do gerente de desenvolvimento de teste e dos especialistas nas disciplinas, bem como as providências para o pré-teste (veja Figura 1.1). Outros tópicos que aparecem na Figura 1.1, tais como amostragem, aspectos logísticos da avaliação (inclusive o contato com as escolas) e entrada e limpeza de dados, são abordados no Volume 3, e o Volume 4 cobre a análise estatística. O fluxograma mostrado na Figura 1.2 resume os vários passos de uma avaliação nacional. Muitos dos passos estão descritos neste livro; os qua- dros ou atividades reticuladas referem-se aos aspectos da avaliação que FIGURA 1.1 Fluxograma de uma Avaliação Nacional Ministério da Educação/ Comissão de Coordenação Nacional Órgão implementador/ Líder da equipe Desenvolvimento Análise Logística do teste/Gerente Especialistas nas disciplinas Amostragem Administração Análise de currículo, Entrada e limpeza do pré-teste desenvolvimento do marco de dados Contato com as escolas de referência, elaboração de Análise estatística Impressão itens, pré-teste, seleção de itens finais, interpretação de resultados Pré-teste do teste e de itens do questionário Seleção de itens finais Interpretação de resultados Elaboração de relatório Fonte: Elaborado pelo autor. FIGURA 1.2 Visão Geral das Atividades de Avaliação Nacional 1. O Ministério da Educação 2. O Ministério da Educação 3. O órgão implementador, 4. Os especialistas nas 5. O gerente de desenvolvi- ou a CCN indica o órgão ou a CCN e outros o líder da equipe, o gerente disciplinas analisam o mento de teste treina os implementador. O líder da concordam com o marco de desenvolvimento de currículo e esclarecem elaboradores de itens. equipe e o órgão imple- de referência (inclusive a teste e os especialistas os objetivos. mentador elaboram a respeito dos temas e da nas disciplinas elaboram a versão preliminar do marco população-alvo a ser versão preliminar da tabela de referência da avaliação testada). de especificações dos nacional. testes e questionários. 10. O líder da equipe e o 9. O gerente de desenvolvi- 8. O órgão implementador 7. O órgão implementador 6. O gerente de desenvolvi- gerente de desenvolvi- mento de teste supervi- realiza o pré-teste. organiza painel de mento de teste e o líder mento de teste super- siona a revisão de itens e revisão. da equipe supervisionam visionam a elaboração questões e realiza pré- a versão preliminar dos preliminar da versão final -testes adicionais, se itens, das questões e do dos itens, questionários e necessário. manual de aplicação. do manual de aplicação. 11. O órgão implementador 12. O órgão implementador 13. O órgão implementador 14. O órgão implementador 15. O órgão implementador organiza painel de seleciona a amostra providencia a impressão treina aplicadores de supervisiona a aplicação revisão. de escolas. de testes, questionários teste e questionário, da avaliação nacional. e manuais. usando o manual. 20. O Ministério da Educação 19. O Ministério da 18. O órgão implementador 17. O órgão implementador 16. O órgão implementador e outros utilizam os Educação ou a CCN elabora versões prelimi- analisa os dados. supervisiona a pontuação resultados. publica os relatórios. nares de relatórios e os dos testes, gravando submete ao Ministério da todos os resultados e Educação ou à CCN e fazendo a limpeza dos outros para revisão. dados. Fonte: Autores. TABELA 1.1 Etapas da Avaliação Nacional para Desenvolvimento de Teste e Elaboração de Questionário Etapa Atividade Duração aproximada Pessoas envolvidas 1 Preparar o marco de referência da 4 semanas O Ministério da Educação ou a CCN, o órgão implementador, avaliação; esclarecer o objetivo especialmente o líder da equipe, o gerente de desenvolvimento de da avaliação nacional, dos testes teste, os principais interessados e formuladores de políticas e questionários; e selecionar a população a ser avaliada. Criar a tabela de especificações 4 a 6 semanas O Ministério da Educação ou a CCN, órgão implementador, gerente e fazer amplas consultas para de desenvolvimento de teste, grupo de especialistas, professores aprovação. experientes, especialistas nas disciplinas, analista de dados, elaboradores de itens com experiência, principais interessados e formuladores de políticas 2 Elaborar itens do teste e do 12 a 14 semanas (20 a Gerente de desenvolvimento de teste, especialistas nas disciplinas, questionário.a 30 itens por elaborador elaboradores de itens e principais interessados por semana) Produzir pré-testes e versão 4 semanas Líder da equipe, gerente de desenvolvimento de teste, elaboradores preliminar de questionários. de itens, profissionais de design e diagramação, e revisores Imprimir pré-testes e versão 2 semanas Órgão implementador, líder da equipe, gerente de desenvolvimento preliminar dos questionários. de teste e elaboradores de itens Embalar e distribuir pré- 2 a 3 semanas Órgão implementador -testes e versão preliminar dos questionários. 3 Aplicar pré-testes e versão 2 a 3 semanas Órgão implementador e aplicadores de teste preliminar dos questionários nas escolas. Manual de pontuação de itens 2 semanas Líder da equipe, gerente de desenvolvimento de teste, especialistas (se requerida). nas disciplinas e elaboradores de itens Fazer a entrada de dados do 1 semana Órgão implementador, analista de dados e pessoal de entrada de pré-teste. dados 4 Analisar dados do pré-teste e do 2 semanas Órgão implementador, analista de dados, elaboradores de itens e questionário. gerente de desenvolvimento de teste Selecionar itens para testes e 2 semanas Gerente de desenvolvimento de teste, analistas, elaboradores de questionários. itens e principais interessados 5 Produzir testes finais, 2 semanas Órgão implementador, gerente de desenvolvimento de teste, questionários e manuais de profissionais de design e diagramação, revisores e elaboradores de aplicação. itens Imprimir testes e questionários. 4 semanas Órgão implementador, líder da equipe, e gerente de desenvolvimento de teste Embalar e distribuir testes e 2 a 3 semanas Órgão implementador e gerente de desenvolvimento de teste questionários. (dependendo de distância e acessibilidade) 6 Aplicar testes e questionários 3 a 4 semanas Órgão implementador, gerente de desenvolvimento de teste, e em escolas. aplicadores de teste Pontuação manual de itens (se 3 a 4 semanas Gerente de desenvolvimento de teste e elaboradores de itens requerida). 7 Entrar dados e limpar. 4 a 6 semanas Analista de dados e pessoal de entrada de dados Analisar dados. 2 a 3 semanas Analista de dados, elaboradores de itens e gerente de desenvolvimento de teste 8 Produzir relatórios finais. 4 a 5 semanas Analista de dados, elaboradores de itens e gerente de desenvolvimento de teste Fonte: Autores. aSerá necessário alocar tempo adicional se os itens tiverem de ser traduzidos para outros idiomas. 8 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL recebem a maior parte da atenção neste livro. O livro também oferece vários pontos de destaque ou comentários comuns a mais de um aspecto da avaliação; foram repetidos em vários capítulos ou seções para facilitar a compreensão do leitor interessado em um único aspecto da avaliação nacional. Informações adicionais relacionadas com o desenvolvimento do teste e a elaboração de questionários são fornecidas na Tabela 1.1. A tabela descreve o processo de construção de testes de aproveitamento e ques- tionários em oito etapas e também indica as pessoas responsáveis pelos componentes. Em http://go.worldbank.org/M2O1YDQO90 você encontrará mui- tos exemplos de itens, itens de questionário e manuais de aplicação de teste. Este material, obtido de avaliações nacionais e internacionais, é apresentado para familiarizar as equipes de avaliação nacional com itens e tipos de itens em diversas áreas de currículo e com questionários ela- borados para alunos, professores, escolas ou diretores e pais. CAPÍTULO 2 DESENVOLVIMENTO DE UM MARCO DE REFERÊNCIA DA AVALIAÇÃO P ara que se possa determinar os conteúdos de uma avaliação, é fundamental dispor de um marco de referência que forneça um quadro geral ou plano para orientar o desenvolvimento de testes de avaliação, questionários e procedimentos (Linn e Dunbar, 1992; Mullis et al., 2006). Tal marco de referência ajuda a fornecer uma boa compreensão do conceito que está sendo avaliado (por exemplo, aproveitamento em leitura ou matemática) e dos vários processos associados ao conceito. Deve incluir uma definição do que está sendo avaliado, identificar as características das tarefas realizadas durante o desenvolvimento do teste e fornecer uma base para a interpretação dos resultados (Kirsch, 2001; Messick, 1987). Um marco de referência pode ajudar a explicar o ob- jetivo de uma avaliação. Pode facilitar discussões e o processo decisório entre os interessados nas questões educacionais, esclarecendo conceitos- -chave antes que se dê início à avaliação. O marco de referência também pode identificar variáveis-chave que tenham a probabilidade de estar associadas aos resultados (a pontuação) do teste, e pode ajudar a garantir que essas variáveis sejam incluídas no projeto da avaliação nacional. Inicialmente, a comissão de coordenação deve concordar quanto à definição do que deve ser medido. Em muitas situações, o documento 10 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL de currículo nacional conterá definições das principais áreas. As defi- nições de leitura, por exemplo, têm variado ao longo do tempo e entre sistemas de educação. Em alguns casos, a leitura tem sido entendida como a habilidade de pronunciar palavras. Em outros, leitura se refere à habilidade de identificar palavras individuais e dar seu significado. A leitura também tem sido definida como a habilidade de compreender ou extrair significado de um texto. Definições mais recentes vão além de simples habilidades de decodificação e incluem a habilidade de usar a informação contida nos textos, bem como desenvolver uma compre- ensão sobre eles. Também reconhecem que alunos e adultos leem por motivos diversos – por prazer ou para obter informação, por exemplo. Essas novas definições refletem-se em testes que incluem diferentes for- matos de textos, como pequenos contos, excertos de jornais, anúncios, sinais e gráficos. O objetivo para o qual os dados serão coletados deve estar claro no desenvolvimento do teste. Consultas preliminares com os principais in- teressados e grupos de especialistas são um primeiro passo crucial para esclarecer o objetivo de uma avaliação nacional e, consequentemente, o que o teste deve avaliar, o que deve ser avaliado, quando deve ser avaliado e em que idioma os testes devem ser feitos. Especialistas em currículo devem ser envolvidos nessas decisões, bem como formuladores de políticas e gestores de educação, que terão condições de usar os resul- tados de uma avaliação como base para políticas educacionais, alocação de recursos e implementação de reformas. As avaliações nacionais podem ser ferramentas poderosas para avaliar a eficácia de alguns aspectos do currículo. Avaliações bem concebidas também podem reforçar as intenções do currículo ao modelar os tipos de habilidades e entendimentos que os alunos devem ser capazes de demonstrar. Esses tipos de habilidades e os contextos nos quais são ava- liados devem operar em conjunto para apoiar objetivos abrangentes de políticas educacionais em áreas-chave de aprendizado. Os exemplos de alguns contextos abrangentes para a realização de avaliações nacio- nais, apresentados nos Quadros 2.1 e 2.2, refletem diversas prioridades educacionais. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 11 TABELA DE ESPECIFICAÇÕES DO TESTE A tabela de especificações do teste é o documento fundamental que orienta o desenvolvimento do teste, a análise e a elaboração de rela- tórios. Descreve os dados que precisam ser coletados, define a exten- são do teste e especifica a proporção de itens que tratarão dos vários aspectos de um currículo. Uma boa tabela de especificações deve indicar o seguinte: y A proporção de itens de teste no formulário final que tratam de cada área de currículo (por exemplo, matemática, linguagem, ciências). y A proporção de itens dentro da área de currículo que avaliam dife- rentes habilidades (por exemplo, em matemática – número, medida, espaço e padrão; na escrita – ideias, conhecimento do conteúdo, es- trutura, estilo, vocabulário, soletração e gramática). QU A D R O 2 . 1 Currículo de Matemática em Papua Nova Guiné O currículo cultural básico de matemática em Papua Nova Guiné para 2003 tem o seguinte fundamento geral: Todos os cidadãos têm o direito de participar do futuro desenvolvimento da Pa- pua Nova Guiné. Por isso, os alunos precisam desenvolver sólidos conhecimentos de matemática, bem como habilidades e compreensões matemáticas.... Os alunos no nível fundamental serão capazes de associar novos conceitos matemáticos con- tidos nos cinco elementos deste programa a seu conhecimento cultural, de modo que sintam segurança para usar a matemática na vida diária. O curso de Cultura Matemática Elementar fornece muitas oportunidades para um aprendizado re- levante e objetivo baseado nos princípios da vida familiar. (Papua Nova Guiné, Departamento de Educação 2003: 2.) O foco deste fundamento (combinado com documentos ministeriais de políticas e com uma substancial reestruturação do ensino fundamental) é inserir a matemática primária na vida cultural dos alunos das aldeias. As reformas têm dado prioridade à integração da matemática primária e da cultura local e à aplicação de entendi- mentos matemáticos à vida diária. Uma recente avaliação nacional desenvolvida para monitorar o aproveitamento dos alunos enfatizou o uso de contextos realistas para as questões e a avaliação de habilidades e entendimentos que tenham apli- cações práticas. 12 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL QU A D R O 2 . 2 Currículo de Inglês da Nova Zelândia Os objetivos gerais do currículo de inglês da Nova Zelândia afirmam: Os alunos devem ser capazes de se envolver com a linguagem, apreciá-la em seus variados aspectos e compreender, responder e usar a linguagem oral, escrita e visual efetivamente em diferentes contextos. (Nova Zelândia, Ministério da Edu- cação 2002: 9.) Esses objetivos destacam a importância do interesse e do prazer na leitura e na com- preensão de uma ampla variedade de textos. Textos atraentes e tarefas significativas e prazerosas são considerações-chave nas avaliações nacionais de inglês. A ênfase na linguagem em todas as suas variedades reflete um forte compromisso com o reconhe- cimento e a valorização da cultura oral dos alunos Maori, bem como das formas escrita de inglês. Várias avaliações nacionais refletem esses objetivos. y A proporção de itens que tratam de diferentes habilidades de proces- samento cognitivo (como conhecimento ou recuperação/memória, interpretação ou reflexão). y A proporção de itens de múltipla escolha e itens abertos. y A proporção de itens destinados a diferentes tipos de textos de estí- mulo em leitura (como narrativo, expositivo, processual e argumen- tativo) ou em matemática (como tabelas, gráficos e diagramas). A tabela de especificações do teste detalhada na Tabela 2.1 baseia- -se num currículo de matemática para as séries intermediárias da escola primária. Subtestes separados foram concebidos para medir as habili- dades dos alunos de fazer cálculos básicos, compreender conceitos ma- temáticos e solucionar problemas. Por exemplo, a célula formada pela interseção da área de conteúdo “Frações” e o comportamento intelectual “Habilidade de resolver problemas de rotina” representa o objetivo “Ha- bilidade de resolver problemas de rotina que envolvem frações”. Um comitê de especialistas nas disciplinas, que incluía professores, decidiu devotar cinco itens àquele objetivo. A célula que contém itens que tes- tam a habilidade de realizar operações com números inteiros recebeu a ponderação mais alta (25 itens). Muitas células ficaram vazias (sem itens). Os pesos relativos da importância atribuída a cada objetivo orien- TABELA 2.1 Tabela de Especificações para um Teste de Matemática do Primeiro Ciclo do Ensino Fundamental Comportamentos intelectuais Computação Conceitos Solução de problemas Habili- dade de Habili- Habili- Habili- Conheci- Compreen- Compreen- Compreen- traduzir dade de Habili- dade de dade de mento Habili- são de são de são de elementos ler e dade de analisar resolver de dade para conceitos princípios estrutura de um interpretar resolver e fazer problemas termos realizar matemá- matemá- matemá- formulário gráficos e problemas compa- não Áreas de e fatos operações ticos ticos tica para outro diagramas de rotina rações rotineiros Total conteúdo (A1) (A2) Total (B1) (B2) (B3) (B4) (B5) Total (C1) (C2) (C3) Total geral 1. Números 1 25 26 1 4 7 2 4 18 14 2 2 18 62 inteiros 2. Frações 4 4 4 1 2 7 5 5 16 3. Decimais 8 8 5 1 6 5 19 4. Medida 2 2 3 2 5 3 3 10 5. Geometria 0 2 2 4 0 4 6. Mapas e 0 0 4 4 4 gráficos Total geral 3 37 40 7 7 14 5 7 40 27 6 2 35 115 Fonte: Centro de Pesquisas Educacionais 1978: 44. 14 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL taram o desenvolvimento do teste e, posteriormente, a compilação da versão final do teste. A tabela de especificações de matemática do TIMMS (Tendências In- ternacionais no Estudo de Matemática e Ciências)1 mostrada na Tabela 2.2 define o formato dos itens e os processos cognitivos a serem avalia- dos nas 3a e 4a séries de uma forma um tanto diferente. Claramente, as tabelas de especificações variam, dependendo de como se compreenda o conceito que está sendo medido e o objetivo da avaliação. Todas as pessoas envolvidas no desenvolvimento do teste devem compreender e aprovar as implicações de uma tabela de espe- cificações no que se refere ao que deve ser testado e ao que deve ficar de fora. TABELA 2.2 Tabela de Especificações de Matemática do TIMMS, 3a e 4a Séries Número Itens de Itens de Expectativas de total de múltipla resposta Itens de resposta desempenho itensa escolha curta dissertativa Conhecimento 42 35 7 0 Desempenho de 16 13 3 0 procedimentos rotineiros Uso de procedimentos 24 21 2 1 complexos Solução de problemas 20 10 3 7 Fonte: IEA, http://timss.bc.edu/timss1995i/TIMSSPDF/AMitens.pdf. a O número de itens reflete o total do conjunto usado para formar 26 agrupamentos de teste em oito diferentes cadernos de prova. Nenhum aluno tinha de fazer o teste completo. Dadas as limitações de tempo e recursos, não é possível testar todos os subelementos de uma área de currículo ou todos os tópicos cobertos num programa. Os itens do teste sempre devem referir-se às habilidades principais. Especialistas em currículo ou em disciplinas específicas de- vem ser consultados para determinar quais são essas habilidades. A importância dada na tabela de especificações da avaliação nacional aos subelementos ou domínios de um currículo também depende da for- ma como os dados do teste serão apresentados (por pontuação total ou por domínio do currículo). Os formuladores de políticas educacionais DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 15 devem ser consultados para se saber como gostariam que os dados do teste fossem apresentados. Se os dados do teste forem apresentados como uma pontuação única para cada aluno numa área de currículo (matemática, por exemplo), então são necessários pelo menos 25 ou 30 itens. Quando se pretende apresentar resultados sobre um subelemento, como a compreensão so- bre espaço ou a capacidade de solucionar problemas num teste de mate- mática, poderia ser usado um número menor de itens. A Tabela 2.3 fornece o exemplo de uma tabela de especificações para um teste de matemática para alunos das 3a, 5a e 8a séries em Papua Nova Guiné. Note-se que, no teste da 3a série, mais de 80% dos itens cobrem número e aplicação, espaço e forma, e medida. Somente quatro itens se referem a acaso e padrões. À altura da 8a série, os itens estão distribuídos mais uniformemente entre os subelementos. Em geral, as tabelas de especificações se baseiam num currículo prescrito (ou pretendido). No entanto, se o currículo implementado (o que os professores ensinam) e o currículo alcançado (o que os alunos aprenderam) não são levados em consideração, um teste pode ser muito difícil ou muito fácil. Assim, não fornecerá uma descrição significativa da gama de aproveitamentos dos alunos na população- -alvo. Se a maior parte dos alunos deixar de responder aos itens cor- retamente, o teste não revelará se esses alunos são capazes de de- monstrar habilidades que estão logo abaixo, ou bem abaixo, do nível de dificuldade dos itens no teste. Do mesmo modo, se a maior parte dos alunos responder a todos os itens corretamente, o teste não indi- cará se são capazes de demonstrar habilidades que estão logo acima, ou bem acima, da dificuldade dos itens do teste. Quando os dados de testes são muito difíceis ou muito fáceis, têm uso limitado para formuladores de políticas, escolas ou professores. O grau de dificuldade do teste depende de seu objetivo. Se o objetivo é monitorar o desempenho de todos os alunos na população-alvo, então a distribuição de dificuldade dos itens do teste deve corresponder à dis- tribuição do aproveitamento da população-alvo. Como regra geral, dois terços do teste devem consistir em itens que dois terços da população teriam entre 30% e 70% de probabilidade de responder corretamente. 16 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL (Na média, a probabilidade deve ser de 50%, pois isso ajudará a maxi- mizar a variação das pontuações nos testes dos alunos.) A outra terça parte do teste deve estar uniformemente dividida entre itens que mais de 70% dos alunos que fazem o teste tenham a probabilidade de respon- der corretamente e itens que menos de 30% tenham a probabilidade de responder corretamente. Embora a sensibilidade ao aproveitamento dos alunos refletida nesses números seja importante, não deve levar à exclu- são de áreas importantes do currículo simplesmente porque os alunos se saem muito mal ou muito bem nelas. A adequação de itens deve ser estabelecida no programa de pré-teste, em que os itens são aplicados a alunos com características similares às encontradas na população-alvo da avaliação nacional. TABELA 2.3 Tabela de Especificações do Conteúdo de Matemática em Papua Nova Guiné Número e Espaço e Padrões e Total de Série aplicação forma Medida Acaso álgebraa itens 3a série 10 7 4 2 2 25 5a série 10 10 7 4 4 35 8a série 10 10 8 6 6 40 Fonte: Material não publicado do Departamento de Educação em Papua Nova Guiné. a Álgebra é aplicada somente na 8a série. Algumas avaliações nacionais estabelecem níveis de aproveitamento ou desempenho com base num padrão predefinido e identificam alunos que alcançaram esse padrão. Se o padrão é muito alto, o teste identi- ficará o pequeno número de alunos que demonstram esse nível de ha- bilidade, mas dará pouca informação sobre o nível de aproveitamento do restante da população: apenas informará que o nível está abaixo do padrão. Se o padrão for baixo, o teste identificará o grande número de alunos que demonstram esse nível de habilidade, mas dará pouca infor- mação sobre quaisquer níveis mais altos de habilidade que esses alunos poderiam também ter alcançado. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 17 VALIDADE Validade é um conceito amplo que envolve fazer interpretações das pon- tuações ou das informações de testes e lhes dar usos adequados (Messick, 1989). Uma faceta da validade é a medida em que o conteúdo de um teste é representativo do currículo ou do conceito que está sendo medi- do. O gerente de desenvolvimento de teste deverá coordenar-se com um grupo de referência de especialistas nas disciplinas (como especialistas em currículo, por exemplo), a fim de garantir que os itens constituam amostra adequada de um currículo ou conceito. O grupo de especialistas não deve incluir os elaboradores de itens. Neste caso, a validade é uma questão associada a uma decisão, e não a algo de natureza estatística. O grupo de especialistas deve decidir se o teste representa a cobertura adequada de um tema especificado (como matemática da 4a série) e deve considerar se o desempenho no teste fornece evidência adequada do aproveitamento dos alunos na área temática. IDIOMA DO TESTE O marco de referência do teste deve esclarecer e justificar o idioma a ser usado num teste de avaliação nacional, ou mais de um, se for o caso. O idioma de um teste é, em geral, o meio de instrução. A tradução de itens do teste nos casos em que a instrução ocorre em vários idiomas tende a ser cara e consumir muito tempo. As versões de testes traduzidos preci- sam ser tão equivalentes quanto possível se os dados forem usados com propósitos comparativos. A seguir, estão algumas questões que devem ser levadas em conta para decidir se o teste de uma área particular do currículo será feito em um idioma ou em mais de um. y Avaliar alunos de séries mais avançadas num mesmo idioma de ins- trução pode ser preferível se os recursos forem limitados. y Reduzir as palavras usadas em itens do teste ao mínimo possível pode reduzir os custos de tradução, mas, em geral, isso descontextualiza o item, tornando o teste menos autêntico. 18 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL y Excluir alguns alunos da população-alvo da avaliação nacional pode ser preferível a tentar acomodar todos os grupos linguísticos. y Às vezes, o idioma pretendido de instrução não é o idioma realmente usado no ensino. Nessas situações, os itens do teste de avaliação na- cional poderiam usar o idioma real de instrução. y No caso de alunos mais jovens, especialmente se o idioma de instru- ção não for seu primeiro idioma, o teste pode ser aplicado oralmente. O aplicador do teste lê cada questão em voz alta ou usa um gravador e dá aos alunos tempo suficiente para responder. Essa forma de as- sistência pode ser especialmente adequada para testes de matemática e ciências aplicados a alunos das séries iniciais, que talvez consigam demonstrar maior grau de domínio da disciplina num teste aplicado oralmente que noutro no qual teriam de ler os itens por conta pró- pria. É óbvio que testes destinados a avaliar as habilidades de leitura independente dos alunos não devem ser aplicados oralmente. FORMATO DO ITEM Em avaliações que usam papel e lápis, os alunos respondem a uma sé- rie de questões ou estímulos. Suas respostas escritas ou desenhadas são usadas como evidência de seu nível de conhecimento, competência ou compreensão. Existem quatro formatos básicos de itens, ou modos de os alunos registrarem suas respostas: y Múltipla escolha y Resposta fechada y Resposta curta aberta y Redação ou resposta dissertativa Itens de múltipla escolha (veja Quadro 2.3) requerem que os alunos selecionem uma entre várias (em geral, quatro) opções. As opções po- dem estar escritas ou ser mostradas como imagens com títulos. Podem ser listadas numa coluna, mostradas como uma fileira horizontal ou apresentadas em duas colunas. O aluno indica sua resposta sombreando DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 19 uma bolha, desenhando um círculo em torno de uma letra ou número, ou assinalando um quadro para selecionar um segmento de texto ou um diagrama. Os itens de múltipla escolha têm uma única opção inequivo- camente “correta” e várias outras plausíveis, mas incorretas. Em http:// go.worldbank.org/M2O1YDQO90 você encontrará muitos exemplos de itens de múltipla escolha de linguagem, matemática e ciências para alunos do ensino fundamental. Itens de respostas fechadas (veja Quadro 2.4) têm uma resposta cor- reta gerada pelo aluno. Pequenas variações na forma como a resposta é apresentada são, em geral, aceitáveis. Pode-se pedir aos alunos que escrevam uma ou duas palavras, sublinhem uma palavra ou um número num texto ou numa tabela, desenhem uma linha ou um quadriculado, ou indiquem uma área de um diagrama. Itens de respostas fechadas tam- bém podem requerer que os alunos selecionem várias opções que aten- dam a certos critérios ou combinem uma série de pares de sentenças ou diagramas. (Em http://go.worldbank.org/M2O1YDQO90, veja os itens 6, 9, 11 e 19 relativos ao Teste de Matemática da NAEP 1990–2000 para a 4a série e os itens C011032 e C031053 no Teste de Ciências do TIMSS 2003 para a 4a série.) QU A D R O 2 . 3 Exemplos de Itens de Múltipla Escolha 1. O que teria maior probabilidade de ser medido em mililitros? A. A quantidade de líquido numa colher de chá B. O peso (massa) de um alfinete C. A quantidade de gasolina num tanque D. A espessura de 10 folhas de papel. Fonte: IEA 1998, item da amostra. Nota: A é a resposta correta. 2. Uma caixa de suco de laranja custa R$3,35. Um pão de forma custa R$2,75. Qual dos valores a seguir é o menor de que você precisa para comprar o suco de laranja e o pão? R$5,75 R$7,00 R$6,10 R$6,00 Fonte: Conselho Australiano de Pesquisas Educacionais, s.d., item da amostra. Nota: A resposta correta é R$6,10. 20 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL QU A D R O 2 . 4 Exemplo de um Item de Resposta Fechada Esta é uma sentença numérica: 2.000 + … + 30 + 9 = 2.739 Que número deve ser colocado onde está o … para que a sentença seja verdadeira? Resposta: _________________ Fonte: IEA 1998, item da amostra. Questões abertas de resposta curta (veja Quadro 2.5) requerem que os alunos gerem uma resposta para a qual pode haver várias opções diferentes e corretas. Em geral, a resposta correta requer alguma explicação, a demons- tração de um processo ou um desenho detalhado (mais de uma ou duas linhas). Podem requerer que o aluno escreva uma ou duas sentenças; com- plete uma série de passos ou equações; ou complete vários aspectos de um mapa, gráfico ou diagrama. (Em http://go.worldbank.org/M2O1YDQO90, veja os itens 6, 7 e 11 em “Apêndice B: Resgate de Golfinho”, Itens da Amostra de Leitura Internacional da 4a série do PIRLS 2006.) QU A D R O 2 . 5 Exemplos de Questões Abertas de Resposta Curta a. Como você pode saber a idade de uma árvore depois que ela é cortada? _____________________________________________________________________ _____________________________________________________________________ b. Escreva um exemplo de como as máquinas ajudam as pessoas em seus trabalhos. _____________________________________________________________________ _____________________________________________________________________ Fonte: IEA 1998, item da amostra. Itens de resposta dissertativa ou redação (veja Quadro 2.6) reque- rem que os alunos desenvolvam uma resposta extensa, às vezes com- plexa, a um estímulo (prompt, na expressão em inglês). A resposta pode cobrir uma ou mais páginas de texto, possivelmente incluindo DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 21 diagramas. Existem muitos modos “corretos” de responder numa re- dação ou dissertação. (Em http://go.worldbank.org/M2O1YDQO90, veja a questão 9, “Um Juiz Justo”, Itens de Leitura do PISA Internacio- nal de Leitura 2000, e itens 33, 35 e 39 em Leitura Principal, NAEP 1990-2006: 4a Série.) QU A D R O 2 . 6 Exemplo de um Estímulo para Redação Os estímulos para redação podem ser escritos ou ilustrados. É importante que os alu- nos compreendam o tipo de elaboração que se está pedindo que façam. Por exem- plo, pode-se pedir aos alunos que expliquem suas ideias, expressem uma opinião, escrevam um argumento persuasivo ou uma história. Em geral, essa informação é dada como parte das instruções de aplicação do teste. A imagem do estímulo mostrada no exemplo foi usada em Papua Nova Guiné a fim de avaliar as habilidades linguísticas dos alunos para elaborar uma história narrativa. O aplicador do teste disse aos alunos que poderiam usar as ideias contidas na figura ou elaborar suas próprias ideias para uma história sobre caçada. Escreva uma história sobre uma caçada. Fonte: Papua Nova Guiné, Departamento de Educação, 2004. 22 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL Os primeiros três formatos de itens são mais comumente usados em avaliações nacionais, em parte devido ao custo de se fazer uma pontuação manual confiável de um grande número de redações. O documento que contém o marco de referência do teste deve indicar os percentuais estima- dos de diferentes tipos de itens no teste final. Deve também incluir amos- tras de tipos de itens para ajudar os membros da comissão de coordenação e outros interessados a se familiarizarem com a abordagem da avaliação. A escolha do formato do item e a forma como os itens são pontuados alteram significativamente o custo total do teste. Itens que requerem pontuação manual custam mais e tomam mais tempo, atrasando, assim, a publicação de um relatório. É preciso desenvolver guias de pontuação manual, e os avaliadores têm de ser contratados e treinados. Quanto mais complexo o guia de pontuação, maiores os custos. Itens que envol- vem redação e resposta dissertativa tendem a ser os mais caros. Custa menos pontuar itens de múltipla escolha, mas sua construção é mais dis- pendiosa que a de outros tipos de itens. A seguir, apresentamos algumas questões relativas ao custo dos itens que devem ser levadas em conta no processo de seleção do formato dos itens para o teste. Itens de múltipla escolha são, em geral, pontuados como corretos ou incorretos pelos programas de computação que fazem análise de dados. Não é necessário pontuar os itens antes da análise. Basta entrar com as respostas dos alunos num computador. Essas respostas são registradas eletronicamente com um escâner ou, então, a entrada é feita manual- mente. O escaneamento é mais econômico para testes de grande escala; requer equipamento especial e, às vezes, suporte técnico. Itens escanea- dos podem ser limitados a um formato particular de resposta (como sombrear bolhas). Se a entrada de dados for feita manualmente, pode-se usar uma maior variedade de estilos de múltipla escolha (como desenhar círculos em torno de palavras, marcar quadros ou traçar linhas para se- lecionar opções). Itens de múltipla escolha não devem ser simplesmente pontuados como corretos ou incorretos antes da análise de dados. Podem ser ob- tidas valiosas informações diagnósticas sobre o desempenho dos alunos quando se registra cada opção. Se os dados estiverem sendo escaneados, deve-se garantir que todas as respostas sejam registradas. O custo da DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 23 entrada manual de dados para itens de múltipla escolha fica reduzido quando se usa uma diagramação consistente. Os itens de respostas fechadas devem ser pontuados manualmente por- que diversas respostas diferentes podem ser aceitáveis. Os guias de pon- tuação devem especificar a faixa de respostas aceitáveis e inaceitáveis. Em geral, a faixa de possíveis opções corretas para itens de resposta fechada é limitada. Os guias de pontuação são relativamente simples e claros, e o tempo de treinamento dos avaliadores pode ser razoavelmente breve, mas os controles de qualidade têm de ser implementados e mantidos. Os itens abertos de resposta curta são pontuados manualmente. O nú- mero e a variedade de respostas aceitáveis e inaceitáveis podem ser grandes. Assim, os guias de pontuação podem ser bastante complexos e requerer cuidadoso treinamento dos avaliadores. A permanente verificação cruzada durante a classificação é essencial para o controle de qualidade. Os itens com resposta dissertativa têm guias de pontuação complexos e exigem treinamento detalhado dos avaliadores. É essencial que se faça uma permanente classificação dupla de algumas ou de todas as redações durante a pontuação para garantir o controle de qualidade. Os manuais de pontuação também precisam ser detalhadamente elaborados para que se tenha um treinamento eficaz. Devem incluir exemplos de respostas que correspondam a cada um dos níveis do guia de pontuação. Diferentes formatos de itens podem ser combinados no mesmo teste. Por exemplo, um teste pode consistir em alguns itens de múltipla escolha, alguns itens de respostas fechadas e algumas questões abertas de resposta curta. Os elaboradores de itens devem se esforçar para garantir que o forma- to de cada item do teste ajude a avaliar, de forma adequada e eficiente, determinado resultado do aprendizado. Também devem tentar mini- mizar a quantidade de leitura, escrita ou contas desnecessárias para se responder a um item em particular. As decisões sobre qual formato ou formatos usar num teste e em que proporção usá-los devem basear-se tanto na adequação do formato para medir um conceito, uma área de conhecimento ou habilidade, quanto nas limitações práticas (por exemplo, a qualificação requerida para desenvolver diferentes formatos de itens e o custo da pontuação manual). A Tabela 2.4 resume algumas vantagens e limitações de formatos de itens. TABELA 2.4 Vantagens e Limitações de Diferentes Formatos de Itens Formato do item Vantagens Limitações Múltipla escolha y Muitos itens de um teste podem avaliar y É necessário ter competência para uma ampla variedade de resultados do desenvolver itens de alta qualidade. aprendizado. y Os alunos não geram compreensão. y Os itens podem fazer distinções sutis y Os alunos podem tentar adivinhar. entre conhecimentos e compreensões dos alunos. y Não se requer pontuação manual, e o teste fica relativamente barato. Resposta fechada (resposta com uma ou y Os próprios alunos localizam a informação y Os itens em geral avaliam uma gama duas palavras) ou se lembram dela. limitada de resultados (basicamente, y A pontuação manual é relativamente fácil. recuperação e lembrança). Itens abertos de resposta curta (resposta com y Podem requerer que os alunos gerem altos y Requer-se competência para escrever itens uma ou duas sentenças) níveis de compreensão. claramente focalizados. y Os itens podem avaliar uma variedade de y É necessário dispor de avaliadores resultados. treinados e medidas de controle de y A compreensão parcial às vezes pode ser qualidade, o que eleva os custos. medida. y Itens que requerem tempo para o aluno responder reduzem a gama de resultados que podem ser abordados. Redação ou resposta dissertativa y Alunos podem demonstrar a profundidade y Pode-se abordar uma gama limitada de de sua compreensão. resultados. y Pode-se medir uma gama de y É necessário dispor de avaliadores compreensões parciais. treinados e medidas de controle de qualidade, o que eleva os custos. Fonte: Autores. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 25 Os testes de matemática de Papua Nova Guiné têm diferentes pro- porções de questões de múltipla escolha e questões abertas de resposta curta, dependendo da série avaliada (veja Tabela 2.5). A 8a série tem mais itens que a 3a. A maior parte desse aumento é representada pelo maior número de itens abertos de resposta curta. O tempo de que os alunos dispõem para responder ao teste deve ser suficiente para permitir que a maior parte deles tente responder ao máximo de itens. É importante obter informação sobre o tempo que os alunos levam para responder aos itens do pré-teste. Os testes variam em extensão, mas os alunos devem ser capazes de tentar responder à maio- ria dos itens em cerca de 40 minutos. Testes que contêm basicamente itens de múltipla escolha podem conter mais itens que aqueles em que predominam os itens de resposta curta. Os testes para alunos do ensino médio podem incluir mais itens, e os alunos podem ter mais tempo para responder às questões. Se os alunos não estiverem familiarizados com o formato dos itens de uma avaliação, provavelmente precisarão de mais tempo para responder aos itens. TABELA 2.5 Formato de Itens do Teste de Matemática de Papua Nova Guiné Série Múltipla escolha Aberto de resposta curta 3a série 20 5 5a série 25 10 8a série 25 15 Fonte: Papua Nova Guiné, Departamento de Educação, 2004. POPULAÇÃO-ALVO DE ALUNOS A SER AVALIADA O documento que contém o marco de referência do teste deve definir a população-alvo para a avaliação (por exemplo, 4a série) e deve indicar por que essa população em particular foi selecionada. Em determinado país, o documento com o marco de referência poderia, por exemplo, justificar a seleção da 3a série com base no fato de que, após essa série, a taxa de evasão é considerável; poderia justificar o teste na 4a série por- 26 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL que, a essa altura, a maior parte dos alunos deve conseguir ler; ou pode- ria justificar um teste durante a 8a série para avaliar o aproveitamento do aprendizado dos alunos nesse importante ponto do sistema educacional. O documento do marco de referência também poderia especificar sub- populações de alunos que poderiam ser excluídos da amostra nacional, como alunos com necessidades educacionais especiais ou alunos de es- colas pequenas em áreas muito remotas. APRESENTAÇÃO DE RESULTADOS Desde o início, deve-se chegar a um acordo com a comissão de coorde- nação sobre como os resultados devem ser apresentados. Na Irlanda, a Avaliação Nacional de Leitura em Inglês apresentou pontuações sepa- radas relativas a tipo de texto e processo cognitivo. O documento do marco de referência da avaliação propôs avaliar duas escalas de tipo de texto (literário e informativo) e duas escalas de processo (recuperação de informação e inferência-interpretação) para a 1a série. Na 5a série, propôs avaliar três subescalas de tipo de texto (literário, informação- -contínuo e informação-descontínuo) e três escalas de processo (recupe- ração de informação, inferência e interpretação-avaliação) (Eivers et al., 2005). A Pesquisa Internacional de Letramento de Adultos usou textos não contínuos para avaliar o desempenho na escala de documentos. O marco de referência para o Estudo Internacional sobre o Progresso do Letramento em Leitura (PIRLS) especificava que classificaria os itens do teste em função dos dois objetivos de leitura: leitura como experiên- cia literária e leitura para adquirir e usar informação. Também propôs combinar as duas escalas e dar uma pontuação geral de letramento em leitura (Campbell et al., 2001). A comissão de coordenação deve ser informada de que a apresen- tação de resultados por subescalas depende dos resultados da análise de itens. Avaliações internacionais e muitas avaliações nacionais usam a modelagem de resposta ao item para determinar se os itens do teste se ajustam adequadamente às subescalas. Nessa etapa, a comissão de coordenação poderia receber uma introdução não técnica ao conceito DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 27 de apresentação de resultados por níveis de aproveitamento, usualmente chamados de níveis de proficiência, e seria pedido a seus membros que definissem a forma preferida de apresentação dos resultados do teste. O desempenho dos alunos poderia ser descrito em função do percentual de itens respondidos corretamente ou dos níveis, como avançado (excede o padrão esperado), proficiente (alcança o padrão esperado), básico (não alcança o padrão esperado) ou abaixo do básico (desempenho abaixo do nível básico). O número de níveis de proficiência talvez tenha de ser revisto em função dos resultados do pré-teste e da análise do teste final. O Volume 4 desta série cobre tanto a teoria de resposta ao item quanto os níveis de proficiência. O marco de referência também deve indicar os tipos de relatórios da avaliação nacional a serem publicados ao final de uma avaliação. Esses relatórios poderiam incluir um relatório técnico; uma série de relatórios resumidos para audiências específicas, como treinadores de professores, órgãos encarregados de currículos e formuladores de políticas; e notas de imprensa e sessões informativas. CONTEXTOS Muitos formuladores de políticas educacionais usam as avaliações na- cionais para obter informações contextuais adicionais sobre fatores que podem afetar ou influenciar diretamente a qualidade do aprendizado dos alunos em áreas de currículo específicas. A comissão de coordenação deve dar uma orientação geral sobre a seleção das variáveis contextuais a serem avaliadas. Essa informação, por sua vez, pode ser usada pelo órgão implementador para orientar o desenvolvimento do questionário. Infor- mações contextuais podem interessar particularmente a formuladores de políticas que buscam compreender as razões das diferenças nos níveis de aproveitamento dos alunos. Muitas avaliações enfocam o contexto familiar dos alunos e da esco- la. Fatores familiares normalmente incluem situação socioeconômica, às vezes medida em função dos bens existentes no domicílio, nível de edu- cação dos pais, idioma falado em casa, estrutura e tamanho da família, 28 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL ajuda para os estudos em casa, processos familiares (como leitura para as crianças e outras formas de orientação que encorajem o aprendizado) e relações casa-escola.2 Os contextos da escola frequentemente incluem recursos da escola e da sala de aula, administração e organização da es- cola, natureza e nível de treinamento dos professores, estratégias instru- cionais e ambiente na sala de aula. Algumas avaliações coletam dados sobre atitudes dos alunos com relação à escola e à área temática indivi- dual, interesses e comportamentos (por exemplo, o total de tempo gas- to fazendo trabalhos domésticos, trabalhando ou lendo por prazer). Os detalhes de como conceber e redigir os itens do questionário serão vistos mais adiante neste livro. Em http://go.worldbank.org/M2O1YDQO90 você também poderá encontrar exemplos de itens de questionário des- tinados a obter informação contextual sobre alunos, pais, professores e diretores. NOTAS 1. Após o terceiro estudo, esta série de estudos passou a se chamar Tendências Interna- cionais no Estudo de Matemática e Ciências, e a sigla TIMSS foi mantida. 2. Note-se que, em alguns países, existe uma resistência à ideia de se coletarem dados sobre as características socioeconômicas. CAPÍTULO 3 ELABORAÇÃO DE ITENS E ste capítulo descreve as características de bons itens num teste, as diretrizes para a elaboração de itens, a estruturação e organização de itens que comporão um teste, e a pontuação de itens.1 Também descreve os papéis do pessoal envolvido no desenvolvimento do teste – a equipe de elaboração de itens e outros revisores –, que trabalha sob a orientação do gerente de desenvolvimento de teste. Deve-se ter em mente que a qualidade de um teste depende, em grande medida, de quão claramente atenda a seu objetivo e da exatidão com que os itens correspondam a uma tabela de especificações bem concebida. Os itens de boa qualidade são claros, relevantes para o currí- culo e focalizam um aspecto claramente definido do aprendizado. Eles apresentam tarefas atraentes, genuínas, e não distinguem entre alunos de diferentes contextos idiomáticos e culturais. Um bom item tem as seguintes características: y Avalia uma área-chave de aprendizado. y Apresenta uma tarefa construtiva e significativa. y Pode ser facilmente associado a importantes características contidas nos documentos do marco de referência ou na tabela de especificações. 30 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL y É justo. y O estímulo gira em torno de questões centrais, e não de detalhes periféricos ou triviais. y Deixa claro para os alunos o que se pede deles. y Tem sentido intrínseco e não depende da compreensão de algo que constituía a base de um item anterior. y Se for um item sobre vocabulário, é direcionado para o significado da palavra no contexto do texto, e não para um conhecimento geral. y De preferência, é expresso em termos positivos, pois formas negati- vas tendem a causar confusão. Os elaboradores de itens podem se beneficiar muito com o exame de modelos relevantes de itens de alta qualidade. Muitas organizações de testes publicam amostras de itens na internet. Itens de teste liberados para uso público também podem ter origem em testes internacionais, como o TIMMS (Tendências Internacionais no Estudo de Matemática e Ciências), o PISA (Programa Internacional de Avaliação de Alunos) e o PIRLS (Estudo Internacional sobre o Progresso do Letramento em Leitura), e em avaliações nacionais de outros países, como a Avaliação Nacional do Progresso Educacional (NAEP) dos Estados Unidos. Em http://go.worldbank.org/M2O1YDQO90, você pode encontrar muitos exemplos de itens dessas e de outras fontes. Endereços na internet são fornecidos no Apêndice B. Itens de teste liberados para uso público podem ser usados em outros testes, desde que o conteúdo e o fraseado sejam adequados. Esse tipo de material pode ser uma fonte barata e útil de itens de teste. Com frequência, esses itens (junto com as respostas) estão disponíveis na internet. Portanto, não devem ser usados caso haja a probabilidade de os alunos terem acesso a eles antes de fazer um teste de avaliação nacional. Também é possível obter a permissão de autoridades relevantes para usar itens adequados de testes seguros. Essa abordagem pode ser mais barata que o desenvolvimento de itens. No entanto, especialistas em currículo precisarão rever esses itens e fazer um teste prévio para avaliar sua adequação. Leva tempo até que se adquira sólida experiência na elaboração de itens para cada seção de uma tabela de especificações. Os elaboradores DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 31 de itens devem ter um entendimento comum da terminologia de itens e daquilo que os itens pretendem medir. Para alcançar essa compreensão, devem tentar classificar cada item rascunhado à medida que vão sendo desenvolvidos, usando critérios como os seguintes: y Formato do item (por exemplo, múltipla escolha, fechado, aberto). y Tipo de texto (para um teste de leitura) (por exemplo, narrativo, descritivo). y Série pretendida (por exemplo, 5a série). y Produto do aprendizado (por exemplo, soma de números inteiros de dois dígitos ou identificação da ideia central numa história). y Processo cognitivo (por exemplo, conhecimento, lembrança, inter- pretação ou síntese). Não há como saber, em todas as situações, o nível de processamento cognitivo envolvido na resposta a um item. Se os alunos não tiverem familiaridade com um processo, como resumir um parágrafo de infor- mação, isso pode exigir um nível de processamento mais alto do que se estiverem acostumados a fazer resumos. GRAU DE DIFICULDADE DO ITEM Chegar ao nível adequado de dificuldade para os itens é uma tarefa desa- fiadora para a maior parte dos elaboradores de itens. Em muitos países, o conteúdo do currículo pretendido é muito difícil para a maioria dos alunos. Como consequência, os elaboradores de itens frequentemente têm de elaborar muitos itens para medir habilidades mais fáceis que as listadas nos currículos pretendidos. Por exemplo, testes de aproveita- mento em matemática concebidos para a 5a série muitas vezes incluem itens baseados em objetivos que os alunos deveriam ter dominado nas 3a e 4a séries. Professores experientes, mais que funcionários da área de educação ou acadêmicos, apresentam maior probabilidade de ter uma boa percepção dos prováveis graus de dificuldade dos itens. No entanto, o julgamento 32 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL do professor, embora possa ser útil, não é adequado. A realização de um pré-teste dos itens em amostras de alunos com características aproxima- damente iguais às da população-alvo é essencial para se obterem dados preliminares objetivos sobre os graus de dificuldade dos itens. Isso pode ajudar a evitar o erro comum de se desenvolverem testes com itens que depois se revelam muito difíceis. Dependendo de inúmeros fatores, alguns itens considerados simples pelo elaborador de itens podem acabar se mostrando bastante difíceis. Do mesmo modo, itens concebidos para ser difíceis podem ser fraseados ou apresentados de tal modo que se revelem bastante fáceis. No caso de itens que usam o formato de múltipla escolha, os elaboradores devem evitar o seguinte: y Introduzir dicas gramaticais ou lógicas no comando e na chave que apontem a resposta correta, como um comando que corresponde a uma palavra no singular e todas as opções, menos uma, apresentadas como plurais. y Introduzir termos absolutos, como “sempre” ou “nunca”, que pode- riam eliminar algumas opções ou apontar a resposta correta. y Fazer a resposta correta muito mais longa ou mais detalhada que as demais opções. y Incluir uma palavra ou frase-chave extraída do material de estímulo na opção correta, mas não nas outras opções. y Apresentar as opções numa ordem ilógica ou num padrão confuso. y Fazer com que as opções e a chave se superponham significativamen- te, de modo que discernir a “melhor” resposta dependa de habilidades linguísticas, e não do conhecimento sobre o que está sendo testado. y Incluir questões que podem ser respondidas sem referência ao estí- mulo. No caso de respostas construídas, é importante desenvolver critérios claros de pontuação que produzam como resposta aquilo que o item se destina a medir. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 33 TENDENCIOSIDADE DO ITEM Os alunos trazem para o teste uma grande diversidade de conhecimen- tos e entendimento cultural. Eles não devem ser penalizados ou privile- giados caso tenham experiências de vida que não sejam relevantes para o conhecimento, as habilidades e os entendimentos que o teste pretende avaliar. Por exemplo, itens sobre um esporte masculino popular pode- riam deixar as meninas em desvantagem. Os itens também podem ser tendenciosos quando perturbam ou in- comodam alguns alunos, mas não outros. O material de estímulo não deve violar sensibilidade ética, cultural ou de qualquer outro tipo. Não deve haver qualquer possibilidade de que alguns alunos possam se sentir ofendidos, amedrontados ou perturbados pelo material do teste. O ge- rente de desenvolvimento de teste deve sensibilizar os elaboradores de itens quanto às várias formas de tendenciosidade. Os painéis de revisão devem ser encorajados a ficar atentos a itens do teste ou do questioná- rio que possam ser tendenciosos ou ofensivos. O Volume 4 desta série apresenta uma técnica estatística que pode ser usada para ajudar a iden- tificar itens tendenciosos tanto na etapa de pré-teste quanto durante a elaboração do teste final. MATERIAL DE ESTÍMULO O material de estímulo fornece o contexto para um item. Pode ser parte de um texto, um diagrama, um gráfico, uma tabela, um mapa ou uma combinação de tudo isso. Em geral, o desenvolvimento do teste começa com a seleção ou criação do material de estímulo adequado. Os testes de leitura usu- almente se baseiam em textos longos que se prestam a uma série de itens ou a uma unidade que cobre uma gama de habilidades rele- vantes. Os testes de matemática e ciências podem incluir material de estímulo curto, como vários números a serem somados ou uma equação a ser completada. Itens de matemática e ciências também podem incluir um estímulo mais complexo, como um gráfico, um 34 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL mapa, uma tabela ou um diagrama com uma série de itens associados relativos a diversas habilidades. O material de estímulo deve apresentar claramente a principal carac- terística a ser avaliada. Não deve conter detalhes supérfluos, repetitivos ou desnecessários. Um bom material de estímulo tem as seguintes ca- racterísticas: y É substantivo e merece ser examinado detidamente. y Tem a probabilidade de interessar à audiência-alvo. y É bem escrito e bem desenhado. y É desafiador na medida certa, não muito difícil nem muito fácil. y Não apresenta desafios artificiais. y É factualmente correto. y Oferece oportunidade para questões que estimulam a busca. y É completo. Onde adequado, é importante prover algum contexto para o material de estímulo. O contexto pode ser fornecido por meio de um título ou de uma breve introdução. Por exemplo, o trecho de um romance de ficção científica poderia ser apresentado assim: “Esta passagem foi extraída de um romance que se passa no futuro.” Preferencialmente, as imagens devem ser parte intrínseca do mate- rial de estímulo, oferecendo significado adicional. Se as imagens forem incluídas simplesmente como decoração, não ajudarão os alunos a com- preender o texto. Às vezes, o material de estímulo cria um contexto artificial e des- necessário para um item. O Quadro 3.1 contém material irrelevante. Na realidade, este item aborda a superfície de uma área. Na vida real, Irene não estaria preocupada com a quantidade mínima de papel que deveria usar. De fato, ela poderia precisar de uma pequena quantidade adicional para dobrar sobre as bordas. Os alunos mais capazes poderiam responder a este item incorretamente se deixassem uma margem de pa- pel adicional. Uma melhor redação para o item seria simplesmente a seguinte: “O comprimento de um lado de um cubo é 80cm. Qual a área da superfície do cubo?” DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 35 QU A D R O 3 . 1 Exemplo de Material de Estímulo Irrelevante Irene embrulhará este cubo com papel. Qual a menor quantidade de papel de em- brulho que ela usará? 80 cm Um estímulo que tente descrever um contexto real deve ser factual- mente acurado. É provável que a informação contida no Quadro 3.2 seja factualmente inexata. Em geral, os seres humanos não apresentam o tipo de padrão de crescimento mostrado. As crianças que tendem a ser altas em geral demonstram esse traço desde bem novas. Se o material de estímulo requer padrões de crescimento desiguais, seria preferível usar plantas a pessoas para objetivos comparativos. QU A D R O 3 . 2 Exemplo de um Item com Informação Inexata ou Enganosa O gráfico mostra a mudança nas alturas de Mário e Rita à medida que ficam mais velhos. 160 Mario altura (cm) 120 Lita 80 40 0 2 4 6 8 10 idade (anos) 36 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL Os itens devem ser escritos na linguagem mais simples e clara pos- sível. O fraseado deve ser simples o bastante para que se possa esperar, numa medida razoável, que os alunos sejam capazes de lê-lo: y Evite vocabulário difícil. y Evite sentenças longas. y Não use sentenças enroladas. y Não use uma lógica difícil. y Evite questões ambíguas ou vagas. y Evite negativas duplas. y Evite inconsistências (por exemplo, usando diferentes unidades de me- dida nas opções ou diferentes termos para se referir à mesma coisa). y Não use fraseado vago ou termos não familiares que não estejam ade- quadamente definidos. FORMATO DO ITEM São descritos dois formatos principais: múltipla escolha e resposta curta (veja Capítulo 2).2 Considere usar um formato de múltipla escolha para: y Limitar o número de opções. y Produzir uma resposta sucinta. y Evitar que os alunos tenham de copiar grandes trechos do texto de estímulo. y Cobrir uma grande gama de tópicos eficientemente. Considere usar um formato de resposta curta (fechada ou aberta) para: y Testar significados que os alunos precisem gerar por conta própria. y Testar diferentes níveis de compreensão, usando um item de crédito parcial que dê uma pontuação total para uma resposta que mostre compreensão de uma ideia complexa e uma pontuação parcial para uma resposta que mostre compreensão de apenas uma parte simples da ideia. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 37 y Testar uma gama restrita e claramente definível de possíveis respostas corretas. y Buscar uma resposta numa situação em que a resposta correta seria claramente revelada num formato de múltipla escolha, dada a falta de opções incorretas plausíveis. Os alunos devem ter um comando adequado de vocabulário e ex- pressão para responder a itens de resposta curta. Não use questões de resposta curta se houver a probabilidade de os alunos terem de copiar uma grande quantidade do texto de estímulo. Elaboração de Itens de Múltipla Escolha Um item de múltipla escolha consiste em um comando e diversas opções de resposta. Às vezes, quando se requer uma resposta falso-verdadeiro, só são necessárias duas opções. No entanto, esses itens são, de certa forma, inefi- cazes. Oferecer quatro ou cinco opções é o mais usual. A opção correta é a chave, enquanto as opções incorretas são os distratores (Quadro 3.3). O comando de um item pode assumir várias formas, como: y Uma sentença incompleta. y Uma pergunta explicitamente formulada. y Uma sentença à qual falta alguma informação (Carlos tem ______ irmãos). QU A D R O 3 . 3 Exemplo de um Item de Múltipla Escolha Tânia tem três flores. Ganha mais duas flores do seu pai. comando Quantas flores Tânia tem ao todo? A 2 B 3 distratores C 4 D 5 chave (resposta correta) 38 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL Se o comando é uma sentença incompleta, deverá conter informação suficiente para indicar a natureza da questão. O aluno não deve precisar ler os distratores para inferir a questão. Todas as opções de uma sentença incompleta devem: y Ser gramaticalmente consistentes com o comando. y Ser escritas num estilo semelhante. y Ser corretamente pontuadas. y Começar com uma letra minúscula e terminar com um ponto final. Lembre-se dos seguintes pontos durante a elaboração de itens de múltipla escolha: y Pontue sentenças completas corretamente. No Quadro 3.4, todas as op- ções são sentenças completas com a pontuação adequada. y Pontue listas adequadamente. No Quadro 3.5, as opções são listas de palavras. Essas opções não são pontuadas. QU A D R O 3 . 4 Pontuação em Sentenças Completas O que Miguel achou do mercado? A Estava cheio de gente, e a comida era boa. B Era barato, e a comida era deliciosa. C A comida era boa, mas não havia ninguém lá. D Era barato, mas a comida não era muito boa. QU A D R O 3 . 5 Pontuação numa Lista Quanto tempo Joel ficará na casa de seu avô? A uma semana B duas semanas C um mês D dois meses DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 39 y Minimize a quantidade de leitura. Para minimizar a quantidade de lei- tura requerida, o elaborador de itens deve pôr a maior parte possível do item no comando (veja o Quadro 3.6). y Evite comandos negativos. Como um comando negativo causa confu- são, seu uso deve ser evitado. Se o comando só pode ser expresso na forma negativa, destaque a palavra “não” usando negrito ou itálico (veja o Quadro 3.7). Se um comando negativo for inevitável, as op- ções nunca deverão ser negativas. y Varie o uso de distratores emparelhados. Os métodos de construção de dis- tratores devem variar ao longo do teste, de modo que não surjam padrões para auxiliar os alunos. Por exemplo, não é aconselhável emparelhar a chave (B) com seu oposto (A) (Quadro 3.8). Se o padrão no Quadro 3.8 aparecer com frequência ao longo do teste, ficará óbvio para alguns alunos já familiarizados com testes que precisam considerar apenas os distratores emparelhados (A e B). Uma solução é escrever alguns itens nos quais a chave não é um dos opostos emparelhados. Outra solução é incluir dois pares de opostos no item, como mostrado na Quadro 3.9. QU A D R O 3 . 6 Reduzindo a Leitura Por quanto tempo Joel ficará na casa de seu avô? Não assim Mas assim Carlos foi para Carlos e sua família foram para A o rio com sua família. A rio. B a praia com sua família. B praia. C o campo com sua família. C campo. D as montanhas com sua família. D montanhas. QU A D R O 3 . 7 Item com um Comando Negativo O que os pais de Mário disseram que ele não podia ter em casa? A seu cachorro de estimação B seus sapatos com chulé C a manta do cavalo D uma cesta de frutas 40 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL QU A D R O 3 . 8 Distratores Mal Emparelhados Tom não gostou do casaco porque era A muito grande. B muito pequeno. C da cor errada. D pouco agasalhante. QU A D R O 3 . 9 Lidando com Pares de Distratores Tom não gostou do casaco porque era muito A grande. B leve. C pequeno. D pesado. y Evite usar certos distratores. Distratores que contêm palavras como sempre e nunca, nenhum dos acima e todos dos acima devem ser evita- dos porque, em geral, os alunos os eliminam facilmente. y Use números adequados de distratores. Desenvolva itens com a chave e quatro distratores plausíveis (cinco opções ao todo), se possível, e então faça um pré-teste de todos os distratores. Use os distratores que têm as melhores propriedades estatísticas (veja o Volume 4 desta série). y Varie a posição da chave. A posição da chave deve variar de um item para o seguinte. Não deve haver um padrão óbvio em seu posiciona- mento. As opções podem ser arrumadas começando da mais curta para a mais longa, ou da mais longa para a mais curta, ou podem ser ordenadas aleatoriamente. Certifique-se de que a chave nem sempre seja a opção mais longa. As boas opções apresentam as seguintes características: y Têm comprimentos semelhantes e são escritas num estilo semelhan- te ao da chave. A chave não deve se destacar dos distratores por seu comprimento, fraseado ou outra qualidade superficial. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 41 y Variam em estilo de item a item, ou seja, não são repetitivas. y Não dão uma dica da resposta a outro item. y Não incluem distratores parcialmente corretos, como opções empa- relhadas em que cada distrator contém uma opção incorreta e uma correta. y Não induzem ao erro nem confundem devido à falta de clareza ou à ambiguidade. y Não se superpõem em significado. Os distratores têm de ter significa- dos distintos uns dos outros. Os distratores não devem ser sinônimos. Um significado particular em um distrator não deve ser incluído no significado general de outro distrator. y Incluem uma chave inquestionavelmente correta ou que constitui uma resposta acurada defensável, e não simplesmente a melhor das opções apresentadas. y Têm distratores inquestionavelmente incorretos, embora sejam ra- zoáveis e plausíveis. Qualquer distrator absurdamente incorreto re- duz o número de escolhas reais disponíveis para o aluno e não agrega nada ao item. Elaboração de Itens de Resposta Curta Itens de resposta curta devem ser claramente focalizados para produzir como resposta a expressão da habilidade que pretendem avaliar. Bons itens de resposta curta são claros e exatos. Os guias de pontuação devem ser desenvolvidos ao mesmo tempo em que se desenvolvem os itens. Em http://go.worldbank.org/M2O1YDQO90, você encontra exemplos de guias de pontuação para itens de resposta curta. Veja, por exemplo, Itens Liberados do PISA de Matemática de 2006 e Guia de Pontuação de Itens da Amostra de Leitura Internacional para a 4a série do PIRLS de 2001. Em geral, os itens de resposta curta são classificados como abertos quando a resposta correta exige uma ou duas sentenças ou vários acrés- cimos a um diagrama. Itens abertos, em geral, têm inúmeras possíveis respostas corretas. Itens de resposta curta são classificados como resposta fechada quando 42 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL uma ou duas palavras ou uma linha num diagrama são suficientes para a resposta. Itens de resposta fechada em geral têm um número muito limitado de respostas corretas. Itens abertos devem se referir a habilidades significativas em áreas- -chave do currículo, de modo a justificar o tempo de teste que os alunos gastarão para respondê-los. Os alunos também devem ter a possibilidade de dar breves respostas corretas a itens abertos. A maior parte do tempo que os alunos gastam com um item deve ser devotada a encontrar uma solução, e não a registrar suas respostas. Num item de resposta curta, é importante considerar qual poderia ser uma resposta incorreta. Se todas as respostas coerentes imagináveis têm a probabilidade de ser corretas, talvez o item pouco contribua para a avaliação de uma habilidade específica. O item deve ser construído de forma a garantir que existam respostas incorretas plausíveis. Certifique-se de que itens de resposta curta têm mais de duas respos- tas possíveis. Itens para os quais existam apenas duas possíveis opções, como “fechado” ou “aberto”, dão aos alunos uma chance de 50% de adivinhar a resposta correta. Tal item poderia ser ampliado pedindo-se aos alunos que deem razões para suas respostas. O item poderia, então, ser pontuado em função da seleção correta de “aberto” ou “fechado” e também da explicação. Alunos que selecionassem a opção correta, mas não dessem uma explicação, receberiam a pontuação zero. Os itens não devem dar ajuda excessiva ao leitor para que compre- enda o significado do estímulo. Por exemplo, um item não deve resu- mir as ideias-chave num parágrafo do estímulo ou deixar explícita uma inferência no estímulo. É preferível citar algo do estímulo a resumir ou interpretar o significado. Um risco que se corre com os itens abertos é que os alunos podem respondê-los superficialmente. A resposta “porque é importante”, por exemplo, poderia ser tecnicamente correta em várias questões, mas seria uma resposta fraca. Às vezes, uma resposta potencialmente superficial pode ser incluída na questão para eliminá-la da gama de possíveis res- postas corretas. Por exemplo, um item pode ser fraseado assim: “Por que o acidente de Renata é importante nesta história?” Os alunos não podem responder simplesmente “porque o acidente é importante”. Quando se DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 43 trata de itens abertos, em geral são necessárias instruções como, por exemplo, “explique sua resposta” ou “dê razões para sua resposta” para evitar uma resposta sucinta como “sim” ou “não”. Um item efetivo de resposta curta deve estabelecer uma tarefa clara e específica que busca uma resposta específica. O item deve permitir que os alunos demonstrem, com razoável rapidez, seu domínio da habilidade requerida. O exemplo no Quadro 3.10 não atende a qualquer desses ob- jetivos. Não se diz aos alunos que eles precisam fazer uma caixa com as maiores dimensões possíveis. Essa resposta, no entanto, é o critério para que recebam uma pontuação 3. O item também é de baixa qualidade porque consome muito tempo. As habilidades que estão sendo avaliadas não justificam a quantidade de tempo de que os alunos precisariam para testar as possibilidades e chegar à resposta correta. O problema precisa ser simplificado para que os alunos possam demonstrar as habilidades relevantes de forma eficiente. QUADRO 3.10 Item Aberto Confuso com Instruções Pouco Claras Deve-se fazer uma caixa aberta com um retângulo de papelão de 150cm por 100cm, cortando quadrados do mesmo tamanho em cada canto e usando fita adesiva para emendar as partes. Qual o tamanho do quadrado que você cortaria de um dos can- tos? Dê uma razão (ou razões) para escolher esse tamanho. ____________________________________________________________________________ ____________________________________________________________________________ Guia de pontuação: o número de pontos vai de 0 a 3. 3 pontos: descreve um quadrado de 20cm e uma caixa com dimensões de 110cm por 60cm por 20cm; também explica que esse tamanho de caixa tem a maior capaci- dade 2 pontos: descreve um quadrado de 20cm a ser cortado em todos os cantos, mas não dá qualquer explicação 1 ponto: descreve quaisquer tamanhos possíveis de quadrado com um lado de menos de 50cm 0 ponto: dá as dimensões de um quadrado com mais de 50cm (uma resposta impos- sível) 9: em branco 44 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL Quando um aluno não responde a um item específico por uma entre diversas razões (como pular a questão porque a achou difícil ou por não ter tido a oportunidade de tentar respondê-la porque o item não estava no caderno de prova que recebeu), em geral se atribui um código 9 (não uma pontuação) para denotar dados em branco. A questão de dados em branco está coberta, com algum nível de detalhamento, no Volume 3. Os itens de resposta curta devem ter um fraseado claro e simples (veja o Quadro 3.11). QU A D R O 3 . 1 1 Bom Exemplo de um Item de Resposta Fechada Cada pessoa cava à mesma velocidade. Uma pessoa pode terminar de cavar um jardim em 12 horas. Duas pessoas podem terminar de cavar o mesmo jardim em 6 horas. Quanto tempo levariam quatro pessoas? ________ Quanto tempo levariam x pessoas? ________ Desenvolvimento de Guias de Pontuação para Questões de Crédito Parcial As respostas a algumas questões de resposta curta têm duas ou mais categorias de respostas corretas. Essas são conhecidas como questões de crédito parcial. O guia de pontuação deve diferenciar entre respostas mais abrangentes, exatas ou sofisticadas, e respostas incompletas ou par- cialmente corretas. As melhores respostas recebem uma pontuação mais alta. O exemplo no Quadro 3.12 tem o guia de pontuação para uma questão de crédito parcial para desenhar um quadrado, e pode receber até 3 pontos. Os seguintes tipos de itens podem ser pontuados como crédito parcial: y Pede-se aos alunos que deem duas razões para o comportamento de um personagem. Os alunos que dão duas razões corretas recebem a pontua- ção 2, e os que dão uma razão correta recebem a pontuação 1. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 45 QUADRO 3.12 Item com Crédito Parcial O comprimento do lado de um quadrado é 10cm. Desenhe esse quadrado no espaço a seguir. Use sua régua. Guia de pontuação: 3 pontos: desenha um quadrado com 4 lados de 10cm de comprimento e 4 ângulos retos 2 pontos: desenha um retângulo com 2 lados de 10cm comprimento e 4 ângulos retos 1 ponto: desenha uma forma de 4 lados com 2 lados de 10cm de comprimento, mas sem ângulos retos 0 ponto: desenha qualquer outra forma 9: em branco y Os alunos recebem uma pontuação mais alta para uma compreensão mais sofisticada; por exemplo, a pontuação 2 num teste de leitura poderia refletir a compreensão da ironia em determinada passagem, enquanto a pontuação 1 é atribuída para a leitura literal do texto. y Uma pontuação 2 pode incluir a identificação tanto da causa quanto da consequência, enquanto uma pontuação 1 requer a identificação correta de apenas uma dessas. y Em matemática, uma pontuação 3 é dada para a solução correta de um problema e a explicação adequada do método, a pontuação 2 é atribuída para a solução correta sem uma explicação, enquanto a pontuação 1 é dada para a descrição de um método adequado com cálculos incorretos. A distinção entre pontuações de crédito total ou crédito parcial deve ser clara. Certifique-se de que os exemplos de respostas com pontuação 1 que aparecem no guia de pontuação não sejam simplesmente respostas bre- ves ou com fraseado pobre, mas que realmente satisfaçam aos critérios de 2 ou 3 pontos. Também é importante deixar clara a diferença entre respostas de 1 ponto e respostas incorretas. Essa distinção pode ser a mais difícil de fazer na pontuação de algumas questões de crédito parcial. 46 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL Os exemplos seguintes mostram que itens abertos de resposta curta nem sempre permitem crédito parcial. O item no Quadro 3.13 mostra que, embora os alunos possam dar diversas respostas, recebem pontua- ção 1 ou zero. É importante fazer o pré-teste de itens de crédito parcial para garantir que as categorias de crédito parcial sejam estatisticamente robustas (veja Capítulo 5). QU A D R O 3 . 1 3 Exemplo de um Item de Resposta Aberta com Guia de Pontuação João e Miguel encontram uma árvore com 400 mangas. João diz que Miguel agora tem uma chance de 160% de derrubar uma manga. Você concorda com João ou discorda dele? Explique. ____________________________________________________________________________ ____________________________________________________________________________ Guia de pontuação: 1 ponto: Discorda e menciona o limite percentual. Discorda porque não é possível ter 160%. Discorda porque é impossível. Discorda porque 100% é o máximo que se pode alcançar. 0 ponto: Concorda (com ou sem explicação). Discorda e não se refere ao limite percentual. Discorda porque existem mais de 160 mangas. 9: em branco Fonte: Departamento de Educação das Filipinas 2004. Um exemplo de item de resposta curta com o guia de pontuação compactado está apresentado no Quadro 3.14. No pré-teste, os alunos que responderam “80%” ou “80 por cento” receberam pontuação 2, en- quanto os que simplesmente escreveram “80” receberam pontuação 1. As estatísticas mostraram que os alunos que deram a resposta que valia 2 pontos tiveram uma pontuação média muito mais alta no teste de DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 47 matemática, enquanto aqueles que deram a resposta de valor 1 tiveram a pontuação geral média semelhante à dos que tiveram zero nesse item. Como resultado dessa informação do pré-teste, o guia de pontuação foi alterado: os alunos que responderam com “80%” ou “80 por cento” rece- beram 1 ponto, enquanto os que responderam “80” ou deram qualquer outra resposta inaceitável tiveram zero. QU A D R O 3 . 1 4 Exemplo de um Item Fechado com Guia de Pontuação Mangueira Miguel está em sua fazenda tentando acertar algumas mangas com a atiradeira. Quando a árvore tem 50 mangas, ele tem 20% de chance de acertar. Sua chance de acertar uma manga duplica quando o número de mangas duplica. Estime a chance de Miguel acertar uma manga numa árvore com 200 mangas. ________________________________________________________________________ Guia de pontuação: 1 ponto: 80% ou 80 por cento 0 ponto: qualquer outra resposta, inclusive simplesmente “80”, sem “%” ou “por cento” 9: em branco Fonte: Departamento de Educação das Filipinas 2004. Elaboração de Itens para Unidades Unidades são grupos de itens com um estímulo comum. As unidades podem consistir em um conto ou um gráfico, seguidos por um conjunto de questões. Os princípios básicos para a elaboração de itens de múltipla escolha ou de resposta curta aplicam-se a itens associados a unidades. Diversos pontos devem ser considerados durante a redação prelimi- nar de itens baseados em unidades: y Os itens devem ser independentes uns dos outros. Os alunos não devem ter de responder a um item corretamente para responder a outros itens corretamente. 48 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL y Os itens não devem se superpor. Cada item deve avaliar um aspecto claramente diferente do estímulo. y Os itens devem avaliar uma gama de habilidades. Por exemplo, os itens não devem avaliar repetidamente a recuperação de uma infor- mação diretamente explicitada ou a ideia central de cada parágrafo do estímulo. y Os itens numa unidade devem cobrir uma gama de níveis de dificul- dade, começando, em geral, com um item fácil. y A informação dada no comando ou nas opções de múltipla escolha de um item não deve ajudar o aluno a responder a outro item. y Os itens devem avaliar aspectos significativos (e evitar aspectos tri- viais) do estímulo. y Os itens devem estar na mesma página que a unidade ou na página ao lado (no caso de um estímulo longo). Unidades com oito ou mais itens associados tendem a ter alguns itens duplicados, superpostos ou triviais. Alguns itens podem ser eliminados durante o painel de itens. Alternativamente, a equipe de desenvolvi- mento de teste poderia desenvolver dois formulários para o pré-teste usando a metade dos itens em um formulário e os demais no segundo. A seção de linguagem encontrada em http://go.worldbank.org/ M2O1YDQO90 contém muitos exemplos de unidades seguidas de um conjunto de questões. (Veja, por exemplo, os itens que se seguem a “Le- bre Anuncia o Terremoto”, em Itens da Amostra de Leitura Internacional para a 4a série do PIRLS de 2001 ou “O Acordo de Petra”, em Questões da Amostra de “Lendo a Austrália”, Ano 3.) ITENS DE PRÁTICA Os itens de prática são essenciais para garantir que os alunos não sejam pe- nalizados pela falta de familiaridade com o formato de itens ou com a for- ma como devem apresentar suas respostas às questões do teste. Em geral, o aplicador do teste repassa os itens de prática com os alunos, de acordo com instruções muito específicas contidas no manual de aplicação. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 49 Quando os testes incluem itens de resposta curta, é especialmente importante que os alunos compreendam que tipo de respostas se espera deles. Os alunos precisam compreender, por exemplo, onde escrever sua resposta para completar uma sequência numérica ou o quanto se espera que escrevam em resposta a um item que requer uma explicação. Deve-se explicar aos alunos que eles não serão penalizados por cometer pequenos erros de soletração ou gramaticais, a menos que isso seja parte do que está sendo medido. As instruções devem encorajá-los a tentar responder a todos os itens. Os itens de prática devem ser desenvolvidos para todos os formatos de resposta no teste. Por isso, esses itens são escritos, em geral, já perto do final da fase de desenvolvimento do teste, quando já se sabem os tipos de questões contidas no teste. Os itens de prática devem ser muito fáceis; por exemplo, pedir aos alunos para escrever a resposta a 2 + 2 numa linha ao lado da soma: 2 + 2 = __________ Dá-se ênfase a como os alunos registram suas respostas. Neste caso, os alunos devem escrever a resposta na linha. O painel de itens deve rever todos os itens de prática, que também de- vem passar por um pré-teste. Se vários formulários de pré-teste forem usa- dos, os mesmos itens de prática devem ser usados em cada um deles. DIAGRAMAÇÃO E ELABORAÇÃO DOS ITENS A diagramação e o desenho dos itens são cruciais para a clareza e a atratividade de um teste. Os alunos têm maior probabilidade de ten- tar responder aos itens de um teste bem apresentado e de fácil leitura. Os especialistas que desenham os testes devem adotar um estilo con- sistente, com um formato agradável. Pode-se contratar um especialis- ta em diagramação e desenho para criar todas as imagens. Em http:// go.worldbank.org/M2O1YDQO90, você encontra muitos exemplos de itens bem apresentados e apoiados por ilustrações de boa qualidade. 50 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL Diretrizes Básicas A seguir, você tem algumas diretrizes básicas para diagramações e dese- nhos bem-sucedidos de testes. y Use um tipo grande (por exemplo, 36) para numerar os itens, de modo que os alunos possam localizar facilmente cada item. y Deixe um espaço adequado se os alunos tiverem de anotar uma res- posta. (Isso é especialmente necessário para alunos das primeiras sé- ries do fundamental, que podem ter letras muito grandes.) y Deixe espaço suficiente entre os itens, de modo que os alunos possam ver claramente onde termina um item e onde começa o seguinte. y Use o comprimento da linha para a resposta de um item, deixando claro para os alunos o quanto se espera que escrevam. Uma linha curta é adequada a uma resposta de uma palavra. Duas ou três linhas mais longas sugerem que o aluno deve escrever uma ou duas senten- ças em resposta ao item. y Dê a cada item um título exclusivo, e imprima esse título perto do número do item, num tipo pequeno em escala cinza, na margem es- querda. Um título de identificação exclusivo ajudará a garantir o ras- treamento acurado dos itens. Os números dos itens podem mudar, especialmente se os itens aparecem em múltiplos cadernos de prova. y Seja consistente no uso de aspas simples ou duplas, itálicos, sublinha- dos, negritos e maiúsculas. y Certifique-se de que a diagramação e as imagens usadas no pré-teste dos itens sejam o mais parecido possível com a apresentação dos itens no formulário final do teste. Mudanças no desenho e na diagramação de itens podem afetar a dificuldade de um item. Qualidade das Imagens As imagens usadas no teste têm de ser claras, com linguagem e títulos simples, adequados. As imagens devem ser desenhadas por um artista gráfico. Imagens escaneadas ou tiradas da internet em geral não têm qua- DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 51 lidade adequada. Em geral, fotografias também são inadequadas, porque aumentam os custos de impressão. Usualmente, um artista gráfico deve redesenhar as fotos. O uso de um mesmo artista gráfico para desenhar todas as imagens, fotográficas ou não, dará consistência à diagramação e ao desenho do teste. Onde possível, devem ser usadas imagens para aprimorar a clareza e reduzir o número de palavras em um item (veja o Quadro 3.15). Ima- gens simples são mais eficazes. A imagem deve apresentar o conceito com clareza e de forma limpa (veja o Quadro 3.16). Não é necessário parecer real. Se possível, devem ser usados desenhos, e extensas áreas sombreadas devem ser evitadas. QU A D R O 3 . 1 5 Uso de Imagens para Reduzir Palavras A seguinte imagem descreve uma experiência científica muito melhor que um longo parágrafo: Qual a parte da planta que absorve A MAIOR QUANTIDADE de água? Parte A Parte B Parte C Parte D A Parte A B Parte B C Parte C D Parte D Fonte: IEA 2007, item da amostra. Gráficos e mapas devem receber títulos de forma clara e consistente (veja os Quadros 3.17 e 3.18). 52 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL QU A D R O 3 . 1 6 Como Simplificar as Imagens Esta imagem transmite um sistema complexo de maneira simples: B C A D E Fonte: Departamento de Educação das Filipinas, 2004. QU A D R O 3 . 1 7 Como Dar Nomes Claros aos Gráficos Nomes claros e consistentes como esses no seguinte gráfico ajudam os alunos a com- preender questões complexas rapidamente: Esta tabela mostra temperaturas em vários momentos de quatro dias. Em que dia e em que momento a temperatura mostrada na tabela era a mesma que a mostrada no termômetro? 40° 35° TEMPERATURA 30° 6h 9h 12h 15h 18h 25° 20° Segunda-feira 15° 17° 24° 21° 16° 15° 10° Terça-feira 20° 16° 15° 10° 9° 5° Quarta-feira 8° 14° 16° 19° 15° Quinta-feira 8° 11° 19° 26° 20° Termômetro A. Segunda-feira, 12h B. Terça-feira, 6h C. Quarta-feira, 15h D. Quinta-feira, 15h Fonte: Mullis et al., 2000. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 53 QUADRO 3.18 Como Dar Nomes Claros aos Mapas Deve-se ter a preocupação de dar títulos claros aos elementos de um mapa. No mapa seguinte, os nomes de continentes são mostrados com todas as letras maiúsculas, enquanto os oceanos têm apenas a inicial maiúscula: Oceano Ártico ÁSIA AMÉRICA EUROPE DO NORTE Oceano Atlântico ÁFRICA Oceano Oceano Pacífico Pacífico Equador AMÉRICA DO SUL Oceano Índico AUSTRÁLIA Oceano Antártico Áreas onde vivem dugongos Fonte: Papua Nova Guiné, Departamento de Educação 2004. Conforme mostrado no Quadro 3.19, os espaços deixados nos gráfi- cos permitem que o material de estímulo seja lido com facilidade. Ao decidir o tamanho da fonte e o comprimento da linha, os especia- listas que desenham e formatam o teste devem considerar o seguinte: y Usar tipo 14 para a 3a e a 4a séries e tipo 12 para séries mais avançadas. y Reduzir a largura dos textos de estímulo a aproximadamente 10 a 14 palavras por linha. y Certificar-se de que a quebra de linha ocorra num ponto apropriado. Não permitir que uma palavra apareça sozinha numa linha. 54 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL QUADRO 3.19 Deixando Espaço no Material de Estímulo O espaço neste desenho agrega legibilidade ao material de estímulo: A figura anterior mostra uma caixa contendo um material que poderia ser um sólido, um líquido ou um gás. O material, então, é posto numa caixa quatro vezes maior. Olhe as figuras a seguir. Elas mostram como diferentes tipos de material terão aparências diferentes quando postos numa caixa maior. A. Identifique qual figura mostra um sólido, qual mostra um líquido e qual mostra um gás. (Escreva as palavras Sólido, Líquido ou Gás na linha ao lado de cada figura a seguir. Use cada palavra apenas uma vez.) B. Explique suas respostas. S031372 Fonte: IEA, 2003, item da amostra. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 55 As diagramações de opções de múltipla escolha devem ser consisten- tes. Cada opção deve ser identificada. As seguintes opções de diagrama- ção são recomendadas: y Uma coluna vertical de opções nomeadas de cima para baixo: A B C D y Uma linha horizontal de opções nomeadas da esquerda para a direita: A B C D y Duas colunas verticais de opções, nomeadas de cima para baixo na primeira coluna e também de cima para baixo na segunda coluna: A C B D A EQUIPE DE ELABORAÇÃO DE ITENS O gerente de desenvolvimento de teste lidera e gerencia a equipe de ela- boração de itens e supervisiona todo o programa, desde a fase de desen- volvimento e realização de painéis, passando pelo pré-teste, até a seleção de formulários finais para o teste. O gerente deve saber lidar bem com pessoas e ter habilidades organizacionais. As responsabilidades do gerente de desenvolvimento de teste in- cluem: y Selecionar uma equipe de elaboradores de itens. y Certificar-se de que os elaboradores de itens entenderam a tabela de especificações. y Aperfeiçoar a tabela de especificações. y Estabelecer um conjunto de regras ou protocolos para apresentar, classificar e armazenar os itens. y Certificar-se de que os elaboradores de itens estejam cientes da quan- tidade de espaço que os itens podem ocupar na página. 56 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL y Definir e monitorar os processos do painel de itens. y Monitorar o progresso do desenvolvimento de itens de acordo com o estabelecido na tabela de especificações do teste. y Rever os itens com grupos de especialistas ou com os principais inte- ressados. y Monitorar a qualidade dos itens. y Seguir o desenvolvimento dos itens para que esteja de acordo com o cronograma. y Registrar detalhes de todos os itens desenvolvidos, incluindo a histó- ria do pré-teste e mudanças feitas durante a análise. y Garantir que a tabela de especificações esteja refletida no teste final. A elaboração de itens requer atenção a detalhes, criatividade, rigor intelectual, profundidade de conhecimento sobre o conteúdo e a boa compreensão do desenvolvimento dos alunos numa área de aprendiza- do. Idealmente, os elaboradores de itens devem demonstrar as seguintes características: y Devem ter iniciativa e disposição para realizar uma ampla busca de materiais de estímulo interessantes e devem ser capazes de desenvol- ver materiais de estímulo de alta qualidade. y Devem ser capazes de aceitar retornos sobre seu trabalho e comentar o trabalho de outros elaboradores de itens com o mesmo grau de de- sapego, sem personalizar nada. y Devem demonstrar o desejo de alcançar a excelência em seu trabalho e disposição para estar atentos a detalhes durante o desenvolvimento e o refinamento dos itens. Vale a pena considerar a possibilidade de se fazer um teste de seleção inicial para escolher os elaboradores de itens. O teste poderia consistir em dar aos potenciais elaboradores 30 minutos para gerar itens baseados num conjunto de materiais de estímulo. Esse teste pode ser seguido por uma entrevista durante a qual se pediria aos candidatos para explicar a razão de suas respostas ao teste de seleção. O painel de entrevista pode- ria verificar se os potenciais elaboradores de itens estão preparados para aceitar críticas a seu trabalho. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 57 Idealmente, alguns elaboradores experientes deveriam ser envol- vidos no treinamento de novos elaboradores de itens. Esses elabo- radores experientes talvez tenham de ser recrutados em outro país, como consultores, se não houver no país pessoas com o conhecimento adequado. Os consultores para elaboração de itens poderiam realizar sessões de treinamento, rever itens à medida que forem sendo desen- volvidos, ou desempenhar ambas as tarefas. Após receberem treina- mento, os elaboradores de itens que trabalharem em tempo integral podem levar vários meses até chegar ao ponto de começar a produzir itens de qualidade razoável. As seguintes questões devem ser abordadas durante o treinamento: y Qual o objetivo geral do teste? y Quais os tipos de estímulos adequados para os itens? y Quais segmentos do currículo serão abordados pelo teste? y Qual a proporção de itens que abordarão os diferentes aspectos do currículo? y Que idioma (ou idiomas) será usado? y Qual o nível adequado de simplicidade do vocabulário e da gramática a serem usados? y Que formatos de item serão usados e em que proporção? y Quais as especificações para a publicação (número de páginas do ca- derno de prova, tamanho da página, número de itens por página)? y Quantos itens são propostos para a versão final do teste? y Quantos itens têm de ser desenvolvidos? y Como será revista a versão preliminar dos itens do teste? y Qual o tempo destinado ao desenvolvimento, ao pré-teste e à seleção dos formulários finais? y Existem questões sensíveis ou limitações culturais que devam ser consideradas durante a produção da versão preliminar do material de estimulo e dos itens? Todos os elaboradores de itens devem ter o mesmo entendimento das respostas a essas questões. Também devem monitorar consistentemente o próprio trabalho e o dos demais. Todos os elaboradores de itens devem 58 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL ter cópias da tabela de especificações final do teste, bem como a com- preensão comum de seus conteúdos. No longo prazo, pode-se economizar muito tempo se o estilo de apresentação dos itens for especificado em detalhes desde o início. O gerente de desenvolvimento de teste deve criar uma folha de estilo que especifique exatamente como os itens e os guias de pontuação devem ser apresentados. A folha de estilo deve cobrir todos os aspectos da dia- gramação, incluindo a seleção das fontes, o tamanho das fontes, o uso de recuos, a colocação de títulos e todos os tipos de detalhes que precisam ser incluídos, como visto no exemplo do Quadro 3.20. QU A D R O 3 . 2 0 Exemplo de Folha de Estilo para Elaboradores de Itens TRADIÇÕES PASCAIS (título, Arial 16 em negrito) Questão 1: Tradições Pascais (subtítulo, Times New Roman 12 em negrito) O que as pessoas deram umas às outras no Domingo de Páscoa? (questão, Times New Roman 12 em negrito) (instrução para publicação em itálico e entre parênteses) Tipo de texto Formato do item Processo Informação Fechado Recuperação (tabela com 3 colunas e 2 linhas: títulos das colunas, Times New Roman 12 em negrito; corpo da tabela, Times New Roman 12 sem negrito) Guia de pontuação (subtítulo, Times New Roman 12 em negrito) 1 ponto: refere-se a ovos (Times New Roman 12 em itálico) y Deram-se ovos de presente. (marcador, Times New Roman 10) y Decoraram ovos. 0 ponto: refere-se a panquecas, a outra coisa ou vago y panquecas. y Deram-se outras coisas. Esse guia mostra que os elaboradores de itens têm de dar à sua uni- dade um título usando Arial 16 em negrito com maiúsculas. O restante do texto do item é em Times New Roman. A maior parte é em tipo 12. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 59 A questão deve ser intitulada, em negrito, “Questão 1”. O nome da unidade deve vir em seguida, conforme mostrado. O item e o espaço para a resposta do aluno ficam abaixo da questão. O elaborador de itens insere e completa uma tabela para mostrar o tipo de texto, o formato do item e o processo que os alunos usam para responder. O guia de pontuação é intitulado conforme se mostra. Os critérios para a pontuação são mostrados em itálico, e os exemplos de respostas dadas pelos alunos são recuados, destacados com marcadores em tipo 10. Seguindo o guia, os elaboradores de itens podem ajudar a garantir que o pré-teste e os itens finais sejam preparados de maneira consistente, funcional e eficiente. Os elaboradores de itens precisam receber um retorno claro e regu- lar, bem como instruções construtivas a respeito dos próprios itens e de como correspondem à tabela de especificações. Desse modo, pode- rão aprender com seus erros, desenvolver suas habilidades e refinar seus itens. Os elaboradores de itens precisam reunir-se de modo regular e frequente em painéis de itens para analisar seu trabalho. O gerente de testes deve estar preparado para substituir elaboradores que não sejam capazes de desenvolver itens de alta qualidade após um período razoável de treinamento. PAINÉIS DE ITENS Um painel de itens consiste em um pequeno grupo (entre três e seis) de elaboradores de itens que revisam, em conjunto, o material desenvol- vido por um deles ou por mais de um. O objetivo do painel é aceitar, modificar ou rejeitar o material. A abordagem de equipe, que é parte do processo de controle de qualidade, ajuda a obter múltiplas perspectivas de itens individuais. A menos que os elaboradores de itens sejam alta- mente experientes, os itens ainda passam por uma revisão considerável depois do painel de revisão. Os membros do painel devem preparar suas críticas antes do encon- tro do painel de itens. Devem ter bastante tempo para examinar os itens e anotar sugestões de aprimoramento. 60 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL O painel deve criticar cuidadosamente o material de estímulo – con- texto, conteúdo, fraseado, linguagem, diagramação e ilustrações – para se certificar de que todos os aspectos do estímulo sejam relevantes para a tabela de especificações, de que vale a pena incluí-los no teste e de que sejam claros e concisos. Depois disso, devem-se examinar detalhadamen- te todos os itens para garantir que o fraseado esteja sem ambiguidade e o formato adequado e que o item claramente se refira a habilidades e áreas de conteúdo especificadas na tabela de especificações. O conjunto de itens também é examinado para se avaliar em que medida o equilíbrio geral dos itens reflete a tabela de especificações. Os membros do painel devem explorar todas as possibilidades de melhorar o estímulo e os itens e, onde necessário, sugerir novos itens. Durante o painel de itens, os elaboradores de itens devem explicar seu trabalho e estar preparados para aceitar críticas construtivas. O líder do pai- nel deve se certificar de que existe ampla concordância sobre as mudanças a serem feitas em itens individuais. Os elaboradores de itens devem docu- mentar as mudanças sugeridas e, em seguida, fazer a revisão dos itens. Pode haver necessidade de um especialista em idiomas nos painéis nos quais os elaboradores de itens estejam elaborando testes em outro idioma que não o seu primeiro idioma. O especialista em idiomas precisa ter uma boa compreensão das habilidades linguísticas da população-alvo do teste. Um especialista nas disciplinas poderia ser incluído no painel, espe- cialmente se a área de conteúdo for complexa. Pode ser útil envolver um desses especialistas em alguns painéis para esclarecer questões de conteúdo, mas esse envolvimento talvez não precise ser contínuo. Não é provável que o especialista no tema esteja preocupado com os pequenos detalhes da elaboração de itens. É aconselhável que os painéis de itens não incluam formuladores de políticas nem principais interessados. Os pequenos detalhes sobre os quais o painel delibera não são atribuições suas. Os membros do painel devem considerar todos os aspectos de um item: y Está sendo avaliado o conteúdo certo? y O formato do item está adequado para os alunos que serão testados? DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 61 y O item tem substância ou é trivial? y O item tem um fraseado claro e sem ambiguidade? y Existem erros de soletração ou palavras faltando? y Se o item é de múltipla escolha, as opções são semelhantes e signifi- cativas? y Se o item é de múltipla escolha, a resposta correta pode ser obtida, claramente e sem ambiguidades, da informação dada (o comando, o material de estímulo ou ambos)? y O formato do item está atraente e bem organizado? y O grau de dificuldade da maior parte dos itens permitirá que apro- ximadamente 40% a 80% dos alunos testados deem uma resposta correta? y Se o item requer pontuação de crédito parcial, cada pontuação tem a probabilidade de atrair pelo menos 10% dos respondentes? y O item parece ser desprovido de tendenciosidade e justo para os prin- cipais subgrupos da população-alvo? O painel também deve considerar formas de aprimorar o item: y Encurtando-o. y Acrescentando mais informação. y Mudando expressões ou o fraseado. y Acrescentando um diagrama ou imagem. y Dando a ele um novo formato de item. Os elaboradores de itens devem receber retornos regulares e frequen- tes desde o momento em que começam a desenvolver os itens. Os painéis de itens devem se reunir pelo menos uma vez por semana, se possível. A revisão do material pode ser uma tarefa complexa. O painel precisa de um líder para garantir que as recomendações sejam unânimes e que se alcance um consenso sobre as mudanças a serem feitas. O elaborador de itens não é a pessoa adequada para decidir quais mudanças adotar ou quais sugestões ignorar. As recomendações do líder do painel devem ser exatas o bastante para que os elaboradores de itens tenham clareza sobre quais mudanças fazer. 62 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL Às vezes, o trabalho de refrasear itens de outras pessoas pode gerar intensas discussões. O líder do painel deve focalizar a discussão no apri- moramento dos itens e garantir que o painel trabalhe construtivamente para alcançar seu objetivo. Todos os membros do painel, incluindo os elaboradores de itens ex- perientes, devem ter seu trabalho revisto. É normal que surjam sugestões para amplas revisões, especialmente no caso do trabalho de elaboradores ainda sem muita experiência. A crítica de itens não deve ser vista como direcionada a uma pessoa. Os elaboradores de itens que não conseguem se engajar em discussões intensas e refrasear seus itens devem ser subs- tituídos. OUTROS REVISORES O grupo de especialistas ou de principais interessados deve ter várias oportunidades de rever o conjunto de itens durante o trabalho de de- senvolvimento de itens. Esse procedimento pode ajudar a garantir que os itens do teste sejam de boa qualidade e consistentes com a tabela de especificações. O gerente de desenvolvimento de teste em geral apre- senta todos os itens, ou uma seleção deles, a um grupo de referência selecionado para esse propósito. A primeira revisão com o grupo de referência deve ocorrer razoavel- mente no início do processo de desenvolvimento de itens, para garantir que os elaboradores de itens estejam trabalhando na direção certa. O grupo de referência pode sugerir refinamentos em alguns aspectos da tabela de especificações, especialmente se os elaboradores de itens esti- verem tendo dificuldade para seguir algumas especificações. Os elabo- radores de itens também podem necessitar de instrução mais específica sobre materiais aceitáveis e inaceitáveis. Normalmente, faz-se uma revisão depois de completada a elaboração preliminar de todos os itens para garantir que os principais interessados os aprovem antes da realização do pré-teste. Uma revisão final permite que os principais interessados aprovem a seleção de itens para o formu- lário final do teste. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 63 RASTREAMENTO DE ITENS O rastreamento de itens é fundamental. Cada item deve ter um título exclusivo que possa ser rastreado em cada etapa, desde o pré-teste até a análise. O número de itens que precisa ser desenvolvido é de aproximada- mente 2,5 vezes a 3 vezes o número requerido para o formulário final do teste. Em geral, é necessário produzir diversos cadernos de pré-teste para cada série escolar. Alguns dos mesmos itens devem aparecer em diferentes cadernos. Isso permite que todos os itens do pré-teste sejam ligados à mesma escala e possam ser comparados. O título de cada item tem de ser independente da ordem do item no caderno, de modo que aqueles duplicados em diferentes cadernos e os exclusivos possam ser claramente identificados. O rastreamento de itens na etapa de análise pode ser complicado. Pode ser muito difícil acompanhar um item se o analista deixar de dar um título exclusivo a ele. O tipo de software utilizado pode complicar ainda mais o problema. O software em geral numera os itens automa- ticamente. Se alguns itens forem eliminados durante a análise do pré- -teste, o software renumerará os itens; desse modo, o número de um item na análise talvez não corresponda mais ao número na análise inicial ou ao número no caderno de prova. A atribuição de um título único e exclusivo a cada item no caderno de prova e em cada uma das análises ajudará a evitar esse problema. O título de um item deve ser o mais significativo possível. O gerente de desenvolvimento de teste deve se coordenar com o analista de dados para estabelecer quantos caracteres podem ser usados num título. Paco- tes de software de análise têm limites diferentes. A seguinte convenção para titulagem é utilizada por uma agência de testes num teste de leitu- ra, escrita e matemática aplicado ao longo de vários anos: y O primeiro caractere é L, M ou E para Leitura, Matemática ou Escrita. y Caracteres 2 e 3 indicam o ano em que o item foi aplicado (por exem- plo, 07 para 2007). y Caracteres 4, 5 e 6 significam o item (começando com 001). 64 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL Por exemplo, M06003 indica que o item é de um teste de matemáti- ca aplicado em 2006 e é o terceiro no conjunto de itens. Os itens devem receber um título durante o desenvolvimento. O mesmo título deve ser impresso nos cadernos de pré-teste e nos formulá- rios finais. Os títulos podem ser impressos num tipo pequeno em escala cinza, na margem oposta ao número dos itens nos cadernos de prova, como mostrado a seguir: M06003 5 Complete esta soma. 6 + 7 = ________ É essencial manter a história completa de cada item desenvolvido. O analista de dados precisa de um registro das chaves para itens de múl- tipla escolha e da localização dos itens nos cadernos de pré-teste. Com frequência, os relatórios devem conter informações sobre o formato dos itens e os processos que cada item avaliou. O gerente de desenvolvimen- to de teste deve criar e manter uma planilha para manter um registro de cada item, de suas classificações e de sua situação, bem como de quais- quer mudanças que possam ter sido feitas no item. O exemplo a seguir mostra alguns títulos contidos numa planilha que registra todos os itens de leitura para um teste: y nome da unidade nome dado à unidade (por exemplo, “Carros de corrida”) y título do item título de seis dígitos (por exemplo, L06003) y conteúdo do item fraseado da questão do teste y situação atual descrição indicando se o item está disponível para uso (por exemplo, liberado como um item de prática, rejeitado pelo cliente, per- missão de direitos autorais recusada) y chave resposta correta a uma questão de múltipla escolha y pontuação máxima número máximo de pontos naquele item y tipo de texto gênero do texto (por exemplo, narração, infor- mação) DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 65 y formato do item formato da questão do teste (por exemplo, múltipla escolha) y processo processo cognitivo (por exemplo, recupera- ção de informação) y notas da análise mudanças feitas no item depois do pré-teste Os itens devem ser armazenados num local seguro. Todos os mate- riais relevantes associados ao desenvolvimento de uma unidade ou de um item devem ser armazenados com aquele item. Mesmo o material que não foi usado no pré-teste deve ser mantido, porque poderá ser usa- do mais tarde na mesma série ou em outras. A fonte de documentos ou ilustrações deve ser registrada e armazenada com a unidade ou o item, para que se possa pedir permissão para reprodução, se necessário. De- vem ser mantidas cópias de documentos originais, de modo que quais- quer modificações subsequentes possam ser identificadas. A maior parte dos itens pode ser armazenada eletronicamente. Como medida de precaução, deve-se manter o backup dos arquivos de itens em outro computador ou em outro disco. O título correto e uma classifi- cação completa e acurada ajudam a garantir que os itens estejam arma- zenados nas pastas adequadas do computador e possam ser recuperados facilmente por outras pessoas. Os itens tendem a sofrer constantes revi- sões, inclusive mudanças nos guias de pontuação e em ilustrações, bem como pequenos aprimoramentos no fraseado. A última versão do item deve ser facilmente identificável a partir da informação contida na pasta do arquivo. NOTAS 1. Para informação adicional sobre a construção de itens de teste, ver Chatterji (2003), Haladyna (1999), Kubiszyn e Borich (2000) e Linn e Miller (2004). 2. A Avaliação Nacional do Progresso Educacional dos Estados Unidos inclui um com- ponente de escrita (Conselho Diretor da Avaliação Nacional, s.d.). CAPÍTULO 4 PRÉ-TESTE DE ITENS A construção de testes para uma avaliação na- cional usa, na maior parte dos casos, a tec- nologia que tem sido desenvolvida para o desenho de testes destinados a avaliar e divulgar o aproveitamento de alunos individuais. Como esses testes são usados para discriminar entre desempenhos de alunos, todos os alunos farão basicamente o mesmo tes- te. O objetivo de uma avaliação nacional é bastante diferente: não se tra- ta de discriminar entre alunos, mas de descrever à medida que os alunos num sistema educacional como um todo (ou em partes dele claramente definidas) adquiriram os conhecimentos e habilidades prescritos em um currículo. Para fazer isso, o teste deve fornece uma cobertura adequada do currículo, o que pode requerer que se trabalhe com uma amostra do conteúdo do currículo muito maior que a usada em testes destinados a avaliar alunos individualmente. A necessidade de uma ampla cobertura do currículo é reforçada quando uma avaliação busca identificar áreas de currículo em que os alunos apresentam pontos fortes e pontos fracos. Para lidar com essas questões, muitas avaliações nacionais e interna- cionais usam um número muito maior de itens que o utilizado em um teste concebido para avaliar alunos individualmente. No entanto, para evitar pôr um peso muito grande sobre os alunos individualmente, cada 68 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL um responde a apenas uma parcela do número total de itens numa ava- liação. Assim, é preciso fornecer vários conjuntos alternativos de itens no planejamento de cadernos que passam de um aluno a outro. O nú- mero exato varia de uma avaliação nacional para outra. Essa abordagem, embora desejável em muitos sentidos, traz consi- go diversas complicações para a aplicação de uma avaliação nacional. Em primeiro lugar, o desenho do teste é complexo, porque é necessário garantir a superposição e a correspondência de itens de diferentes su- bamostras. Segundo, a aplicação é mais complexa porque é necessário garantir que os alunos recebam os cadernos certos e que as instruções dadas sejam adequadas para todos os cadernos. Finalmente, a combina- ção de dados de múltiplos conjuntos de itens requer procedimentos es- tatísticos relativamente complexos. Por todas essas razões, muitos países em desenvolvimento não têm usado cadernos de teste que passam de um aluno a outro em suas avaliações nacionais. A maior parte dos comentários nas páginas seguintes e também no Capítulo 5 aplica-se tanto a situações em que uma equipe de avaliação nacional usa múltiplos cadernos de prova quanto àquelas em que se opta por um único caderno de prova para medir o aproveitamento do apren- dizado numa área temática. As duas abordagens requerem que se dê grande atenção à realização de um cuidadoso pré-teste. O pré-teste, ou teste-piloto, é um elemento essencial do desenvolvi- mento do teste. Um pré-teste é aplicado a alunos com as mesmas características da- queles que farão o teste final. Devem ser incluídas escolas de diferente tamanhos, em diferentes áreas, com alunos de variados contextos socio- econômicos. Idealmente, o pré-teste é realizado um ano antes do teste, na mesma época em que se fazem as provas finais. Por exemplo, o pré- -teste poderia ser dado aos alunos da 5a série em novembro de 2010 e o teste final aos alunos da 5a série, em novembro de 2011. Na prática, esse cenário talvez não seja possível, e o pré-teste poderia ser realizado com alunos que têm alguns meses a mais ou a menos de experiência es- colar que a população-alvo. Por exemplo, alunos da 6a série podem pas- sar por um pré-teste no início do ano escolar para fornecer dados a um teste que será aplicado aos alunos da 5a série no final do ano escolar. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 69 Os alunos que participarem do pré-teste não devem fazer o teste fi- nal. Se o teste final for aplicado a uma amostra aleatória estatisticamente selecionada, a amostra final deve ser extraída antes da seleção de escolas para o pré-teste. É boa prática fazer o pré-teste de um número de itens que seja duas ou três vezes o número requerido para o teste final. A extensão de cada formulário do pré-teste deve ser semelhante à do teste final. É útil dar títulos aos formulários em ordem alfabética de acordo com a série; por exemplo, cinco formulários da 3a série receberiam títulos 3A, 3B, 3C, 3D e 3E, e cinco formulários da 8a série seriam 8A, 8B, 8C, 8D e 8E. Vários formulários de pré-testes serão necessários para cada sé- rie. Idealmente, os formulários para cada série devem ser distribuídos aleatoriamente em cada classe. Se forem usados três formulários para a 5a série (5A, 5B e 5C), cada escola deve receber uma combinação de todos os três formulários. Se não for possível seguir esse procedimento, é importante garantir que cada formulário seja distribuído em todos os segmentos do pré-teste da amostra. Por exemplo, o formulário 5A não deve ser dado apenas a alunos da cidade; o formulário 5B, somente a alunos das áreas rurais do norte; e o formulário 5C, apenas a alunos das áreas rurais do sul. Os formulários devem ser tão equivalentes quanto possível à tabela de especificações do teste. A ligação dos formulários do pré-teste é essencial para que os itens possam ser comparados. A ligação significa que parte dos mesmos itens aparece em diferentes formulários. Alguns formulários de pré-teste ine- vitavelmente serão mais difíceis que outros. Ao ligar os formulários, a dificuldade geral dos itens pode ser determinada independentemente do formulário no qual apareceram. É necessário fazer a ligação horizontal quando se testar apenas uma série. A ligação vertical será requerida se mais de uma série estiver sendo testada. Um mínimo de 200 alunos deve tentar todos os itens do pré-teste em cada série. Se existirem três formulários de pré-teste para a 5a série, então pelo menos 600 alunos farão o pré-teste. Dos 200 alunos que farão cada item do pré-teste, pelo menos 150 respostas são necessárias. Inevitavelmente, alguma perda de dados ocorrerá durante o pré-teste. Por qualquer razão inesperada, uma escola pode se retirar do programa 70 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL de pré-teste no último minuto ou aplicar o teste a um número de alunos menor que o previsto. Também é improvável que todos os alunos ten- tem todos os itens do pré-teste. Dado que o pré-teste deve ser realizado sob as mesmas condições do teste final, o tempo de que os alunos dispõem para fazer o teste deve ser o mesmo que terão no teste final. Talvez não se saiba o número de itens que os alunos podem completar no tempo permitido. Se for esse o caso, então se deve montar um formulário com uma amostra dos itens do pré- -teste e aplicá-lo em algumas classes antes que o pré-teste seja montado. Com isso, será possível garantir que o número de itens em cada formu- lário do pré-teste seja realista. Uma avaliação nacional não é um teste de velocidade. A maior parte dos alunos deve ter tempo de tentar a maior parte dos itens. Deve-se tentar completar todos os pré-testes no período de duas a três semanas. O pré-teste fornece a oportunidade de se avaliarem a adequação e a qualidade dos itens. Também permite que muitos aspectos da aplicação do teste sejam ajustados. Os aplicadores do pré-teste deverão fornecer as seguintes informações: y Os alunos tiveram suficientes questões de prática, com instruções e explicações suficientemente claras? y O tamanho do teste foi adequado ou muito longo? E aproximada- mente quantos alunos terminaram 10 minutos mais cedo? y Os alunos pareciam atraídos pelo teste? y Os alunos dispunham de recursos suficientes, como lápis e borrachas? y As instalações da escola eram adequadas para a realização de um teste? y Os professores e alunos compreenderam o objetivo do teste? DESENHO DO FORMULÁRIO DO PRÉ-TESTE A análise dos dados do pré-teste fornece a base para a seleção dos itens que entrarão no teste final. Muitas avaliações nacionais preparam dife- rentes formulários de cadernos de prova associados a cada série. Essa DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 71 abordagem ajuda a conseguir uma cobertura do currículo maior que no caso de um teste único e, ao mesmo tempo, ajuda a garantir que os alunos não sejam submetidos a testes excessivamente longos. A diagra- mação e a ligação do teste devem ser feitas de forma adequada, para garantir que os dados possam ser combinados em uma única escala. O analista de dados, o estatístico ou o principal profissional de computação precisam estar envolvidos no desenho do pré-teste para garantir a obser- vação das exigências relativas aos dados. Formulários ligados partilham itens comuns. Em geral, são requeridos entre 8 e 10 itens comuns. Existem vários modos de ligar os formulários. Com um único conjunto comum de itens de ligação, os mesmos 8 a 10 itens de ligação são repetidos em cada formulário. Observe que, se os itens de ligação têm um desempenho fraco na análise (com característi- cas estatísticas ruins), a ligação dos formulários será fraca e a qualidade geral da análise, consequentemente, será enfraquecida. O segundo modo é a ligação circular. Diferentes conjuntos de itens são usados entre pares de formulários. Por exemplo, o formulário 3A pode ser ligado ao formulário 3B por meio do conjunto X de itens, o formulário 3B ao formulário 3C por meio do conjunto Y de itens, e o formulário 3C ligado, por sua vez, ao formulário 3A por meio do con- junto Z de itens. Cada formulário também contém itens exclusivos que não aparecem em nenhum dos outros (Figura 4.1). Um terceiro modo é a ligação linear, que segue o modelo de ligação circular, sem, no entanto, excluir o conjunto Z de itens. Assim, o for- FIGURA 4.1 Exemplo de Ligação Circular de Itens Formulário 3A Formulário 3B Formulário 3C conjunto de itens X conjunto de itens X conjunto de itens Y conjunto de itens Z conjunto de itens Y conjunto de itens Z conjunto de itens conjunto de itens conjunto de itens exclusivo de 3A exclusivo de 3B exclusivo de 3C Fonte: Criação dos autores. 72 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL mulário 3A seria ligado ao 3B, e o 3B ligado ao 3C, mas não haveria qualquer ligação entre os formulários 3A e 3C. Se não estiver claro qual será o desempenho dos itens, é preferível usar a ligação circular e um número maior de itens de ligação que o ne- cessário. Na ligação circular, mesmo que falhe um conjunto de itens de ligação, as ligações entre os formulários serão preservadas. As ligações podem ser tanto horizontais (em uma única série) quan- to verticais (em diferentes séries – por exemplo, entre a 3a e a 5a séries). Se não se pretende estabelecer uma ligação vertical entre os formulá- rios finais, então as ligações no pré-teste devem enfatizar fortes liga- ções horizontais. Podem ser incluídas ligações verticais mínimas para permitir a comparação de dados do pré-teste entre diferentes séries. Tecnicamente, são necessários apenas 8 ou 10 itens em comum entre as séries. Estimar o que define um bom item de ligação vertical é mais difícil que estimar o que define uma boa ligação horizontal. Como se trata de um pré-teste e como a qualidade dos itens de ligação é des- conhecida, é aconselhável ter pelo menos 16 itens de ligação vertical distribuídos por cada formulário. Quando se pretende que os formulários finais sejam ligados vertical- mente, é importante ter muitos mais itens de ligação vertical no pré-teste que o requerido no teste final, de modo que os melhores itens de ligação possam ser selecionados para o formulário final. Um modelo alternativo de pré-teste para formulários finais com ligação vertical é mostrado na Figura 4.2. O modelo se baseia na distribuição aleatória de formulários A, B e C em cada classe. Neste exemplo bastante elaborado, os formulários 3A, 5A, 7A e 10A são ligados verticalmente, de forma linear, a um conjunto de 8 a 10 itens. Os itens são ligados de modo semelhante nos formulários B e C. Existem, ao todo, 8 a 10 itens de ligação horizontal entre os formulários A e B da 3a série e da 7a série e, ao todo, 8 a 10 itens de ligação hori- zontal entre os formulários B e C da 5a série e da 10a série. Esse número de ligações horizontais é aceitável. Se os formulários de teste não serão distribuídos aleatoriamente dentro de cada classe, ou se os elaboradores de itens não estiverem seguros quanto à qualidade dos itens de ligação horizontal, devem ser incluídas mais ligações horizontais em cada série. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 73 FIGURA 4.2 Modelo para Ligação Vertical de Itens 4 a 5 itens 3ª série 3ª série 3ª série comuns a Formulário A Formulário B Formulário C 3A e 3B 8 a 10 itens 8 a 10 itens 8 a 10 itens comuns a comuns a comuns a 3A e 5A 3B e 5B 3C e 5C 4a5 itens 5ª série 5ª série 5ª série comuns Formulário A Formulário B Formulário C a 5B e 5C 8 a 10 itens 8 a 10 itens 8 a 10 itens comuns a comuns a comuns a 5A e 7A 5B e 7B 5C e 7C 4 a 5 itens 7ª série 7ª série 7ª série comuns a Formulário A Formulário B Formulário C 7A e 7B 8 a 10 itens 8 a 10 itens 8 a 10 itens comuns a comuns a comuns a 7A e 10A 7B e 10B 7C e 10C 4a5 itens 10ª Série 10ª série 10ª série comuns Formulário A Formulário B Formulário C a 10B e 10C Fonte: Criação dos autores. Os itens de ligação devem ser localizados perto do começo ou no meio dos formulários de teste, em vez de no final, para evitar que os alunos não respondam aos itens. Os itens de ligação devem ser localiza- dos numa ordem semelhante em cada um dos cadernos e também nos cadernos de prova. Isso evita que diferenças no desempenho dos alunos possam ser atribuídas à ordem ou à posição dos itens. Pequenas diferen- ças na localização dos itens de ligação são inevitáveis. Grandes diferenças devem ser evitadas. Os itens de ligação devem ficar na faixa média de dificuldade. Em geral, os alunos com habilidade média na população-alvo devem ter de 40% a 60% de probabilidade de responder a esses itens corretamente. Como se trata de um pré-teste, a dificuldade dos itens para a população 74 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL do pré-teste não será conhecida; os elaboradores de itens terão de fazer a melhor estimativa possível do grau de dificuldade. Se não tiverem cer- teza da exatidão de suas estimativas, é aconselhável aumentar o número de itens de ligação. Se os itens estiverem organizados em unidades, é melhor ligar os for- mulários com itens tirados de duas ou mais unidades, caso os itens as- sociados a uma delas não funcionem bem. Não é necessário usar todos os itens de uma unidade para fazer a ligação; alguns itens podem ser comuns e outros exclusivos, como mostrado na Tabela 4.1. Ambas as unidades, “Encontrando um animal de estimação” e “Monte Avarapa”, aparecem nos formulários 3A e 3B da 3a série. Há três itens comuns a cada unidade e a cada formulário. O pré-teste tem itens adicionais ex- clusivos. TABELA 4.1 Itens de Ligação em Duas Unidades de Leitura Itens comuns a Itens exclusivos Itens exclusivos Unidades de Leitura 3A e 3B de 3A de 3B “Encontrando um Animal 3, 4, 6 2, 7 1, 5 de Estimação” “Monte Avarapa” 1, 2, 5 3 4 Fonte: Criação dos autores. Se o pré-teste incluir uma combinação de formatos de itens, os itens de ligação devem refletir essa combinação. Os itens devem ter títulos exclusivos impressos em escala cinza pró- ximos ao item em cada formulário de teste no qual apareça o item. Itens com o mesmo título devem ser idênticos em todos os aspectos, exceto em sua ordem de aparecimento num formulário de teste. Itens com li- geiras variações em seus fraseados devem ter títulos diferentes. Os elaboradores de itens devem criar uma planilha com uma lista de todos os itens; títulos separados devem mostrar quais itens aparecem em quais formulários e em que ordem. A Tabela 4.2 mostra parte de uma planilha de amostra que cobre três unidades (“Cachorros”, “Elisa” e “Bang”) de um teste de leitura da 5a série. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 75 TABELA 4.2 Parte de uma Planilha para Rastrear Itens em Diferentes Formulários Nome da Título Formulário Formulário Formulário Formulário unidade do item 5A 5B 5C 5D “Cachorros” R070101 1 1 4 4 “Cachorros” R070102 3 3 5 5 “Cachorros” R070103 2 “Cachorros” R070104 2 “Elisa” R070201 1 “Elisa” R070202 2 1 “Elisa” R070203 3 2 “Elisa” R070204 3 “Bang” R070301 4 6 “Bang” R070302 5 7 Fonte: Criação dos autores. Os itens de três unidades aparecem à esquerda. Os números nas colu- nas mostram a ordem em que aparece cada um desses itens em cada um dos formulários de pré-teste. Os primeiros dois itens em “Cachorros” são comuns aos quatro formulários. IMPRESSÃO E REVISÃO DO PRÉ-TESTE Cada item submetido a um pré-teste deve aparecer tal como aparecerá no formulário final. Assim também, materiais de estímulo, gráficos e ilustrações devem ser apresentados como se pretende que apareçam no teste final. Idealmente, a ordem de aparecimento dos itens de ligação deveria ser idêntica, mas, na prática, pode variar ligeiramente. O material de estímulo para itens de leitura deve aparecer (a) na mesma página que os itens ou (b) no lado esquerdo da página, ficando os itens no lado direito da página, para permitir que os alunos passem com facilidade dos itens para o texto. A página de rosto do caderno de pré-teste não precisa conter to- dos os detalhes exigidos no formulário final. Deve pedir informações 76 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL sobre escola do aluno, série, gênero, primeiro idioma e idioma falado na família, e idade. Como, de maneira geral, os dados do pré-teste não são divulgados, não há necessidade de obter os nomes dos alunos no pré-teste. Alguns detalhes relativos a características sociocultu- rais são necessários no formulário final e podem não ser exigidos no pré-teste. A diagramação dos itens deve ser consistente em todos os formulários de teste. A seguinte lista de verificação pode ser útil durante a preparação ou a revisão da impressão dos materiais do pré-teste: y Títulos (grandes e claros). y Margens – superior, inferior, esquerda e direita (consistentes). y Numeração das páginas (consistente). y Números dos itens (grandes e claros). y Títulos dos itens (aplicados). y Linhas para os alunos escreverem as respostas (claras e de compri- mento adequado). y Fraseado dos itens (tipo tamanho 12 ou 14). y Número de palavras por linha (10 a 12). y Material de estímulo (claro, preferentemente num tipo diferente do usado nos itens). y Material de estímulo e itens associados (na mesma página ou na oposta). y Cabeçalhos e legendas (consistentes e úteis). y Verificação da soletração (feita). Alguns testes incluem opções de pontuação em escala cinza. Por exemplo, 0 ou 1 poderiam ser dados para um item a ser pontuado incorreto ou correto, respectivamente. A opção de pontuação para itens que não são mostram uma tentativa de resposta pelo aluno nor- malmente é 9, conforme visto no Capítulo 3. Os avaliadores podem simplesmente fazer um círculo em volta da pontuação adequada. A inserção de pontuações relembra aos avaliadores a gama de opções de pontuação. Todos os cadernos de prova e manuais de aplicação precisam passar por uma revisão detalhada e completa. Os revisores devem avaliar os DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 77 itens do teste como se eles mesmos estivessem respondendo às questões. Devem certificar-se de que o material atende aos seguintes critérios: y As instruções iniciais e os itens de prática estão claros e sem ambi- guidade. y Os itens estão claros e sem ambiguidade. y O material de estímulo está claro e é de leitura fácil. y As opções de múltipla escolha incluem uma resposta correta e outras opções que são todas claramente incorretas. y Cada uma das opções da múltipla escolha faz sentido. y Existe um espaço adequado para os alunos registrarem as respostas, quando solicitados. y O material de estímulo para leitura está na mesma página que os itens ou na página da esquerda, com os itens na página oposta à direita. y Os itens numa unidade são independentes; isto é, a resposta a um item não está dada no comando ou nas opções de outro item. y Os itens de ligação são idênticos. y Não existe qualquer erro de soletração ou gramatical. y A diagramação dos vários formulários de teste é consistente. A revisão é fundamental. Erros graves podem ocorrer e têm ocorrido em praticamente todas as etapas do processo de pré-teste. O pré-teste representará uma séria perda de tempo, esforços e fundos se contiver er- ros tipográficos e inconsistências. Isso reduz a utilidade dos dados, por- que itens incorretos do pré-teste não podem ser usados no formulário final do teste. Portanto, é importante usar revisores experientes e alocar tempo suficiente para a revisão. Os cadernos do pré-teste devem ser conferidos quando chegarem da impressão. Devem ser feitas conferências aleatórias de cada pacote ou caixa de cadernos para garantir o seguinte: y Todas as páginas foram impressas claramente. y As páginas estão na ordem correta. y As páginas não estão duplicadas. y A leitura de estímulo para cada unidade está na página correta. y As ilustrações estão claras. 78 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL Os cadernos de pré-teste devem ser impressos e conferidos bem antes de seu envio para as escolas. Essa providência dará tempo para reimpres- são, caso seja necessário. Como as tiragens para o pré-teste são, em geral, pequenas, a reimpressão, se necessária, custará relativamente pouco. REALIZAÇÃO DO PRÉ-TESTE Os alunos não devem ter qualquer dúvida sobre como apresentar suas respostas a cada item ou questão do pré-teste ou do teste final. Os tes- tes são projetados para testar o conhecimento de uma importante área do currículo – não as habilidades dos alunos de adivinhar como devem apresentar suas respostas. Os alunos devem receber oportunidades ade- quadas durante o pré-teste, tanto no começo do pré-teste quanto no início das seções dentro do pré-teste, para que façam os itens de prática. É particularmente importante dar um número adequado de itens de prá- tica (por exemplo, 3 ou 4) aos alunos de sistemas educacionais nos quais não exista uma tradição de testes do tipo múltipla escolha. O número de itens nos formulários de pré-teste pode ser igual ao dos formulários finais ou ligeiramente menor. É importante que todos os alunos tentem responder a todos os itens do pré-teste. Se o pré-teste for muito longo, ou se contiver muitos itens difíceis na parte final, então poucos itens do final do teste serão respondidos. Comece cada formulário com alguns itens fáceis, para que os alunos mais fracos sintam-se encorajados a tentar fazer todo o teste. Em geral, é desejável distribuir a dificuldade dos itens subsequentes de tal modo que os alunos persistam, em vez de abandonarem todo o teste quando se defrontarem com uma série de itens difíceis. Tente fazer com que a dificuldade geral de cada formulário do pré-teste seja basicamente igual. Evite que qualquer um dos formulários esteja cheio de itens difíceis, porque os alunos podem desistir. Se isso acontecer, os itens na parte final do formulário não terão dados suficientes para que se possa fazer uma boa análise do pré-teste. O pré-teste oferece a oportunidade de se experimentar versões alter- nativas de itens em diferentes formulários. Por exemplo, um item pode DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 79 ser testado como uma questão de múltipla escolha e como um item aberto (Quadro 4.1). Diferentes fraseados de itens abertos também podem passar por um pré-teste. Observe que versões alternativas de itens não devem ser usa- das como itens de ligação; itens de ligação devem ser idênticos. QU A D R O 4 . 1 Exemplo de um Item nos Formatos de Múltipla Escolha e Aberto 13 + 17 + 8 = (A) 28 (B) 30 (C) 38 (D) 110 OU 13 + 17 + 8 = _______ PONTUAÇÃO DO PRÉ-TESTE O objetivo de coletar dados de pré-teste é obter informações que aju- darão a selecionar itens de boa qualidade para o teste final. Em geral, as pontuações e os nomes dos alunos não precisam ser ligados. As princi- pais questões para pontuação do pré-teste são controle de qualidade e consistência no tratamento das respostas dos alunos. Todas as pontuações exigem procedimentos de controle de qualida- de. Em geral, é mais econômico fazer a pontuação do pré-teste e a en- trada de dados manualmente, porque o número de itens é manejável. Os avaliadores e o pessoal que faz a entrada de dados devem ser treinados adequadamente. O gerente de desenvolvimento de testes deve provi- denciar para que a qualidade dos trabalhos seja conferida duas vezes por dia, a fim de garantir consistência e confiabilidade. Essas conferências podem ser feitas com mais frequência nas etapas iniciais e talvez com menos frequência nas etapas mais avançadas se o trabalho de um avalia- dor for considerado satisfatório. Saber o percentual de alunos que não tentaram responder a itens do pré-teste fornece uma informação útil sobre como estruturar o formulá- rio final do teste. A seguir, as diretrizes gerais relativas a esta questão: 80 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL y Se 15% ou mais dos alunos não tiverem tentado responder a vários itens no final de um teste, o pré-teste pode ter sido muito longo. Considere fazer o teste final mais fácil, mais curto ou ambos. y Se 15% ou mais dos alunos não tiverem tentado responder a um item que não está no final do teste, pode haver algo errado na forma como o item foi apresentado ou ele pode ser muito difícil. Os alunos po- dem ter ignorado o item, não souberam como registrar sua resposta ou não compreenderam o fraseado. Considere rever e fazer o pré- -teste de um novo item. y Se certo grupo na população (por exemplo, 15% ou mais de meninas) não tiver tentado responder a um item que foi respondido pela maior parte dos alunos, o item pode ser tendencioso. Considere não incluí- -lo no teste final. y Se 15% ou mais dos alunos consistentemente não tentaram responder a itens num formato específico (por exemplo, itens abertos), esses alunos podem não ter compreendido como registrar suas respostas ou podem ter precisado de mais itens de prática para aprender a res- ponder a esse tipo de item. Considere acrescentar itens de prática adicionais ou faça uma amostra de itens desse formato e teste-os no- vamente. Em geral, pontuações em branco ou que não foram tentadas apare- cem como 9. Assegure-se de que nenhum item do teste tenha uma pos- sível pontuação correta de 9. Se isso ocorrer, pode-se usar X (ou outra letra do alfabeto) para denotar pontuações em branco. Pontuadores e avaliadores precisam ter clareza sobre as regras para pontuar as respostas em branco. Uma resposta em branco é, em geral, aquela em que o aluno não fez qualquer marca de lápis. Qualquer ten- tativa de responder a um item, ainda que ilegível ou ininteligível, é, em geral, tratada como resposta incorreta, e não em branco. Devem ser criados guias de pontuação para itens de múltipla escolha, a fim de permitir que o elaborador de teste ou o revisor obtenham o maior número possível de dados úteis de cada item. Um item de múltipla escolha com quatro opções, por exemplo, po- deria ser codificado como 1, 2, 3, 4, 8 ou 9. Podem ser usados números DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 81 adicionais para refletir mais opções. Os números 1, 2, 3 e 4 indicam a opção que o aluno selecionou. Um código 7 pode ser usado para mostrar que um aluno selecionou duas ou mais opções e possivelmente não com- preendeu como responder a um item de múltipla escolha. No Volume 4 desta série usamos o código 8 para indicar que o aluno não tentou o item e 9 para mostrar que aquele item não foi aplicado ao aluno (estava em outro formulário de teste) e, portanto, não deve ser pontuado como incorreto. Itens de múltipla escolha nunca devem entrar no computador como “correto” ou “incorreto”. O formato dos itens de múltipla escolha deve ter uma numeração-padrão implícita de 1 a 4 ou 5, dependendo do nú- mero de opções. O avaliador ou a pessoa que faz a entrada de dados simplesmente registra o número (implícito) da opção que o aluno selecionou para cada item de múltipla escolha. Nem o avaliador nem quem faz a entrada de dados têm necessidade de saber qual a opção correta ou se a resposta do aluno está certa ou errada. A entrada da folha de dados poderia se pare- cer com o exemplo da Quadro 4.2. QU A D R O 4 . 2 Exemplo de uma Folha de Entrada de Dados para o Pré-teste Ordem de aparecimento das Aluno Q1 Q2 Q3 Q4 questões no formulário do teste Almir Barros 2 3 2 1 Opções escolhidas por cada Míriam Campos 4 3 2 4 aluno para cada item Alberto Duarte 2 3 1 4 Fonte: Autores. O elaborador de itens tem de dar ao analista de dados uma lista das opções corretas, ou chaves, para cada item, enquanto o analista de da- dos as registrará no programa de software. O software de análise, então, computará cada resposta do aluno como correta ou incorreta, de acordo com a lista de chaves. 82 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL O conhecimento das opções incorretas selecionadas pelos alunos dá aos elaboradores de itens uma informação importante sobre a qualidade dos itens de múltipla escolha e sua possível utilidade para o formulário final do teste. Por exemplo, se quase nenhum aluno selecionar qualquer de duas opções incorretas, essas duas opções evidentemente não funcio- naram como distratores efetivos. Itens abertos e de resposta fechada são, em geral, pontuados com 0 (incorreto), 1 (correto) ou 9 (em branco). As questões de crédito parcial poderiam ser pontuadas com 0, 1, 2 ou 9. A pontuação manual de itens do pré-teste requer treinamento e con- trole de qualidade semelhantes à pontuação manual do teste final. Um elaborador de itens com experiência deverá fazer o treinamento e super- visionar a pontuação de itens do pré-teste. Em http://go.worldbank.org/ M2O1YDQO90, você encontra exemplos de guias de pontuação para itens abertos de linguagem, matemática e ciências. Os elaboradores de itens devem usar respostas do pré-teste para rever e refinar seus guias de pontuação e suas categorias de pontua- ção antes que comece a pontuação do pré-teste. Antes do início da pontuação manual, os elaboradores de itens devem extrair uma amostra de cadernos de prova completos do pré-teste e comparar as respostas efetivas dos alunos a itens de resposta curta com aquelas antecipadas no guia de pontuação. Os elaboradores de itens devem usar a amostra para incluir exemplos de respostas dos alunos em seus guias de pontuação. Os guias de pontuação devem incluir tanto res- postas incorretas quanto as corretas. O guia de pontuação de crédito parcial no Quadro 3.12 mostra exemplos de respostas reais de alunos que correspondem a cada uma das categorias do guia de pontuação, inclusive as pontuações zero. Os elaboradores de itens devem refinar ou expandir seus guias de pontuação para levar em conta a gama de respostas realmente dadas pelos alunos. Às vezes, essas revisões podem ser bastante amplas. Os alunos tendem a surgir com respostas não antecipadas, mas corretas, ou com formas não costumeiras, mas exatas, de expressar suas ideias. Tais exemplos devem ser acrescentados aos manuais de pontuação, se forem razoavelmente comuns. Se muitos alunos derem respostas de difícil clas- DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 83 sificação como corretas ou incorretas, os elaboradores de itens precisam deixar claro em seus guias de pontuação como fazer essas distinções. Um painel ou o gerente de desenvolvimento de teste devem rever os guias de pontuação antes que os cadernos do pré-teste sejam pontuados. Durante a pontuação manual, os elaboradores de itens devem receber retornos dos avaliadores a respeito de quaisquer outros aperfeiçoamen- tos que possam ser necessários no guia de pontuação. Se houver necessi- dade de revisões significativas em um item do guia, o item talvez tenha de ser repontuado, de acordo com o guia de pontuação revisto, para garantir a consistência. É essencial rever os guias de pontuação de forma que os critérios para pontuar e os exemplos dados correspondam à gama real de possí- veis respostas dos alunos. Se os guias de pontuação não forem revistos, alguns itens serão perdidos, porque nenhuma das respostas dos alunos pode atender às excessivas demandas do guia. A pontuação de outros itens pode ser não confiável porque os avaliadores, não sabendo como pontuar as respostas que não se enquadram nas diretrizes de pontuação, terão de tomar as próprias decisões individualmente. Em geral, pontuações mais altas para questões de crédito parcial indi- cam uma resposta mais sofisticada ou extensa. Uma pontuação 2 sugere uma resposta “melhor” que uma pontuação 1. Dados de crédito parcial do pré-teste podem ser usados para colher informação sobre categorias de respostas dos alunos, e isso pode ajudar a refinar itens do pré-teste ou os guias de pontuação. As respostas a um item de crédito parcial do pré- -teste podem ser codificadas como 0, 1, 2 ou 3, embora essas pontuações possam não ser hierárquicas. Nesses sistemas de pontuação não hierár- quicos, uma pontuação 3 não é considerada mais sofisticada que uma pontuação 2 ou 1. Cada pontuação 1, 2 e 3 denota um tipo de resposta correta, mas diferente. Por exemplo, pode haver três diferentes modos de resolver um problema de matemática. O guia de pontuação pode ser bastante complexo de modo a permitir essas três possibilidades. Se todos os alunos do pré-teste escolherem o mesmo método, o elaborador de itens poderia rever o guia de pontuação para se concentrar no método mais popular, com uma breve referência às outras possibilidades. O guia de pontuação seria revisto para o teste final, mostrando uma pontuação 1 84 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL para a resposta correta, independentemente do método usado para re- solver o problema. Os elaboradores de itens devem informar ao analista de dados quando itens de crédito parcial são usados para indicar categorias, em vez de hie- rarquias, pois isso permitirá que o analista diferencie entre as respostas. O analista pode atribuir uma pontuação 1 a cada categoria de resposta correta. Assim, é muito importante que os avaliadores compreendam quando estão pontuando itens hierárquicos de crédito parcial e itens de crédito parcial relativos a categorias. Todas as questões de crédito parcial no teste final devem ser tratadas como hierárquicas. O Volume 4 desta série tem uma seção especial sobre análise de da- dos do pré-teste. Nela, estão cobertas as duas abordagens de análise: a teoria clássica dos testes (TCT) e a teoria de resposta ao item (TRI). A TRI é frequentemente usada para analisar itens de teste, fazer a ligação de formulários de teste e desenvolver escalas para apresentar os resulta- dos de uma avaliação nacional (Beaton e Johnson, 1989); tem diversas vantagens quando usada para desenvolver escalas a partir dos dados da avaliação. A TRI permite que um item seja caracterizado independen- temente de qualquer amostra de indivíduos que tenha respondido a ele, assim como permite que um respondente individual seja caracterizado independentemente de qualquer amostra de itens aos quais tenha res- pondido. Assim, a TRI é particularmente útil quando múltiplos con- juntos de itens são aplicados aos alunos em uma avaliação. No entanto, também apresenta algumas desvantagens – em especial, a complexidade do procedimento, que requer níveis consideráveis de habilidade e expe- riência. Quando essas habilidades e experiências não estão disponíveis num país, a aplicação da teoria clássica dos testes pode ser vista como aceitável. CONFIABILIDADE Tanto o pré-teste quanto o teste final devem demonstrar evidências de que foi feito um teste de confiabilidade. Uma medida de confiabilidade é um indicador da consistência dos resultados do teste. A confiabilida- DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 85 de depende da qualidade dos itens do teste, do próprio teste, da forma como os testes foram aplicados, das características do grupo de alunos (como o grau de empenho com que fazem o pré-teste ou os testes de avaliação nacional) e da qualidade da pontuação dos itens do teste. A questão da confiabilidade está coberta no Volume 4 desta série. Os índices de confiabilidade do teste variam de 0 a 1; o 0 representa um teste no qual as respostas dos alunos são totalmente inconsistentes (por exemplo, um teste no qual todos os alunos dão respostas aleatórias a todos os itens), enquanto o 1 representa um teste que mede um domí- nio com consistência perfeita. O órgão implementador deve obter evidência do grau de confiabili- dade com que os itens individuais do pré-teste se correlacionam. Essa in- formação fornece uma medida da consistência interna dos itens do teste. Observe que essa abordagem presume que os itens selecionados meçam um único conceito ou traço, como habilidade matemática ou linguísti- ca. Normalmente, as equipes de avaliações nacionais e internacionais tendem a omitir itens que não sejam relativamente homogêneos, isto é, itens que não meçam um único conceito ou traço. A homogeneidade pode ser avaliada usando-se uma abordagem como alfa de Cronbach, as fórmulas 20 ou 21 de Kuder-Richardson, ou um coeficiente de con- fiabilidade split-half; todos eles encontrados no software de estatística SPSS©. Se o teste de avaliação inclui itens de resposta aberta ou livre, o órgão implementador deve definir que o método de pontuação é confiável. O órgão deve certificar-se de que cada avaliador ou corretor de itens aber- tos esteja treinado para julgar se as respostas de um aluno são aceitáveis. Tal treinamento exigirá que os avaliadores trabalhem com a equipe de desenvolvimento de teste para documentar a lista de respostas aceitá- veis e inaceitáveis para cada questão aberta. Depois do treinamento, pares de avaliadores trabalhando de forma independente devem pontuar cada item aberto de pelo menos 60 cadernos de prova do pré-teste se- lecionados aleatoriamente, e o percentual de concordância exata entre pontuadores para o conjunto geral de itens deve ser calculado. O órgão implementador deve pedir esclarecimentos aos elaboradores do teste nos casos em que os avaliadores tenham dúvidas quanto à aceitabilidade 86 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL de determinada resposta. Uma cuidadosa pontuação de itens abertos do pré-teste deve ajudar a garantir que haja pouco espaço para discordância sobre respostas aceitáveis e inaceitáveis durante a pontuação de itens numa avaliação nacional. Em http://go.worldbank.org/M2O1YDQO90, você encontra diversos exemplos de pontuação de itens abertos. CAPÍTULO 5 SELEÇÃO DE ITENS DO TESTE A seleção de itens do pré-teste para o teste final (coberta, em mais detalhes, no Vo- lume 4) depende, em primeiro lugar, e principalmente, do marco de referência, especialmente da tabela de especificações. Em segundo lugar, das propriedades de mensu- ração dos itens. Tipicamente, os seguintes critérios de seleção são adotados para cada item:1 y O item corresponde à tabela de especificações. y O percentual de alunos que acerta o item fica entre 40% e 80%. y O item mostra uma baixa taxa de respostas em branco. y O índice de discriminação (correlação entre a pontuação do item e a pontuação total do teste) é superior a 0,2. y A confiabilidade do teste é aprimorada com a inclusão do item. y A tendenciosidade do item está dentro de limites aceitáveis para os principais grupos de alunos. As seguintes considerações são específicas para itens de múltipla es- colha: 88 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL y O ponto bisserial para a chave é positivo e superior a 0,2. y Todos os distratores são plausíveis (isto é, foram selecionados por pelo menos 5% de alunos) e têm pontos bisseriais zero ou negativos. A Tabela 5.1 mostra o resultado típico de uma análise de um item de múltipla escolha. Estatisticamente, o item funciona bem. TABELA 5.1 Exemplo de Resultado da Análise de um Item de Múltipla Escolha Critério Opção A (0) B (0) C (0) D (1) Contagem 90 14 21 254 Percentual 23,7 3,7 5,5 67,0 Ponto bisserial −0,26 −0,21 −0,16 0,39 Habilidade média −0,02 −0,48 −0,14 0,54 Fonte: Criação dos autores. Os cabeçalhos da coluna mostram o número de categorias ou op- ções no item (A, B, C, D). A opção D é a chave, ou opção correta, e é mostrada com a pontuação 1 entre parênteses. As opções A, B e C são mostradas com pontuações 0 entre parênteses. A linha “Contagem” mostra o número de alunos que selecionaram cada opção; 254 alunos selecionaram a opção correta. A linha “Percentual” apresenta o percen- tual de dados (a contagem expressa como um percentual do número de alunos): 67% dos alunos selecionaram a opção correta. Esse resultado mostra que o item está dentro de uma faixa aceitável de dificuldade. O item é bastante fácil. Apenas 3,7% dos alunos selecionaram a opção B, o que sugere que essa opção é fraca ou implausível. A reelaboração dessa opção para torná-la mais plausível possivelmente poderia aprimorar o item; o item precisaria passar por um pré-teste mais uma vez. A linha se- guinte mostra o ponto bisserial para cada opção. O ponto bisserial para a resposta correta é 0,39. Os pontos bisseriais para as opções incorretas são todos negativos. Nos itens de múltipla escolha, o ponto bisserial para a chave é o mesmo que o índice de discriminação para o item. A última DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 89 linha mostra a habilidade média. A habilidade média dos alunos que selecionaram a opção correta é consideravelmente mais alta que a dos alunos que selecionaram as opções incorretas. Esse resultado também mostra que o item está funcionando bem. As seguintes considerações são específicas de itens abertos: y Se o item é pontuado dicotomicamente, o índice de discriminação (cor- relação entre a pontuação do item e a pontuação total) é superior a 0,2. y Se o item confere crédito parcial, a discriminação é positiva e supe- rior a 0,3. y Se o item é pontuado dicotomicamente, a maior parte dos itens deve estar na faixa de dificuldade de 40% a 80%. y Se o item confere crédito parcial, cada categoria de pontuação atrai pelo menos 5% de respostas. y Se o item confere crédito parcial, o percentual geral (calculado combi- nando-se as respostas a diferentes categorias parcialmente corretas) de alunos que conseguem acertar um item está na faixa de 40% a 80%. y Se o item confere crédito parcial, a habilidade média dos alunos cla- ramente decresce, da mais alta até a mais baixa categoria de respostas para questões de crédito parcial. Um resultado típico de uma análise de um item aberto de crédito parcial com boas estatísticas é mostrado na Tabela 5.2. Os títulos das colunas mostram as categorias de respostas dos alunos. Alunos que res- ponderam ao item incorretamente receberam pontuação zero. Uma res- posta parcialmente correta ganhou pontuação 1, enquanto a resposta totalmente correta recebeu pontuação 2. Respostas em branco são mos- tradas como 9 e também são pontuadas como zero. O índice geral de discriminação é 0,47, o que é alto. Observe-se que, para itens de crédito parcial, o índice de discriminação não é o mesmo que o ponto bisserial para a categoria de pontuação mais alta. A contagem e o percentual cor- retos são mostrados nas duas primeiras linhas. Praticamente a metade dos alunos que tentaram esse item deu uma resposta incorreta. Mais de 5% responderam a cada categoria de crédito parcial, o que sugere que vale a pena manter essas categorias. 90 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL TABELA 5.2 Exemplo de Resultado da Análise de um Item Aberto de Crédito Parcial Índice de Categoria de resposta dos alunos discriminação = 0,47 Critério 0 (0) 1 (1) 2 (2) 9 (0) Contagem 1.466 425 268 809 Percentual 49,4 14,3 9,0 27,3 Ponto bisserial 0,09 0,11 0,45 −0,48 Habilidade média −1,66 0,53 0,90 −1,90 Fonte: Criação dos autores. O ponto bisserial aumenta de zero até a pontuação 2, mostrando que as categorias estão tendo o desempenho esperado. A habilidade média dos alunos que receberam pontuações 2 é −0,9. Alunos que receberam pontuações 1 têm habilidade média de −1,53. A diferença é superior a 0,5 e sustenta a manutenção das duas categorias no guia de pontuação porque mostram alunos com habilidades bastante diferentes. O percentual de alunos que não tentaram responder a esse item é bastante alto: 27,3%. Esse número precisa ser considerado no contexto do padrão de itens em branco no conjunto do teste. Nesse caso, a maior parte dos itens abertos teve percentagens de respostas em branco acima de 20. O problema foi causado pela falta de familiaridade dos alunos com esses tipos de itens e pela relutância em respondê-los, e não por um problema específico com o item. O nível geral de dificuldade do teste final deve ser adequado ao seu objetivo. Um teste final concebido para monitorar o desempenho de todos os alunos na população-alvo deve ter uma gama de dificuldades que corresponda às habilidades da população. Avaliações desenhadas para objetivos diferentes, como identificar alunos que atendam a um padrão de referência predefinido, podem incluir itens muito fáceis ou muito difíceis, dependendo do nível em que se estabeleça o padrão de referência. Até o momento, a experiência adquirida no desenvolvimento de pré- -testes para uma avaliação nacional sugere que os elaboradores de itens tendem a desenvolver itens que, na média dos casos, são muito difíceis. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 91 Parte dessa tendência pode derivar de suas experiências anteriores com a elaboração de questões para exames públicos, em que as questões ten- dem a ser calibradas num nível de dificuldade relativamente alto. Além disso, muitos elaboradores de itens de pré-teste tendem a viver em áreas urbanas e não têm compreensão dos baixos níveis de aproveitamento que podem ser encontrados em áreas rurais remotas. Se muitos itens do pré-teste forem muito difíceis e se o pré-teste não tiver o número suficiente de itens fáceis que correspondam aos critérios da tabela de especificações, deve-se fazer outra rodada de pré-teste com um novo conjunto de itens mais fáceis. Do mesmo modo, se houver um número insuficiente de itens difíceis, será necessário um pré-teste adi- cional com itens mais difíceis. As pessoas que analisarão os dados do teste final também devem ana- lisar os dados do pré-teste. Quaisquer problemas com a forma como os elaboradores de itens fornecem informações sobre a classificação dos itens e das chaves, ou com a forma como os itens foram pontuados, po- dem ser resolvidos durante a análise do pré-teste. A equipe de elaboração de itens deve ser envolvida na interpretação da análise de dados do pré-teste e nas decisões sobre quais itens excluir do teste final e quais itens com estatísticas fracas deveriam ser incluídos. As decisões sobre a inclusão ou exclusão de itens devem levar em conta a tabela de especificações e as áreas do currículo que o teste deve avaliar. Em geral, apenas um formulário final de um teste é usado em cada série. Pode consistir em dois ou três testes separados, como um teste de matemática, um teste de leitura e um teste de escrita. Esses testes po- dem ser combinados em um único caderno ou impressos em cadernos separados. As questões que se aplicaram ao pré-teste, relativas à necessidade de itens de ligação e sua seleção e localização, também se aplicarão ao teste final se houver vários formulários. Alguns itens fazem excelente sentido conceitual, mas têm estatísticas fracas. Esse resultado pode indicar um problema na forma como o item foi apresentado. Os alunos podem não ter familiaridade com o voca- bulário ou com a forma como devem dar suas respostas, ou o material de estímulo pode ser confuso. Idealmente, itens com estatísticas muito 92 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL fracas devem ser revistos e passar por um novo pré-teste. No entanto, quando itens com estatísticas ruins se referem a critérios importantes na tabela de especificações e não existem outros itens disponíveis, talvez seja necessário incluí-los no teste final. Em princípio, os itens nunca devem ser alterados entre o pré-teste e os formulários finais, porque as alterações poderiam afetar as estatísticas do item de forma desconhecida. Na prática, as agências de testes tendem a fazer pequenas alterações em alguns itens – em geral, não mais que em quatro ou cinco num teste de 30 itens. Essas pequenas alterações poderiam incluir: y Mudar uma ou duas palavras para aprimorar a clareza ou reduzir a dificuldade de vocabulário. y Eliminar a opção mais fraca entre as cinco opções de um item de múltipla escolha. y Corrigir erros gramaticais ou melhorar a clareza de expressão. y Melhorar a diagramação, como a posição dos títulos num diagrama ou a consistência dos títulos. NOTA 1. Os exemplos usados neste capítulo baseiam-se em análises de itens que usam a abor- dagem da teoria clássica dos testes. O Volume 4 contém essa abordagem de forma mais detalhada. Também apresenta outro método de análise de itens, a teoria de resposta ao item, que usa uma abordagem estatística diferente e uma terminologia um pouco diferente. CAPÍTULO 6 PRODUÇÃO DO TESTE FINAL DESENHO DO TESTE FINAL O analista de dados ou estatístico deve ser envolvido no desenho do formulário final. É sua atribuição certificar-se de que o desenho atende aos seguintes requisitos: y O formato em que são fornecidas as informações socioeconômicas e os dados sobre os fatores de contexto dos alunos é adequado à análise. y O método de registrar as respostas ao item é adequado para a análise. y A natureza e abrangência dos guias de pontuação são adequadas para a análise. y As ligações horizontais com dados do testes dos anos anteriores ou as ligações verticais que podem ser necessárias são estatisticamente sólidas. As informações sobre dados socioeconômicos e fatores de contexto dos alunos requeridas na folha de rosto dos cadernos de prova relacio- nam-se com o objetivo do teste e a forma como os dados do teste serão apresentados. Os alunos devem ser capazes de completar as informações pedidas com facilidade e exatidão. Em geral, as informações da folha de rosto incluem o seguinte: 94 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL y Nome da escola y Nome completo do aluno y Gênero do aluno y Idade ou data de nascimento do aluno y Série ou classe do aluno y Idioma do aluno [primeiro idioma e o falado em casa]. Em alguns países, os alunos podem ter números exclusivos de identi- ficação nacional. Esses números devem ser usados quando disponíveis. Também é útil incluir uma opção na página de rosto para o aplicador do teste registrar se os alunos perderam todo o teste ou parte dele devi- do a ausências ou doenças, ou se os alunos com deficiências receberam assistência especial para escrever suas respostas (veja o Quadro 6.1). QU A D R O 6 . 1 Exemplo de uma Folha de Rosto de Teste MONITORAMENTO DA AVALIAÇÃO DA EDUCAÇÃO: 4a SÉRIE Seção para o aluno completar: Escola _____________________________________________________________________ Estado _____________________________________________________________________ Série _______________________________________________________________________ Primeiro nome ______________________________________________________________ Sobrenome _________________________________________________________________ Sou um menino. … Sou uma menina. … Idade: … anos e … meses O idioma que uso com mais frequência em casa é o português. Sim … Não … Seção para o aplicador do teste completar: Este aluno esteve ausente no seguinte teste deste caderno: Leitura … Matemática … Este aluno recebeu assistência especial para Leitura … Matemática … Descreva a assistência especial fornecida: ______________________________________ Fonte: Papua Nova Guiné, Departamento de Educação, 2004. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 95 Em geral, é mais fácil garantir que as identidades dos alunos estejam corretamente registradas e ligadas aos dados adequados se os testes de todas as disciplinas estiverem em um único caderno. Evitam-se potenciais proble- mas de identificação se as informações contidas na folha de rosto do caderno de prova único forem completadas, de forma acurada e legível, antes da primeira sessão de teste. Se for usado um único caderno, o aplicador do tes- te deve tomar muito cuidado para garantir que os cadernos de prova sejam entregues aos alunos certos antes de cada subsequente sessão de teste. Se forem usados múltiplos cadernos, serão necessários procedimentos efetivos para fazer a correspondência entre candidatos e cadernos. Os seguintes riscos estão associados ao uso de múltiplos cadernos: y Os alunos podem escrever seus nomes de formas diferentes em dife- rentes cadernos. y Os alunos podem usar nomes diferentes em diferentes cadernos: uma forma reduzida num caderno e o nome completo em outros; um nome religioso ou cultural num caderno e o nome de família em outro; ou o primeiro nome em um e o nome do meio em outro. y Os alunos podem escrever todo o nome ou parte dele de forma ilegí- vel em pelo menos um dos cadernos. y Os alunos podem deixar de escrever seus nomes em um caderno ou em mais de um deles. A diagramação e as diretrizes sobre a aplicação do teste devem ser claras e consistentes. Na medida do possível, a diagramação do pré-teste e o formato do teste final devem ser idênticos. O teste deve começar com alguns itens fáceis para encorajar os alunos mais fracos. Em seguida, devem vir itens que cobrem diferentes níveis de dificul- dade, sem seguir qualquer padrão específico, de modo que os alunos não tenham de batalhar com uma série de itens difíceis até desistirem. Tam- bém é importante que alguns alunos mais lentos tenham uma chance de tentar parte dos itens mais difíceis, colocando esses itens mais ou menos no início do teste. O teste deve terminar com alguns itens mais difíceis, porque os alunos com menores habilidades têm menor probabilidade de 96 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL terminar o teste. Os itens que se referem a um estímulo comum (por exemplo, um parágrafo ou mapa) devem ser apresentados juntos, inde- pendentemente de seu grau de dificuldade. As diretrizes para a colocação de itens de ligação no formulário final são as mesmas observadas no pré-teste (veja Capítulo 4). Itens de ligação hori- zontal são necessários para se ligar a um teste anterior se o aproveitamento estiver sendo comparado ao longo do tempo. Ligações verticais são necessá- rias para comparar o aproveitamento entre séries. Os itens de ligação devem ser colocados (a) no começo do caderno de prova ou perto da metade dele e (b) numa posição semelhante em cada caderno de prova. Os títulos dos itens devem ser impressos em escala cinza nos cadernos de prova, a fim de facilitar a localização e o rastreamento dos itens (veja Capítulo 3). O gerente de desenvolvimento de teste deve fornecer ao analista de dados uma planilha mostrando onde o item aparece em cada caderno, incluindo os itens de ligação. As decisões sobre como os alunos registrarão suas respostas devem ser to- madas durante a fase de desenho da tabela de especificações (veja Capítulo 2). Com frequência, os alunos preenchem as respostas ao item no caderno de prova. A diagramação dos itens deve permitir espaço adequado para que os alunos registrem suas respostas. A diagramação dos itens também deve designar um espaço para os avaliadores registrarem suas pontuações. Em outras situações, especialmente nas séries mais avançadas, podem ser usadas folhas de respostas separadas. Essas folhas de respostas devem mostrar com clareza como fazer a ligação entre a resposta e o item, ou entre a opção impressa no caderno de prova e a posição correspondente na folha de respostas. Se os itens no caderno de prova estiverem organi- zados em unidades, será útil organizar a diagramação da folha de respos- tas em unidades semelhantes. IMPRESSÃO E REVISÃO Estes são alguns dos fatores que determinam a extensão do caderno de prova: DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 97 y Número de áreas temáticas cobertas y Amplitude da cobertura dentro das áreas temáticas y Formato do item y Uso de ilustrações y Extensão dos materiais de estímulo y Tamanho da fonte y Fundos disponíveis para custear a impressão. Os elaboradores de itens devem saber, desde o início, o número de páginas proposto para o formulário final do teste. Se ficar evidente que a extensão do teste será limitada, o material de estímulo, bem como os diagramas e outras ilustrações, devem ser limitados. Qualquer que seja a quantidade de espaço disponível, a diagramação dos itens deve ser clara e bem organizada. Em geral, cadernos com menos de 20 páginas (10 folhas) são impres- sos em papel A4 (210mm-297mm) e grampeados em um dos lados. Ca- dernos maiores tendem a ser impressos em papel A3 (420mm-297mm) e grampeados no meio. Cadernos com maior número de páginas em geral permitem o uso de maior diversidade de material de estímulo interessante e itens mais ima- ginativos. Do lado negativo, gasta-se mais com sua impressão e distribui- ção. Também requerem mais espaço de armazenagem para embrulhar e durante a fase de pontuação, o que pode aumentar consideravelmente os custos gerais. Em geral, os testes são impressos dos dois lados de uma folha. A qua- lidade mínima do papel tem de ser suficiente para garantir que os itens impressos de um lado da página não interfiram com a legibilidade dos itens impressos do outro lado da mesma página. As fotografias requerem papel de mais alta qualidade para garantir boa reprodução. Finalmente, diagramas detalhados também requerem papel de melhor qualidade. Se os alunos tiverem de escrever no caderno de prova, o papel deve ser forte o bastante para que escrevam suas respostas sem rasgar o papel e para que o escrito num lado da página não apareça do outro lado. 98 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL O papel da folha de rosto às vezes é de melhor qualidade que o usado no restante do caderno de prova, mas isso tende a aumentar os custos e, em geral, não é necessário. Muitas vezes, é útil imprimir os cadernos para diferentes séries com tintas de cores diferentes. Isso ajuda a garantir que os alunos recebam os cadernos adequados. As cores das tintas escolhidas devem ser de fácil leitura. Um revisor com grande experiência deve revisar os formulários finais. Também vale a pena pedir que colegas competentes que não estiveram envolvidos no desenvolvimento do teste leiam o formulário final para garantir que ele faça sentido da perspectiva do usuário do teste. Existem dois períodos fundamentais para a revisão dos formulários finais do teste. Depois que os formulários finais tiverem sido montados, devem ser revisados pelo gerente de desenvolvimento de teste, pelos elaboradores de itens encarregados dessa tarefa e, finalmente, por um revisor pro- fissional. Os elaboradores de itens devem conferir as correções feitas pelo revisor. Os formulários finais deverão ser revisados uma segunda vez quando as matrizes chegarem da gráfica. As matrizes são imagens das páginas do teste tal como serão reproduzidas por uma impressora. Em geral, a gráfica entregará as matrizes poucos dias depois de receber o teste. O gerente de desenvolvimento de teste pode assumir a respon- sabilidade de revisar as matrizes ou pode preferir contratar um revisor profissional para essa tarefa. Deve-se alocar pelo menos duas semanas para revisão e correção dos formulários finais. Pode haver necessidade de mais tempo, dependendo da disponibilidade dos membros da equipe encarregados de fazer as correções dos cadernos. Com frequência, os revisores encontram centenas de pequenos er- ros, especialmente o uso inconsistente de maiúsculas, pontuação, for- matação, desenho final e soletração incorreta. Se as revisões do pré-teste tiverem sido minuciosas e amplas, e se apenas mudanças substantivas mínimas tiverem sido feitas nos itens, então, em teoria, a revisão dos formulários finais deve revelar poucos erros, ou nenhum. Na prática, isso raramente acontece. Podem surgir erros nos formulários finais em lugares onde não haviam aparecido antes. Em geral, os revisores preci- DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 99 sam de vários dias para revisar inteiramente os formulários finais do teste e as orientação para aplicação, mesmo que os pré-testes tenham sido revisados anteriormente. Quando for necessário imprimir uma grande quantidade de material, deve-se fazer uma reserva na agenda dos impressores com várias sema- nas ou até meses de antecedência. A gráfica informará o tempo previsto para realizar a tarefa. Às vezes, a equipe da avaliação nacional pode ne- gociar um pagamento adicional para a entrega do material antes da data prevista e estabelecer desincentivos ou penalidades caso haja atraso. Os impressores podem cometer erros de impressão nos cadernos de prova. O erro mais comum é a falta de algumas páginas em alguns ca- dernos. O gerente de elaboração de testes deve conferir aleatoriamente as caixas com os cadernos finais para detectar algum erro. CAPÍTULO 7 PONTUAÇÃO MANUAL DOS ITENS DO TESTE A equipe da avaliação nacional deve se certi- ficar de que os avaliadores que vão fazer a pontuação manual dos formulários finais do teste estejam bem treinados. A essa altura, os guias de pontuação já terão sido revisados durante o pré-teste e deverão estar na forma quase final. Antes de começar a pontuação manual final, os elaboradores de itens poderiam selecionar uma pequena amostra de formulários finais completados, conferir a clareza e eficiência dos guias de pontuação e, possivelmente, fazer pequenas revisões. É preciso planejar com bastante antecedência o estabelecimento de um centro de classificação para a pontuação manual e definir processos eficazes de pontuação. A equipe da avaliação nacional deve ter respon- dido às seguintes questões antes de dar início à pontuação manual: y Onde os materiais do teste serão armazenados? y Como serão levados até os centros de classificação? y Como será garantida a segurança dos materiais do teste? (Os testes e manuais de pontuação não devem sair da sala.) 102 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL y Qual é o cronograma da pontuação manual? A pontuação será orga- nizada em unidades diárias, em turnos (incluindo um turno notur- no)? Os avaliadores trabalharão nos fins de semana? y Como os avaliadores registrarão os dados? y Qual é o equipamento de classificação necessário? Em geral, dá-se preferência a canetas vermelhas ou verdes, porque as pontuações nessas cores podem ser vistas claramente nos cadernos dos alunos. Pequenos adesivos são úteis para sinalizar os itens a respeito dos quais os avaliadores têm dúvidas. y Os avaliadores serão pagos pelo número de testes que classificarem ou pelo tempo gasto na classificação? Ambos os métodos apresentam vantagens e desvantagens. No primeiro caso, os avaliadores podem se apressar e ser menos cui- dadosos na medida em que tentem pontuar o maior número possível de testes. No último, os avaliadores podem não se dedicar inteiramente à tarefa, e sua produção pode ser baixa. Um meio-termo adequado pode- ria ser o pagamento pelo tempo gasto, mas com um número mínimo de testes que deveriam ser completados a cada dia. A equipe necessária num centro de classificação é composta por um avaliador-chefe, avaliadores líderes e avaliadores. As pessoas responsá- veis pela seleção de avaliadores devem entrevistar os candidatos e con- firmar suas referências. O avaliador-chefe é responsável pelas operações rotineiras. Deve garan- tir que os avaliadores observem o cronograma, resolver quaisquer questões relativas à classificação, supervisionar o gerenciamento dos procedimentos de controle de qualidade e manter a segurança do teste. O avaliador-chefe deve ser um avaliador experiente, com habilidades comprovadas em opera- ções de gerenciamento, e deve estar preparado para substituir os membros da equipe cujo desempenho se prove insatisfatório. Os avaliadores líderes são responsáveis por monitorar a classificação de uma área temática determinada e implementar procedimentos de controle de qualidade. Cada teste deve ter pelo menos um avaliador líder (por exemplo, um avaliador líder para matemática e um avaliador líder para leitura). DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 103 Os avaliadores líderes devem ser especialistas numa área temática, ter experiência com classificação e impor respeito. Os avaliadores pontuarão as respostas dos alunos. Em geral, os pro- fessores são bons avaliadores. Os avaliadores devem ser diligentes, con- sistentes e confiáveis, e conhecer sua área temática. O gerente de desenvolvimento de teste em geral indica elaboradores de itens com experiência em áreas temáticas relevantes para treinar os avaliadores. De preferência, a pessoa que fizer o treinamento dos avalia- dores também deveria ter tido grande envolvimento no desenvolvimen- to dos itens e dos guias de classificação. A pessoa que fizer o treinamento dos avaliadores deve ser especialista nos temas relevantes. O gerente de desenvolvimento de teste poderia assumir o papel de treinar avaliadores em sua área temática. Idealmente, a pessoa que fizer o treinamento de avaliadores para o pré-teste também deverá treinar os avaliadores dos formulários finais. Deve-se alocar tempo suficiente para vários períodos de treinamento de avaliadores em cada grupo de avaliadores. O treinamento deve enfatizar que os avaliadores terão de ler uma variedade de respostas corretas possí- veis. Algumas podem não ser aquilo com que o avaliador está habituado, podem ter pouca semelhança com as respostas contidas em livros didáticos ou estar expressas numa linguagem pobre ou num vocabulário não conven- cional. O treinamento de avaliadores deve cobrir os seguintes pontos: y Os avaliadores têm pouca ou nenhuma liberdade para determinar a adequação de uma resposta; suas opiniões ou preferências pessoais não poderão influenciar a avaliação. y Os alunos não devem ser penalizados por erros de soletração ou gra- maticais em leitura, matemática ou ciências, a menos que seja impos- sível decifrar o trabalho do aluno. y Os avaliadores têm de buscar o conselho do avaliador líder quando não tiverem certeza de como pontuar determinada resposta. y Os avaliadores devem usar a mesma pontuação (em geral 0) consis- tentemente para todas as respostas incorretas e todas as ilegíveis ou ininteligíveis, inclusive nos casos em que o aluno escreveu uma única letra ou garatujou uma única linha. 104 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL y Os avaliadores devem usar o mesmo código de pontuação (em ge- ral, 9) consistentemente para mostra que o aluno não fez nenhuma tentativa de responder ao item – ou seja, nenhuma marca de lápis aparece no espaço fornecido para a resposta. y Para facilitar a entrada de dados, os avaliadores devem usar apenas o espaço fornecido no caderno de prova quando estiverem fazendo a pontuação manual. y Os avaliadores não devem ser responsáveis por combinar pontuações para dar um total geral. No treinamento, a ênfase deve ser posta em garantir que os avalia- dores compreendam o que está incluído na tarefa de pontuação e em alcançar consistência na pontuação. Os métodos de treinamento tendem a variar. O exemplo seguinte mostra um dos métodos sugeridos, mas existem muitos outros. y O treinador pede aos avaliadores que respondam a cada item pontua- do manualmente no teste. Esse processo familiariza os avaliadores com o item e garante que o leram e entenderam adequadamente. y O treinador dá a cada avaliador 4 ou 5 cadernos de prova respondidos por alunos. O treinador discute o primeiro item e o guia de pontua- ção e, então, os avaliadores pontuam esse item em seus cadernos de prova. O treinador encoraja o grupo a discutir quaisquer discrepân- cias ou dúvidas sobre como pontuar uma resposta. Os avaliadores são encorajados a partilhar respostas que possam ser diferentes dos exemplos no guia de pontuação. Depois que o primeiro item tiver sido adequadamente discutido, o treinador passa para o item seguinte e para as orientações para pontuá-lo. Em geral, esse método de trei- namento requer várias horas. y Os avaliadores têm uma segunda sessão de treinamento na qual tra- balham em pares. Pontuam alguns testes individualmente e, então, conferem o trabalho uns dos outros e discutem os itens sobre os quais tiveram julgamentos diferentes. Se não puderem chegar a um acordo, devem consultar o treinador. Depois de encerradas as sessões de trei- namento, o avaliador líder assume a responsabilidade pelo gerencia- DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 105 mento dos avaliadores. O avaliador-chefe deve informar o treinador se surgir alguma questão durante a pontuação dos testes. y No processo de pontuação dos cadernos de prova, o avaliador-líder deve selecionar alguns itens problemáticos a cada dia e fazer discus- sões rápidas sobre eles para manter o foco e a consistência. O trabalho de checar a qualidade de itens de resposta curta para uma avaliação nacional poderia incluir uma segunda checagem de quase 100% de todos os cadernos de prova. Em geral, os avaliadores líderes fazem a checagem. Podem reduzir gradualmente o processo de checagem dupla a entre 10% e 20% dos cadernos de prova à medida que os avaliadores se tornam consistentes e confiáveis em suas pontuações. Se houver um grande grupo de avaliadores trabalhando, vários avaliadores líderes principais serão necessários para garantir a quali- dade da checagem e fornecer retorno imediato aos avaliadores sobre quaisquer erros que estejam cometendo. O avaliador-chefe deve re- querer que os avaliadores façam novamente a pontuação de itens nos primeiros cadernos que pontuaram e nos quais cometeram erros de pontuação. Os procedimentos para pontuações discrepantes também devem ser esclarecidos. Em geral, a pontuação do avaliador-chefe é a que conta. Um teste de linguagem poderia incluir um ou mais itens cuja resposta requeira uma redação. Em geral, as redações são pontuadas duas vezes. O segundo avaliador pontua a redação sem saber a pontuação dada pelo primeiro. As duas pontuações são então comparadas. Em geral, aceita-se a diferença de um ponto e tira-se a média das duas pontuações. Dife- renças maiores entre as pontuações dos avaliadores exigem que, pelo menos, uma delas seja alterada. Essa mudança pode basear-se numa dis- cussão entre os dois avaliadores. Se não puderem chegar a um acordo, a questão deve ser levada ao avaliador-chefe para decisão. A pontuação manual requer uma intensa concentração. Os avalia- dores não devem trabalhar durante muito tempo num mesmo dia ou durante muito tempo sem fazer um intervalo. Em geral, um período de trabalho entre seis horas e seis horas e meia por dia é considerado a jornada máxima. Um dia de trabalho pode consistir em uma sessão de 106 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL três horas pela manhã, com um breve intervalo, e uma sessão de três horas à tarde, com um breve intervalo. As pessoas que trabalham mais lentamente podem necessitar de uma meia hora extra para completar o número esperado de testes por dia. Deve-se exigir dos avaliadores que completem uma folha de presença diária. PA R T E II CONSTRUÇÃO DE QUESTIONÁRIOS CAPÍTULO 8 DESENHO DE QUESTIONÁRIOS U m questionário é um conjunto de itens de- senhados para obter informações sobre uma pessoa. O tipo de informação pode variar amplamente e incluir dados sobre características pessoais; qualificações e práticas de trabalho; condições de trabalho e recursos; ou fatores so- cioeconômicos e contextuais de uma pessoa, bem como suas atitudes, crenças ou opiniões a respeito de certas questões. Uma avaliação nacional busca obter uma estimativa confiável do apro- veitamento dos alunos (medido num teste especialmente concebido para isso) e informações (obtidas com um questionário) sobre variáveis-chave associadas a diferenças no aproveitamento. Os testes coletam informação sobre o desempenho dos alunos, e os questionários – quando usados junto com os testes – coletam dados sobre variáveis que poderiam estar associa- das a diferenças nos níveis de desempenho dos alunos ou ajudar a explicá- -las. Por exemplo, os dados do questionário podem sugerir que escolas que não têm bibliotecas estão associadas ao baixo desempenho dos alunos ou que escolas em que os professores participam regularmente de progra- mas de desenvolvimento profissional estão associadas ao alto desempenho dos alunos. Esses dados sugerem formas úteis de redirecionar os recursos educacionais para aprimorar o aprendizado dos alunos. 110 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL Um bom questionário coleta dados sobre variáveis para as quais os formuladores de políticas desejam ter informações acuradas, variáveis sobre as quais têm a possibilidade de atuar e que pretendem influenciar, bem como variáveis que, segundo as evidências de pesquisas, podem afetar o aproveitamento dos alunos. Um erro comum que se comete durante o desenho de questioná- rios é coletar um excesso de informações. Em geral, os formuladores de políticas estão interessados apenas em informações sobre algumas variáveis-chave. Além disso, mesmo quando possam existir boas ra- zões científicas para se coletarem certos tipos de dados, considerações sobre as consequências políticas e sociais de se coletar o dado pode- riam indicar que uma avaliação nacional não é o mecanismo mais adequado para fazê-lo. Com frequência, as informações podem ser coletadas de outras fon- tes, sem necessidade de usar questionários, em países que mantêm regis- tros acurados e confiáveis de características das escolas, dos professores e dos alunos. Vale a pena descobrir se os registros governamentais são uma fonte útil de informação, porque o acesso a esses registros pode ser mais barato e mais fácil que a aplicação de questionários. O desenho do questionário deve descrever claramente os tipos de dados que serão coletados, como serão analisados e apresentados e como as constatações poderiam contribuir para melhorar a educação. Os prin- cipais passos no desenho de um questionário são os seguintes: y Decidir qual o objetivo de um questionário e como os dados serão usados. y Desenvolver uma tabela de especificações que especifique os respon- dentes, as áreas principais, os tipos de itens, os protocolos de codifi- cação ou pontuação e o protocolo de aplicação (a ser completado por um entrevistador ou autoaplicado). y Escrever os itens, usando grupos (ou painéis) de indivíduos expe- rientes para rever e refinar os itens, e diagramar o formulário de modo que os respondentes possam usá-lo sem dificuldade, e que as pessoas que farão a entrada dos dados possam processar os dados com eficiência. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 111 y Especificar um plano de análise de dados para processar a informa- ção coletada e criar variáveis e indicadores para a análise estatística subsequente. y Fazer o pré-teste dos questionários para estabelecer a adequação de itens e de categorias de respostas. y Analisar os dados do pré-teste do questionário, refinar os questioná- rios e produzir os questionários finais para aplicação. A Tabela 8.1 oferece detalhes sobre os passos para o desenvolvimento de um questionário e sobre as pessoas envolvidas. Os questionários e as instruções para sua aplicação devem ser pre- parados e pré-testados simultaneamente aos testes. Assim, as tabelas de especificações dos questionários devem ser desenvolvidas ao mesmo tempo em que as tabelas de especificações do teste e os questionários devem ser escritos e submetidos a um painel, e os itens do teste estão sendo escritos e submetidos a um painel. CONTEÚDO DO QUESTIONÁRIO Um questionário deve colher informações sobre variáveis-chave que po- deriam ajudar a explicar diferenças no desempenho de alunos num teste de aproveitamento. No entanto, há um número infindável de variáveis interligadas que podem afetar o desempenho dos alunos. Um questioná- rio pode focalizar apenas algumas delas. Os formuladores de políticas em geral querem informações sobre variáveis associadas a importantes questões da educação em seu país, como idioma de instrução, disparidades na distribuição de recursos edu- cacionais ou atitudes relativas à educação de meninas. Possivelmente, os formuladores de políticas não saberão quais variáveis investigar. Eles podem fornecer uma longa lista de variáveis obtidas de sua experiência pessoal e de observações ou que considerem que “teriam” de estar num questionário. Essa lista precisa ser reduzida a alguns tópicos bem foca- lizados que tenham possibilidade de ser úteis para modelar o conteúdo do questionário. TABELA 8.1 Componentes do Desenvolvimento de Questionário Componente Descrição Pessoas envolvidas 1. Objetivo Esclarecer o objetivo e o uso potencial dos dados do Formuladores de políticas, principais interessados e gerente questionário. de desenvolvimento de testes. 2. Tabela de Desenhar a tabela de especificações do questionário para Gerente de desenvolvimento de testes, especialistas especificações especificar respondentes, áreas principais, tipos de itens, nas disciplinas, analista de dados, elaboradores de itens codificação e protocolo de aplicação. experientes, professores experientes, formuladores de políticas e principais interessados. 3. Itens Anotar os itens do questionário. Gerente de desenvolvimento de teste e elaboradores de itens. Aumentar a clareza e a utilidade em painéis de questionário. Gerente de desenvolvimento de testes e elaboradores de itens. Revisar os questionários. Gerente de desenvolvimento de testes, formuladores de políticas e principais interessados. 4. Plano de análise Especificar o plano para processar informação, para criar variáveis Analista de dados e gerente de desenvolvimento de dos dados e indicadores para medição, e para tipos de análise. testes. 5. Pré-teste Desenhar, produzir e revisar questionários para pré-teste. Gerente de desenvolvimento de testes, elaboradores de itens, profissionais de design e diagramação e revisores. Escrever instruções para pré-teste de questionários e treinar Gerente de elaboração de testes e elaboradores de itens. aplicadores. Fazer o pré-teste dos questionários, ao mesmo tempo em Gerente de elaboração de testes, gerente de logística e que os testes estão passando por um pré-teste. aplicadores de teste. 6. Questionário Analisar dados do pré-teste do questionário. Gerente de desenvolvimento de testes e analista de dados. final Refinar questionário e instruções de aplicação com base nos dados Gerente de elaboração de testes, elaboradores de itens e do pré-teste e nos retornos dos aplicadores do pré-teste. analista de dados. Produzir o formulário final do questionário. Gerente de desenvolvimento de testes, elaboradores de itens, profissionais de design e diagramação e revisores. Fonte: Criação dos autores. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 113 Os formuladores de políticas podem não saber que o processo de analisar e relatar dados do questionário é dispendioso e requer conhe- cimentos técnicos. Como os recursos são invariavelmente limitados, os questionários precisam ser concisos e altamente relevantes. Os dados coletados também têm de ser tecnicamente aceitáveis, caso se pretenda que sejam usados para explicar o desempenho dos alunos. Os modelos usados por outras avaliações nacionais podem fornecer uma orientação aproximada. No entanto, cada país tem as próprias necessidades, que devem determinar o que é apropriado para o questionário. O gerente de desenvolvimento de testes ou a pessoa responsável pela produção do questionário talvez precise fornecer aos formuladores de políticas alguma orientação a respeito de variáveis-chave que tenham a probabilidade de produzir informações úteis. Para fazer isso, talvez precisem apresentar aos formuladores de políticas alguns exemplos re- levantes para ajudá-los a considerar como poderiam usar as informações coletadas. Essas informações ajudarão a refinar um pouco mais a lista de variáveis que serão levadas em conta. Como os questionários serão desenhados para tratar de tópicos que os respondentes provavelmente conhecem, os tópicos variarão para alunos, pais, professores e diretores. As seções seguintes sugerem tópicos ade- quados para os questionários de cada um desses grupos. Questionários dos Alunos Os questionários dos alunos podem coletar as seguintes informações: y Gênero, idade e idioma (em geral, esses dados são coletados na pági- na de rosto do caderno de prova). y Antecedentes educacionais, como anos de escolaridade e períodos fora da escola. y Oportunidades de frequentar uma escola. y Expectativas de sucesso e atitudes pessoais ou familiares sobre os va- lores da escola. y Percepções sobre o ambiente da sala de aula, como sentimento de segurança, camaradagem de outros alunos ou apoio dos professores. 114 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL Questionários dos Pais Os questionários dos pais podem coletar as seguintes informações: y Nacionalidade, gênero e idioma. y Ambiente em casa, como acesso a livros, escrivaninhas e iluminação. y Antecedentes da família, como educação dos pais e idioma falado em casa. y Atitudes relativas à educação, como compromisso de mandar os fi- lhos para a escola, percepções sobre o valor e relevância da educação ou percepções sobre a qualidade da educação. y Atenção aos deveres de casa e recursos disponíveis em casa para o estudo dos filhos. y Disponibilidade de educação a um custo possível e acessibilidade da educação para os filhos. y Expectativas do aproveitamento escolar dos filhos. y Envolvimento com a escola, como participação na sala de aula ou em comitês. y Natureza dos boletins escolares sobre o progresso dos filhos e seu valor. y Apoio financeiro à escola na forma de pagamentos de livros didáticos e taxas.. Questionários dos Professores Os questionários dos professores podem coletar as seguintes informações: y Gênero e idade. y Primeiro idioma. y Condições de ensino, como tamanho da classe, acesso a recursos, percentual de alunos que têm livros didáticos, acesso a professores substitutos em casos de doença e assistência para lidar com alunos desafiadores. y Experiência educacional, qualificações como professor e número de anos nesta escola. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 115 y Compromisso profissional com o aprendizado, como interesse pelo desenvolvimento profissional e acesso a ele, interesse em ensinar e tempo gasto para preparar as aulas. y Disponibilidade de apoio instrucional, como visitas à sala de aula por diretores, inspetores ou supervisores escolares. y Metodologia de ensino, como idioma de instrução, uso de avaliação e estilo de ensino adotado. y Satisfação com as condições de trabalho, como carreira, remuneração e nível de supervisão. y Relacionamento com a comunidade escolar, como interações com os pais, envolvimento em comitês escolares e participação em eventos da comunidade local. y Distância entre a casa do professor e a escola. Questionários do Diretor da Escola Os questionários para diretores podem coletar as seguintes informações: y Gênero e idade. y Experiência educacional e gerencial, e qualificações. y Ambiente da escola, como qualidade dos prédios e instalações, bem como disponibilidade de recursos. y Registros da escola, como flutuações no número de alunos, taxa de absenteísmo de alunos ou professores, e frequência com que os alu- nos mudam de escola. y Compromisso profissional com a liderança da escola, como interes- se pelo desenvolvimento profissional e acesso a ele, e interesse pela educação. y Estilo de liderança e uso do tempo. y Satisfação com as condições de trabalho, como carreira, remunera- ção, e nível e frequência de supervisão. y Relacionamento com a comunidade escolar, como interações com os pais e participação em eventos da comunidade local. 116 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL TABELA DE ESPECIFICAÇÕES DO QUESTIONÁRIO É necessária uma tabela de especificações para guiar o desenvolvimento de um questionário. Ela descreve as questões de políticas mais impor- tantes que fornecerão o foco do questionário; identifica os respondentes; lista as variáveis-chave que serão abordadas; e especifica o formato dos itens, os tipos de categorias de respostas e o protocolo de aplicação. O Quadro 8.1 fornece um exemplo da tabela de especificações de um questionário usado para coletar informações sobre valores e atitudes dos alunos com relação à escola e à sua comunidade local. Recentes reformas na educação e novas disciplinas curriculares estão sendo intro- duzidas em escolas, enfatizando a necessidade de se ensinar aos alunos a valorização de sua comunidade local e a aquisição de habilidades que os ajudarão a contribuir, de forma construtiva, para a vida de sua co- munidade como adultos. Os formuladores de políticas em Papua Nova Guiné queriam colher informações sobre as expectativas dos alunos a respeito da escola e suas percepções sobre a escola e a comunidade. O questionário foi aplicado a todos os alunos que participaram de testes de avaliação nacional. ITENS DO QUESTIONÁRIO Várias considerações devem ser feitas no processo de decidir sobre o número de itens num questionário, incluindo quantidade de tempo dis- ponível para responder às questões, recursos disponíveis para a análise e complexidade da análise requerida. Um questionário curto e limitado que seja analisado adequadamente e forneça informações úteis é preferí- vel a um longo e abrangente que nunca seja totalmente processado. O número de itens necessários para medir uma variável específica depende da natureza da variável. Algumas variáveis, como gênero ou idade, podem ser medidas diretamente. Outras, como situação socioe- conômica, tendem a ser construídas a partir de vários itens, como nível de educação dos pais, situação de trabalho, localização do domicílio e posse de bens. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 117 QU A D R O 8 . 1 Atitudes e Valores da Tabela de Especificações do Questionário Parte I Atitudes Crenças sobre a Percepções com relação vida em Papua da comunidade Áreas à escola Nova Guiné local Número de questões 10 15 15 Respondentes 3a série 5a série 5a série 5a série 8a série 8a série 8a série Categorias de Sim ou Não Sim ou Não Sim ou Não respostas Parte II Atitudes com Crenças sobre a vida em Percepções da relação à escola Papua Nova Guiné comunidade local Crenças sobre Atitudes com relação à Nível de cooperação aproveitamento pessoal, educação: ensino no percebido na comuni- duração pretendida da idioma local, educação dade local: apoio à esco- escolarização e planos compulsória, papel da la, envolvimento local em pessoais para o futuro escola, educação de meni- eventos da comunidade nas e papéis das mulheres e partilha de recursos Percepções de ajuda Atitudes com relação à Atitude percebida da recebida de professores, comunidade: intenção comunidade local com camaradagem dos alunos, pessoal de permanecer relação a meninas e intimidação e disposição na comunidade local ou mulheres para fazer amizade com razões para sair pessoas de fora da comunidade Parte III Crenças sobre a vida Percepções da Valores em Papua Nova Guiné comunidade local Valores sobre resolução de Atitudes com relação a Nível percebido de conflitos conflitos e solução de emprego construtivo na disputas comunidade local e uso de meios pacíficos para resolver problemas Valores sobre hábitos de Atitudes com relação a Percepções de higiene pessoal álcool e drogas problemas causados pelo uso de drogas e álcool na comunidade local Fonte: Papua Nova Guiné, Departamento de Educação 2004. 118 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL Uma variável direta é o dado derivado de uma medida direta. Uma variável agregada combina dados de dois ou mais itens para representar um conceito. Em geral, os formuladores de políticas têm mais facilidade para in- terpretar os resultados de análises baseadas em variáveis diretas, e não em variáveis agregadas. As decisões sobre se é necessário dispor de uma variável direta ou de uma variável agregada para apoiar um conceito devem basear-se em boas práticas de pesquisa e nas condições do país. Tanto pesquisas nacionais quanto internacionais têm usado variáveis agregadas. Em um estudo internacional, por exemplo, as variáveis “lei- tura com um objetivo utilitário” e “leitura por prazer” se basearam em variáveis agregadas (veja Tabela 8.2). TABELA 8.2 Funções da Leitura num Estudo Internacional: Pesos Usados para Criar Duas Novas Variáveis , “Leitura com um Objetivo Utilitário” e “Leitura por Prazer” Pesos Item (abreviado) Objetivo utilitário Prazer Ajuda-me na escola. 0,75 Ajuda-me a passar nas provas. 0,74 Ajuda-me com temas futuros na escola. 0,73 Ajuda-me a trabalhar melhor. 0,65 Posso passar para a faculdade. 0,65 Ajuda-me a conseguir um bom emprego. 0,63 Meus pais acham que é importante. 0,58 É prazeroso. 0,76 É empolgante. 0,72 É interessante. 0,71 É como entrar em outro mundo. 0,68 É bom pensar sobre coisas que leio. 0,54 É divertido pensar que sou um personagem 0,53 numa história. É bom ficar sozinho. 0,53 Ajuda-me a relaxar. 0,50 Fonte: Dados extraídos de Greaney e Neuman, 1990 (Tabela 8, registros inferiores a 0,20 foram ex- cluídos). DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 119 As questões específicas de um país são relevantes para se deci- direm quantos itens serão necessários para medir uma variável. Por exemplo, num país em que os professores têm formação bastante uniforme, e todos têm pelo menos dois ou três anos de educação su- perior em instituições reconhecidas, uma única variável direta pode ser suficiente para medir os anos de educação terciária. No entanto, num país em que as condições dos professores variam muito, a quali- dade das instituições de ensino é desigual e muitos professores podem ter recebido apenas um treinamento prático no trabalho, pode haver necessidade de agregar diversas variáveis diretas para representar um conceito “educação dos professores” que reflita adequadamente a si- tuação. Do mesmo modo, num país rico, os recursos educacionais em casa podem ser medidos por uma única variável direta relativa ao acesso à internet, mas, num país pobre, os recursos educacionais em casa podem ser mais bem representados por um agregado de variáveis diretas que incluam acesso a uma escrivaninha, uma cadeira, uma lâmpada, lápis, papel e livros didáticos. As decisões sobre o uso de uma única variável direta ou de uma va- riável agregada para obter uma medida também dependem das crenças sobre a significância das possíveis variáveis diretas. Por exemplo, para medir a experiência de ensino, se sua qualidade varia amplamente em função de onde os professores estejam empregados e se existe a crença de que o local do emprego anterior do professor também poderia afetar o desempenho dos alunos; então, deve-se coletar a informação de onde o professor tem trabalhado e o tempo que passou em cada emprego. Se existe uma crença de que o número de anos de experiência de ensino poderia afetar o desempenho dos alunos, independentemente de onde os professores adquiriram sua experiência, então é provável que uma única variável direta seja suficiente. FORMATO DO ITEM Itens de escolha obrigatória são processados com muito mais facilidade, rapidez e economia que itens abertos. Como os itens de escolha obri- 120 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL gatória fornecem um número limitado de categorias entre as quais sele- cionar uma resposta, o processamento dos dados é simplesmente uma questão de entrar com a seleção do respondente num computador. As respostas às questões abertas, em contraste, têm de ser processadas ma- nualmente antes de se entrar no computador. Em geral, os dados de questionários são resumidos para apresentação. Por exemplo, respostas à questão de quanto tempo os alunos gastam para chegar à escola todo dia podem ser categorizadas em alguns poucos grandes blocos, como menos de uma hora, entre uma e duas horas, e mais de duas horas. Numa versão aberta desse item, alguns alunos infor- marão o tempo em minutos e outros em horas; outros podem escrever “muito tempo” e outros ainda podem dar uma resposta ilegível. A faixa de respostas será grande, e a classificação das respostas necessariamente envolverá um elemento de subjetividade, dificultando, inclusive, a deci- são de como classificar a resposta “muito tempo”. Itens de escolha obrigatória são preferíveis quando se pode fazer uma boa estimativa da provável gama de respostas que a maior parte dos res- pondentes dará. No entanto, se houver algum grau de incerteza, então podem ser usadas categorias com distinções mais refinadas do que as requeridas para a elaboração de relatórios. Depois da entrada dos dados num computador, podem ser tomadas decisões sobre quais categorias dão pouca informação e quais podem ser combinadas ou abandonadas (por exemplo, se nenhum aluno as selecionou). O uso de itens abertos pode ser factível se o questionário estiver sen- do aplicado a uma pequena amostra e se existirem recursos disponíveis para classificar as respostas manualmente. Itens de pré-teste que permi- tam respostas abertas às vezes são úteis para obter informação destinada a gerar categorias para uma versão com escolha obrigatória que integrará o formulário final do teste. IDIOMA DO QUESTIONÁRIO O idioma usado num questionário deve ser um idioma no qual os res- pondentes tenham a maior probabilidade de conseguir ler e escrever DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 121 fluentemente. No entanto, a escolha do idioma precisa ser balanceada com as economias de escala. Em geral, os questionários são aplicados no mesmo idioma do material do teste. RESPONDENTES Considerando-se que sempre se coletam informações sobre a situação socioeconômica dos alunos e sobre seus fatores contextuais na página de rosto dos cadernos de prova, a seleção dos respondentes do ques- tionário depende do que os formuladores de políticas queiram saber e da factibilidade de se obter essa informação de maneira confiável e eficiente. Estes são alguns problemas que podem estar associados aos respon- dentes: y Os alunos podem ser muito jovens para preencher um questionário de forma confiável e exata. y A falta de recursos pode limitar a aplicação dos questionários a um pequeno grupo, como professores ou encarregados de turma, e não a milhares de alunos. y Muitos pais podem ser analfabetos ou não retornar os questionários. y Os professores e os encarregados de turma podem não estar motiva- dos para preencher um longo questionário, ou achar muito ameaça- dor responder às questões honestamente. Qualquer que seja a decisão sobre os respondentes, a amostra se- lecionada para um questionário deve ser representativa da população. Se o questionário estiver sendo aplicado a alunos, a amostra que foi extraída para o teste deve ser a mesma que responderá ao questionário. Devem ser consultados especialistas em amostragem sobre os tamanhos de amostra requeridos para a aplicação a professores, encarregados de turma e pais. 122 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL APLICAÇÃO DO QUESTIONÁRIO Com frequência, os questionários são respondidos por escrito ou aplica- dos numa entrevista. A entrevista requer a presença de um entrevistador treinado para fazer as perguntas e anotar as respostas dos entrevistados (talvez aplicando códigos fornecidos no formulário do questionário). Em avaliações de grande porte, a maior parte dos questionários é escrita e aplicada em grupos para minimizar os custos. Os questioná- rios devem conter instruções sobre como as questões devem ser res- pondidas. As instruções poderiam incluir as razões da coleta daquelas informações. A coleta dos dados dos questionários pode ser feita sob a supervisão de uma pessoa que recolherá os formulários depois de completados pe- los respondentes. PLANO DE ANÁLISE DE DADOS Um plano de análise de dados especifica o tipo de informação que será fornecida em cada item do questionário e como essa informação será usa- da na análise. A assistência de um estatístico durante a fase de desenho do plano aumentará a confiança de que os dados podem ser analisados significativamente e de que as constatações serão rigorosas e defensáveis (veja o Volume 4 desta série). O plano deve mostrar o seguinte: y As características de mensuração das variáveis. A forma como os dados do questionário podem ser analisados depende das caracte- rísticas de mensuração das variáveis. Números agregados a variáveis nominais ou categóricas (por exemplo, gênero) são, de fato, apenas rótulos e só podem ser usados para distinguir entre grupos. Nú- meros agregados a escalas ordinais (por exemplo, para representar respostas a um questionário indicando o grau de concordância com uma afirmação) fornecem informações sobre valores relativos, em- bora frequentemente sejam tratados em análises estatísticas como DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 123 se possuíssem as propriedades de intervalos (por exemplo, tempe- ratura) ou de escalas de razão (por exemplo, número de anos de experiência como professor). y Como os dados de diversas variáveis serão agregados para produzir uma nova variável e como a nova variável será usada. Por exemplo, um índice de pobreza poderia ser construído com diversas variáveis, como renda familiar, localização do domicílio, número de cômodos da casa, posse de bens, número de filhos e nível de educação dos pais. No desenho do plano, deve-se considerar como as variáveis se- rão agregadas para representar pobreza. CAPÍTULO 9 ELABORAÇÃO DE ITENS DE QUESTIONÁRIOS A partir da forma como um item é construído, deve estar claro qual é a informação reque- rida. Além disso, os respondentes devem ser capazes de fornecer essa informação. Assim, não se pediria a alunos das primeiras séries para lembrar quantos dias faltaram às aulas durante o ano escolar, porque provavelmente não seriam capazes de dar uma res- posta confiável. Na melhor das hipóteses, poderiam se lembrar de quan- tos dias faltaram na semana anterior. O fraseado dos itens deve ser o mais simples e claro possível. O vo- cabulário deve ser familiar, e as sentenças devem ser curtas e diretas. A menos que seja aplicado oralmente, todos os respondentes devem ser capazes de ler o questionário. Também é importante que todos inter- pretem os itens do questionário do mesmo modo. Caso contrário, será difícil interpretar os resultados de maneira significativa. A primeira parte do item de um questionário pode ser uma questão, uma sentença incompleta ou uma afirmação que os respondentes devem avaliar. Os respondentes devem ser abordados num estilo consistente. Uma das duas formas pode ser usada: 126 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL y Referindo-se a “você”, por exemplo, “Quantos anos você tem?” y Referindo-se a “Eu”, por exemplo, “Eu venho para a escola …” QUESTÕES As questões devem ser claras e sem ambiguidade. A seguinte questão é ambígua: Há quanto tempo você é professor? Essa questão confunde o tempo transcorrido desde o treinamento e o tempo dedicado a ensinar. Qualquer pessoa que tenha parado de le- cionar por algum tempo e retornado, como no caso de mulheres que fi- caram algum tempo cuidando de suas famílias, terá dúvidas sobre como responder à questão. Não é claro se essa questão é uma medida da expe- riência do professor ou do tempo transcorrido desde o seu treinamento. Existem pelo menos duas questões aqui: Quando você completou seu treinamento como professor? Quantos anos de experiência de ensino você tem? A segunda questão ainda é problemática porque não está claro como poderiam ser medidos os anos de experiência de ensino. Por exemplo, cinco anos de experiência lecionando em tempo parcial, uma vez por semana, devem ser contados como cinco anos ou como o equivalente a um ano? Se quase todos os postos de ensino no país forem de horário integral, então a ambiguidade é improvável, mas, se muitos forem de tempo parcial, a situa- ção se complica. A questão poderia ser apresentada assim: Quantos anos de experiência de ensino em tempo integral (ou o equiva- lente a tempo integral) você tem? Pode ser necessário definir o que se quer dizer com “equivalente”. AFIRMAÇÕES Itens que começam com uma afirmação em geral requerem que os res- pondentes façam algum tipo de avaliação da afirmação, como “concordo fortemente”, “concordo”, “discordo” ou “discordo fortemente”. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 127 Afirmações na forma negativa, como “Eu não gosto de escola”, devem ser evitadas, porque podem ser confusas. Se solicitados a responder se concordam ou discordam, os alunos que gostam de escola devem sele- cionar uma categoria “discordo”. Em geral, as crianças menores conside- ram difícil lidar com negativas duplas. Mantenha as afirmações tão neutras quanto possível. Uma afirmação que diz “Eu gosto de escola” é melhor que outra que diz “Eu adoro es- cola”. Os alunos podem expressar seu amor pela escola selecionando a resposta “concordo fortemente”. As afirmações devem se centrar numa questão. Assim, afirmações como “Eu dou duro e me saio bem em meus deveres de casa” devem ser evitadas. Os alunos que se saem bem na escola, mas não dão duro, ficarão sem saber qual resposta selecionar. Os alunos que dão duro podem concordar fortemente com essa afirmação, embora não se saiam bem em seus deveres de casa. A afirmação ficaria melhor se dividida em duas: “Eu dou duro na escola”; “Eu me saio bem nos meus deveres de casa”. CATEGORIAS DE RESPOSTAS Boas categorias de respostas têm o mesmo significado para todos os res- pondentes. As seguintes categorias de respostas têm a probabilidade de apresen- tar diferentes significados para diferentes pessoas: Quantos livros estão na biblioteca da sala de aula? A. nenhum B. poucos C. alguns D. muitos As categorias de respostas para o item devem ser quantificadas de forma que o significado seja claro: 128 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL Quantos livros estão na biblioteca da sala de aula? A. não há biblioteca B. 1 a 10 C. 11 a 20 D. mais de 20 Às vezes, as categorias de respostas podem ter significado diferente para diferentes respondentes, mas essa diferença é parte da informação buscada, conforme mostra o seguinte item: Quão boa é a biblioteca de sua escola? A. não há biblioteca B. ruim C. adequada D. boa E. excelente Se o item é sobre o nível de satisfação do respondente com a biblio- teca da escola, independentemente de qualquer medida objetiva de sua qualidade, então é um bom item. Se o item estiver combinado com itens que quantifiquem – por exemplo, aproximadamente quantas estantes de livros ou computadores existem na biblioteca –, então a percepção do respondente pode ser comparada com medidas mais objetivas sobre as instalações da biblioteca. As categorias de respostas precisam levar em conta o nível de exati- dão das respostas que os respondentes têm a probabilidade de conseguir dar. É improvável que os respondentes saibam, com alguma precisão, o número de livros numa biblioteca, a menos que seja um número muito pequeno. As categorias de respostas precisam cobrir todas as respostas possíveis. Se houver algumas categorias importantes e várias outras secundárias, é melhor listar as mais importantes e incluir a opção “outras”. O pré-teste ajuda a identificar as principais categorias. As categorias de respostas não devem se superpor nem deixar hiatos. Ambos os erros são mostrados na seguinte questão: DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 129 Há quanto tempo você leciona nesta escola? A. menos de 5 anos B. menos de 10 anos C. mais de 10 anos Os professores com menos de 5 anos de experiência de ensino não saberão se devem selecionar a primeira ou a segunda opção. Professores com 10 anos de experiência não têm opção que lhes sirva. Os itens do questionário que começam com uma afirmação que os respondentes deverão avaliar podem ter muitas categorias diferentes de respostas. É importante que as categorias não se superponham. Alguns exemplos de categorias de respostas que têm sido usadas no questioná- rio do professor pelo TIMMS (Tendências Internacionais no Estudo de Matemática e Ciências) são: y Sim, não y Concordo fortemente, concordo, discordo, discordo fortemente y Quase todos os dias, uma ou duas vezes por semana, uma ou duas vezes por mês, nunca ou quase nunca y De jeito nenhum, um pouco, bastante, muito y Não tem importância, um pouco importante, muito importante. LIDANDO COM QUESTÕES DELICADAS Algumas questões são delicadas, como perguntar se os professores têm um segundo emprego para complementar seu salário. Se a maior parte dos respondentes provavelmente não responderá à questão honestamen- te, ela deve ser deixada de lado. Os formuladores de políticas podem estar muito interessados nessa informação, mas não faz sentido coletar dados não confiáveis. Às vezes, podem ser coletadas informações rela- cionadas que não sejam tão delicadas. Incluir perguntas sobre questões delicadas pode ofender aos respon- dentes, que se recusarão a responder ao restante dos itens ou devolverão o questionário. Se existe preocupação quanto à sensibilidade a alguma questão, o melhor é não incluí-la no questionário. 130 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL DIAGRAMAÇÃO DO QUESTIONÁRIO Existem duas considerações fundamentais quanto à diagramação e ao desenho de questionários: (a) facilidade de uso para o respondente e (b) facilidade de uso para o processamento dos dados. É fácil usar os ques- tionários quando eles têm as seguintes características: y Um modo simples e consistente de responder às questões. y Uma apresentação limpa e clara. y Questões separadas e facilmente identificáveis. y Categorias de respostas claramente associadas a cada questão. y Títulos, fontes e diagramação consistentes. y Categorias de respostas codificadas para a entrada de dados. As categorias de respostas podem ser apresentadas de muitas ma- neiras. Podem estar numa coluna vertical ou numa linha horizontal. Os respondentes podem fazer um círculo em torno de uma letra ou de um número, ou marcar uma caixa para indicar sua seleção. É preferível manter a consistência no estilo de resposta. O Quadro 9.1 apresenta o exemplo de um item no qual as respos- tas não estão claramente identificadas com as categorias de respostas. O Quadro 9.2 mostra melhor alinhamento. QU A D R O 9 . 1 Alinhamento Ruim de Caixas e Categorias de Respostas O seguinte exemplo mostra um alinhamento ruim de caixas e categorias de respostas: Quanto tempo você leva para chegar à escola na maior parte dos dias? Menos de 15 minutos … 15 minutos … 30 minutos … 45 minutos … 1 hora … mais de 1 hora … As caixas estão situadas entre as categorias de respostas, em vez de estarem clara- mente alinhadas com apenas uma categoria. Fonte: Autores. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 131 QU A D R O 9 . 2 Melhor Alinhamento de Caixas e Categorias de Respostas O seguinte exemplo mostra um bom alinhamento de caixas e categorias de respostas: Com que frequência as seguintes pessoas de sua família o ajudam em seu dever de casa? Nunca Algumas Cerca de Várias Várias ou quase vezes por uma vez vezes vezes por nunca ano por mês por mês semana a) Sua mãe … … … … … b) Seu pai … … … … … c) Seus irmãos e irmãs … … … … … d) Um de seus avós … … … … … Fonte: Autores. REVISÃO DOS QUESTIONÁRIOS A elaboração de questionários é muito mais difícil do que parece. Todos os itens têm de ser cuidadosamente examinados e revistos para garan- tir que sejam claros e não contenham ambiguidade. Recomenda-se que um painel faça a revisão do questionário. Os membros do painel devem incluir elaboradores de itens, alguém que tenha familiaridade com as características da população respondente e alguém capaz de garantir que os itens sejam culturalmente adequados. Hoje em dia, algumas avalia- ções nacionais e internacionais checam como os respondentes interpre- tam os itens antes da aplicação principal do questionário. Será útil que os membros do painel tentem completar o questioná- rio como se fossem os respondentes. Esse processo ajudará a identificar onde as categorias de respostas poderiam estar pouco claras, superpostas ou deixando de incluir alguns tipos de resposta. Os membros do painel devem criticar os itens, especialmente para deixar claros o fraseado e a adequação das categorias de respostas. De- vem se certificar de que o fraseado é tão simples e claro quanto possível, que o estilo de itens é consistente e que os itens estão apresentados numa ordem lógica, com instruções adequadas. 132 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL Os membros do painel devem conferir se os itens correspondem à tabela de especificações do questionário e certificar-se de que cada item fornece a informação requerida. Também precisam checar se o número de itens usados é adequado para medir cada variável com um nível suficiente de exatidão. Depois que o questionário tiver sido aprimorado, os formuladores de políticas devem ter a oportunidade de revê-lo. Os formuladores de polí- ticas precisam aprovar os itens, especialmente se tocam questões politi- camente delicadas. Os formuladores de políticas também devem checar se os itens fornecerão informações úteis. Depois de aprimorados, os questionários devem passar por um pré- -teste, junto com os materiais do teste. O pré-teste fornece a oportu- nidade de melhorar a qualidade dos itens e reduzir o tempo e o custo de processamento dos dados do questionário final. Os itens que não funcionarem (por exemplo, aqueles em que os respondentes ficam con- fusos) podem ser abandonados, e as categorias de resposta podem ser expandidas ou reduzidas. Depois da aplicação do questionário, o aplicador deve ouvir a opinião dos respondentes (alunos ou professores) a respeito dos itens que não estão claros ou que não contêm informação adequada. Os aplicadores devem se certificar de que nenhum item seja considerado ofensivo por tocar em questões delicadas. Uma análise estatística mais formal das respostas pode indicar que as ca- tegorias de respostas precisam ser mais sutilmente diferenciadas. Por exem- plo, se a maior parte dos alunos selecionar determinada categoria de respos- ta para um item, a categoria deve ser dividida em categorias mais sutilmente diferenciadas, para que se possa obter informação mais exata. Se a faixa de possíveis respostas a um item for potencialmente muito ampla e difícil de prever, o item deve ser deixado em aberto no pré- -teste. Então, as respostas obtidas poderão ser classificadas e usadas para gerar categorias para um item de escolha forçada no questionário final. Em http://go.worldbank.org/M2O1YDQO90, você encontra exemplos de avaliações nacionais e internacionais de questionários para alunos, professores, encarregados de turma e pais. Também inclui exemplos de guias de pontuação para respostas abertas. CAPÍTULO 10 CODIFICAÇÃO DAS RESPOSTAS DOS QUESTIONÁRIOS A ntes de dar entrada no computador, as cate- gorias de respostas têm de ser codificadas. A codificação pode ser alfabética ou numérica. Os códigos alfabéticos em geral requerem que os respondentes façam um círculo em torno de uma letra para dar sua resposta. Esse método pode não ser adequado para alunos mais jovens. Marcar uma caixa ou sombrear círculos pode ser uma tarefa mais fácil para pessoas com habi- lidades de letramento limitadas. Se os itens usarem esse tipo de diagra- mação, deverão ser codificados numericamente. Se for usada a codificação numérica, a primeira categoria de respos- ta recebe, em geral, o código 1, a segunda recebe o código 2, e assim por diante. A entrada de dados é mais eficiente se os códigos estiverem impressos no questionário. Pode-se usar uma fonte pequena em escala cinza, conforme se vê no Quadro 10.1. No exemplo, as categorias de resposta estão numeradas sob as caixas: andando é a categoria 1, trans- porte público é a categoria 2, e assim por diante. O aluno marca a caixa que se aplica ao seu caso. A pessoa que faz a entrada de dados dá entrada no número da caixa que o aluno selecionou. Se os respondentes tiverem a oportunidade de selecionar mais de uma categoria de resposta para um item, cada categoria deve ser tratada como 134 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL um item separado para efeito de entrada e processamento dos dados. Esse procedimento possibilita rastrear quais são as categorias selecionadas por cada respondente. O item no Quadro 10.2 é apresentado ao respondente como uma questão com múltiplas respostas possíveis; no entanto, é trata- do como oito itens separados durante a entrada de dados. QUADRO 10.1 Exemplo de Codificação em Escala Cinza Hoje eu vim para a escola Caminhando … Usei transporte público … Usei transporte privado … Montando um animal … 1 2 3 4 QUADRO 10.2 Exemplo de Tratamento de Itens como Categorias Separadas para a Entrada de Dados Se você não veio à escola na última semana, marque uma ou mais caixas para mostrar o motivo. … Eu estava doente. 1 … Tive de ajudar meus pais. 1 … O tempo estava ruim. 1 … Eu não tinha comida. 1 … Minha família teve problemas. 1 … Eu não tinha um uniforme limpo nem roupas adequadas para usar. 1 … Não era seguro (problemas de conflitos e desordens). 1 … Outro _______________________________________ Fonte: Autores. As respostas à primeira categoria (ausente por doença) são registradas como 1 ou em branco, respostas à segunda (ajudando os pais) são regis- tradas como 1 ou em branco, respostas à terceira categoria (tempo ruim) são registradas da mesma forma, e assim por diante, para cada uma das oito categorias. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 135 PREPARAÇÃO DOS QUESTIONÁRIOS PARA A ENTRADA DE DADOS Os dados do questionário podem ser escaneados com equipamento especial ou registrados manualmente. O desenho e a diagramação do questionário têm de ser customizados quando se usar um escâner. Se a entrada de dados estiver sendo feita manualmente, as informa- ções podem ser passadas diretamente do questionário se as categorias de respostas tiverem sido codificadas. No entanto, as pessoas que fazem a entrada de dados podem ter dificuldade de manter um alto nível de exatidão, especialmente se não tiverem familiaridade com esse tipo de trabalho. Também é provável que a exatidão seja comprometida se a diagramação dos itens variar demais ou se alguns itens tiverem um gran- de número de categorias de respostas. A entrada de dados será facilitada se os pontuadores e avaliadores escreverem o código para a categoria selecionada na margem esquerda, perto do número de cada item. A entrada de dados, então, se torna uma questão de apenas entrar os códigos escritos na margem. Quan- do se acrescentam caixas levemente sombreadas na margem para os pontuadores e avaliadores escreverem os códigos, o processo fica mais eficiente. CÓDIGOS EM BRANCO OU RESPOSTAS AMBÍGUAS Às vezes, os respondentes não respondem aos itens ou dão respostas ambíguas, como, por exemplo, selecionando mais de uma categoria de resposta quando as categorias são mutuamente exclusivas. A coleta de informação sobre respostas em branco indica se os res- pondentes deixaram de responder de forma consistente a alguns itens. Por exemplo, o questionário pode ser muito longo, de modo que os últimos itens não são respondidos, ou um item pode estar muito pró- ximo de outros itens e não ser percebido. A coleta de informação so- bre respostas ambíguas também indicará se um item é pouco claro para muitos respondentes ou se eles não compreendem como completar o questionário. 136 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL A pessoa responsável pela entrada de dados precisa saber como codi- ficar respostas em branco ou ambíguas. Os códigos usados para respostas em branco ou ambíguas não devem ser confundidos com aqueles usados para categorias de resposta. Uma letra do alfabeto pode ser usada para denotar resposta em branco ou nenhuma tentativa, como um X. O código para respostas ambíguas poderia ser uma segunda letra, como Y. Os itens de múltipla escolha num teste usam códigos 9 para em branco e 8 para a seleção de duas ou mais opções. Em geral, esses códigos não são usados para questionários porque alguns itens do questionário provavelmente terão oito ou nove categorias de respostas. CAPÍTULO 11 CORRESPONDÊNCIA ENTRE QUESTIONÁRIOS E DADOS DO TESTE A correspondência entre os dados do ques- tionário e os do teste será orientada pelas necessidades da análise e da apresentação dos resultados. Todas as correspondências devem ser estabelecidas cla- ramente e sem ambiguidades antes da coleta de dados. Poderá ser difícil ou impossível corrigir qualquer erro de correspondência descoberto de- pois que os dados tiverem sido coletados. Esses erros podem fazer com que se tenha de abandonar algumas das análises planejadas. QUESTIONÁRIOS DOS ALUNOS O modo mais fácil de fazer a correspondência entre os questionários dos alunos e os dados do teste é imprimir os testes e os questionários em um único caderno. O aluno registra seu nome no caderno, e o aplicador do teste certifica-se de que o aluno trabalhe no próprio caderno em cada uma das sessões do teste. Se os questionários do teste estiverem em documentos separados, um método de fazer a correspondência dos dados é etiquetar tanto os testes quanto os questionários com os nomes dos alunos. Os nomes são 138 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL retirados da lista da escola e devem ser idênticos nas duas etiquetas. Mais uma vez, o aplicador do teste precisa certificar-se de que os alunos trabalhem em testes e questionários que tragam seus nomes claramente impressos. Se não for possível etiquetar com antecedência os cadernos e questio- nários separados, os questionários dos alunos precisam ter informações de identificação suficientes para permitir sua correspondência com os dados do teste. É preferível atribuir uma identidade numérica (ID) aos alunos para garantir que usem o mesmo número de ID em cada caderno e questionário. O aplicador de teste terá de supervisionar esse procedi- mento. O analista de dados também deverá ter uma lista com os nomes e os números de ID dos alunos, de modo que os nomes possam ser usa- dos como um backup caso ocorram erros no ID. Não é desejável confiar nos nomes dos alunos para fazer corres- pondência com os formulários. A menos que os nomes sejam absolu- tamente idênticos em cada formulário e sejam registrados, de forma idêntica, pela pessoa que faz o processamento dos dados, sem qual- quer erro de grafia, o computador não poderá fazer a correspondência entre eles. Assim, a correspondência terá de ser feita manualmente, um exercício que consome tempo e recursos. Alguns alunos tornarão mais difícil a correspondência por nomes, pois usarão diferentes no- mes (como nomes incompletos, nomes de família ou nomes religio- sos) em diferentes formulários; escreverão de forma ilegível em um ou mais formulários; ou deixarão de escrever seu nome em um ou mais formulários. QUESTIONÁRIOS DOS PAIS Em geral, faz-se a correspondência entre os questionários dos pais e os dados dos alunos. A correspondência provavelmente será feita a partir dos nomes dos alunos. Podem ocorrer os mesmos problemas que se apli- cam aos questionários dos alunos. Devem ser estabelecidos procedimen- tos adequados para garantir a consistência. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 139 QUESTIONÁRIOS DO PROFESSOR E DO DIRETOR Em geral, só se faz a correspondência dos questionários do professor e do diretor com a série e a escola. Se a série dos alunos é conhecida, a infor- mação sobre o professor pode ser usada na análise dos dados do aluno. O aplicador de teste deve verificar se os professores e diretores fornece- ram essa informação no questionário. Quando forem devolvidos, os questionários de cada escola devem ser guardados em pacotes separados. Assim, mesmo que a informação sobre a escola não tenha sido fornecida em alguns questionários, é possível obter informações relevantes de outros questionários no mesmo pacote. PA R T E III DESENHO DE UM MANUAL PARA APLICAÇÃO DO TESTE CAPÍTULO 12 O MANUAL DO APLICADOR DE TESTE É necessário haver um manual para orientar a aplicação do teste, que deve ser padronizado de modo que todos os alunos façam o teste sob as mesmas condições. O principal objetivo do manual é especificar as con- dições exatas em que o teste deve ser realizado, incluindo as exigências e os procedimentos de preparação que assegurem a segurança do teste. Os alunos que fazem o teste precisam receber as mesmas questões de prática e as mesmas instruções sobre como apresentar suas respostas. Todos devem dispor do mesmo tempo para fazer o teste, com o mesmo grau de supervisão. O desempenho dos alunos numa avaliação nacional deve ser uma medida de sua habilidade de responder aos itens sem apoio externo. Os alunos devem compreender o que têm de fazer e como apresentar suas respostas, mas não devem receber qualquer outro tipo de ajuda nem ter acesso a qualquer recurso que não seja parte do teste. A observância dos procedimentos estabelecidos em um manual de aplicação deve garan- tir isso. Em http://go.worldbank.org/M2O1YDQO90, você encontra exemplos de manuais de aplicação do teste e manuais para o exercício da função de coordenação que cabe à escola. 144 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL CONTEÚDO DO MANUAL Os manuais de aplicação devem fornecer informações que respondam às seguintes questões: y A que se destina o teste? c Breve explicação do objetivo do teste e do modo como os dados serão usados. y Quais os testes aplicados, quais os alunos testados e quando são tes- tados? c Quais testes estão sendo aplicados na escola. c Quais os alunos que devem fazer cada teste. c Datas e horários de aplicação do teste. c Ordem de aplicação dos testes. c Tempo de aplicação de cada teste. c Intervalos requeridos entre a aplicação dos testes. c Quaisquer opções de flexibilidade na agenda de aplicação. y Quais os materiais de teste necessários? c Lista de todos os materiais de teste fornecidos. c Quantidades de cada material de teste fornecido, como um por aluno ou um por professor. c Lista de quaisquer materiais que a escola tenha de fornecer, como lápis e borrachas. y Como a sala deve ser preparada para o teste? c Instalações físicas que a escola precisa fornecer, como carteiras e cadeiras. c Os recursos que poderiam ajudar os alunos devem ser retirados da sala ou cobertos, como tabelas de multiplicação ou cartazes que contenham regras gramaticais. y Qual a preparação necessária? c Como o diretor ou o encarregado de turma poderiam motivar fun- cionários da escola e alunos a apoiar a aplicação do teste antes da aplicação real. c Quais informações o aplicador do teste poderia pedir, como uma lista com os nomes dos alunos da classe. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 145 Como os cadernos de prova poderiam ser separados, numerados c ou nomeados para que estejam disponíveis para uso. c Como seria preciso organizar grupos de alunos para o teste. y Como o teste deve ser realizado? c Como os alunos devem escrever seus nomes nos cadernos e re- gistrar as informações socioeconômicas e contextuais na folha de rosto. c Quando e como o aplicador deve verificar se os alunos registra- ram corretamente as informações na folha de rosto do caderno de prova. c Como as questões de prática devem ser aplicadas e explicadas. c Que instruções os alunos devem receber sobre o teste. c Qual nível de apoio o aplicador pode oferecer durante o teste. c De quanto tempo os alunos dispõem para completar o teste. c Quais condições o aplicador precisa manter durante o teste. c Quem deve ter permissão para entrar na sala durante a aplicação do teste. y Como os materiais do teste devem ser guardados? c Procedimentos para garantir a segurança dos materiais antes, du- rante e depois do teste. y Quem pode ser contatado caso haja necessidade de ajuda? c Detalhes sobre como contatar a pessoa que pode ajudar a resolver problemas ou dar informações adicionais. As informações adicionais podem ser incluídas no manual de apli- cação para reduzir o movimento dos cadernos de prova que entram e saem das escolas. É provável que essas informações variem, depen- dendo de o teste ser aplicado por um órgão externo ou por professo- res da escola. USO DO MANUAL Tanto o encarregado de turma ou diretor da escola quanto o aplicador do teste precisam usar o manual. Algumas avaliações preparam ma- 146 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL nuais separados para diretores ou para aqueles que têm a responsabili- dade geral pela realização das atividades da avaliação nacional dentro de cada escola. O encarregado de turma (ou o diretor) precisa do manual a fim de garantir que sua escola esteja adequadamente preparada para a aplicação do teste. Deve conhecer bastante sobre o teste para encorajar os funcio- nários e os alunos a apoiar a aplicação e motivar os alunos a tentar fazer o melhor possível. O encarregado de turma (ou o diretor) ou o respon- sável pela coordenação da avaliação nacional na escola (se alguém tiver sido designado para isso) devem ter informação suficiente para organizar a escola e certificar-se de que os alunos corretos estão disponíveis no horário requerido e com os materiais adequados; e que os materiais do teste possam ser armazenados em segurança. Os aplicadores de teste precisam que o manual lhes diga exatamente o que têm de fazer para aplicar o teste corretamente, quando e como fazê-lo. Eles precisam verificar se os materiais estão disponíveis em nú- mero suficiente e se os alunos corretos foram selecionados para fazer o teste. Precisam saber quais informações dar aos alunos sobre o teste, como explicar as questões de prática e o tempo de que dispõem para fa- zer o teste. Também devem saber que procedimentos de segurança usar para armazenar os materiais do teste. CARACTERÍSTICAS DE UM MANUAL Um bom manual contém todas as informações necessárias, e seu uso é fácil. A informação está ordenada logicamente, as instruções são claras e completas, a linguagem é simples e direta. Marcadores, caixas ou tabelas facilitarão a leitura das informações. Um bom manual deve ter uma ta- bela de conteúdos com títulos claros (veja o Quadro 12.1). DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 147 QU A D R O 1 2 . 1 Instruções do Manual de Aplicação Em uma avaliação nacional, as seguintes informações apareceram num tipo grande (Arial 14), ocupando toda a página de abertura do manual de aplicação: Por favor, leia este Manual de Aplicação antes que seus alunos façam o teste. Os alunos têm de fazer este teste durante DOIS DIAS. y O teste está dividido em quatro sessões. Os alunos devem fazer duas ses- sões por dia. y Os alunos devem fazer um intervalo entre cada sessão. y Não deixe que os alunos façam todo o teste de uma única vez. Regras de Aplicação y Os professores devem supervisionar todas as sessões durante todo o tempo. y Os alunos NÃO devem levar os cadernos de prova para fora da sala ou traba- lhar neles depois que o professor tiver saído. y Os alunos devem usar lápis com borrachas na ponta, fornecidos pela escola. y Os alunos não devem usar nenhum material da sala de aula, como livros de exercícios, dicionários ou calculadoras, enquanto fazem o teste. y Os alunos não devem receber ajuda para responder às questões. Por exem- plo, se um aluno não compreender o que deve ser feito, explique de novo as questões de prática e diga para que faça o melhor possível, mas não dê qualquer ajuda adicional. Segurança do Teste y Os materiais do teste devem ser ARMAZENADOS COM SEGURANÇA DU- RANTE TODO O TEMPO. y Os cadernos de prova dos alunos NÃO devem ser copiados em nenhuma hipótese. y Os alunos NÂO devem levar os cadernos de prova para casa. Fonte: Papua Nova Guiné, Departamento de Educação 2004. 148 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL QUANTO DE DETALHE É NECESSÁRIO? As informações sobre as condições gerais de aplicação do teste e a prepa- ração de materiais de teste devem ser abrangentes e, ao mesmo tempo, tão sucintas quanto possível (veja o Quadro 12.2). QUADRO 12.2 Informação para Professores e Diretores A informação sobre os materiais do teste devem ser concisas e estar listadas de modo a facilitar a checagem. O seguinte extrato de uma ampla avaliação realizada em Papua Nova Guiné diz ao encarregado de turma ou ao diretor quais materiais foram enviados à escola e como saber quais turmas participarão do teste: Materiais do Teste Seu Inspetor Escolar lhe dirá quais turmas em sua escola devem participar deste teste. Você deve ter recebido os seguintes materiais: y uma carta de apresentação para o encarregado de turma y um caderno de prova para cada aluno que participará do teste y um manual de aplicação para cada professor que aplicará o teste y um questionário para cada professor participante com questões sobre seu his- tórico y um lápis com borracha na ponta para cada aluno participante Se estiver faltando algum material, ou se esses não forem suficientes, por favor, contate seu Inspetor Escolar Fonte: Departamento de Educação de Papua Nova Guiné 2004. As instruções que o aplicador do teste dará aos alunos devem estar escritas com todos os detalhes. Qualquer coisa que o aplicador do tes- te tiver de dizer aos alunos sobre o teste, as questões de prática ou as condições da aplicação do teste deve estar datilografada. O aplicador do teste deve ler do manual, sem fazer qualquer mudança no fraseado. Esse procedimento garante que todos os alunos que estão fazendo o teste recebam exatamente as mesmas instruções. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 149 QUESTÕES DE PRÁTICA O Quadro 12.3 apresenta instruções gerais de procedimento e uma des- crição do objetivo das questões de prática. As instruções que o aplicador dá aos alunos estão escritas em detalhes e destacadas numa caixa som- breada. O aplicador deve ler essas instruções como estão impressas. A ilustração de dinheiro que faz parte das questões de prática nos cader- nos dos alunos também é mostrada no manual de aplicação, para que o aplicador saiba o que os alunos estão vendo sem ter de ler no manual e segurar um caderno de prova aberto ao mesmo tempo. TESTE DOS ITENS O manual deve estar preparado para ser testado durante o pré-teste dos itens do teste. O pré-teste do manual revelará quaisquer equívocos ou ambiguidades que requeiram esclarecimento ou refinamento na versão final. Como as condições do pré-teste ou teste-piloto devem ser tão se- melhantes quanto possível às do teste final, o manual deve estar o mais próximo possível da forma final quando se fizer o teste dos itens. QUADRO 12.3 Aplicação de Itens de Prática Este exemplo contém parte das instruções para a aplicação de algumas questões de prática: Primeiro Dia: Sessão 1 QUESTÕES DE PRÁTICA DE MATEMÁTICA PARA A 3a SÉRIE (aproximadamente 10 minutos) Certifique-se de que cada aluno recebeu o próprio caderno de prova com seu nome escrito na página de rosto. As questões de prática são fornecidas para mostrar aos alunos diferentes modos de apresentar suas respostas. Peça aos alunos para abrir seus cadernos nas Questões de Prática de Matemática (primeira página). 150 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL DIGA Vamos trabalhar um pouco com matemática hoje, para que vocês descubram todas as coisas diferentes que podem fazer em matemática. Em primeiro lu- gar, faremos algumas questões de prática, para que vocês saibam como fazer e como mostrar suas respostas. Segure um caderno de prova dos alunos e mostre as questões de prática. Verifi- que se todos os alunos encontraram as questões certas. DIGA Vamos ver a primeira questão de prática. Vou ler para vocês. Este é o desenho de duas moedas. Quanto valem essas duas moedas juntas? São 2 toea, ou 7 toea, ou 25 toea ou 205 toea? Preencha o pequeno círculo ao lado da resposta correta. Preencha apenas um círculo. Espere até que todos os alunos tenham terminado e, então, verifique suas res- postas. DIGA A resposta é 25 toea. Você precisava preencher o pequeno círculo ao lado de 25 toea. Se tiver errado, apague e preencha o círculo na resposta correta. Espere até que todos os alunos tenham corrigido seus trabalhos, se necessário. Fonte: Departamento de Educação de Papua Nova Guiné 2004. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 151 Em geral, as instruções sobre a aplicação do teste podem ser escritas a qualquer momento depois que a tabela de especificações tiver sido fina- lizada. As tabelas de especificações devem especificar todas as exigências relativas ao número de testes e à sua extensão e quais alunos devem fazer o teste. Durante o pré-teste, o aplicador deve coletar as seguintes informações para ajudar o gerente de desenvolvimento de teste a refinar o teste final: y Se os alunos precisaram de todas as questões de prática, se havia um número suficiente de questões de prática e se as explicações estavam suficientemente claras. y Se o teste tinha a extensão adequada ou se era muito longo, e apro- ximadamente quantos terminaram mais de 10 minutos antes da hora (se forem usados diferente formulários na mesma classe, o aplicador pode comparar o tempo que os alunos precisaram para preencher cada formulário). y Se os alunos pareciam envolvidos no teste. y Se os alunos tinham recursos adequados e suficientes, como lápis ou borrachas. y Se as instalações da escola eram adequadas para a realização de um teste. REVISÃO O gerente de desenvolvimento de teste e os elaboradores de itens são responsáveis pela revisão e pelo aprimoramento das instruções para as questões de prática. As questões de prática e as instruções para aplicação devem ser dadas no mesmo tipo de painel usado para a revisão de itens. O gerente de desenvolvimento de teste e a pessoa responsável pela logística da produção e distribuição dos testes devem rever e refinar os procedimentos para a movimentação dos cadernos de prova dentro e fora das escolas. Várias pessoas com formação e situação socioeconômica semelhantes às dos aplicadores de teste também devem rever todo o manual para ve- 152 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL rificar se as instruções estão claras e esclarecer quaisquer ambiguidades que possam surgir. Como no caso de todos os materiais do teste, o manual deve ser total e regularmente revisado por pessoas experientes nesta tarefa. As ins- truções para as questões de prática e a aplicação do teste podem ser revisadas da forma adequada apenas se o revisor dispuser de cópias dos cadernos de prova relevantes dos alunos. CAPÍTULO 13 O APLICADOR DO TESTE ESCOLHA DO APLICADOR DO TESTE As pessoas devem estar seguras de que o teste foi aplicado em condições padronizadas. Os aplicadores de teste devem ser vistos por todos como pessoas confiáveis. A escolha do aplicador do teste depende das condições vigentes em cada país. Os inspetores escolares podem ser aplicadores ideais em al- guns países, mas problemáticos em outros. Se os inspetores veem a apli- cação do teste como uma tarefa adicional que não se enquadra em suas atribuições, que usa recursos escassos ou pela qual têm pouco interesse, podem não ter motivação para fazer o trabalho adequadamente. Algumas avaliações nacionais usam aplicadores externos. Idealmente, são pessoas que podem seguir instruções rigorosamente, têm tempo e re- cursos para fazer a tarefa de forma adequada e não têm qualquer interesse particular no resultado do teste que vá além do propósito de aplicá-lo corre- tamente. No Timor Leste, por exemplo, os recenseadores foram treinados e pagos para aplicar uma avaliação nacional nas escolas. Eram pessoas que entendiam a importância de coletar dados de forma sistemática e não ti- nham nenhum interesse investido no desempenho dos alunos. Seu trabalho foi supervisionado para garantir que fosse de um padrão adequado. 154 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL Em alguns países, a aplicação de uma avaliação nacional por professores comprometeria seriamente a credibilidade dos dados, mas pode não ocorrer o mesmo em outros países. O principal problema de se pedir que os profes- sores apliquem o teste é que eles poderão, deliberada ou não intencional- mente, oferecer ajuda aos alunos. Existem muitas razões possíveis para esse fenômeno. Alguns professores podem se preocupar com a ideia de que os dados do teste serão usados para julgar seu desempenho como professores. Podem sentir que precisam ajudar os alunos com o teste para manter seu emprego ou seu status profissional. Coordenadores escolares podem sentir que sua situação esteja mais ameaçada ainda. Alguns professores podem sentir que o teste é uma medida injusta de seu trabalho ou do desempe- nho dos alunos e se sentir obrigados a dar assistência para fazer com que o teste seja “justo”. Alguns professores podem ter a intenção de aplicar o teste conforme instruídos, mas talvez não consigam abandonar seu papel de instrutores. Podem ajudar aos alunos sem nem ao menos perceber que estão fazendo isso ou porque não podem suportar ver os alunos batalhando com as questões sem lhes oferecer ajuda. O Volume 3 desta série aborda a seleção dos aplicadores de teste e descreve algumas vantagens e desvantagens de diferentes tipos de apli- cadores de teste. OBSERVAÇÃO DE INSTRUÇÕES O manual deve distinguir entre instruções específicas que devem ser seguidas ao pé da letra e instruções mais gerais que permitem ao aplica- dor algum espaço para adaptá-las às condições da classe. O aplicador do teste não deve desviar-se de qualquer instrução específica. O pré-teste do manual deve ajudar a identificar quaisquer erros ou ambiguidades nas instruções. Os aplicadores de teste somente devem ajudar os alunos a compreen- der o que devem fazer e como apresentar suas respostas. Os aplicadores de teste devem deixar claro que não podem ajudar qualquer aluno a responder às questões. Não devem oferecer ajuda para interpretar uma questão, explicar o significado de uma palavra ou sugerir formas como o DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 155 aluno poderia tentar responder a uma questão. Se um aluno pede ajuda, o aplicador deve apenas encorajá-lo a fazer o melhor possível. Os aplicadores não devem traduzir em outro idioma para os alunos, a menos que haja instruções específicas para que desempenhem esse papel. Em alguns testes, os aplicadores podem ler as questões para os alunos. O aplicador de teste deve ler lenta e claramente todo o teste em voz alta, questão por questão, ou ler questões específicas a pedido dos alunos. Em qualquer dos casos, o aplicador deve ler as palavras da questão exata- mente como estão impressas e no mesmo idioma. Os aplicadores devem dispor de um relógio de pulso ou de outro tipo de relógio. Devem escrever no quadro negro ou num papel a hora exata em que o teste começa e a hora em que termina. Os aplicadores devem certificar-se de que os alunos compreenderam quanto tempo têm para fazer o teste. Isso, em geral, envolve dizer aos alunos quanto tempo têm no começo e dar um aviso quando faltarem 10 minutos, 5 minutos ou 2 minutos para o prazo final, dependendo da extensão do teste. Os aplicadores devem encorajar discretamente os alunos a tentar re- solver o teste inteiro caso estejam obviamente gastando muito tempo com uma questão e relutem em seguir adiante. Os aplicadores podem fazer isso simplesmente sugerindo ao aluno, em voz baixa, que escreva a melhor resposta possível e, então, tente a questão seguinte. Somente materiais especificados no manual serão permitidos na sala durante a aplicação do teste. Em geral, os alunos trazem seus próprios lápis e borrachas para o teste. Caixas de lápis e bolsas não devem ser permitidas. Qualquer coisa que possa ajudar os alunos a responder às questões do teste deve ser removida da sala. Os alunos não devem ter acesso a recursos como dicionários ou calculadoras, a menos que as con- dições do teste permitam seu uso explicitamente. O aplicador do teste, os alunos que participam do teste e, possivelmente, um supervisor devem ser as únicas pessoas na sala durante a aplicação. O diretor ou outros professores não devem ter permissão de andar em volta da sala. O gerente de testes deve ser notificado de mudanças inevitáveis nas condições de aplicação do teste. Durante a aplicação do teste, o aplicador deve coletar informações sobre quaisquer variações que ocorram nas condições de aplicação para alunos 156 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL individuais. Muitas vezes, a folha de rosto do caderno de prova terá espaço para o aplicador indicar quais alunos estavam ausentes durante todo o teste ou parte dele. Se um aluno tiver de sair da sala por causa de doença e não completar o teste, o aplicador deve registrar essa informação. Em http://go.worldbank.org/M2O1YDQO90, você encontra exemplos de instruções gerais e específicas para aplicadores de teste. Também oferece algumas sugestões sobre como diagramar um manual de aplicação de teste. GARANTIA DA QUALIDADE Os aplicadores devem ser selecionados em função de sua adequação para a tarefa. Devem ser fluentes no idioma em que está escrito o manual. Também devem estar comprometidos a executar bem sua tarefa. Independentemente de seus níveis de experiência ou qualificações acadêmicas, os aplicadores têm de ser treinados. Devem participar de uma sessão de treinamento que explique o objetivo do teste e o papel que terão em sua aplicação. Devem compreender que seguir as instru- ções é importante, e devem ter a oportunidade de praticar a aplicação de testes administrando-o a seus companheiros. Devem ter a oportunidade de fazer perguntas sobre os procedimentos descritos no manual. Se os professores forem aplicar o teste a seus alunos, o treinamento deve garantir que compreenderam o objetivo do teste e que os dados não serão usados para julgá-los. Devem compreender a importância de não ajudar os alunos a responder às questões. Os aplicadores devem ser supervisionados pelo menos durante parte do tempo em que estejam aplicando o teste. Talvez não seja possível supervisionar todas as pessoas, mas verificações aleatórias de alguns apli- cadores devem ser factíveis. Também é recomendável pedir aos aplicadores que preencham e as- sinem listas de verificação para garantir que completaram suas tarefas. LISTA DE VERIFICAÇÃO DO APLICADOR Os detalhes do que deve estar na lista de verificação do aplicador varia- rão, dependendo de quem esteja aplicando o teste e dos procedimentos DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 157 desenvolvidos para rastrear os cadernos e garantir a segurança. O Qua- dro 13.1 fornece um exemplo de uma lista de checagem da aplicação usada nas Filipinas. Um exemplo adicional pode ser visto no Volume 3 desta série. QUADRO 13.1 Lista de Verificação da Aplicação: Um Exemplo das Filipinas O aplicador deve marcar todos os itens para mostrar que completou o trabalho, assi- nando o formulário no final. Nome Data Tarefa Referência Tempo Completado 1. Complete o formulário Alocação do Caderno de Prova do Aluno (ACPA) Formulário ACPA 10min … inserindo o número do teste em ordem consecutiva e colocando os nomes dos alunos em ordem alfabética. 2. Aplique o questionário do professor. Formulário do questionário 15min … do professor 3. Complete o formulário de comentários. Formulário de comentários do 10min … professor 4. Distribua o teste a cada aluno e marque ausente naqueles que não Formulário ACPA 10min … compareceram. 5. Leia a introdução das Diretrizes. Diretrizes para o Aplicador, 5min … p. 7 6. Peça aos alunos para fornecer os dados relativos ao aluno na folha de rosto do Diretrizes para o Aplicador, 5min … teste. p. 9 7. Verifique se todos os alunos completaram os detalhes sobre os 10min … alunos na folha de rosto. 8. Siga as instruções para a Sessão 1. Diretrizes para o Aplicador, 60min … pp. 11-13 9. Nos intervalos, peça aos alunos que saiam da sala em fila e deixem seus 15min … testes sobre as carteiras. 10. Siga as instruções para a Sessão 2. Diretrizes para o Aplicador, 60min … pp. 15-17 158 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL Nome Data Tarefa Referência Tempo Completado 11. Nos intervalos, peça aos alunos que saiam da sala em fila e deixem seus 15min … testes sobre as carteiras. 12. Siga as instruções para a Sessão 3. Diretrizes para o Aplicador, 70min … pp. 19-21 13. Recolha todos os cadernos de prova e confira seu retorno usando o formulário Formulário ACPA 10min … ACPA. 14. Conte todos os testes e certifique-se de Formulário que todos foram devolvidos. ACPA 5min … 15. Dispense a turma. 2min … 16. Assine o formulário ACPA. Formulário ACPA 2min … 17. Recolha e empacote todos os materiais do teste na caixa fornecida, incluindo: 10min … i. Formulário ACPA ii. Questionário do professor iii. Formulário de comentários do professor iv. Todos os testes completados v. Todos os testes não usados 18. Guarde os materiais em segurança. 10min … 19. Devolva o material para seu supervisor distrital do RAMSE (Avaliação Regional Formulário de distribuição Tem- po de … de Matemática, Ciências e Inglês). para supervisor viagem do RAMSE 20. Devolva esta lista de verificação completada a seu supervisor distrital. Lista admi- nistrativa do 2min … RAMSE Assinatura do administrador: _______________________________ Fonte: Departamento de Educação das Filipinas 2004. CAPÍTULO 14 INFORMANDO AS ESCOLAS SOBRE A AVALIAÇÃO NACIONAL O s alunos precisam ser motivados para ten- tar fazer o melhor possível numa avaliação nacional. Em geral, é mais fácil motivar os alunos quando os professores explicam a eles o objetivo do teste e se certificam de que compreenderam que o resultado final será usado para ajudar a aprimorar a qualidade da educação, e não para julgar os alunos ou as escolas. Todos os alunos precisam se sentir encorajados a participar, espe- cialmente aqueles com menos habilidades. A decisão sobre o melhor momento para informar aos alunos as datas do teste dependerá das cir- cunstâncias da escola. Se os alunos se sentirem ameaçados por um teste e ficarem longe da escola, então é preferível não dizer a eles a data exata da aplicação do teste. Se os alunos estiverem animados com a possibi- lidade de fazer um teste e se sentirem mais confortáveis para vir para a escola, então é preferível dizer a eles a data exata. O órgão implementador deve certificar-se de que as escolas estejam informadas sobre o objetivo do teste com bastante antecedência. A in- formação pode ser dada por meio de seminários, cartas ou contatos te- lefônicos. É aconselhável ser honesto e claro sobre quais dados estão sendo coletados, como serão apresentados e usados e quais informações 160 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL de retorno que a escola receberá sobre o desempenho dos alunos (ou se não receberá nada). Os diretores e professores das escolas participantes devem saber que suas escolas e classes foram selecionadas para ajudar a obter informações sobre o que os alunos sabem e não sabem. O objetivo de se coletarem essas informações é ajudar a aprimorar o sistema educacional nacional. Escolas ou classes individuais não estão sendo julgadas em uma avaliação nacional com base numa amostra. Os diretores e professores das escolas participantes também devem ser informados de que todos os dados do teste e todas as respostas dos questionários serão tratados como confi- denciais. É necessário seguir certos procedimentos para garantir que as escolas concordem em participar de uma avaliação antes que sejam designados aplicadores externos para a escola. Também é necessário garantir que os aplicadores externos recebam todas as instruções necessárias, como uma carta de apresentação, de modo que possam estar seguros de que a escola os apoiará e os ajudará a cumprir suas responsabilidades. O Volume 3 contém sugestões adicionais sobre como informar as escolas, inclusive o modelo de uma carta que poderá ser usado. APÊNDICE A GLOSSÁRIO amostra aleatória: Grupo de alunos selecionados estatisticamente que aten- dem a determinados critérios, incluindo uma distribuição de variáveis-chave que correspondem à distribuição das mesmas variáveis em toda a coorte. análise de dados: Uso de uma metodologia estatística para analisar e interpretar os dados do teste. analista de dados: Pessoa responsável pela análise estatística de dados. aplicador: Pessoa que supervisiona a realização do teste e é responsável por garantir que as condições estejam de acordo com os padrões estabe- lecidos no manual de aplicação. área de aprendizado: Uma área de grande importância num currículo, como matemática ou ciências. avaliador: Pessoa que faz a pontuação manual de itens de acordo com um guia de pontuação. avaliador-chefe: Pessoa responsável pelo gerenciamento do centro de classificação e pela solução de discrepâncias nas pontuações. avaliador líder: Um avaliador experiente responsável pela verificação cruzada 162 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL centro de classificação: Local em que é organizada a pontuação manual de itens do teste e os avaliadores são treinados e supervisionados. chave de múltipla escolha: Opção correta num item de múltipla es- colha. classificação de discrepâncias: Procedimento para solucionar conflitos entre pontuações durante a verificação cruzada ou resultantes de clas- sificações duplas das respostas geradas pelos alunos; em geral, esses pro- cedimentos são administrados pelo avaliador-chefe. classificação dupla: Processo de classificar duas vezes as respostas aos itens geradas pelos alunos; a pessoa que faz a segunda classificação não vê a primeira. comando: Parte de um item de múltipla escolha que precede as opções, em geral uma questão, sentença incompleta ou instrução. condições padronizadas: Condições do teste especificadas no manual de aplicação, mantidas idênticas para todos os alunos aos quais o teste é aplicado; todos os alunos recebem a mesma quantidade de apoio, as mesmas instruções e têm o mesmo tempo para fazer o teste. confiabilidade do teste: A medida em que a evidência coletada é sufi- ciente para fazer generalizações. conjunto de itens: Coleção de itens submetidos a um teste piloto ou pré-teste e de itens seguros de testes anteriores que são adequados para uso em testes futuros. coorte completa: Todos os alunos de um país que atendem a certos crité- rios, como estar em determinada série, em determinado momento. correlação ponto bisserial: Método usado em análise de itens para for- necer uma medida da correlação (relação) entre a pontuação (correto ou incorreto) que os alunos obtêm para um item individual e a pontuação geral que obtêm nos demais itens. dado: Informação coletada de um teste, em geral registrada num pro- grama de software num computador. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 163 dados agregados: Dados combinados para expressar uma pontuação geral, como uma pontuação única derivada de um teste de 30 itens. distratores: Opções incorretas num item de múltipla escolha. escala cinza: Tonalidade cinza-claro usada na impressão dos materiais. folha de respostas: Folha separada do caderno de prova usada pelos alu- nos para registrar suas respostas aos itens do teste. formuladores de políticas: Funcionários governamentais que elaboram e definem políticas educacionais. formulário final: Cadernos de prova aplicados a uma amostra da popu- lação. guia de pontuação: Descrições das categorias de pontuação usadas para classificar respostas aos itens geradas pelos alunos. item: Parte específica de um teste com uma pontuação individual; pode ser uma pergunta, uma sentença incompleta ou uma única parte de um teste ou questionário com uma pontuação ou código individual. item de crédito parcial: Item que tem duas ou mais categorias de respos- tas corretas; em geral, essas categorias são hierárquicas para os itens do formulário final do teste, mas podem não ser para itens do pré-teste ou itens de teste. itens abertos de resposta curta: Itens que requerem que um aluno gere uma resposta curta, tal como uma ou duas sentenças, ou faça diversas modificações numa tabela, num gráfico ou diagrama. itens de ligação: Itens replicados em dois ou mais cadernos de prova para permitir a comparação entre os dados resultantes da aplicação dos cadernos. itens de múltipla escolha: Itens que requerem que os alunos selecionem a única resposta correta a uma questão entre diversas opções. itens de resposta fechada: Itens que requerem que os alunos produzam uma resposta curta com um conjunto pequeno e finito de respostas corretas. 164 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL itens discriminativos: Itens que diferenciam entre o desempenhos de alunos de alta habilidade e baixa habilidade: ou seja, os alunos com alta habilidade têm maior probabilidade do que aqueles com baixa habili- dade de responder corretamente ao item. itens imparciais: Itens que são um teste justo do aproveitamento e não conferem vantagem a certos grupos com base em características irrele- vantes para o conhecimento ou a habilidade que estão sendo avaliados. itens protegidos: Itens que foram mantidos fora do conhecimento públi- co; podem ter sido aplicados num teste anterior, mas suas condições impediram a duplicação ou o vazamento. ligação circular: Ligação de um grupo de formulários de teste, do primeiro ao último formulário. ligação horizontal: Ligação de itens entre formulários de um mesmo ano ou série. ligação linear: Ligação de um grupo de formulários de teste, cada um ligado ao seguinte, mas sem que o primeiro seja ligado ao último. ligação longitudinal: Ligação de formulários de teste ao longo do tem- po. ligação vertical: Ligação de formulários de teste usados em diferentes séries por meio do uso de itens comuns. manual de aplicação: Conjunto de instruções escritas sobre como, quan- do e onde os testes devem ser realizados; o manual também pode incluir informações sobre a movimentação dos cadernos de prova que entram e saem das escolas. marco de referência: Documento que define o objetivo do teste e indica o que deve ser medido, como deve ser medido, por que está sendo me- dido e como deve ser apresentado. material de estímulo: Texto, diagramas ou gráficos que fornecem o con- texto para um ou mais itens. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 165 objetividade do teste: A medida em que o teste não é afetado pela esco- lha de tarefas ou escolha de avaliador; isto é, a tarefa é justa e inclusiva, e os critérios para tomar decisões sobre a pontuação estão claros. painel de itens: Pequeno grupo de três a seis pessoas que fazem a revisão crítica e refinam todos os aspectos dos itens para garantir que sejam de alta qualidade. pontuação: Pontos atribuídos à resposta de um aluno com base nas ca- tegorias de um guia de pontuação. pontuação dicotômica: Item que é pontuado como correto ou incorreto, tendo, portanto, duas pontuações possíveis, 0 e 1. pontuação manual: Atribuição de pontuação às respostas dos alunos feita por pontuadores humanos (não por máquinas). população-alvo do teste: Os alunos aos quais o teste será aplicado. pré-teste: Outro nome para um teste-piloto realizado antes do teste fi- nal com uma pequena amostra de alunos para estabelecer a qualidade e adequação de itens, questionários e manuais de aplicação. redação: Dissertação escrita em resposta a um estímulo, em geral com meia página ou mais. respostas em branco: Itens aos quais o aluno não fez qualquer tentativa de responder. respostas incorretas: Itens para os quais a resposta do aluno se enquadra na categoria de pontuação 0 (zero). revisão: Revisão detalhada de todos os aspectos de um texto para garan- tir que esteja claro, consistente e livre de erros. subelemento: Aspectos ou agrupamentos dentro de uma área de cur- rículo; por exemplo, a área de matemática pode ser separada em subele- mentos de número, espaço, padrão e medida. tabela de especificações: Especificações sobre os critérios que os itens finais do teste devem observar, incluindo a proporção de itens que abor- 166 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL dam cada aspecto de uma área de currículo, extensão do teste, formato do item e quaisquer outros critérios ou limitações relativos ao desenvol- vimento do teste. teste: Um ou mais itens aos quais os alunos respondem em condições pad- ronizadas; os itens são elaborados para permitir que os alunos demons- trem seu conhecimento, suas habilidades e seus entendimentos. teste-piloto: Outro nome para o pré-teste realizado antes do teste final com uma pequena amostra de alunos para estabelecer a qualidade e ade- quação de itens, questionários e manuais de aplicação. unidade: Coleção de itens baseada num mesmo material de estímulo. utilidade do teste: A medida em que o teste atende a seu objetivo. validade do teste: Um amplo conceito que envolve fazer interpretações adequadas e usar as pontuações ou as informações contidas no teste. verificação cruzada da classificação: Revisão das pontuações manuais para garantir que correspondam consistentemente às categorias de pon- tuação do guia de pontuação; em geral, a revisão é feita imediatamente pelo avaliador-chefe, a fim de dar um retorno imediato aos avaliadores sobre a qualidade de seu trabalho. APÊNDICE B LEITURA ADICIONAL Allen, N. L., J. R. Donoghue e T. L. Schoeps. 2001. The NAEP 1998 Technical Re- port. Washington, DC: National Center for Education Statistics. Baker, F. 2001. The Basics of Item Response Theory. College Park, MD: ERIC Clear- inghouse on Assessment and Evaluation, University of Maryland. Beaton, A. E. e E. G. Johnson. 1989. “Overview of the Scaling Methodology used in the National Assessment.” Journal of Educational Measurement 29: 163–75. Bloom, B. S., M. D. Engelhart, E. J. Furst, W. H. Hill e D. R. Krathwohl. 1956. Taxonomy of Educational Objectives: Handbook 1 – Cognitive Domain. Londres: Longmans, Green. Campbell, J. R., D. L. Kelly, I. V. S. Mullis, M. O. Martin e M. Sainsbury. 2001. Framework and Specifications for PIRLS Assessment 2001. Chestnut Hill, MA: International Study Center, Boston College. Chatterji, M. 2003. Designing and Using Tools for Educational Assessment. Boston: Allyn and Bacon. Centro de Pesquisas Educacionais. 1978. Drumcondra Attainment Tests, Manual, Level II, Form A. Dublin: Educational Research Centre. Conselho Australiano de Pesquisas Educacionais. S.d. Literacy and Numeracy Na- tional Assessment (LANNA), Sample Questions, Numeracy Year 5. http://www. acer.edu.au/documents/LANNA_Y5NumeracyQuestions.pdf. Conselho Diretor da Avaliação Nacional. S.d. Writing Framework and Specifications for the 1998 National Assessment of Educational Progress. Washington, DC: U.S. Department of Education. 168 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL Departamento de Educação das Filipinas. 2004. Region-wide Assessment for Math- ematics, Science, and English (RAMSE): Basic Education Assistance for Mindanao (BEAM). Manila: Philippine Department of Education. Eivers, E., G. Shiel, R. Perkins e J. Cosgrove. 2005. The 2004 National Assessment of English Reading. Dublin: Educational Research Centre. Forster, M. 2000. A Policy Maker’s Guide to International Achievement Studies. Cam- berwell, Australia: Australian Council for Educational Research. ———. 2000. A Policy Maker’s Guide to Systemwide Assessment Programs. Camber- well, Austrália: Australian Council for Educational Research. Greaney, V. e S. B. Neuman. 1990. “The Functions of Reading: A Cross-Cultural Perspective”. Reading Research Quarterly 25 (3):172–95. Haladyna, T. M. 1999. Developing and Validating Multiple-Choice Test Items. 2a ed. Hillsdale, NJ: Lawrence Erlbaum. Harlen, W. (org.). 2008. Student Assessment and Testing. Vols. 1–4. Londres: Sage. IEA (Associação Internacional para Avaliação do Aproveitamento Escolar). 1998. Third International Mathematics and Science Study—TIMSS Sample Items. Chest- nut Hill, MA: International Study Center, Boston College. http://www.edinfor- matics.com/timss/pop1/mpop1.htm, http://timss.bc.edu/timss1995i/TIMSSP- DF/BSItems.pdf/, and http://www.ed.gov/inits/Math/timss4_8.html. ———. 2007. TIMSS 2003, Science Items, Released Set. Fourth Grade. S011026. Chestnut Hill, Mass.: TIMSS & PIRLS International Study Center, Boston Col- lege. timss.bc.edu/PDF/T03_RELEASED_S4.pdf. Kirsch, I. 2001. The International Adult Literacy Survey (IALS): Understanding What Was Measured. Research Report RR-01-25. Princeton, NJ: Educational Testing Service. Kubiszyn, T. e G. Borich. 2000. Educational Testing and Measurement. Nova York: Wiley. Linn, R. L. e S. B. Dunbar. 1992. “Issues in the Design and Reporting of the Na- tional Assessment of Educational Progress”. Journal of Educational Measurement 29 (2): 177–94. Linn, R. L. e M. D. Miller. 2004. Measurement and Assessment in Teaching: Student Exercise Manual. Upper Saddle River, NJ: Prentice Hall. Messick, S. 1987. “Large-Scale Educational Assessment as Policy Research: Aspi- rations and Limitations.” European Journal of Psychology and Education 2 (2): 157–65. ———. 1989. “Validity.” In Educational Measurement, 3a ed. R. L. Linn (org.), 13– 103. Nova York: American Council on Education/Macmillan. Mullis, I. V. S, A. M. Kennedy, M. O. Martin e M. Sainsbury. 2006. Assessment Framework and Specifications: Progress in International Reading Literacy Study. 2a DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 169 ed. Chestnut Hill, MA: TIMSS and PIRLS International Study Center, Boston College. Mullis, I. V. S., M. O. Martin, E. J. Gonzalez e S. J. Chrostowski. 2004. TIMSS 2003 International Mathematics Report: Findings from IEA’s Trends in Interna- tional Mathematics and Science Study at the Fourth and Eighth Grades. Chestnut Hill, MA: TIMSS and PIRLS International Study Center, Boston College. Mullis, I. V. S., M. O. Martin, E. J. Gonzalez, K. D. Gregory, R. A. Garden, K. M. O’Connor, S. J. Chrostowski e T. A. Smith. 2000. TIMSS 1999 Interna- tional Mathematics Report. Findings from IEA’s Repeat of the Third International Mathematics and Science Study at the Eighth Grade. Chestnut Hill, Mass.: The International Study Center, Boston College. Timssandpirls. bc.edu/timss1999i/ pdf/T99i_Math_2.pdf. Nova Zelândia, Ministério da Educação. 2002. English in the New Zealand Curricu- lum. Wellington: Learning Media for the New Zealand Ministry of Education. Nitko, A. J. 2004. Educational Assessment of Students. 4a ed. Upper Saddle River, NJ: Pearson, Merrill, Prentice Hall. Papua Nova Guiné, Departamento de Educação 2003. Cultural Mathematics El- ementary Syllabus. Port Moresby: Papua New Guinea Department of Educa- tion. ———. 2004. National Curriculum Standards Monitoring Test. Port Moresby: Papua New Guinea Department of Education. PISA (Programa Internacional de Avaliação de Alunos). 2004. Learning for Tomor- row’s World: First Results from PISA 200. Paris: OCDE. APÊNDICE C EXEMPLOS DE ITENS DE TESTE E DE QUESTIONÁRIO E MANUAIS DE APLICAÇÃO E m http://go.worldbank.org/M2O1YDQO90, você encontra exemplos de itens de teste de aproveitamento, guias de pontuação, itens de questionário e manuais que têm sido usados em vários contextos, in- clusive em avaliações nacionais e internacionais. A Figura C.1 mostra o diagrama do material encontrado. A maior parte dos itens, questionários e manuais está disponível para o público e pode ser acessada. Somos muito gratos pelo apoio das editoras e organizações (listadas no final deste Apêndice) que deram permissão para que seus materiais originais fossem reproduzidos. Os exemplos podem dar às equipes de avaliação nacional ideias sobre tipos e formatos de itens, guias de pontuação, cobertura do conteúdo curricular, diagramação de testes e questionários e tipo de informação contida nos manuais de aplicação de testes. As equipes podem usar essas informações como subsídios para desenhar os próprios instrumentos de teste, guias de pontuação e manuais. Ao selecionar ou adaptar materiais, as equipes de avaliação nacional devem ter em mente os currículos na- cionais e a adequação do vocabulário e dos formatos de teste. 172 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL FIGURA C.1 Guia dos Materiais Encontrados na Internet sobre Testes, Questionários e Manuais Exemplos Itens do teste e Questionários Manuais guias de pontuação Linguagem Aluno Coordenador escolar Matemática Professor Aplicador do teste e do questionário Ciências Diretor e escola Pais Nota: Clique no arquivo “Fontes” para acessar a fonte de itens, questões ou manuais individuais liberados, bem como ver uma lista de endereços na internet (onde disponível), por meio dos quais as informações liberadas foram obtidas. ITENS DO TESTE DE APROVEITAMENTO O material disponível em http://go.worldbank.org/M2O1YDQO90 contém itens de testes de matemática, linguagem e ciências. Espera- mos que os elaboradores de itens dessas disciplinas encontrem utilidade nesses itens quando estiverem desenvolvendo instrumentos de avaliação com base nos próprios currículos nacionais. A intenção não é que as equi- pes de avaliação nacional copiem esses itens. No âmbito de cada uma das três áreas, são apresentados, em primeiro lugar, arquivos de itens para as séries do ensino fundamental, seguidos dos arquivos de itens para o nível médio, que são seguidos, por sua vez, dos arquivos de itens que cobrem tanto o nível fundamental quanto o médio. O material disponível na internet inclui uma grande coleção de itens de estudos nacionais realizados nos Estados Unidos nas áreas de matemática, leitura, ciências e escrita para a 4a, 8a e 12a séries, e de estudos separados para alunos com 9, 13 e 17 anos. Contém ainda itens dos testes de mate- mática para a 4a série do estado de Massachusetts. Itens usados em estudos nacionais na Austrália e na Irlanda também estão incluídos. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 173 O material disponível em http://go.worldbank.org/M2O1YDQO90 também apresenta itens liberados de três avaliações internacionais: Ten- dências Internacionais no Estudo de Matemática e Ciências (TIMSS) (matemática e ciências para a 3a, 4a, 7a e 8a séries e para o último ano do ensino médio); Estudo Internacional sobre o Progresso do Letramento em Leitura (PIRLS) (linguagem para a 4a série); e Programa Internacio- nal de Avaliação de Alunos (PISA) (linguagem, matemática e ciências para alunos de 15 anos). Alguns dos itens relacionados com linguagem aplicam-se a longas passagens de textos, um formato que talvez não seja adequado em algu- mas avaliações nacionais. Em diversas situações, o formato do item retirado da internet difere daquele adotado no caderno de prova original. Observe que alguns itens do teste foram concebidos para testar duas ou mais séries. O material disponível em http://go.worldbank.org/M2O1YDQO90 também inclui guias de pontuação relativos a testes específicos. QUESTIONÁRIOS O material disponível na internet contém amostras separadas de ques- tionários para alunos, professores, escolas, diretores e pais. A maior par- te dos questionários tem sido usada em estudos internacionais em países industrializados. Muitas das questões são específicas para determinados contextos educacionais e escolares. As equipes de avaliação nacional de- vem buscar adaptar algumas das questões mais relevantes, para que re- flitam a realidade econômica, social e escolar de seus países. MANUAIS O material disponível na internet inclui manuais com instruções especí- ficas sobre como aplicar testes e questionários. Também inclui manuais que apresentam os papéis e responsabilidades dos responsáveis pela co- ordenação da avaliação dentro das escolas. Essas responsabilidades in- 174 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL cluem tarefas a serem realizadas antes, durante e depois da aplicação do teste e do questionário. Os exemplos cobrem tópicos como preparação dos aplicadores do teste; listagem dos equipamentos e materiais necessá- rios (como testes, questionários, lápis e um relógio de pulso ou de outro tipo); organização dos assentos, de modo a minimizar a possibilidade de cola; como lidar com amostra de itens; cuidados para que as orientações de tempo e horário sejam cumpridas; e identificação de tarefas que o aplicador deve completar ao final de cada sessão. Parte do material será mais relevante em alguns países que em ou- tros. Alguns manuais, por exemplo, referem-se a testes pontuados por máquinas ou a folhas de respostas, que tendem a não ser usados em avaliações nacionais em muitos países em desenvolvimento. Os usuários devem ter o cuidado de não tentar replicar o conteúdo dos manuais; em vez disso, devem selecionar as ideias mais relevantes para seus contextos nacionais. As amostras estão incluídas para ajudar as equipes de avalia- ção nacional a desenvolver manuais com base em seus próprios testes. Alguns manuais contêm sugestões sobre como selecionar amostras de alunos dentro de escolas. AGRADECIMENTOS O Centro Nacional de Estatísticas de Educação do Departamento de Educação dos Estados Unidos (http://nces.ed.gov/nationsreportcard/ about) deu permissão para reproduzir itens liberados do teste, dos ma- nuais para aplicadores e dos questionários da Avaliação Nacional do Pro- gresso Educacional (NAEP) dos Estados Unidos. A Associação Internacional para a Avaliação do Aproveitamento Es- colar (http://www.iea.nl/ e http://timss.bc.edu/) deu permissão para a reprodução de material liberado do TIMSS e do PIRLS: itens, questioná- rios e manuais para coordenadores escolares e aplicadores de teste. A Organização para a Cooperação e o Desenvolvimento Econômico (http://www.pisa.oecd.org/dataoecd/51/27/37474503.pdf) deu permissão para a reprodução de materiais liberados do PISA: itens do teste, questioná- rios e manuais de coordenadores escolares e aplicadores de teste. DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 175 O material disponível na internet contém itens de matemática libe- rados para o público pelo Departamento de Educação de Massachusetts que estão disponíveis no site do departamento: http://www.doe.mass. edu/mcas/testitens.html. O Conselho Australiano de Pesquisas Educacionais deu permissão para reproduzir itens de amostras e guias de pontuação de sua Avalia- ção Nacional de Letramento em Linguagem e em Matemática, Leitura, Anos 3, 5 e 7 (http://www.acer.edu.au/lanna/). O Centro de Pesquisas Educacionais, Dublin (http://www.erc.ie/in- dex.php?s=7) deu permissão para reproduzir material de inglês e mate- mática: itens, um questionário e um manual para aplicadores de teste. ÍNDICE Quadros, figuras, notas e tabelas estão indicadas por q, f, n e t, respectivamente. alunos uso de caderno único vs. múltiplos motivação dos, 159 cadernos e, 95 população para avaliação, 25 Veja também manual do aplicador questionários para, 113, 137-138 de teste amostra aleatória, 68, 161 aplicadores externos, 153, 160 análise de dados, 5f, 7t, 55 apresentação de resultados, 26-27 plano para questionários, 110, 122 áreas de aprendizado, 10, 29, 55, 161 pré-teste, 91 armazenagem eletrônica de itens do software para pontuação de testes de teste, 65 múltipla escolha, 22 armazenagem segura de materiais do análise, 4f teste, 65, 146, 147q, 158q analista de dados, 7t, 161 associação circular, 70–72, 71f aplicação oral de testes, 18 atividades da avaliação nacional aplicadores. Veja aplicadores de teste fluxograma das, 4, 5f aplicadores de teste visão geral das, 4, 5-7f definição de, 161 ausência de alunos durante o teste, escolha dos, 153-154 155 garantia da qualidade, 156 Avaliação Nacional de Leitura em instruções para, 147q, 154-156 Inglês (Irlanda), 26 lista de verificação para, 156, Avaliação Nacional do Progresso 157-158q Educacional (NAEP) (Estados tarefas, 5f, 6t Unidos), 30, 65n tópicos, 153-158 avaliador chefe, 102, 161 178 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL avaliadores e pontuação manual de dados socioeconômicos e contextuais, itens do teste, 102-106, 161 26n avaliadores principais, 102, 161 dados, definição de, 162 cadernos múltiplos, procedimentos definições para uso de, 95 glossário, 161–166 cartas de apresentação para aplicadores de áreas temáticas principais, 9-10 externos, 160 desempenho avançado de alunos, 27 centro de classificação, 101, 102 desempenho básico de alunos, 27 chave em itens de testes de múltipla desempenho de alunos abaixo do escolha, 37, 40-41, 91, 162 básico, 27 classificação de discrepâncias, 162 desempenho proficiente dos alunos, 27 classificação dupla, 23, 162 desenho de cadernos que passam de classificações de itens, 64, 65, 91 um aluno a outro, 68 códigos alfabéticos para respostas de desenho gráfico e itens do teste, 50–55, questionários, 133 51q, 52q, 53q códigos numéricos para respostas a diagramação e desenho de itens questionário, 133 diretrizes básicas, 50 comando em itens de múltipla escolha escala cinza, uso da do teste, 37-38, 39, 47, 162 folha de estilo para elaboradores, comissão de coordenação nacional 58-59 (CCN), 3, 4f, 5f, 6t, 9, 27 itens abertos de resposta curta Veja condições padronizadas, 153, 162 itens abertos de resposta curta confiabilidade, 84-85, 87, 162 itens de crédito parcial, 44-47, 45q, conjunto comum de itens de ligação, 70 46q, 47q, 82 conjunto de itens, 14t, 62, 64, 162 itens de múltipla escolha. Veja itens coorte completa, 162 de múltipla escolha correlação ponto bisserial, 87-90, 88t, itens de redação ou resposta 82t, 162 dissertativa Veja itens de redação correspondência entre questionários e ou resposta dissertativa dados do teste, 137-138 itens de resposta curta. Veja itens de currículo e avaliação nacional, 4f, 5f, resposta curta 10, 11q itens de respostas fechadas Veja custos itens de respostas fechadas de processamento de dados de pré-testes, 76, 79, 79q questionários, 131 produção do teste final, 95, 96 de reimpressão do pré-teste, 78 qualidade de imagens, 9, 50–55, de impressão, 50, 98 51q, 52q, 53q, 54q de aplicação do questionário, 121 questionários, 129-130, 130q de testes traduzidos, 17, 18 respostas dos alunos, 96 de pontuação manual dos itens, 21, tópicos, 49-55 22, 23, 24t unidades, 47-48, 166 dados do teste e questionários, vantagens e desvantagens do, 23, 24t correspondência entre, 137–138 diagramação e desenho de itens, 49-55 DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 179 dificuldade de itens, 15, 31-32, 90, 95 equipe para elaboração de itens, 55-59, diretores 58q, 91 avaliação nacional, informar sobre, escala cinza 159-160 definição de, 163 manual dos aplicadores para os, opções de pontuação em, 76 145-146 para títulos de itens, 50, 64, 74, 96 disponibilidade de itens de teste na respostas a questionário e, 133, 134q internet, 30 escaneamento, uso de, 22 distratores em itens de múltipla especialistas nas disciplinas, 4f, 5f, 6t, escolha, 37, 39-41, 163 12 doença de aluno durante teste, 155 Estudo Internacional sobre o Progresso elaboração de itens do Letramento em Leitura (PIRLS), amostras de itens de alta qualidade, 20, 27, 30, 41, 48 30 etapas do desenvolvimento do teste e características de bons itens, 29-30 desenho do questionário, 6-7t dificuldades de itens, 15, 31-32, 95 exigências estatísticas do teste final, 93 elaboradores, qualidades e extensão dos cadernos de prova, 96-98 treinamento de, 55-59 fatores da escola, 28 equipe de elaboração de itens, fatores familiares, 28 55-59, 58q, 91 Filipinas, 156, 157-158q equipe para, 55-59, 58q, 91 fluxograma de atividades da avaliação formato de itens, 18–25, 36-49 nacional, 4, 5f grupos de referência e, 62 folha de entrada de dados, 81-82, itens de prática, 48-49 81q material de estímulo, 33-36, 35q, folha de estilo de itens, 58q 54q, 75, 95, 164 folha de estilo para elaboradores de modelos de itens de alta qualidade, itens, 58-59 30 folha de respostas, 96, 163 painéis de itens, 5f, 49, 59-62, formato de itens 82-83, 165 pré-testes, 78, 79q para questionários, 112t, 125-132 questionários, 119-120 rastreamento de itens, 63-65 testes, 18-25, 30, 36-49 revisores, outros, 62 Veja também elaboração de itens; tarefas, 6t, 7t itens de resposta fechada; itens de tendenciosidade do item, 33 redação ou resposta dissertativa; tópicos, 29-65 itens de múltipla escolha; itens Veja também diagramação e desenho abertos; itens de resposta curta de itens formato. Veja formato de itens elaboradores de itens do teste, formuladores de políticas qualidades e treinamento de, 55-59, definição de, 163 58q, 82-83 desenvolvimento do marco de encarregado de turma, 115, 138, referência da avaliação e, 10, 14, 145-146 15, 27-28 180 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL etapas da avaliação nacional em instruções desenvolvimento de teste e para alunos, 143, 145, 148, 149 desenho de questionário e, 6t para aplicador do teste , 147q, painéis de itens e, 60 154-156 questionários e, 109-110, 112t, 111, Irlanda, 26 116, 117q, 118, 121, 129, 131 item, definição de, 163 garantia de qualidade, 79, 156 itens de múltipla escolha gerente de elaboração de provas definição de, 18–19 conteúdo do questionário e, 111 em questionários, 133-135, 136 controle de qualidade pelo, 79 formato do item, 18-19, 21-23, 24t, manual do aplicador de teste e, 151 31-32, 37-41, 37q, 38q, 39q, rastreamento de itens, 64 40q responsabilidades, 59, 62 guias de pontuação, 81-82 tarefas, 4f, 7t seleção de itens de teste e, 87-88, treinamento do avaliador, 102 90t glossário, 161–166 itens de prática, 48-49, 149q, 151 gráficos, uso de, 50, 52q em questionários, 149 grupo de referência, revisão por, 62 itens de resposta curta história do desenvolvimento dos itens formato do item, 18-20, 36-37, do teste, importância de registrar e 41-44, 43q, 44 guardar, 64 itens de crédito parcial e, 44-47, ID, número de identificação dos 45q, 46q, 47q alunos, 94, 138 itens de prática e, 48 identidade numérica (ID) para alunos, pontuação manual de, 105 94, 138 itens de resposta obrigatória em idioma de testes e questionários, 17-18, questionários, 119, 120 120 itens de respostas fechadas imagens em itens do teste, 50-55, 54q definição de, 163 imagens, uso de, 51q formato do item, 18–19, 20q, 21-23, impressão e revisão, 6t, 7t 24t, 36, 44q, 47q definição de revisão, 165 pontuação de, no pré-teste, 82 do manual do aplicador de teste, confiabilidade de, 85 151 pontuação manual de, 22, 24t do pré-teste, 75-78 itens de teste liberados para o público, do teste final, 96-99 30 índice de discriminação, 87, 88-89, 90t itens discriminativos, 164 informação contextual, 27-28 itens e formulários ligados, 69–74, 71f, informações socioeconômicas e 73f, 74t, 91, 95, 163 contextuais dos alunos, 93-95, 120 itens imparciais, 62, 164 informando as escolas sobre a avaliação itens protegidos, 30, 164 nacional, 159-160 líder da equipe, 5f, 6t inspetores escolares como aplicadores ligação horizontal, 95, 164 de teste, 153 ligação linear, 72, 164 DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 181 ligação longitudinal, 164 validade e, 17 ligação vertical, 72-73, 73f, 95, 164 visão geral do, 9–10 listas de verificação Veja também tabela de para aplicadores de teste, 156, especificações; formato de itens 157-158q marco de referência, 6t, 164 para pré-testes, 76 materiais permitidos durante o teste, logística, 4f 155 mais de uma categoria de respostas material de estímulo, 33-36, 35q, 54q, possíveis ao questionário, 133-135, 75, 95, 164 134q Ministério da Educação, 3, 5f manual de aplicação. Veja manual do modelagem de resposta ao item, 27 aplicador de teste NAEP. Veja Avaliação Nacional do manual do aplicador de teste Progresso Educacional (Estados características do, 146, 147q Unidos) conteúdos de, 144-145 níveis de proficiência, 27 definição de, 164 Nova Zelândia, 11q detalhes necessários no, 146-149, números nacionais de identificação para 148q alunos (ID), 94 instruções aos alunos, 143, 145, 148, objetividade, 165 149 objetividade do teste, 165 instruções para, 147q, 154-156 opinião dos respondentes sobre os questões de prática, 149, 149q, questionários, 131-132 150q órgão implementador, 4f, 5f, 6t, 7t revisão do, 151 padrões predefinidos para testes, 16 teste do, 149, 151 página de rosto do cadernos do tópicos, 143-151 pré-teste, 75-76 uso do, 145-146 página de rosto, informações na, 75, visão geral, 143 93-94, 94q, 121 mapas, uso de, 50, 53q painéis marco de referência da avaliação item, 5f, 49, 59-62, 82-83, 165 apresentação de resultados, 26-27 para revisão de questionários, 131 contextos, 10, 11q, 27–28 Papua Nova Guiné desenvolvimento, 9–28 currículo de matemática em, 11q etapas no desenvolvimento do teste tabela de especificações do e desenho de questionário, questionário em, 116, 117q 6-7t, 8 tabela de especificações para idioma do teste, 17–18 conteúdo de matemática em, 14, marco de referência, definição de, 15f 164 testes de matemática em, 23, 25t população de estudantes para percentagem de tipos de item de teste, avaliação, 25 21 tabela de especificações do teste, Pesquisa Internacional de Letramento, 11-16 26-27 182 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL PIRLS. Veja Estudo Internacional pré-teste de itens sobre o Progresso do Letramento em adequação de itens e, 15 Leitura alunos que não tentaram responder PISA. Veja Programa Internacional de a itens do teste, 79 Avaliação de Alunos confiabilidade e, 84-85 planilha, uso, 64-65, 74-75, 75t dados do teste final e, 90-92 pontuação definição de pré-teste, 165 de itens de múltipla escolha, 81-82 desenho de formulário do pré-teste, de pré-testes, 78-78, 81q, 83 70-75, 71f, 73f, 74t, 75t de questões de crédito parcial, dificuldade de itens e, 31, 90 44-47, 45q, 46q, 47q, 82, 83 folha de entrada de dados para, definição de pontuação, 165 81-82, 81q guias, 22-23, 41, 44, 58-59, 58q, 65, implementação do pré-teste, 78-79, 81-82, 163 79q pontuações ou respostas em branco, impressão e revisão de pré-teste, 44, 79-81, 135-136, 164 75-78, 99 Veja também pontuação manual; manual do aplicador de teste e, 149, itens específicos do teste 151 pontuação dicotômica, 88-89, 165 modelo e amostra de testes e, 30 pontuação manual pontuação do pré-teste, 79-78, 81q avaliadores e, 102-106 rastreamento de itens e, 63 custo da, 21, 22, 23, 24t tarefas, 5f de itens de múltipla escolha, 22 teste piloto e, 165 de itens de respostas fechadas, 22, tópicos, 67-74 24t visão geral, 67-70 de pré-testes, 79, 82, 83 pré-teste de itens, 67-85 de questionários, 119 processos cognitivos, 12, 26, 31 de questões abertas de resposta produtos do aprendizado, 31 curta, 22, 24t professores definição de, 165 avaliação nacional, informados orientações para, 22–23, 81–83, 90, sobre, 159-160 93, 101, 103-105 como aplicadores de teste, 154, 156 tarefas, 6t, 7t questionários para, 114, 138 vantagens e desvantagens da, 23, 24t Programa Internacional de Avaliação de verificação cruzada da classificação Alunos (PISA), 20, 30, 41 e, 22, 166 questionários pontuação na elaboração de itens, 38, afirmações, 126-127 50 aplicação de, 121 pontuação para nenhuma tentativa de categorias de respostas, 127-129 resposta, 79 codificação de respostas, 133-136, pontuações ou respostas em branco, 134q, 165 44, 79–81, 135-136, 165 componentes do desenvolvimento população do teste, 25, 60, 74, 165 de, 110, 112t DESENVOLVIMENTO DE TESTES E QUESTIONÁRIOS PARA AVALIAÇÃO DO APROVEITAMENTO ESCOLAR | 183 construção de, 107-122 questões delicadas na elaboração de conteúdo de, 111-116 itens, 129 correspondência com dados do teste, questões específicas para cada país, 119 137-138 rastreamento de itens, 63-65 desenho de, 6–7t, 8, 109-122, 112t recenseadores como aplicadores de elaboração de itens para, 112t, teste, 153 125-132, 130q redação ou itens de resposta entrada de dados, 135 dissertativa, 18, 20, 21q, 22, 24t, final, 112t 105, 165 formato, 129-130, 130q respondentes de questionários, 121 formato do item, 118t, 119-120 resposta incorreta, 103, 165 idioma do, 120 respostas ambíguas aos questionários, informação contextual, obtenção 135-136 de, 28 respostas ao questionários, 134q passos do desenvolvimento de, 110 resultados, apresentação de, 26-27 plano de análise de dados, 112t, 122 resumo de dados do questionário, pré-teste, 112t 120 questões delicadas, 129 revisão. Veja impressão e revisão questões, 126 revisão e revisores, 49, 59-62, 82-83, respondentes de, 121 131-132, 151, 165 revisão de, 131-132 rotulando formulários de teste, 69 tabela de especificações para, 112t, seleção de itens do teste, 87–92, 88t, 111, 116, 117q 90t questionários dos pais, 114, 138 seleção de itens. Veja seleção de itens questões abertas de resposta curta do teste confiabilidade e, 85 software, 63-64, 82 definição de, 165 subelemento, 14, 165 formato do item, 18, 20–23, 24t, supervisão dos aplicadores de teste, 156 36, 41-43, 45-46, 46q Tabela de especificações de teste. Veja guias de pontuação, 44-47 tabela de especificações pré-testes, pontuação de, 82 tabela de especificações, 11–16 questionários e, 119, 132 para questionários, 112t, 111, 116, seleção de itens de teste e, 88-90, 117q 90t para testes, 6t, 11-16, 13t, 14t, 5f, questões de crédito parcial 30, 59-60, 87, 165 definição de, 165 tamanho da fonte. Veja diagramação e formato do item e, 36 desenho de itens guias de pontuação para, 44-47, TCT. Veja teoria clássica dos testes 45q, 46q, 47q, 82 tempo disponível para realização do pré-testes, 83 teste, 23, 69, 155 seleção de itens do teste e, 89-90, Tendências Internacionais no Estudo 90t de Matemática e Ciências (TIMSS), questões de prática, 149, 149q-150q 12, 14t 184 | SÉRIE P ESQ UISAS DO BA NC O M U NDI AL SOB R E AVAL I AÇ ÕE S DE DE SE M PE NH O E DU C AC I ONAL Tendências Internacionais no Estudo TIMSS. Veja Tendências Internacionais de Matemática e Ciências (TIMSS), no Estudo de Matemática e Ciências 26n, 30, 128–129 tipo de texto, 30 tendenciosidade de itens, 33 Veja também diagramação e desenho teoria clássica dos testes (TCT), 84, de itens 92n títulos de itens, 50, 63-64, 69, 96 teoria de resposta ao item (IRT), 84, tradução de testes, 17-18 92n treinamento teste de linguagem, 105 de avaliadores, 102-105 teste, definição, 166 de elaboradores de itens, 57-59, teste final 58q, 59 definição de formulário final, 166 para aplicadores de teste, 156 desenho do teste final, 93-96 TRI. Veja teoria de resposta ao item impressão e revisão de, 96-99 unidades, elaboração de itens para, produção, 93-99, 47-48, 166 seleção de itens do teste e, 90-92 utilidade do teste, 78, 82, 166 teste piloto, Veja pré-teste validade, 17, 166 Veja também pré-teste de itens variável agregada, 118, 119, 122 teste-piloto, 166 variável direta, 118, 119 Veja também pré-teste de itens verificação cruzada da classificação, 22, Timor Leste, 153 166