41789
Évaluer les niveaux
nationaux de
performance dans
l’éducation
Évaluations nationales des acquis scolaires




VOLUME 1



Évaluer les niveaux
nationaux de
performance dans
l’éducation
Vincent Greaney
Thomas Kellaghan
© 2015 Banque internationale pour la reconstruction et le développement/La Banque mondiale
1818 H Street NW, Washington, DC 20433
Téléphone : 202–473–1000 ; Internet : www.worldbank.org

Certains droits réservés

La publication originale de cet ouvrage est en anglais sous le titre, Assessing National Achievement Levels in
Education. Vol. 1 of National Assessments of Educational Achievement, en 2008. En cas de contradictions, la langue
originelle prévaudra.
    Cet ouvrage a été établi par les services de la Banque mondiale avec la contribution de collaborateurs exté-
rieurs. Les observations, interprétations et opinions qui y sont exprimées ne reflètent pas nécessairement les vues
de la Banque mondiale, de son Conseil des Administrateurs ou des pays que ceux-ci représentent. La Banque
mondiale ne garantit pas l’exactitude des données citées dans cet ouvrage. Les frontières, les couleurs, les déno-
minations et toute autre information figurant sur les cartes du présent ouvrage n’impliquent de la part de la
Banque mondiale aucun jugement quant au statut juridique d’un territoire quelconque et ne signifient nulle-
ment que l’institution reconnaît ou accepte ces frontières.
    Rien de ce qui figure dans le présent ouvrage ne constitue ni ne peut être considéré comme une limitation
des privilèges et immunités de la Banque mondiale, ni comme une renonciation à ces privilèges et immunités,
qui sont expressément réservés.

Droits et autorisations



L’utilisation de cet ouvrage est soumise aux conditions de la licence Creative Commons Attribution 3.0 IGO
(CC BY 3.0 IGO) http://creativecommons.org/licenses/by/3.0/igo/ Conformément aux termes de la licence
Creative Commons Attribution (paternité), il est possible de copier, distribuer, transmettre et adapter le
contenu de l’ouvrage, notamment à des fins commerciales, sous réserve du respect des conditions suivantes :

Mention de la source — L’ouvrage doit être cité de la manière suivante : Greaney, Vincent, et Thomas
Kellaghan. 2015. Évaluations nationales des acquis scolaires. Volume 1 : Évaluer les niveaux nationaux de
performance dans l’éducation. Washington, DC : La Banque mondiale. DOI : 10.1596/978-1-4648-0512-7
Licence : Creative Commons Attribution CC BY 3.0 IGO

Traductions — Si une traduction de cet ouvrage est produite, veuillez ajouter à la mention de la source de
l’ouvrage le déni de responsabilité suivant : Cette traduction n’a pas été réalisée par la Banque mondiale et ne doit
pas être considérée comme une traduction officielle de cette dernière. La Banque mondiale ne saurait être tenue
responsable du contenu de la traduction ni des erreurs qu’elle pourrait contenir.

Adaptations — Si une adaptation de cet ouvrage est produite, veuillez ajouter à la mention de la source le déni
de responsabilité suivant : Cet ouvrage est une adaptation d’une oeuvre originale de la Banque mondiale. Les idées
et opinions exprimées dans cette adaptation n’engagent que l’auteur ou les auteurs de l’adaptation et ne sont pas
validées par la Banque mondiale.

Contenu tiers — La Banque mondiale n’est pas nécessairement propriétaire de chaque composante du contenu
de cet ouvrage. Elle ne garantit donc pas que l’utilisation d’une composante ou d’une partie quelconque du
contenu de l’ouvrage ne porte pas atteinte aux droits des tierces parties concernées. L’utilisateur du contenu
assume seul le risque de réclamations ou de plaintes pour violation desdits droits. Pour réutiliser une composante
de cet ouvrage, il vous appartient de juger si une autorisation est requise et de l’obtenir le cas échéant auprès du
détenteur des droits d’auteur. Parmi les composantes, on citera, à titre d’exemple, les tableaux, les graphiques et
les images.
     Pour tous renseignements sur les droits et licences doivent être adressées à World Bank Publications,
The World Bank, 1818 H Street, NW Washington, DC, 20433, USA ; télécopie : 202–522–2625 ; courriel :
pubrights@worldbank.org.

ISBN (imprimé) : 978-1-4648-0512-7
ISBN (digital) : 978-1-4648-0513-4
DOI : 10.1596/978-1-4648-0512-7

Conception de la page de couverture : Naylor Design, Washington DC
                   TABLE DES MATIÈRES




PRÉFACE                                                           xi

REMERCIEMENTS                                                    xiii

ABRÉVIATIONS                                                     xv

 1. INTRODUCTION                                                   1

 2. ÉVALUATIONS NATIONALES DE LA PERFORMANCE
    DES ÉLÈVES                                                     9
    Quels sont les principaux éléments d’une évaluation
    nationale ?                                                  14
    En quoi une évaluation nationale diffère-t-elle
    des examens publics ?                                        17

 3. POURQUOI RÉALISER UNE ÉVALUATION NATIONALE ?                 21

 4. DÉCISIONS À PRENDRE DANS LES ÉVALUATIONS
    NATIONALES                                                   27
    Qui oriente les politiques dans une évaluation nationale ?   27
    Qui effectue l’évaluation nationale ?                        29
    Qui administre les épreuves et les questionnaires ?          34
    Quelle est la population évaluée ?                           35


                                                                   v
vi    |   TABLE DES MATIÈRES




          Evalue-t-on toute la population ou un échantillon ?            37
          Quels sont les éléments évalués ?                              39
          Comment la performance est-elle évaluée ?                      44
          À quelle fréquence les évaluations sont-elles effectuées ?     49
          Comment exprimer la performance des élèves ?                   49
          Quels sont les types d’analyses effectués ?                    52
          Comment les résultats d’une évaluation nationale sont-ils
          communiqués et utilisés ?                                      53
          Quels sont les éléments de coût d’une évaluation nationale ?   55
          Résumé des décisions                                           59

     5. ÉLÉMENTS À PRENDRE EN COMPTE DANS LA
        CONCEPTION, LA MISE EN ŒUVRE, L’ANALYSE,
        LA PRODUCTION DES RAPPORTS ET L ’UTILISATION
        D’UNE ÉVALUATION NATIONALE                                       61
          Conception                                                     62
          Mise en oeuvre                                                 63
          Analyse                                                        65
          Production des rapports                                        68
          Diffusion et utilisation des résultats                         69

     6. ÉVALUATIONS INTERNATIONALES DE LA
        PERFORMANCE DES ÉLÈVES                                           71
          Accroissement de l’activité d’évaluation internationale        73
          Avantages des évaluations internationales                      76
          Problèmes liés aux évaluations internationales                 81

     7. CONCLUSION                                                       87

ANNEXES                                                                  95

 A. ÉTUDES DE CAS DE DIFFÉRENTS PAYS                                     95
          A.1. Inde                                                       95
          A.2. Vietnam                                                    97
          A.3. Uruguay                                                   100
          A.4. Afrique du Sud                                            103
          A.5. Sri Lanka                                                 106
          A.6. Népal                                                     108
          A.7. Chili                                                     111
                                                   TABLE DES MATIÈRES   |    vii




      A.8. États-Unis                                                       114
      A.9. Ouganda                                                          116

 B. ÉTUDES INTERNATIONALES                                                  121
      B.1. Tendance de l’enquête internationale sur les
      mathématiques et les sciences                                         121
      B.2. Programme international de recherche en
      lecture scolaire                                                      127
      B.3. Programme international pour le suivi des
      acquis des élèves                                                     132

 C. ÉTUDES RÉGIONALES                                                       141
      C.1. Consortium de l’Afrique australe et orientale pour
      le pilotage de la qualité de l’éducation                              141
      C.2. Programme d’analyse des systèmes éducatifs
      de la CONFEMEN                                                        150
      C.3. Laboratorio Latinoamericano de Evaluación de
      la Calidad de la Educación                                            154

RÉFÉRENCES                                                                  161

ENCADRÉS
2.1 Éthiopie : Objectifs de l’évaluation nationale                           13
2.2 Exemple de questions traitées par l’évaluation nationale
    du Vietnam                                                               13
2.3 Principaux éléments d’une évaluation nationale                           14
4.1 Membres proposés pour le CDN en Sierra Leone                             28
4.2 Exemples de questions à choix multiple                                   46
4.3 Exemples de questions ouvertes                                           47
6.1 Expérience de l’Afrique du Sud en matière d’évaluations
    internationales                                                          86

FIGURES
3.1    Écart de performance des élèves de neuf ans aux
       États-Unis : Évaluation de la performance en compréhension
       de l’écrit, NAEP, 1971 à 1999                                         23
3.2    Pourcentage des élèves de quatrième année ayant atteint
       un niveau égal ou supérieur à « Compétent » en
       compréhension de l’écrit, NAEP 1992-2003                              24
viii   |   TABLE DES MATIÈRES




4.1        Pourcentage moyen de scores corrects pour la
           performance des élèves en mathématiques,
           par domaine de contenu, Lesotho                               51
A.9.1      Distribution des scores à l’épreuve de littératie pour
           la 6e année en Ouganda                                        119
B.3.1      Exemple d’items de mathématiques du PISA                      134
B.3.2      Scores moyens et scores des sous-échelles de
           compréhension de l’écrit aux épreuves PISA, 2000              136
B.3.3      Niveaux de compétence des élèves en mathématiques
           aux épreuves PISA                                             137
B.3.4      Pourcentage des élèves à chaque niveau de compétence
           de l’échelle de culture mathématique du PISA                  138
B.3.5      Pourcentage des élèves à chaque niveau de compétence
           de l’échelle de compréhension de l’écrit du PISA              139
C.1.1      Pourcentage des élèves de 6e année ayant atteint les
           niveaux de compétence SACMEQ en compréhension
           de l’écrit, 1995-1998                                         148
C.1.2      Évolution des performances en littératie entre les épreuves
           SACMEQ I et SACMEQ II                                         149
C.2.1      Pourcentage des élèves de 5e année ayant une faible
           performance, PASEC, 1996-2001                                 154
C.3.1      Gradients socioéconomiques pour 11 pays d’Amérique
           latine, LLECE                                                 159


TABLEAUX
2.1        Différences entre les évaluations nationales et les
           examens publics                                               18
4.1        Options pour la mise en œuvre d’une évaluation nationale      30
4.2        Avantages et inconvénients d’une évaluation basée sur un
           recensement pour la responsabilisation des établissements     39
4.3        Processus de compréhension de l’écrit dans le PIRLS           42
4.4        Pourcentage d’atteinte du niveau « adéquat » ou « avancé »
           par année d’études, Connecticut, 2006                         52
4.5        Organismes ayant la responsabilité principale des décisions
           dans une évaluation nationale                                 58
6.1        Comparaison des enquêtes TIMSS et PISA                        74
6.2        Pourcentage des élèves de 8e année ayant atteint les
           niveaux TIMSS internationaux en mathématiques :
           Pays ayant obtenu des scores élevé et faible                  84
                                                  TABLE DES MATIÈRES   |   ix




A.2.1 Pourcentages et écarts types des élèves de différents
      niveaux de compétence en lecture                                     99
A.2.2 Relation entre des variables des enseignants sélectionnées
      et la performance en mathématiques                               100
A.5.1 Données et source contextuelles dans l’évaluation
      nationale sri lankaise                                           107
A.5.2 Pourcentage des élèves ayant atteint le niveau de maîtrise
      en première langue, par province                                 109
A.7.1 Indice des prix d’excellence pour les écoles du Chili,
      1998-1999                                                        113
A.9.1 Pourcentages des élèves ougandais de 3e année jugés
      compétents en littératie anglaise, 2005                          118
B.1.1 Pourcentages cibles des épreuves de mathématiques
      de l’enquête TIMSS 2007 attribués aux domaines de
      contenus et cognitifs, 4e et 8e années                           124
B.1.2 Distribution de la performance en mathématiques
      de l’enquête TIMSS, 8e année                                     126
B.2.1 Pourcentage des élèves dans les catégories de performance
      PIRLS en compréhension de l’écrit, 4e année                      131
C.3.1 Pourcentage des élèves ayant atteint les différents niveaux
      de performance en langue, par type d’établissement et
      situation géographique, LLECE, 1997                              157
C.3.2 Pourcentage des élèves ayant atteint chaque niveau de
      performance en mathématiques, par type d’établissement
      et situation géographique, LLECE, 1997                           158
                    PRÉFACE



Dans un discours prononcé à l’occasion des 100 premiers jours de son
mandat de président du Groupe de la Banque mondiale, Robert Zoel-
lick a présenté six thèmes stratégiques devant guider la Banque dans
son travail de promotion d’une mondialisation inclusive et durable.
L’un d’eux concernait le rôle de la Banque en tant qu’organisme « d’une
nature unique et particulière, en ce sens que c’est une banque du savoir,
une institution qui ne cesse d’apprendre (…) un centre de réflexion sur
des données d’expérience d’ordre pratique ». Il a souligné le fait que ce
rôle exige de la Banque qu’elle cherche « de façon continue et rigou-
reuse à tendre vers des résultats et à juger de l’efficacité de l’action
menée ».
   Ce défi est encore plus important dans l’éducation, où le vaste
corpus d’éléments empiriques reliant l’éducation à la croissance écono-
mique indique que des taux accrus de scolarisation et d’achèvement
des études sont nécessaires, mais pas suffisants pour lutter contre la
pauvreté. En revanche, de meilleurs résultats de l’apprentissage (sous la
forme de connaissances et compétences cognitives accrues des élèves)
sont essentiels pour réduire la pauvreté et améliorer la compétitivité
économique (et seront cruciaux pour le maintien des progrès réali-
sés à ce jour dans l’accès à l’éducation). En d’autres termes, la puis-
sance de l’éducation ne peut s’exercer pleinement sur la croissance
économique que si l’offre éducative est de grande qualité et si les



                                                                       xi
xii   |   PRÉFACE




connaissances et les compétences cognitives des élèves sont
développées.
   Les données probantes disponibles indiquent que dans les pays en
développement, la qualité des résultats de l’apprentissage est très
médiocre. En même temps, ces pays sont peu nombreux à suivre systé-
matiquement ces résultats, en réalisant leurs propres évaluations de la
performance des élèves ou en participant à des évaluations régionales
ou internationales. Le manque d’information régulière au niveau du
système sur l’apprentissage des élèves rend difficile la mesure des
niveaux généraux d’acquis, l’évaluation de la performance relative de
sous-groupes particuliers, et le suivi de l’évolution de la performance
dans le temps. Cela complique également la détermination de l’effica-
cité des politiques publiques conçues pour améliorer les résultats dans
ces domaines et dans d’autres.
   Il s’agit d’une question fondamentale pour la Banque et ses pays
clients, dans la mesure où l’accent se déplace de l’accès vers la perfor-
mance. C’est également un domaine où les outils et les ressources
adaptés aux besoins des pays en développement manquent cruelle-
ment. Cette série de volumes, publiés sous la direction de Vincent
Greaney et Thomas Kellaghan, contribue de manière significative à
combler cette lacune. La série est conçue pour traiter de nombreuses
questions liées au fait d’accorder aux résultats de l’apprentissage une
place plus centrale dans les objectifs éducatifs des pays à faible revenu.
Elle aidera les pays à renforcer leur capacité à mesurer les niveaux
nationaux d’apprentissage des élèves d’une manière plus valable,
durable et systématique. On peut espérer que cette capacité se traduira
par l’élaboration de politiques fondées sur des données probantes qui
conduiront à une amélioration visible de la qualité de l’apprentissage
des élèves. Il s’agit d’une composante cruciale qui permettra à l’éduca-
tion de tenir sa promesse de dynamiser les économies.

Marguerite Clarke
Spécialiste senior de l’éducation à la Banque mondiale
                   REMERCIEMENTS



Cette série de volumes a été préparée par une équipe dirigée par
Vincent Greaney (consultant, Réseau pour le développement humain,
Groupe pour l’éducation, Banque mondiale) et Thomas Kellaghan
(Educational Research Centre, St. Patrick’s College, Dublin).
   D’autres personnes y ont collaboré, notamment Sylvia Acana
(Uganda National Examinations Board), Prue Anderson (Australian
Council for Educational Research), Fernando Cartwright (Conseil
canadien sur l’apprentissage), Jean Dumais (Statistics Canada), Chris
Freeman (Australian Council for Educational Research), Hew Gough
(Statistics Canada), Sara Howie (Université de Pretoria), George
Morgan (Australian Council for Educational Research), T. Scott
Murray (DataAngel Policy Research) et Gerry Shiel (Educational
Research Centre, St. Patrick’s College, Dublin).
   Le travail a été réalisé sous la direction générale de Ruth Kagia,
directrice du Secteur de l’Éducation à la Banque mondiale, et de
Robin Horn, responsable du Secteur de l’Éducation. Robert Prouty a
lancé et supervisé le projet jusqu’en août 2007. Marguerite Clarke a
supervisé les étapes ultérieures de révision et de publication. Nous
remercions le comité de révision pour ses contributions : Al Beaton
(Boston College), Irwin Kirsch (Educational Testing Service), et Benoît
Millot (Banque mondiale).
   Des commentaires supplémentaires ont été fournis par les pairs
évaluateurs de la Banque mondiale, notamment Carlos Rojas,


                                                                    xiii
xiv   |   REMERCIEMENTS



Eduardo Velez, Elizabeth King, Harry Patrinos, Helen Abadzi,
Jee-Peng Tan, Marguerite Clarke, Maureen Lewis, Raisa Venalainen,
Regina Bendokat, Robert Prouty et Robin Horn.
   Nous tenons à remercier tout particulièrement Aidan Mulkeen
et Sarah Plouffe. Nous avons bénéficié du précieux appui de
Cynthia Guttman, Matseko Ramokoena, Aleksandra Sawicka,
Pam Spagnoli, Beata Thorstensen, Myriam Waiser, Peter Winograd
et Hans Wagemaker. Notre reconnaissance va également à
Patricia    Arregui,     Harsha    Aturupane,       Luis  Benveniste,
Jean-Marc Bernard, Carly Cheevers, Zewdu Gebrekidan, Venita
Kaul, Pedro Ravela et Kin Bing Wu.
   Nous souhaitons remercier les institutions suivantes pour nous
avoir accordé l’autorisation de reproduire leur matériel : le Conseil
des examens du Lesotho (Examinations Council of Lesotho),
l’Association internationale pour l’évaluation du rendement sco-
laire, le National Center for Education Statistics du Département de
l’Éducation des États-Unis, l’Organisation de coopération et de
développement économiques, et le Département de l’Éducation
de Papouasie-Nouvelle-Guinée.
   Hilary Walshe a aidé à préparer le manuscrit. La conception gra-
phique, l’édition et la production ont été coordonnées par Mary Fisk
et Paola Scalabrin, du Service des publications de la Banque
mondiale.
   Le Fonds fiduciaire irlandais pour l’éducation, le Programme du
partenariat entre la Banque mondiale et les Pays-Bas, l’Educational
Research Centre de Dublin, et l’Australian Council for Educational
Research ont généreusement soutenu la préparation et la publication
de cette série.
               ABRÉVIATIONS



AT         Assistance technique
CDN        Comité directeur national
CONFEMEN   Conférence des ministres de l’Éducation des États et
           gouvernements de la Francophonie (aussi appelée
           Conférence des ministres de l’Éducation des pays ayant
           le français en partage)
DiNIECE    Dirección Nacional de Información y Evaluación de la
           Calidad Educativa (Argentine)
EPT        Éducation pour tous
IEA        Association internationale pour l’évaluation du
           rendement scolaire (International Association for the
           Evaluation of Educational Achievement)
IIEP       Institut international de planification de l’éducation
           (International Institute for Educational Planning)
LLECE      Laboratorio Latinoamericano de Evaluación de la Calidad
           de la Educación
ME         Ministère de l’Éducation
MESyFOD    Modernización de la Educación Secundaria y Formación
           Docente (Uruguay)
NAEP       National Assessment of Educational Progress (l’évaluation
           nationale des progrès de l’éducation – États-Unis)
NAPE       National Assessment of Progress in Education (Ouganda)
OCDE       Organisation de coopération et de développement
           économiques



                                                                  xv
xvi   |   ABRÉVIATIONS




PASEC              Programme d’analyse des systèmes éducatifs de la
                   CONFEMEN
PIRLS              Programme international de recherche en lecture scolaire
PISA               Programme international pour le suivi des acquis des
                   élèves
SACMEQ             Consortium de l’Afrique australe et orientale pour le
                   pilotage de la qualité de l’éducation (Southern and
                   Eastern Africa Consortium for Monitoring Educational
                   Quality)
SIMCE              Sistema de Medición de la Calidad de la Educación
                   (Chili)
SNED               Sytème national d’évaluation de la performance des
                   enseignants dans les écoles soutenues par l’État (Chili)
SSA                Sarva Shiksha Abhiyan (Inde)
TIMSS              Tendances de l’enquête internationale sur les
                   mathématiques et les sciences (Trends in International
                   Mathematics and Science Study)
UMRE               Unidad de Medición de Resultados Educativos (Uruguay)
UNEB               Uganda National Examinations Board
UNESCO             Organisation des Nations Unies pour l’éducation, la
                   science et la culture (United Nations Educational,
                   Scientific and Cultural Organization)
CHAPITRE

         1               INTRODUCTION




                            Dans ce volume d’introduction, nous décrivons
      les principales caractéristiques des évaluations nationales et interna-
      tionales, devenues dans les années 1990 et 2000 des outils extrême-
      ment populaires de détermination de la qualité de l’éducation. Cet
      accroissement de popularité reflète deux évolutions importantes :
      premièrement, la mondialisation et l’intérêt croissants pour les man-
      dats internationaux, notamment l’initiative Éducation pour tous
      (UNESCO, 2000) ; et deuxièmement, le déplacement général de
      l’intérêt vers l’évaluation de la qualité de l’éducation, avec une préoc-
      cupation moindre pour les intrants (tels que les taux de participation
      des élèves, les installations physiques, le matériel pédagogique et la
      formation des enseignants) et une plus grande importance accordée
      aux résultats (tels que les connaissances et les compétences acquises
      par les élèves durant leur scolarité) (Kellaghan et Greaney, 2001b).
      Cet accent sur les résultats peut, à son tour, être considéré comme
      l’expression d’un souci de développement du capital humain lié à la
      conviction que, dans la mesure où la connaissance remplace progres-
      sivement les matières premières et la main-d’œuvre en tant que
      ressource clé du développement économique, la disponibilité
      de savoirs et savoir-faire humains est cruciale pour déterminer le taux



                                                                             1
2   | ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION



de développement économique d’un pays et sa compétitivité sur le
marché international (Kellaghan et Greaney, 2001a). La réponse à
cette préoccupation a nécessité de l’information sur la performance
des systèmes éducatifs, qui à son tour, a impliqué un passage de
l’utilisation traditionnelle de tests de performance conçus pour éva-
luer individuellement les élèves, à une utilisation visant à obtenir de
l’information sur les performances de l’ensemble du système éducatif
(ou d’une partie clairement définie de celui-ci).
    Le développement d’une capacité nationale d’évaluation a permis
aux ministères de l’Éducation (dans le cadre de leur fonction de
gestion) de décrire les niveaux nationaux des acquis des élèves dans
les principales disciplines et de comparer ceux des principaux sous-
groupes (tels que les garçons et les filles, les groupes ethniques, les
élèves des milieux urbains et ruraux, et ceux des établissements
publics et privés). Cela leur a également fourni des données probantes
pour confirmer ou réfuter les affirmations d’amélioration ou de dégra-
dation des normes de performance des élèves dans le temps.
    En dépit de l’accroissement de l’activité nationale et internationale
d’évaluation, à de nombreux endroits, la valeur potentielle des don-
nées fournies par les évaluations est encore mal reconnue, et les com-
pétences requises pour mener une évaluation techniquement solide
continuent à manquer. Lorsque les pays réalisent une évaluation
nationale ou participent à une évaluation internationale, l’informa-
tion ainsi recueillie n’est pas souvent complètement exploitée. Il y a à
cela plusieurs raisons : les décideurs peuvent n’avoir été impliqués
dans l’évaluation que de manière périphérique et ne pas s’être vérita-
blement engagés envers elle ; les résultats des analyses peuvent ne pas
leur avoir été communiqués sous une forme compréhensible ; ou ils
peuvent ne pas avoir pleinement apprécié les implications des
conclusions pour les politiques sociales en général ou la politique
éducative, en particulier en ce qui concerne l’exécution des
programmes de cours, l’allocation des ressources, les pratiques péda-
gogiques et l’évolution professionnelle des enseignants.
    Cette série de volumes vise à aborder ces questions en faisant
découvrir aux lecteurs la technologie complexe qui s’est développée
autour de l’administration des évaluations nationales et internationales.
Ce volume d’introduction décrit les concepts et les procédures clés de
                                                       INTRODUCTION   |   3




l’évaluation nationale. Il s’adresse principalement aux responsables des
politiques et aux décideurs en matière d’éducation. Les objectifs et les
principales caractéristiques des évaluations nationales sont décrits au
chapitre 2 (voir également l’annexe A). Les raisons d’effectuer une
évaluation nationale sont évoquées au chapitre 3, et les principales
décisions à prendre lors de la conception et de la planification d’une
évaluation sont abordées au chapitre 4. Les questions ainsi que les
erreurs les plus fréquentes à garder en mémoire pendant la conception,
la mise en œuvre, l’analyse, la production des rapports et l’utilisation
d’une évaluation nationale sont identifiées dans le chapitre 5. Le cha-
pitre 6 décrit les évaluations internationales de la performance des
élèves, qui partagent avec les évaluations nationales de nombreuses
caractéristiques procédurales (telles que l’échantillonnage, l’adminis-
tration, les données de contexte collectées et les méthodes d’analyse –
voir l’annexe B).
   La principale différence entre les évaluations nationales et interna-
tionales souligne un point fort et un point faible de l’évaluation
internationale. Le point fort est que les données recueillies par une
évaluation internationale dans un certain nombre de pays permettent
à chacun d’eux de comparer les résultats de ses élèves avec ceux des
élèves d’autres pays. Le point faible est que les instruments de test
devant être acceptables dans tous les pays participants, ils peuvent ne
pas refléter avec précision l’éventail des performances des élèves de
chacun des pays.
   Une autre caractéristique des évaluations internationales est que
de nombreux pays participants effectuent des analyses internes
fondées sur les données collectées chez eux. Les données recueillies
lors de l’étude internationale peuvent donc être utilisées pour ce qui
est, de fait, une évaluation nationale. Cette pratique n’est toutefois
pas dénuée de problèmes, et les données ainsi collectées peuvent être
moins appropriées pour les politiques que celles recueillies expressé-
ment par une évaluation nationale.
   L’étude régionale constitue une formule intermédiaire entre les
évaluations nationales dans les pays individuels et les études internatio-
nales à grande échelle portant sur le monde entier. Les pays d’une région
donnée qui y collaborent sont susceptibles de partager de nombreuses
caractéristiques socioéconomiques et culturelles (voir l’annexe C).
4   | ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION



   L’évaluation infranationale est une autre variante, dans laquelle
l’évaluation est limitée à une région (une province ou un État) au sein
d’un pays. Des évaluations infranationales ont été réalisées dans un
certain nombre de grands pays (tels que l’Argentine, le Brésil et les
États-Unis) pour répondre aux besoins d’information locaux ou
régionaux. Ces exercices sont relativement indépendants, et la diffé-
rence avec les évaluations nationales est que les participants n’étant
pas soumis aux mêmes instruments et procédures dans toutes les
régions du pays, la comparaison directe de la performance des élèves
n’est donc pas possible entre les régions.
   Quelques conclusions générales sont présentées dans le dernier
chapitre de ce volume, accompagnées de considérations liées au
renforcement et à l’institutionnalisation de la capacité nationale
d’évaluation, ainsi qu’à l’utilisation optimale des conclusions de
l’évaluation. À la fin du volume, les principales caractéristiques des
évaluations nationales sont décrites pour neuf pays (annexe A) et sont
suivies par la description de trois études internationales (annexe B) et
de trois études régionales (annexe C).
   Les volumes suivants de cette série fournissent des détails sur la
conception et la mise en œuvre d’une évaluation nationale. Les
volumes sont conçus pour fournir aux personnes directement
impliquées, une introduction (ainsi que les compétences de base
associées) aux aspects techniques clés des tâches d’élaboration des
tests et questionnaires, et de collecte, analyse ou description des
données dans une évaluation nationale.
   Le deuxième volume, Mettre au point les tests et questionnaires pour
une évaluation nationale des acquis scolaires, comprend des sections
sur la constitution a) de tests de performance, b) de questionnaires, et
c) de manuels d’administration. La première section traite de la
conception des tests de performance et du rôle qu’y jouent un cadre
et un plan détaillé des épreuves ou une grille de spécifications. Elle
décrit le processus de rédaction des items et donne des exemples de
divers types de questions, notamment à choix multiple, à réponse
courte et ouvertes. Elle décrit également le processus d’examen des
questions ou de constitution d’un jury, un exercice essentiel pour
garantir la validité du contenu des épreuves. Elle comprend des direc-
tives pour la réalisation de prétests, la sélection des questions de
                                                       INTRODUCTION   |   5




l’épreuve finale et la production de la version définitive de l’épreuve.
La section se termine en abordant brièvement la question de la
formation des correcteurs ou évaluateurs et de la notation manuelle
des items. La deuxième section décrit les étapes de la mise au point
des questionnaires : conception d’un questionnaire, rédaction des
questions, notation et codage des réponses, et association des données
issues du questionnaire et des scores des élèves. La section finale
décrit la conception et le contenu d’un manuel d’administration ainsi
que la sélection et le rôle de l’administrateur de l’épreuve. Ce volume
est accompagné d’un CD contenant des items des épreuves et ques-
tionnaires extraits d’évaluations nationales et internationales, ainsi
qu’un manuel d’administration des épreuves.
   Mettre en œuvre une évaluation nationale des acquis scolaires, le troi-
sième volume de la série, comprend également trois sections. La pre-
mière concerne les questions pratiques à considérer lors de la mise en
œuvre d’un programme d’évaluation nationale à grande échelle. Elle
aborde la planification, la budgétisation, le recrutement, l’organisa-
tion des installations et de l’équipement, la prise de contact avec les
établissements, la sélection des administrateurs de l’épreuve, l’embal-
lage et l’expédition, et la garantie de la sécurité de l’épreuve. Cette
section aborde également les aspects logistiques de la notation des
épreuves, du nettoyage des données et de la rédaction des rapports.
La deuxième section guide pas à pas les équipes d’évaluation dans la
création d’un échantillon national approprié. Elle est accompagnée
d’un CD contenant un logiciel d’échantillonnage et un ensemble de
données d’entraînement à utiliser en conjonction avec le guide. Les
sujets traités sont la définition de la population à évaluer, la création
d’un cadre d’échantillonnage, le calcul d’une taille d’échantillon
appropriée, l’échantillonnage avec une probabilité proportionnelle à
la taille, et la réalisation d’un échantillonnage à plusieurs degrés. Le
nettoyage et la gestion des données sont abordés dans la section
finale. Celle-ci est également complétée par un CD contenant des
exercices guidant pas à pas les utilisateurs dans la préparation des
données de l’évaluation nationale pour l’analyse. Y sont décrites
des procédures de vérification et de validation des données, y compris
des codes erronés et des contrôles de cohérence au sein d’un fichier et
entre les fichiers.
6   | ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION



    Analyser les données issues d’une évaluation nationale des acquis
scolaires, le quatrième volume, est complété par deux CD permet-
tant aux utilisateurs d’appliquer des procédures statistiques aux
ensembles de données et de vérifier leurs niveaux de maîtrise par
rapport aux solutions présentées dans des captures d’écran au sein
du texte. La première moitié du volume traite de la génération des
données de niveau item à l’aide des approches à la fois de test clas-
sique et de la théorie de la réponse à l’item (TRI). Les sujets abordés
comprennent l’analyse des items des épreuves pilotes et définitives,
le suivi de l’évolution de la performance dans le temps, la construc-
tion d’une épreuve à partir d’items précédemment créés, la mise en
correspondance et la détermination de niveaux de performance ou
de compétence. La seconde moitié du volume est conçue pour aider
les utilisateurs à effectuer une analyse basique des résultats de l’éva-
luation nationale. Elle comprend des sections sur les mesures de la
tendance centrale et de la dispersion, les différences de score moyen,
l’identification des élèves très ou peu performants, la corrélation, la
régression et la représentation visuelle des données.
    Communiquer et utiliser les résultats d’une évaluation nationale des
acquis scolaires, le dernier volume de la série, se concentre sur la
rédaction des rapports en vue d’influencer les politiques. Il présente
une méthodologie destinée à la conception d’une stratégie de diffusion
et de communication pour un programme d’évaluation nationale.
Il décrit également la préparation d’un rapport technique, de commu-
niqués de presse, de briefings des décideurs clés et de rapports pour
les enseignants et d’autres groupes de spécialistes. La seconde section
du volume met en évidence les façons dont les pays ont effectivement
utilisé les résultats des évaluations nationales pour l’élaboration des
politiques, la réforme des programmes scolaires, l’allocation des res-
sources, la formation des enseignants, la redevabilité, ainsi que le suivi
dans le temps de l’évolution de la performance et d’autres variables.
    Les personnes qui étudieront le contenu de ces volumes et feront
les exercices proposés acquerront les compétences de base requises
pour une évaluation nationale. Elles doivent toutefois garder trois
éléments à l’esprit. Premièrement, elles ne doivent pas s’attendre à
ce que les formules ou algorithmes simples fournis par la série soient
des recettes à appliquer mécaniquement, mais être prêtes à faire
                                                     INTRODUCTION   |   7




preuve de jugement à différents moments de l’évaluation nationale
(par exemple, lors de la sélection du contenu des épreuves, de l’échan-
tillonnage et de l’analyse). Dans ces domaines, le jugement s’amélio-
rera avec l’expérience. Deuxièmement, les utilisateurs peuvent,
à l’occasion, souhaiter demander conseil à des praticiens plus expéri-
mentés pour exercer leur jugement. Troisièmement, les utilisateurs
doivent être prêts à s’adapter à l’évolution des connaissances et de la
technologie qui se produira inévitablement dans les années à venir.
CHAPITRE

         2               ÉVALUATIONS
                         NATIONALES DE LA
                         PERFORMANCE DES
                         ÉLÈVES




                          Nous entamons ce chapitre par la définition
      d’une évaluation nationale et l’énumération des questions auxquelles
      une évaluation nationale devrait répondre. Nous présentons ensuite
      une liste des principaux éléments d’une évaluation nationale. Nous
      examinons enfin les différences entre une évaluation nationale et les
      examens publics.
         Une évaluation nationale est conçue pour décrire la performance
      des élèves dans un domaine du programme de cours et l’agréger afin
      d’obtenir une estimation du niveau de performance dans l’ensemble
      du système éducatif à un âge ou dans une année d’études donnés. Elle
      fournit des données pour une sorte d’audit de l’éducation nationale
      réalisé dans le but d’informer les responsables des politiques sur les
      aspects clés du système. Normalement, elle implique l’administration
      à un échantillon ou à une population d’élèves, de tests de perfor-
      mance généralement centrés sur un secteur particulier du système
      (par exemple, les élèves de cinquième année ou de 13 ans). Les ensei-
      gnants et d’autres acteurs (par exemple, les parents, les directeurs
      d’école et les élèves) peuvent être invités à fournir, généralement
      à l’aide de questionnaires, des informations contextuelles qui,
      lorsqu’elles sont reliées à la performance des élèves, peuvent fournir



                                                                          9
10   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




des indications sur la façon dont celle-ci est liée à des facteurs tels
que les caractéristiques du ménage, les niveaux de formation des
enseignants, leur attitude envers les matières du programme de cours,
leurs connaissances, et la disponibilité du matériel pédagogique et
didactique.
   Les systèmes d’évaluation nationale existant dans diverses parties
du monde ont tendance à présenter des caractéristiques communes.
Tous comprennent une évaluation des aptitudes linguistiques
des élèves ou littératie ainsi que de leurs aptitudes en mathéma-
tiques ou numératie. Certains systèmes évaluent la performance
des élèves dans une deuxième langue, en sciences, art, musique ou
sciences sociales. La quasi-totalité des systèmes d’évaluation
nationale évaluent les élèves du primaire. Dans de nombreux sys-
tèmes, des évaluations nationales sont également effectuées dans
l’enseignement secondaire, généralement au cours de la période de
scolarisation obligatoire.
   Les systèmes d’évaluation nationale présentent aussi des diffé-
rences d’un pays à l’autre. Premièrement, leur fréquence d’exécution
diffère. Dans certains systèmes nationaux, une évaluation est réalisée
chaque année, même si le domaine du programme de cours évalué
varie souvent d’une année à l’autre. Dans d’autres systèmes, les éva-
luations sont moins fréquentes. Deuxièmement, l’organisme qui
effectue l’évaluation peut être différent. Dans certains systèmes, le
ministère de l’Éducation effectue l’évaluation, dans d’autres, elle est
réalisée par un centre national de recherche, un consortium d’orga-
nismes éducatifs, une université ou un jury d’examen. Troisièmement,
la participation d’une école peut être volontaire ou obligatoire.
Lorsqu’elle est volontaire, la non-participation de certains établisse-
ments va presque invariablement biaiser les résultats, qui ne refléte-
ront pas avec exactitude les niveaux de performance du système
éducatif.
   La plupart des pays industrialisés disposent depuis un certain
temps de systèmes d’évaluation nationale, mais ce n’est que depuis
les années 1990 que la capacité d’administrer des évaluations s’est
étendue à d’autres parties du monde. Par exemple, la réalisation
d’évaluations nationales a connu un développement rapide dans les
                  ÉVALUATIONS NATIONALES DE LA PERFORMANCE DES ÉLÈVES   | 11



pays d’Amérique latine et des Caraïbes dans les années 1990, souvent
pour fournir des données de référence aux réformes de l’éducation
(Rojas et Esquivel, 1998). Dans la foulée de la Déclaration de Jomtien
(Déclaration mondiale sur l’Éducation pour tous, 1990), le centre d’in-
térêt de l’évaluation de la qualité de l’enseignement est passé des
intrants scolaires aux résultats. L’Article 4 de la Déclaration de
Jomtien affirme que l’éducation fondamentale doit être axée « sur
l’acquisition effective et les résultats de l’apprentissage, et non pas sur
le seul fait de s’inscrire à une formation, de la suivre jusqu’à son terme
et d’obtenir le certificat qui la sanctionne » (Déclaration mondiale sur
l’Éducation pour tous, 1990, 5). Plus récemment, le Cadre d’action de
Dakar (UNESCO, 2000), publié 10 ans après Jomtien, a une nouvelle
fois souligné l’importance des résultats de l’apprentissage. L’un des
sept objectifs fixés pour 2015 était d’améliorer « sous tous ses aspects
la qualité de l’éducation […] de façon à obtenir pour tous des résul-
tats d’apprentissage reconnus et quantifiables, notamment en ce
qui concerne la lecture, l’écriture, le calcul et les compétences
indispensables dans la vie courante » (UNESCO, 2000, 7, iv).
   Ces déclarations impliquent que, pour les pays qui se sont
engagés à atteindre les objectifs de l’Éducation pour tous (EPT),
les efforts pour améliorer la qualité de l’éducation devront être
accompagnés de procédures fournissant des informations sur
l’apprentissage des élèves. Les États et les bailleurs de fonds ont
par conséquent fortement accru leur appui au suivi de la perfor-
mance des élèves à travers des évaluations nationales. L’hypothèse
fréquemment avancée est que non seulement les évaluations
nationales fournissent de l’information sur l’état de l’éducation,
mais que l’utilisation de cette information devrait conduire à une
amélioration de la performance des élèves. Il reste à vérifier si cette
amélioration a effectivement lieu. Jusqu’ici, l’espoir que l’EPT et le
suivi régulier des niveaux de performance conduisent à une amélio-
ration des normes d’apprentissage ne semble pas s’être concrétisé
(Postlethwaite, 2004). Ce résultat peut être dû au fait que – bien
que l’EPT ait conduit à une augmentation rapide du nombre des
enfants scolarisés – l’augmentation des effectifs n’a pas été accom-
pagnée d’un accroissement des ressources (en particulier des
12   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




enseignants formés). En outre, l’information tirée des évaluations est
souvent de piètre qualité, et même lorsque ce n’est pas le cas, elle
n’est pas systématiquement considérée dans la prise de décision.
   Toutes les évaluations nationales cherchent à répondre à une ou
plusieurs des questions suivantes :

• Quelle est la qualité de l’apprentissage dans le système éducatif
  (par rapport aux attentes générales, aux buts du programme de
  cours, à la préparation à une poursuite des études ou à la vie) ?
• Les données indiquent-elles des points forts et faibles particuliers
  dans les savoirs et savoir-faire des élèves ?
• Certains sous-groupes de la population ont-ils des performances
  médiocres ? Existe-t-il des disparités, par exemple, entre les acquis
  a) des garçons et des filles, b) des élèves des zones urbaines et
  rurales, c) des élèves de langues et de groupes ethniques différents,
  ou d) des élèves de régions différentes du pays ?
• Quels sont les facteurs associés à la performance des élèves ? Dans
  quelle mesure cette performance varie-t-elle selon les caractéris-
  tiques de l’environnement d’apprentissage (par exemple, les
  ressources scolaires, la préparation et la compétence des ensei-
  gnants, et le type d’école) ou selon les conditions familiales et
  communautaires des élèves ?
• Les normes de l’État sont-elles respectées dans la fourniture des
  ressources (par exemple, les manuels, les qualifications des ensei-
  gnants et d’autres intrants de la qualité) ?
• La performance des élèves varie-t-elle dans le temps ? Cette
  question peut présenter un intérêt particulier si des réformes du
  système éducatif sont en cours. Pour y répondre, des évaluations
  devront produire des données comparables à différents moments
  (Kellaghan et Greaney, 2001b, 2004).

   La plupart de ces questions ont été traitées dans la conception
et la mise en œuvre de l’évaluation nationale de l’Éthiopie (voir
encadré 2.1).
   En plus d’évaluer la performance des élèves, l’évaluation nationale
du Vietnam mettait l’accent sur les intrants clés, tels que les condi-
tions physiques dans les écoles, l’accès au matériel didactique et les
qualifications des enseignants (voir encadré 2.2).
                                    ÉVALUATIONS NATIONALES DE LA PERFORMANCE DES ÉLÈVES    | 13




ENCADRÉ 2.1


 Éthiopie : Objectifs de l’évaluation nationale

  1. Déterminer le niveau de performance académique des élèves et le développement
     d’attitudes dans l’enseignement primaire éthiopien.
  2. Analyser les différences dans la performance des élèves par région, genre, lieu et
     langue d’enseignement.
  3. Examiner les facteurs qui influencent la performance des élèves dans l’enseignement
     primaire.
  4. Suivre l’amélioration des acquis des élèves par rapport à la première étude de
     référence réalisée en 1999-2000.
  5. Renforcer la capacité du système éducatif en matière d’évaluation nationale.
  6. Produire des données de référence fiables pour l’avenir.
  7. Formuler des recommandations pour l’élaboration de politiques visant à améliorer la
     qualité de l’éducation.
 Source : Éthiopie, Organisation nationale des examens 2005.



ENCADRÉ 2.2


 Exemple de questions traitées par l’évaluation nationale du Vietnam

 Questions liées aux intrants

 • Quelles sont les caractéristiques des élèves de cinquième année ?

 • Quelles sont les conditions d’enseignement dans les classes de cinquième année et
   dans les écoles primaires ?

 • Quel est l’état général des bâtiments scolaires ?

 Questions liées aux normes de l’offre éducative

 • Les normes du ministère sont-elles respectées en ce qui concerne

    – La taille des classes ?

    – Le mobilier des classes ?

    – Les qualifications des membres du personnel ?

 Questions liées à l’équité des intrants scolaires

 • Y a-t-il une équité des ressources entre les provinces et entre les établissements au
   sein des provinces en ce qui concerne

    – Les ressources matérielles ?

    – Les ressources humaines ?

                                                                                           (suite)
14    |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




 ENCADRÉ 2.2 (suite)


     Questions liées à la performance

     • Quel pourcentage des élèves a-t-il atteint les différents niveaux de savoir-faire en
       compréhension de l’écrit et en mathématiques ?

     • Quel est le niveau des enseignants de cinquième année en compréhension de l’écrit
       et en mathématiques ?

     Questions liées aux influences sur la performance

     • Quels sont les grands facteurs agissant sur l’écart de performance en compréhension
       de l’écrit et en mathématiques ?

     • Quelles sont les principales variables qui diffèrent entre les établissements les plus et
       les moins efficaces ?
     Source : Banque mondiale, 2004.




QUELS SONT LES PRINCIPAUX ÉLÉMENTS D’UNE
ÉVALUATION NATIONALE ?

Même si la manière de mettre en œuvre des évaluations nationales
varie, celles-ci présentent néanmoins un certain nombre d’éléments
communs (voir l’encadré 2.3 et Kellaghan et Greaney, 2001b, 2004).


 ENCADRÉ 2.3


     Principaux éléments d’une évaluation nationale

     • Le ministère de l’Éducation désigne soit un organisme d’exécution au sein du
       ministère soit un organisme externe indépendant (par exemple, un département
       universitaire ou un organisme de recherche) et fournit le financement.

     • Le ministère de l’Éducation détermine les besoins des politiques à traiter dans
       l’évaluation, parfois en consultation avec les parties prenantes clés de l’enseignement
       (par exemple, les représentants des enseignants, les spécialistes des programmes de
       cours, le monde des affaires et les parents).

     • Le ministère de l’Éducation, ou un comité directeur nommé par lui identifie la
       population à évaluer (par exemple, les élèves de quatrième année).

     • Le ministère de l’Éducation détermine le domaine de performance à évaluer (par
       exemple, la littératie ou la numératie).

                                                                                               (suite)
                               ÉVALUATIONS NATIONALES DE LA PERFORMANCE DES ÉLÈVES            | 15




ENCADRÉ 2.3 (suite)


 • L’organisme d’exécution définit le domaine de performance et décrit son contenu et
   les compétences cognitives associées.

 • L’organisme d’exécution prépare les épreuves ainsi que les questionnaires à utiliser et
   les manuels d’administration, et il prend des mesures pour assurer leur validité.

 • Les épreuves et les documents d’appui sont soumis à un test pilote par l’organisme
   d’exécution, puis sont examinés par le comité directeur et d’autres entités
   compétentes pour a) déterminer leur conformité avec le programme de cours et
   b) s’assurer que les items reflètent les sensibilités de genre, ethniques et culturelles.

 • L’organisme d’exécution sélectionne l’échantillon cible (ou la population)
   d’établissements ou d’élèves, organise l’impression de la documentation et entre en
   communication avec les établissements sélectionnés.

 • L’organisme d’exécution forme les administrateurs des épreuves (par exemple,
   enseignants, inspecteurs scolaires ou étudiants de troisième cycle).

 • Les instruments d’enquête (épreuves et questionnaires) sont administrés dans les
   établissements à une date spécifiée, sous la direction générale de l’organisme
   d’exécution.

 • L’organisme d’exécution assume la responsabilité de la collecte des instruments
   d’enquête, de la correction ainsi que du nettoyage et de la préparation des données
   pour l’analyse.

 • L’organisme d’exécution vérifie la fiabilité des instruments et des procédures
   d’évaluation.

 • L’organisme d’exécution effectue l’analyse des données.

 • Les projets de rapports sont établis par l’organisme d’exécution et examinés par le
   comité directeur.

 • Les rapports définitifs sont produits par l’organisme d’exécution et diffusés par
   l’autorité compétente.

 • Le ministère de l’Éducation et d’autres parties prenantes concernées examinent les
   résultats à la lumière des besoins des politiques auxquels ils sont censés répondre et
   déterminent une ligne d’action appropriée.
16   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




   Il ressort clairement de la liste des éléments présentés dans
l’encadré 2.3 qu’une réflexion et une préparation importantes sont
requises avant que les élèves puissent répondre aux épreuves d’une
évaluation. Il faut désigner un organisme chargé de la collecte des
données, prendre des décisions au sujet des questions de politiques à
couvrir, et concevoir et tester des épreuves et des questionnaires. La
préparation de l’exécution de l’évaluation nécessite d’identifier des
échantillons (ou populations) d’établissements et d’élèves, de contac-
ter les établissements, de sélectionner et former les administrateurs
des épreuves. Dans certains pays (Inde, Vietnam et certains pays
africains), les enseignants ont été évalués sur les épreuves auxquelles
leurs élèves ont été soumis (voir A.1 et A.2 dans l’annexe A et C.1
dans l’annexe C). Après l’administration des épreuves, beaucoup de
temps et d’effort sont nécessaires pour préparer les données à l’ana-
lyse, effectuer celles-ci et rédiger les rapports.
   Outre ceux rencontrés par d’autres pays, les pays à faible revenu
sont confrontés à des problèmes supplémentaires lorsqu’ils tentent de
réaliser une évaluation nationale. Les budgets alloués à l’éducation
peuvent être maigres. Selon les données de 2005 (Banque mondiale,
2007), certains pays consacrent 2 % ou moins de leur produit
intérieur brut à l’enseignement public (par exemple, le Bangladesh,
le Cameroun, les Émirats arabes unis, la Guinée, le Kazakhstan,
la Mauritanie, le Pakistan, le Pérou, la République démocratique
populaire lao, la République dominicaine, la République du Congo,
le Tchad et la Zambie), contre plus de 5 % dans la plupart des pays à
revenu moyen et élevé.
   Les demandes concurrentes existant au sein du secteur de
l’éducation pour des activités telles que la construction scolaire, la
formation des enseignants et la fourniture de matériel didactique
peuvent entraîner un manque de fonds pour le suivi des acquis
scolaires. En outre, de nombreux pays à faible revenu, voire à revenu
intermédiaire, disposent d’une capacité institutionnelle limitée de
réalisation d’une évaluation nationale. Ils peuvent aussi être confron-
tés à des problèmes administratifs et de communication supplémen-
taires dus au mauvais état des routes et des services de courrier et de
téléphonie. Enfin, les très fortes différences de performance des
                 ÉVALUATIONS NATIONALES DE LA PERFORMANCE DES ÉLÈVES   | 17



élèves observées entre les établissements dans certains pays à faible
revenu nécessitent un vaste échantillon (voir UNEB, 2006 ; Banque
mondiale, 2004).



EN QUOI UNE ÉVALUATION NATIONALE DIFFÈRE-T-ELLE DES
EXAMENS PUBLICS ?

Dans de nombreux systèmes éducatifs, les examens publics jouent un
rôle crucial dans la certification des acquis des élèves, la sélection des
élèves aptes à poursuivre des études et la normalisation de ce qui est
enseigné et appris dans les écoles. On pense parfois que les examens
publics fournissent la même information qu’une évaluation nationale,
semblant ainsi éliminer la nécessité d’un système d’évaluation natio-
nale dans un pays disposant d’un système d’examen public. En fait,
les examens publics ne fournissent pas le type d’information visé par
une évaluation nationale.
   Premièrement, étant donné que les examens publics jouent un rôle
majeur dans la sélection des élèves (pour le passage au niveau supérieur
dans le système éducatif et parfois pour l’accès à des emplois), ils
cherchent à établir une distinction entre des élèves relativement per-
formants et sont donc susceptibles de ne pas assurer une couverture
adéquate du programme de cours. Deuxièmement, les examens ainsi
que les caractéristiques des élèves qui les passent, changent d’une
année à l’autre, limitant ainsi les conclusions qui peuvent être tirées
des comparaisons dans le temps. Troisièmement, en raison des « enjeux
élevés » liés à la performance (les résultats des élèves à un examen
ont des conséquences importantes pour eux et peut-être pour leurs
enseignants), les enseignants (et les élèves) peuvent se concentrer
sur les matières du programme visées par les examens au détriment de
domaines importants dont les acquis ne sont pas évalués (par exemple,
les compétences pratiques), de sorte que la performance à l’examen ne
reflète pas avec exactitude le programme de cours prévu. À quelques
exceptions près, une évaluation nationale n’entraîne normalement
aucune prise de décision concernant les élèves, les enseignants ou les
établissements à titre individuel.
18   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




   Quatrièmement, l’information sur la performance des élèves est
généralement requise à un âge plus précoce que celui auquel les exa-
mens publics sont organisés. Cinquièmement, le type d’information
contextuelle (sur l’enseignement, les ressources, les élèves et leurs
familles) utilisé pour interpréter les données sur la performance des
élèves collectées par les évaluations nationales n’est pas disponible
pour l’interprétation des résultats des examens publics (Kellaghan,
2006). Le Tableau 2.1 résume les principales différences entre les éva-
luations nationales et les examens publics.

TABLEAU 2.1
Différences entre les évaluations nationales et les examens publics
                         Évaluations nationales        Examens publics
 Objectif                Fournir un feedback aux       Certifier et sélectionner
                         décideurs.                    les élèves.
 Fréquence               Périodique pour les           Tous les ans et plus
                         matières enseignées           souvent lorsque le
                         régulièrement (par exemple,   système autorise des
                         tous les quatre ans).         sessions de rattrapage.
 Durée                   Un ou deux jours.             Peuvent s’étendre sur
                                                       quelques semaines.
 Qui est évalué ?        Généralement un               Tous les élèves du niveau
                         échantillon d’élèves d’une    d’études concerné qui
                         année d’études ou d’un        souhaitent se présenter à
                         âge donnés.                   l’examen.
 Format                  Généralement choix            Généralement rédaction
                         multiple et réponse           et choix multiple.
                         courte.
 Enjeux : importance     Faible importance.            Grande importance.
 pour les élèves, les
 enseignants et autres
 Couverture du           Généralement limitées à       Couvre les principales
 programme d’étude       une ou deux matières.         matières.
 Effet sur               Très peu d’effet direct.      Effet majeur : tendance
 l’enseignement                                        des enseignants à se
                                                       concentrer sur ce qui est
                                                       couvert par l’examen.
 Cours particuliers      Très peu probable.            Fréquemment.
 recherchés pour les
 élèves
                                                                            (suite)
                        ÉVALUATIONS NATIONALES DE LA PERFORMANCE DES ÉLÈVES    | 19



TABLEAU 2.1 (suite)
Les élèves                  Rarement.                     Oui.
obtiennent-ils les
résultats ?
Des informations            Fréquemment, dans les         Rarement.
supplémentaires             questionnaires des élèves.
sont-elles recueillies
auprès des élèves ?
Correction                  Implique généralement des     Habituellement un
                            techniques statistiques       processus simple basé sur
                            sophistiquées.                un barème de notation
                                                          prédéfini.
Effet sur le niveau de      Peu susceptible d’avoir un    De mauvais résultats ou
performance des             effet.                        une perspective d’échec
élèves                                                    pouvant conduire à un
                                                          abandon scolaire
                                                          précoce.
Utilité pour le suivi       Appropriées si les épreuves   Pas appropriés parce que
dans le temps des           sont conçues en vue d’un      les questions d’examen
tendances des               suivi.                        et les populations
niveaux de                                                candidates changent
performance                                               d’une année à l’autre.
CHAPITRE

         3                POURQUOI RÉALISER
                          UNE ÉVALUATION
                          NATIONALE ?




                            La décision d’effectuer des évaluations nationales
      peut être prise pour diverses raisons. Elles reflètent souvent les efforts
      d’un État pour « moderniser » son système éducatif en introduisant
      une approche de gestion des affaires (corporatiste) (Kellaghan, 2003).
      Celle-ci s’appuie sur des concepts utilisés dans le monde des affaires,
      tels que la planification stratégique et un accent sur les produits et
      résultats, et elle peut impliquer une redevabilité liée à la performance.
      De ce point de vue, une évaluation nationale est un outil appelé à
      fournir un feedback sur un nombre limité de mesures de résultats
      jugées importantes par les décideurs, les politiciens et la communauté
      éducative dans son ensemble.
         Un objectif clé de cette approche est de fournir de l’information sur
      le fonctionnement du système éducatif. De nombreux États ne dis-
      posent pas d’une information de base sur les aspects du système – en
      particulier les niveaux de performance des élèves – ni même sur ses
      intrants fondamentaux. Les évaluations nationales peuvent fournir
      ces informations, qui constituent une condition préalable clé pour
      l’élaboration de politiques rationnelles. Par exemple, l’évaluation natio-
      nale du Vietnam a permis d’établir que de nombreuses salles de classe
      ne disposaient pas des ressources de base (Banque mondiale, 2004).



                                                                             21
22   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




Dans le même ordre d’idée, l’évaluation de Zanzibar a signalé que
45 % des élèves n’avaient pas de place pour s’asseoir (Nassor et
Mohammed, 1998). L’évaluation nationale du Bhoutan a noté que
certains élèves devaient voyager plusieurs heures par jour pour se
rendre à l’école et en revenir (Bhoutan, Commission des examens,
ministère de l’Éducation, 2004). L’évaluation de la Namibie a montré
que de nombreux enseignants avaient une maîtrise limitée des compé-
tences de base en anglais et mathématiques (Makuwa, 2005).
   Le besoin d’information sur ce que les élèves apprennent à l’école
a pris une importance croissante avec le développement de ce qu’il
est convenu d’appeler l’ « économie du savoir ». Certains analystes
soutiennent qu’à l’avenir, s’ils veulent véritablement participer au
monde du travail, les élèves devront disposer de niveaux de savoirs et
de savoir-faire, en particulier en mathématique et en sciences, plus
élevés qu’auparavant. Par ailleurs, la facilité d’accès aux biens et ser-
vices augmentant avec la mondialisation, l’aptitude d’un pays à entrer
avec succès dans la concurrence est considérée comme largement
dépendante des compétences des travailleurs et de la gestion de leur
utilisation du capital et de la technologie. Ce facteur pourrait justifier
une comparaison de la performance des élèves d’un système éducatif
avec celle des élèves d’autres systèmes, malgré le danger d’accorder
trop d’importance à la performance agrégée des élèves dans l’explica-
tion de la croissance économique, étant donné les nombreux autres
facteurs impliqués (Kellaghan et Greaney, 2001a).
   Lorsqu’elles sont administrées pendant une certaine période, les
évaluations nationales peuvent être utilisées pour déterminer si les
normes s’améliorent, se détériorent ou restent inchangées. Beaucoup
de pays en développement sont confrontés au problème de l’extension
de la scolarisation, de la construction de nombreuses nouvelles écoles
et de la formation d’un grand nombre d’enseignants tout en essayant
en même temps d’améliorer la qualité de l’enseignement, parfois dans
un contexte de réduction budgétaire. Dans cette situation, les pouvoirs
publics doivent suivre les niveaux de performance pour déterminer
comment l’évolution des effectifs scolaires et des conditions budgé-
taires affectent la qualité de l’apprentissage. Sans cela, l’augmentation
des taux de scolarisation risque facilement d’être acceptée comme
preuve d’une amélioration de la qualité de l’éducation.
                                                POURQUOI RÉALISER UNE ÉVALUATION NATIONALE ?    | 23



   Les données des évaluations nationales sont utilisées pour suivre
les performances dans le temps. Une série d’études menées en Afrique
entre 1995/1996 et 2000/2001 a révélé une baisse significative
des scores en compréhension de l’écrit au Malawi, en Namibie et en
Zambie (voir figure C.1.2 dans l’annexe C). Aux États-Unis,
la National Assessment of Educational Progress (NAEP – l’évaluation
nationale des progrès de l’éducation), qui a suivi les niveaux de
performance en compréhension de l’écrit sur pratiquement trois
décennies, a révélé que même si les enfants noirs et hispaniques de
neuf ans avaient réduit l’écart de performance avec les enfants blancs
jusque dans les années 1980, le différentiel des scores aux épreuves
est resté assez constant par la suite (Figure 3.1). Toujours aux États-
Unis, la NAEP a permis d’identifier une fluctuation des niveaux de
performance en compréhension de l’écrit dans différents États
(Figure 3.2). Au Népal, les résultats des évaluations nationales ont
été utilisés pour suivre a) l’évolution des résultats sur la période
1997-2001 et, en particulier, b) les effets des décisions de politique
relatives au budget, aux programmes de cours, aux manuels, au maté-
riel pédagogique et au perfectionnement des enseignants (voir A.6
dans l’annexe A).
   Lorsque les données des évaluations nationales sont utilisées pour
le suivi des performances au cours du temps, la même épreuve doit


    FIGURE 3.1

    Écart de performance des élèves de neuf ans aux États-Unis : Évaluation de
    la performance en compréhension de l’écrit, NAEP, 1971 à 1999
compréhension de l’écrit




                           230
                           220
                           210
      Score en




                           200
                           190
                           180
                           170
                           160
                                 1971   1975   1980   1984   1988 1990   1992   1994    1996   1999
                                                               Année
                                                  Blancs        Noirs     Hispaniques

 Source : Winograd et Thorstensen, 2004
24                           |    ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




    FIGURE 3.2

    Pourcentage des élèves de quatrième année ayant atteint un niveau égal ou
    supérieur à « Compétent » en compréhension de l’écrit, NAEP 1992-2003

                             40
 Pourcentage de compétents




                             35

                             30


                             25

                             20

                             15
                                       1992          1994         1998            2002       2003
                                                                  Année
                                                       Delaware          Nouveau-Mexique
                                                       Kentucky          Caroline du Nord
                                                       Maryland          Caroline du Sud
                                                       Texas

Source : Winograd et Thorstensen, 2004



être utilisée dans chaque évaluation ou, si des épreuves différentes
sont administrées, certains items doivent être communs, de sorte que
les performances aux épreuves puissent être mises en correspondance
ou liées. Dans chaque cas, les items communs doivent être conservés
en sécurité afin que les comparaisons ne soient pas invalidées du fait
de la connaissance de leur contenu par les élèves et enseignants.
   Les autres utilisations qui peuvent être faites d’une évaluation
nationale dépendent de la manière dont les données ont été recueil-
lies : à partir d’un échantillon d’établissements ou de l’effectif de
l’ensemble (ou de la plupart) des établissements. Dans les deux cas,
les résultats peuvent être utilisés pour fournir des orientations aux
décideurs intéressés par une amélioration de la qualité de l’éducation.
Par exemple, les résultats peuvent aider les pouvoirs publics à identi-
fier la force de l’association entre la qualité de l’apprentissage des
élèves et différents facteurs sur lesquels ils ont un certain contrôle
(comme la disponibilité des manuels scolaires, la taille des classes et
le nombre d’années de formation initiale des enseignants).
                        POURQUOI RÉALISER UNE ÉVALUATION NATIONALE ?   | 25



   Une analyse des résultats peut mener à des décisions affectant
la fourniture des ressources au système éducatif en général (par
exemple, pour la réforme des programmes de cours et des manuels
ou le perfectionnement des enseignants) ou à des catégories d’établis-
sements ayant des caractéristiques particulières (par exemple, les éta-
blissements en milieu rural ou ceux accueillant des élèves dans des
zones défavorisées du point de vue socioéconomique). On peut trou-
ver de nombreux exemples de l’utilisation à ces fins des constatations
des évaluations nationales et internationales. L’Australie s’en est ser-
vie pour concevoir des programmes destinés à accroître la participa-
tion des filles et leurs performances en mathématiques et en sciences
(Keeves, 1995). Elles ont suscité une réforme des programmes de
cours dans des pays à revenu faible et intermédiaire (Elley, 2005), ont
contribué à l’affectation de ressources financières aux écoles plus
pauvres au Chili (voir A.7 dans l’annexe A), et encouragé le profes-
sionnalisme des enseignants en Uruguay (voir A.3 dans l’annexe A).
   Les résultats d’une évaluation nationale peuvent également être
utilisés pour faire évoluer les pratiques en salle de classe (Horn, Wolff
et Velez, 1992). Informer les enseignants et les amener à adopter des
changements de comportement améliorant sensiblement la perfor-
mance des élèves n’est cependant pas chose aisée. La pression en
faveur d’un changement dans les établissements et les classes est plus
forte lorsque les résultats d’une évaluation nationale sont basés sur un
recensement plutôt que sur un échantillon, ainsi que quand de grands
enjeux sont associés à la performance. Il est possible qu’aucune action
spécifique ne soit entreprise par les autorités en dehors de la publica-
tion de l’information sur la performance (par exemple, les palmarès)
ou que des sanctions soient associées à la performance. Ces dernières
peuvent prendre la forme de récompenses pour l’amélioration de la
performance (par exemple, les établissements, les enseignants, ou les
deux reçoivent des incitations économiques si les élèves atteignent
une certaine cible) ou de « punitions » pour les mauvaises perfor-
mances (par exemple, l’échec des élèves pour le passage au niveau
supérieur ou le renvoi des enseignants) (voir A.7 dans l’annexe A
pour une brève description du programme de récompense du Chili).
   Quand une évaluation nationale obtient de l’information sur
la performance des élèves dans l’ensemble (ou la plupart)
26   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




des établissements, certains décideurs peuvent y voir une occasion
d’utiliser ces données pour juger de la qualité des enseignants et des
établissements. Les enseignants et élèves ont certes une responsabilité
dans l’apprentissage, mais le rôle des institutions, organismes et indi-
vidus exerçant un contrôle sur les ressources et les activités des éta-
blissements doit également s’inscrire dans un système de responsabilité.
La reconnaissance équitable des responsabilités de tous les interve-
nants est importante, qu’une évaluation soit basée sur un échantillon
ou sur un recensement. L’évaluation nationale en Uruguay est un bon
exemple de cette reconnaissance de la responsabilité des diverses par-
ties prenantes (y compris l’État) dans la performance des élèves (voir
A.3 dans l’annexe A).
   Dans certains cas, l’évaluation nationale peut n’avoir qu’un rôle
symbolique visant à légitimer l’action de l’État en adoptant des
modèles de modernité internationalement reconnus et en donnant au
processus d’élaboration des politiques un semblant de rationalité
scientifique (Benveniste, 2000, 2002 ; Kellaghan, 2003). Quand tel
est le cas, l’acte d’évaluation a plus d’importance que ses résultats.
Lorsqu’une évaluation nationale est réalisée uniquement pour satis-
faire les exigences d’un bailleur de fonds ou éventuellement pour res-
pecter l’engagement international de l’État de suivre les progrès dans
la direction des objectifs du Millénaire pour le développement, elle
ne peut guère avoir plus qu’une valeur symbolique et a peu de chances
d’être sérieusement prise en compte dans la gestion du système édu-
catif ou dans l’élaboration des politiques.
CHAPITRE

         4               DÉCISIONS À
                         PRENDRE DANS LES
                         ÉVALUATIONS
                         NATIONALES




                         Dans ce chapitre, nous examinons douze décisions
      à prendre pendant la planification d’une évaluation nationale (voir
      Greaney et Kellaghan, 1996 ; Kellaghan, 1997 et Kellaghan et Grea-
      ney, 2001b, 2004).



      QUI ORIENTE LES POLITIQUES DANS UNE ÉVALUATION
      NATIONALE ?

      Le ministère de l’Éducation doit nommer un comité directeur natio-
      nal (CDN) qui fournira des orientations générales à l’organisme
      chargé d’exécuter l’évaluation. Le comité peut aider à garantir un
      statut à l’évaluation nationale et veiller à ce qu’elle aborde les ques-
      tions clés de politiques intéressant le ministère et les autres parties
      prenantes. Il peut également aider à résoudre les problèmes adminis-
      tratifs et financiers graves qui peuvent intervenir au cours de la mise
      en œuvre de l’évaluation nationale. L’octroi au CDN d’un certain
      degré de contrôle sur la direction et la finalité de l’évaluation natio-
      nale accroît également les chances que les résultats de l’évaluation
      jouent un rôle dans l’élaboration des futures politiques.



                                                                           27
28    |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




   La composition du CDN peut varier d’un pays à l’autre, en fonc-
tion de la structure du pouvoir au sein du système éducatif. Outre les
représentants du ministère de l’Éducation, le CDN peut rassembler
des représentants des principaux groupes ethniques, religieux et lin-
guistiques, ainsi que des groupes dont les membres seront censés
prendre des mesures en fonction des résultats de l’évaluation (tels
que les formateurs des enseignants, les enseignants, les inspecteurs
scolaires et le personnel chargé des programmes de cours).
L’encadré 4.1 fournit une liste des membres d’un comité directeur
proposée pour une évaluation nationale en Sierra Leone, par les par-
ticipants d’un séminaire international. La prise en compte des besoins
d’information de ces différentes parties prenantes doit aider à ce que
l’évaluation nationale n’aboutisse pas à un rapport critiqué ou ignoré
en raison de son incapacité à répondre aux « bonnes » questions.
   Le CDN ne peut être ni surchargé de réunions ni impliqué dans
des tâches routinières de mise en œuvre de l’évaluation nationale.
Dans certains cas, il peut fournir une orientation au stade initial, en
identifiant le but et les raisons de l’évaluation, en déterminant les
domaines du programme de cours et les années d’études à évaluer,


 ENCADRÉ 4.1


     Membres proposés pour le CDN en Sierra Leone

     • Commission de l’enseignement fondamental

     • Organisations de la société civile

     • Secrétariat décentralisé

     • Directeur général de l’éducation (président)

     • Direction de la planification de l’éducation

     • Conseil interreligieux

     • Centre national de développement de la recherche sur les programmes de cours

     • Syndicat des enseignants de Sierra Leone

     • Institut des statistiques de Sierra Leone

     • Établissements de formation des enseignants

     • Conseil des examens de l’Afrique de l’Ouest
                   DÉCISIONS À PRENDRE DANS LES ÉVALUATIONS NATIONALES   | 29



ou en sélectionnant le ou les organismes qui effectueront l’évaluation,
bien que ces décisions puissent également être prises avant la création
du comité. Le CDN sera vraisemblablement le plus actif au début de
l’exercice d’évaluation, tandis que l’organisme d’exécution sera res-
ponsable de la plupart des travaux de détail, tels que la mise au point
de l’instrument, l’échantillonnage, l’analyse, et la production des rap-
ports. L’organisme d’exécution doit toutefois fournir au CDN les ver-
sions préliminaires des tests et questionnaires ainsi que la description
des procédures proposées, afin que les membres du comité puissent
fournir des indications et veiller à ce que les besoins d’information
qui ont initialement motivé l’évaluation soient traités de manière
adéquate. Les membres du CDN doivent également examiner les
projets de rapports préparés par l’organisme d’exécution.
   Responsabilité de fournir des orientations pour les politiques : ministère
de l’Éducation



QUI EFFECTUE L’ÉVALUATION NATIONALE ?

Une évaluation nationale doit être effectuée par une équipe ou une
organisation crédible, dont le travail pourra inspirer le respect et ren-
forcer les chances d’une large acceptation des conclusions. Divers pays
ont attribué la responsabilité des évaluations nationales à des groupes
allant d’équipes constituées au sein du ministère de l’Éducation
jusqu’à des entités autonomes (universités, centres de recherche), en
passant par des équipes techniques étrangères. Une série de facteurs
peut influencer cette décision, notamment les niveaux nationaux de
capacité technique ainsi que les conditions administratives et poli-
tiques. Le tableau 4.1 présente certains des avantages et inconvénients
potentiels des différentes catégories d’organismes d’exécution à
prendre en considération lors du choix de l’un d’eux.
   Dans certains cas, les traditions ou la législation peuvent limiter la
liberté de choix du ministère de l’Éducation. En Argentine, par
exemple, les provinces doivent autoriser le contenu du programme de
cours concerné par l’évaluation nationale. Initialement, les provinces
étaient invitées à fournir les items des épreuves, mais beaucoup
d’entre elles ne possédaient pas les capacités techniques pour le faire.
TABLEAU 4.1
                                                                                                                                                      |30


Options pour la mise en œuvre d’une évaluation nationale
Organisme désigné                             Avantages                                                      Inconvénients
Constitué avec du    Susceptible de bénéficier de la confiance du ministère.             Les constatations de l’évaluation pourraient faire l’objet
personnel du         Bénéficie d’un accès immédiat aux personnel, matériel et           de manipulations politiques, y compris des suppressions.
ministère de         données clés (par exemple, les données sur la population          Peut être considéré avec scepticisme par d’autres parties
l’Éducation          scolaire).                                                        prenantes.
                     Possibilité de ne pas avoir à obtenir des fonds pour le           Le personnel peut être appelé à effectuer d’autres tâches.
                     temps de travail du personnel.                                    Manque possible de capacités techniques.
Constitué avec du    Est généralement crédible.                                        Le personnel peut être appelé à effectuer d’autres tâches.
personnel d’un       A de l’expérience dans la réalisation d’évaluations sécurisées.   Les capacités techniques peuvent être faibles.
centre public des    Possibilité de ne pas avoir à obtenir des fonds pour le           Manque possible d’accès direct aux données.
examens              temps de travail du personnel.                                    L’expérience des examens publics peut conduire à la
                     Certaines compétences (par exemple, de développement              rédaction d’items trop difficiles.
                     des épreuves) peuvent être transférées pour améliorer le
                     centre des examens.
                     Plus susceptible d’être durable que certains autres modèles.
Constitué à partir   Constatations éventuellement plus crédibles pour les              Doit mobiliser des fonds pour couvrir les frais de
du secteur de la     parties prenantes.                                                personnel.
recherche/des        Plus susceptible de disposer de certaines compétences             Peut être moins durable que certains autres modèles.
universités          techniques.                                                       Peut entrer en conflit avec le ministère de l’Éducation.
                     Peut utiliser les données pour d’autres études du système
                                                                                                                                                      ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




                     éducatif.
                                                                                                                                            (suite)
TABLEAU 4.1 (suite)
Organisme désigné                             Avantages                                                  Inconvénients
Recruté en tant       Plus susceptible d’être techniquement compétent.             Susceptible d’être coûteux.
qu’assistance         La nature du financement peut aider à assurer un              Risque de ne pas être sensible au contexte éducatif.
technique             achèvement dans les délais prévus.                           Difficulté d’assurer la durabilité de l’évaluation.
étrangère (AT)                                                                     Renforcement vraisemblablement faible des capacités
                                                                                   nationales.
Constitué d’une       Peut améliorer la capacité technique des responsables        La coordination du travail de l’équipe nationale peut être
équipe nationale      nationaux.                                                   difficile avec celui de l’assistance technique.
soutenue par une      Peut garantir l’achèvement de l’évaluation dans les délais   Le transfert des compétences au personnel national peut
AT internationale     prévus.                                                      être difficile à assurer.
                      Peut renforcer la crédibilité des résultats.
Équipe du ministère Peut assurer le soutien du ministère tout en obtenant une      Manque possible des capacités techniques nécessaires au
soutenue par une    AT nationale.                                                  sein de l’AT nationale
AT nationale.       Moins coûteuse que l’AT internationale.                        D’autres inconvénients potentiels mentionnés pour le
                                                                                   ministère de l’Éducation peuvent être applicables.
                                                                                                                                                DÉCISIONS À PRENDRE DANS LES ÉVALUATIONS NATIONALES
                                                                                                                                                | 31
32   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




Par la suite, des exemples de questions leur ont été soumis pour
approbation, tandis que la Dirección Nacional de Información y
Evaluación de la Calidad Educativa (DiNIECE – la direction natio-
nale de l’information et de l’évaluation de la qualité de l’éducation)
élaborait les instruments d’évaluation finaux à partir de l’ensemble
des items approuvés. Depuis peu, les items des épreuves sont conçus
indépendamment par des universitaires et approuvés par le Conseil
fédéral national. La DiNIECE demeure responsable de la mise au
point des tests de performance, de l’analyse des résultats et de la coor-
dination générale des activités annuelles d’évaluation.
    Au moment de déterminer à qui attribuer cette responsabilité, il est
important de réfléchir à la grande diversité des compétences requises
pour mener à bien une évaluation nationale. Cette question est abor-
dée plus en détail dans Mettre en œuvre une évaluation nationale des
acquis scolaires (volume 3 de cette série). Une évaluation nationale est
fondamentalement un travail d’équipe. Celle-ci doit être flexible, prête
à travailler sous pression et dans un esprit de collaboration, et préparée
à apprendre de nouvelles approches d’évaluation et technologiques.
Le chef de l’équipe doit disposer de solides compétences managériales.
Il ou elle sera appelé à organiser le personnel, coordonner et program-
mer les activités, soutenir la formation et gérer et contrôler les aspects
financiers. Il ou elle doit avoir une certaine habileté politique étant
donné qu’il ou elle devra rendre compte au CDN et être en contact
avec des organismes publics nationaux, régionaux et, dans certains cas,
de districts ainsi qu’avec des représentants des parties prenantes (tels
que les enseignants ou les organismes religieux).
    L’équipe doit avoir de solides compétences de mise en œuvre ou
opérationnelles. Les tâches à effectuer comprennent l’organisation
d’ateliers destinés aux rédacteurs des items et aux administrateurs des
épreuves ; la gestion de l’impression et de la distribution des épreuves,
des questionnaires et des manuels ; les contacts avec les établisse-
ments scolaires ; l’élaboration du matériel de formation et la collecte
et l’enregistrement des données. Une petite équipe spécialisée de
développeurs de tests sera nécessaire pour analyser le programme de
cours, constituer des tableaux de spécifications ou un plan détaillé
des épreuves, rédiger les items, les sélectionner après une phase de
prétests ou de test pilote et donner des conseils pour la correction.
                  DÉCISIONS À PRENDRE DANS LES ÉVALUATIONS NATIONALES   | 33



Après l’administration des épreuves, les questions ouvertes et à choix
multiples doivent être corrigées.
   L’équipe aura besoin de l’appui d’une ou plusieurs personnes
dotées de compétences statistiques et analytiques pour la sélection
des échantillons ; la pondération des données ; la saisie des données et
la préparation des fichiers ; l’analyse détaillée des données des tests
ainsi que l’analyse statistique des résultats globaux et la constitution
de fichiers de données destinés à d’autres parties (par exemple, des
universitaires et des étudiants de troisième cycle) en vue de la réalisa-
tion d’analyses secondaires. Dans nombre de pays en développement,
en raison de l’absence des capacités nécessaires dans ce dernier
domaine, les données sont collectées, mais jamais analysées ni com-
muniquées correctement.
   L’équipe doit disposer du personnel nécessaire pour produire et
diffuser les résultats, des communiqués de presse et des bulletins d’in-
formation ou des brochures ciblées.
   On peut aussi raisonnablement s’attendre à ce que l’équipe joue
un rôle clé dans l’organisation de séminaires destinés à permettre
aux enseignants et à d’autres responsables du système éducatif de
discuter de l’importance des résultats et de leurs implications pour
l’enseignement et l’apprentissage.
   La plupart des membres de l’équipe peuvent à la fois travailler à
temps partiel et être employés suivant les besoins. Cette catégorie
peut comprendre les rédacteurs des items – en particulier des ensei-
gnants en exercice dotés d’une bonne connaissance du programme de
cours – et les experts de l’échantillonnage et de l’analyse statistique.
Les membres de l’équipe peuvent être recrutés en dehors du secteur
de l’éducation. Par exemple, un bureau national du recensement peut
être une bonne source de spécialistes de l’échantillonnage. Un per-
sonnel informatique ayant une expérience appropriée pourrait contri-
buer au nettoyage des données et des journalistes pourraient participer
à la rédaction de communiqués de presse accrocheurs. Ni le Cambodge
ni l’Éthiopie n’ont employé du personnel à temps plein pour leurs
évaluations nationales.
   Responsabilité de la réalisation de l’évaluation nationale : organisme
d’exécution (ministère de l’Éducation, centre des examens, organisme
de recherche, université).
34   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




QUI ADMINISTRE LES ÉPREUVES ET LES QUESTIONNAIRES ?

Les traditions administratives, la perception des niveaux de confiance
ainsi que les sources de financement d’un pays influencent habituelle-
ment la sélection du personnel chargé de l’administration des épreuves
et des questionnaires dans une évaluation nationale. La pratique varie.
Par exemple, certains pays ont utilisé des étudiants de troisième cycle,
tandis que la Zambie a fait intervenir des inspecteurs d’école et des
fonctionnaires du ministère dans l’administration des épreuves et des
questionnaires. D’autres pays ont fait appel à des enseignants expéri-
mentés issus d’écoles ne participant pas à l’évaluation ou à des ensei-
gnants retraités. Aux Maldives, l’administrateur des épreuves doit
appartenir au personnel d’une école située sur une île différente de
celle où se trouve l’établissement cible.
   Les administrateurs des épreuves doivent être soigneusement
sélectionnés. Ils doivent avoir de bonnes compétences organisation-
nelles, disposer d’une expérience du travail dans les écoles et s’enga-
ger à suivre strictement les directives pour les épreuves et
questionnaires. Idéalement, ils devraient avoir une expérience des
salles de classe, parler la même langue, avec le même accent, que les
élèves et faire preuve d’autorité sans être menaçants. Le volume 3
de cette série, Mettre en œuvre une évaluation nationale des acquis
scolaires, examine les avantages et inconvénients de l’utilisation d’en-
seignants, d’inspecteurs, de formateurs des enseignants, de membres
du centre des examens et d’étudiants universitaires en tant
qu’administrateurs.
   Bien que le recours aux enseignants des élèves participant à l’éva-
luation nationale en tant qu’administrateurs des épreuves puisse sem-
bler très économique et commode du point de vue administratif, il est
rarement choisi pour toute une série de raisons. Certains enseignants
peuvent avoir l’impression qu’on évalue l’efficacité de leur enseigne-
ment. Certains peuvent éprouver des difficultés à renoncer à l’habi-
tude d’aider leurs élèves et ne pas être capables de s’adapter à
l’approche formelle des épreuves. D’autres peuvent faire des copies
des épreuves ou de leurs questions, excluant ainsi la possibilité d’uti-
liser ces items dans de futures évaluations nationales. Le fait que des
enseignants fassent passer les épreuves à leurs propres élèves peut
                  DÉCISIONS À PRENDRE DANS LES ÉVALUATIONS NATIONALES   | 35



également nuire à la perception publique de la fiabilité des résultats
de l’évaluation.
  Responsabilité de l’administration des épreuves et questionnaires :
organisme d’exécution



QUELLE EST LA POPULATION ÉVALUÉE ?

Dans leur acception habituelle, les évaluations nationales désignent
des enquêtes réalisées dans les systèmes éducatifs. Tel n’a toutefois
pas toujours été le cas. La première évaluation nationale réalisée aux
États-Unis (en 1969) visait une population qui avait quitté l’école
(jeunes de 17 et 18 ans et jeunes adultes de 26 à 35 ans) ou la fré-
quentait encore, et portait sur l’éducation civique, la lecture et les
sciences. L’évaluation des populations ayant quitté l’école a été inter-
rompue pour des raisons de coût (Jones, 2003). Des études ultérieures
de la littératie des adultes ont été effectuées indépendamment des
évaluations nationales.
   La question de l’évaluation de plus jeunes enfants non scolarisés
est plus pertinente dans de nombreux pays en développement qu’aux
États-Unis, étant donné que bon nombre d’enfants d’âge scolaire ne
fréquentent pas l’école. De toute évidence, les acquis de ces enfants
(ou leur absence d’acquis) intéressent les décideurs et les responsables
des politiques et peuvent être particulièrement pertinents pour le
secteur de l’éducation non formelle. Leur inclusion dans une évalua-
tion nationale conventionnelle est cependant difficile à envisager.
Même si certains groupes de jeunes non scolarisés peuvent être éva-
lués à l’aide des épreuves d’une évaluation nationale dans une étude
distincte, les méthodes d’évaluation et les procédures d’échantillon-
nage sont en général très différentes, et les différences de situation de
ces enfants (par exemple, des besoins spéciaux, un désavantage
socioéconomique ou la distance par rapport à l’école) doivent être
prises en compte.
   En ce qui concerne les enfants fréquentant l’école, les décideurs
souhaitent obtenir de l’information sur leurs savoirs et savoir-faire à
des stades précis de leur parcours scolaire. Il convient de décider si les
populations sont définies sur la base de l’âge ou de l’année d’études
36   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




ou d’une combinaison des deux. Dans les pays où l’âge d’entrée à
l’école varie substantiellement et où des politiques de refus du
passage automatique à l’année supérieure sont appliquées, les élèves
d’un âge similaire ne sont pas réunis dans une même année. Cette
situation est un solide argument en faveur du ciblage de l’année plu-
tôt que de l’âge.
   L’année à évaluer doit normalement être déterminée par les besoins
d’information du ministère de l’Éducation. S’il souhaite, par exemple,
connaître le niveau d’acquis des élèves en fin d’école primaire, il peut
demander qu’une évaluation nationale soit effectuée vers la fin de la
dernière année primaire (cinquième ou sixième année dans de
nombreux pays). Il peut également demander une évaluation natio-
nale de la troisième ou quatrième année s’il a besoin de données sur
les performances des élèves à mi-parcours du cycle d’enseignement
de base. Cette information pourra ensuite être utilisée pour intro-
duire des mesures correctives (telles qu’une formation continue des
enseignants) afin de traiter les problèmes liés à certains aspects du
programme de cours identifiés dans l’évaluation.
   Les années scolaires ciblées par les évaluations nationales varient
d’un pays à l’autre. Aux États-Unis, les niveaux de performance des
élèves sont évalués en 4e, 8e et 12e année ; en Colombie, en 3e, 5e, 7e et
9e année ; en Uruguay, au niveau préscolaire et en 1re, 2e et 6e année ;
au Sri Lanka, en 4e, 8e et 10e année. En Afrique anglophone, un consor-
tium régional de systèmes d’éducation, le Consortium de l’Afrique
australe et orientale pour le pilotage de la qualité de l’éducation
(SACMEQ – Southern and Eastern Africa Consortium for Monitoring
Educational Quality), a évalué des élèves de 6e année. Dans les pays
africains francophones, le Programme d’analyse des systèmes éduca-
tifs de la CONFEMEN (Conférence des ministres de l’Éducation des
États et gouvernements de la Francophonie, également appelée
Conférence des ministres de l’Éducation des pays ayant le français en
partage) a évalué les élèves de 2e et 5e année.
   Des considérations pragmatiques dictent parfois la sélection des
années à évaluer. Le ministère fédéral nigérian de l’Éducation a décidé
d’évaluer les élèves de 4e année parce que la réalisation des épreuves à
un niveau inférieur aurait nécessité leur traduction dans de nombreuses
langues locales. L’évaluation d’années supérieures n’était pas jugée
                  DÉCISIONS À PRENDRE DANS LES ÉVALUATIONS NATIONALES   | 37



adéquate, car les élèves et les enseignants se concentrent généralement
sur les examens d’entrée dans l’enseignement secondaire.
   Relativement peu de pays mènent des évaluations à grande
échelle des trois premières années. À ce niveau, les élèves risquent
de ne pas être capables de suivre les instructions, d’effectuer les
tâches cognitives de l’évaluation ou de répondre à des questions à
choix multiple. Une étude jamaïcaine a observé qu’un nombre
important d’élèves de 1re année étaient incapables de reconnaître
les lettres de l’alphabet (Lockheed et Harris, 2005). Il faut néan-
moins garder à l’esprit que des procédures alternatives devraient
exister pour suivre les modèles d’apprentissage précoce, étant
donné qu’une information sur ceux-ci peut être essentielle pour les
efforts de réforme.
   Responsabilité de la détermination de la population à évaluer : minis-
tère de l’Éducation et CDN



EVALUE-T-ON TOUTE LA POPULATION OU UN ÉCHANTILLON ?

La plupart des études nationales et toutes les études régionales et
internationales utilisent des approches basées sur des échantillons
pour déterminer les niveaux de performance nationaux. Certaines
évaluations nationales utilisent à la fois des approches basées sur des
échantillons et basées sur un recensement (par exemple, le Costa
Rica, Cuba, la France, le Honduras, la Jordanie, le Mexique et l’Uru-
guay), tandis que la plupart des évaluations infranationales collectent
des données de recensement (par exemple, Minas Gerais, Parana et
São Paulo, au Brésil ; Bogotá, en Colombie et Aguascalientes au
Mexique) (voir Crespo, Soares et deMello e Souza, 2000). Plusieurs
facteurs plaident en faveur d’un échantillon lorsque l’objectif est
d’obtenir de l’information sur le fonctionnement de l’ensemble du
système éducatif à des fins d’élaboration ou d’évaluation des poli-
tiques. Ils comprennent a) des coûts moindres pour l’administration
des épreuves ainsi que le nettoyage et la gestion des données ; b) moins
de temps pour l’analyse et l’élaboration des rapports ; et c) plus de
précision grâce à une supervision plus intense du travail de terrain et
de la préparation des données (Ross, 1987).
38   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




   Comme indiqué au chapitre 3, le but d’une évaluation est essentiel
pour déterminer s’il convient de réaliser les tests sur un échantillon ou
sur l’ensemble de la population des élèves ciblés. D’un côté, la déci-
sion d’utiliser l’effectif total peut refléter une intention de renforcer
la redevabilité des établissements, des enseignants ou même des
élèves. Elle facilite l’application de sanctions (positives ou négatives),
le retour d’information vers les établissements sur leurs performances
individuelles, la publication de palmarès, ainsi que l’identification des
établissements ayant le plus besoin d’assistance (comme, par exemple,
au Chili et au Mexique). De l’autre côté, l’approche basée sur un
échantillon ne permet la détection des problèmes qu’au niveau du
système. Elle n’identifie pas individuellement les établissements
ayant besoin d’aide, mais est capable de reconnaître les types ou caté-
gories d’établissements (par exemple, les petites écoles rurales)
auxquels une attention doit être accordée. Elle permet également
d’identifier des problèmes d’égalité entre les sexes ou d’équité entre
les ethnies.
   Un argument contre l’utilisation d’une approche basée sur un
échantillon est qu’en raison de l’absence d’enjeux importants asso-
ciés à la performance, certains élèves ne sont pas incités à prendre
l’épreuve au sérieux. Tel n’a toutefois pas été le cas dans de nom-
breux pays, notamment en Afrique du Sud, où certains élèves ont
craint que les résultats obtenus aux épreuves de l’enquête TIMSS
(Tendances de l’enquête internationale sur les mathématiques et
les sciences – Trends in International Mathematics and Science
Study) comptent dans leurs résultats scolaires officiels. Il est
intéressant de noter que des tricheries ont eu lieu pendant l’admi-
nistration des épreuves, probablement en raison de la perception
des enjeux relativement élevés associés à la performance (voir A.4
dans l’annexe A).
   Les avantages et inconvénients de l’utilisation d’une évaluation
nationale pour responsabiliser les établissements, les enseignants et,
dans certains cas, les élèves sont présentés dans le tableau 4.2. Les
points énumérés sont, pour la plupart, tirés d’études des effets des
examens publics associés à des enjeux importants, et non d’une étude
des évaluations nationales. Ils devraient néanmoins être pertinents
pour les évaluations nationales basées sur un recensement, tout au
                                  DÉCISIONS À PRENDRE DANS LES ÉVALUATIONS NATIONALES     | 39



TABLEAU 4.2
Avantages et inconvénients d’une évaluation basée sur un recensement pour la
responsabilisation des établissements
Avantages                                                    Inconvénients
Se concentre sur les aspects de             A tendance à négliger les matières non
l’éducation jugés importants.               couvertes par les épreuves.
Souligne les aspects importants             A tendance à négliger les aspects non testés des
des différentes disciplines.                disciplines (comme l’expression orale en langue).
Aide à garantir que les élèves atteignent   A contribué à l’abandon scolaire précoce et à
un niveau acceptable avant de passer        l’échec du passage à l’année supérieure.
dans l’année supérieure.
Permet une comparaison directe entre        Aboutit à un classement injuste des
les établissements.                         établissements ayant des contextes sociaux
                                            différents mais des résultats similaires.
Renforce la confiance du public dans la      A conduit à des tricheries pendant
performance du système.                     l’administration des épreuves et à une
                                            manipulation ultérieure des résultats.
Incite les élèves à apprendre.              A tendance à privilégier la mémorisation et
                                            l’apprentissage par cœur.
Amène une amélioration des niveaux de       L’amélioration de la performance peut être
performance de certains établissements      limitée à une épreuve particulière et ne pas
et élèves.                                  apparaître dans d’autres épreuves portant sur la
                                            même matière.
Permet aux parents de juger de              Conduit à une évaluation injuste de l’efficacité
l’efficacité individuelle des                sur la base des scores aux épreuves sans tenir
établissements et enseignants.              compte d’autres facteurs liés aux acquis.
A tendance à bénéficier de la faveur des     Tient rarement les politiciens pour responsables
responsables des politiques et des          du manque de ressources pédagogiques.
médias.




            moins pour celles faisant office de substituts aux examens publics
            (comme aux États-Unis et dans certains pays d’Amérique latine).
               Responsabilité de la décision d’utiliser un échantillon ou un recense-
            ment : ministère de l’Éducation.



            QUELS SONT LES ÉLÉMENTS ÉVALUÉS ?

            Toutes les évaluations nationales mesurent les résultats cognitifs
            de l’enseignement ou les compétences scolaires dans les domaines de
40   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




la langue/littératie et des mathématiques/numératie, ce qui reflète
l’importance de ces résultats pour l’éducation de base. Dans certains
pays, la connaissance des sciences et des sciences sociales est inté-
grée dans l’évaluation. Quel que soit le domaine évalué, l’existence
d’un cadre approprié est importante, dans un premier temps
pour l’élaboration des instruments d’évaluation et ensuite pour l’in-
terprétation des résultats. Ce cadre peut exister dans le programme
de cours si, par exemple, celui-ci expose les attentes relatives à l’ap-
prentissage avec des priorités clairement définies et appliquées. Dans
la plupart des cas, un tel cadre n’est pas disponible et les responsables
de l’évaluation nationale doivent le créer. Cette tâche requiert une
étroite coopération entre l’organisme d’évaluation, les responsables
des programmes de cours et d’autres parties prenantes.
   Les cadres d’évaluation tentent de clarifier en détail ce qui est cou-
vert par une évaluation à grande échelle, comment l’évaluer et pour-
quoi (voir Kirsch, 2001). Il vise à rendre transparents le processus
d’évaluation et ses hypothèses sous-jacentes, non seulement pour les
développeurs des épreuves, mais aussi pour un public beaucoup plus
large comprenant les enseignants, les responsables des programmes de
cours et les décideurs politiques. Le cadre commence généralement
par une définition générale ou une déclaration d’intention rappelant
les raisons de l’évaluation et spécifiant les savoirs, savoir-faire et autres
attributs à mesurer. Il identifie et décrit ensuite les performances ou
comportements qui vont révéler ces constructs, en identifiant un
certain nombre de tâches ou de variables caractéristiques à utiliser
pour la mise au point de l’évaluation. Il indique également comment
ces performances doivent être utilisées pour évaluer les élèves (Mullis
et coll., 2006).
   De nombreuses évaluations nationales sont basées sur une analyse
du contenu, à un niveau scolaire donné, de ce que les élèves sont cen-
sés avoir appris après avoir été exposés à un programme de cours
prescrit ou prévu. Généralement, cette analyse est effectuée dans une
matrice plaçant les comportements cognitifs sur l’axe horizontal et
les thèmes ou domaines de contenu sur l’axe vertical. L’intersection
d’un comportement cognitif et d’un domaine de contenu représente
un objectif d’apprentissage. Les cellules peuvent être pondérées en
fonction de leur importance.
                  DÉCISIONS À PRENDRE DANS LES ÉVALUATIONS NATIONALES   | 41



   De récentes évaluations nationales (et internationales) se sont ins-
pirées de recherches sur le développement chez les élèves de savoir-
faire en littératie et numératie qui ne figurent pas nécessairement
dans les programmes de cours nationaux. Par exemple, dans le docu-
ment Cadre et spécifications du Programme international de recherche
en lecture scolaire (PIRLS – Progress in International Reading Literacy
Study) 2006 de l’Association internationale pour l’évaluation du ren-
dement scolaire (IEA – International Association for the Evaluation of
Educational Achievement), la compréhension de l’écrit est définie
comme « l’aptitude à comprendre et utiliser les formes de langage
écrit requises par la société ou valorisées par l’individu. Les jeunes
lecteurs peuvent découvrir le sens de textes très variés. Ils lisent pour
apprendre, pour s’intégrer dans des communautés de lecteurs à l’école
et dans la vie de tous les jours, et pour le plaisir » (Mullis et coll.,
2006,3). D’après cette définition, il est évident que la lecture va plus
loin que le simple déchiffrage d’un texte ou la compréhension du sens
d’un passage ou d’un poème. Le PIRLS a en outre précisé ce qu’il se
proposait de mesurer en indiquant le processus et les tâches à évaluer
ainsi que le pourcentage des items des épreuves consacrés à chacun
d’eux (Tableau 4.3).
   Le document du cadre précisait que l’évaluation utiliserait des
carnets de test comprenant cinq passages littéraires et cinq passages
informatifs, et que chacun d’eux serait suivi de 12 questions, dont la
moitié à choix multiple et l’autre moitié à réponse construite. Il indi-
quait également qu’étant donné l’importance des attitudes et compor-
tements pour le développement d’une habitude de lecture tout au long
de la vie et leur relation avec la performance en lecture, le PIRLS inclu-
rait dans le questionnaire des élèves des questions visant à évaluer leurs
attitude et comportements de lecture. Il justifiait la sélection des élèves
de quatrième année de l’enseignement formel en tant que population
cible par le fait que cette année constitue une étape de transition entre
l’apprentissage de la lecture et la lecture pour l’apprentissage.
   Dans son cadre d’évaluation, le PIRLS identifiait les deux princi-
pales fins de la lecture pour les élèves :

• Lecture en vue d’une expérience littéraire.
• Lecture en vue d’obtenir et utiliser de l’information.
42   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




TABLEAU 4.3
Processus de compréhension de l’écrit dans le PIRLS
 Processus de                                                Exemples de tâches                     Items
 compréhension
 Identifier et retrouver          Rechercher des idées spécifiques.                                   20 %
 des informations                Retrouver des définitions ou des phrases.
 explicites                      Identifier le contexte d’une histoire (par exemple, temps, lieu).
                                 Trouver une phrase relative au sujet ou à l’idée principale
                                 (énoncée explicitement).
 Faire des inférences            Déduire qu’un événement en a causé un autre.                       30 %
 simples                         Identifier des généralisations dans le texte.
                                 Décrire la relation entre les personnages.
                                 Déterminer le référent d’un pronom.
 Interpréter et                  Identifier le message ou le thème général.                          30 %
 combiner des idées et           Opposer les informations du texte.
 des informations                Déduire l’humeur ou le ton d’une histoire.
                                 Donner une application de l’information du texte dans le
                                 monde réel.
 Examiner et évaluer le          Évaluer la probabilité que les événements décrits se               20 %
 contenu, la langue et           produisent.
 les éléments textuels.          Décrire la façon dont l’auteur a imaginé une fin surprenante.
                                 Juger de l’exhaustivité ou de la clarté des informations dans
                                 le texte.
                                 Identifier les points de vue de l’auteur.
 Source : Campbell et coll., 2001 ; Mullis et coll., 2006.




    Il justifiait également de manière détaillée l’accent mis par le PIRLS
sur la connaissance de l’environnement et du contexte dans lesquels
les élèves apprennent à lire. Cette attention particulière a conduit à
l’intégration dans le questionnaire d’items portant sur les caractéris-
tiques du foyer susceptibles d’encourager les enfants à apprendre à
lire : activités des parents liées à la lecture, langue parlée à la maison,
liens entre la maison et l’école, et activités extrascolaires des élèves
liées à la lecture. Les questions relatives à l’aspect scolaire couvraient
les ressources scolaires susceptibles d’influencer directement ou indi-
rectement la performance en lecture. Le document du cadre justifiait
également l’évaluation de variables liées aux classes, telles que les
approches pédagogiques et la nature de la formation des enseignants.
    Pour des élèves plus âgés, au lieu de baser l’instrument d’évaluation
sur les attentes ou exigences du programme de cours, on peut
                   DÉCISIONS À PRENDRE DANS LES ÉVALUATIONS NATIONALES   | 43



envisager un test reflétant les savoirs et savoir-faire dont les élèves
auront vraisemblablement besoin et qu’ils développeront au cours
de leur vie d’adultes. Le Programme international pour le suivi des
acquis des élèves (PISA) a fourni un exemple de cette méthode en
entreprenant d’évaluer la « culture mathématique » des élèves de
15 ans, définie comme « l’aptitude à formuler, employer et interpréter
les mathématiques dans un éventail de contextes [… ainsi qu’]à com-
prendre le rôle que jouent les mathématiques dans le monde et à se
comporter en citoyen constructif, engagé et réfléchi, c’est-à-dire à
poser des jugements et à prendre des décisions en toute connaissance
de cause » (OCDE, 2003, 24) (voir B.3 dans l’annexe B). Cette
approche alternative convient bien à une étude internationale dans
laquelle la conception d’un instrument d’évaluation reflétant une série
de programmes de cours différents est clairement problématique, mais
elle peut également être utilisée pour une évaluation nationale.
   Quelques évaluations nationales recueillent des informations sur des
résultats affectifs (par exemple, l’attitude des élèves vis-à-vis de l’école
ou l’estime de soi des élèves). La Colombie, par exemple, évalue l’atti-
tude des élèves à l’égard de la paix. Bien que ces résultats soient très
importants, leur mesure a tendance à être moins fiable que celle des
résultats cognitifs et les analyses qui les utilisent s’avèrent difficiles à
interpréter. Au Chili, les difficultés techniques rencontrées dans la
mesure des valeurs des élèves et de leur attitude vis-à-vis de l’apprentis-
sage ont conduit à l’abandon de ces domaines (voir A.7 dans l’annexe A).
   Une évaluation à grande échelle (Suivi permanent des acquis sco-
laires) a évalué les « compétences de la vie courante », définies comme
les connaissances et les comportements des élèves relatifs à la santé et
à la nutrition, à l’environnement, à la responsabilité civique, ainsi qu’à
la science et à la technologie (Chinapah, 1997). S’il est généralement
admis que les compétences de la vie courante sont importantes et
doivent être enseignées, il existe néanmoins un profond désaccord sur
leur nature précise. Leur mesure s’avère également difficile.
   La plupart des évaluations nationales collectent des informations
sur les élèves, les établissements d’enseignement et des aspects
familiaux jugés pertinents pour la performance des élèves (par
exemple, le sexe des élèves et leurs antécédents scolaires, y compris
les redoublements ; les ressources existant dans les écoles, notamment
44   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




la disponibilité de manuels ; le niveau d’études et les qualifications
des enseignants ; et le statut socioéconomique des familles des élèves).
Les informations sont généralement recueillies dans des question-
naires (et parfois dans le cadre d’entretiens) administrés aux élèves,
aux enseignants et enseignants principaux, et parfois aux parents, en
même temps que les instruments d’évaluation.
   L’identification des facteurs contextuels liés à la performance des
élèves peut aider à identifier les variables manipulables, c’est-à-dire
les facteurs qui peuvent être modifiés par les décideurs politiques, tels
que les règlements sur le temps alloué aux disciplines du programme
de cours, la fourniture de manuels et la taille des classes. Les données
contextuelles collectées dans certaines études nationales (et interna-
tionales) ne peuvent toutefois pas jouer ce rôle parce qu’elles ne
mesurent pas de manière appropriée les conditions de vie des élèves.
Le statut économique, par exemple, peut être basé sur une série d’élé-
ments tels qu’une voiture, un poste de télévision et un robinet d’eau
courante dans un pays où la majorité de la population vit, pendant au
moins une partie de l’année, avec un revenu équivalent à moins de
1 dollar EU par jour. En outre, malgré la pertinence de l’état de santé
et de l’état nutritionnel, aucune information ne peut être obtenue à
leur propos (Naumann, 2005).
   Dans certaines évaluations, la performance des enseignants est éva-
luée au même titre que celle des élèves. Au Vietnam (voir A.2 dans
l’annexe A) et dans un certain nombre de pays africains participant aux
études SACMEQ (voir C.1 dans l’annexe C), les enseignants ont été
soumis aux mêmes items que leurs élèves afin d’obtenir un aperçu de
leur maîtrise de la matière. En Ouganda, des informations ont été obte-
nues sur le degré de connaissance des principaux documents officiels
du programme de cours dont les enseignants déclaraient disposer.
   Responsabilité de la détermination des éléments à évaluer : ministère
de l’Éducation, CDN, avec la contribution de l’organisme d’exécution.



COMMENT LA PERFORMANCE EST-ELLE ÉVALUÉE ?

Un ou plusieurs instruments doivent être conçus pour fournir l’infor-
mation que l’évaluation nationale cherche à obtenir. Tout comme les
                  DÉCISIONS À PRENDRE DANS LES ÉVALUATIONS NATIONALES   | 45



fins et les utilisations prévues des évaluations nationales, les instru-
ments utilisés dans les évaluations et les modalités de communication
des résultats varient.
   Certaines évaluations nationales présentent les résultats selon les
caractéristiques statistiques des scores aux épreuves, par exemple, le
pourcentage moyen d’items auxquels les élèves ont répondu correc-
tement et la distribution des scores autour de la moyenne. Ou bien
l’échelle des résultats peut être ajustée à une moyenne (500, par
exemple) et à un écart type (100, par exemple) arbitraires. Même si
ces scores peuvent être utilisés pour comparer les performances de
sous-groupes de l’échantillon, leur utilisation est limitée dans une
évaluation nationale, principalement parce qu’ils en disent peu sur le
niveau de connaissance de la matière des élèves ou les compétences
réelles qu’ils ont acquises.
   Pour résoudre ce problème et accroître la pertinence de leurs résul-
tats pour les parties prenantes, un nombre croissant d’évaluations
nationales cherche à exprimer les résultats de façon à montrer ce que
les élèves connaissent ou non ainsi que les forces et les faiblesses dans
leurs savoirs et savoir-faire. Cette approche implique un rapproche-
ment entre les scores des élèves et la description des tâches qu’ils sont
capables de réaliser (par exemple, « a tel niveau de compréhension de
l’écrit » ou « peut effectuer des opérations mathématiques élémen-
taires »). Les performances peuvent être classées de différentes
manières (par exemple, « satisfaisant » ou « insatisfaisant » ; « élémen-
taire », « compétent » ou « avancé »), et la proportion d’élèves ayant
atteint chaque niveau peut être déterminée. Le rapprochement entre
les scores des élèves et les niveaux de performance est une tâche com-
plexe requérant l’avis de spécialistes des programmes de cours et
d’analystes statistiques.
   La façon dont les résultats seront décrits doit être prise en considé-
ration lors du développement des épreuves. Celui-ci doit par consé-
quent commencer par la spécification d’un cadre définissant les acquis
attendus, suite à quoi, les items des épreuves peuvent être rédigés
pour évaluer dans quelle mesure les élèves satisfont ces attentes. Si
après avoir été testés, les items ne remplissent pas certains critères,
notamment permettre une discrimination correcte entre les élèves, ils
peuvent ne pas être repris dans l’instrument d’évaluation final. Il faut
46    |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




veiller à ce que l’évaluation reflète les objectifs clés des programmes
de cours, même si aucun des élèves participant à l’essai des items n’est
capable de les atteindre.
   La plupart des instruments des évaluations nationales et interna-
tionales comprennent largement des questions à choix multiple.
Celles-ci sont souvent complétées par des questions ouvertes deman-
dant à l’élève d’écrire un mot, une expression ou une phrase. Des
exemples de questions à choix multiple et de questions ouvertes sont
respectivement fournis dans les encadrés 4.2 et 4.3.
   Dans plusieurs évaluations nationales (par exemple, la NAEP aux
États-Unis et la National Assessment of English Reading irlandaise) et
internationales (par exemple, les enquêtes TIMSS et PISA), chaque
élève n’est soumis qu’à une partie des items utilisés dans l’évaluation



 ENCADRÉ 4.2


     Exemples de questions à choix multiple

     Domaine d’évaluation : Géographie

     Le fleuve Volga se trouve en

     A. Chine

     B. Allemagne

     C. Russie

     D. Suède

     Domaine d’évaluation : Mathématiques

     Un phoque doit respirer lorsqu’il dort. Martin a observé un phoque pendant une heure.
     Au début de cette observation, le phoque a plongé au fond de la mer et s’est endormi.
     En huit minutes, il avait lentement flotté jusqu’à la surface et pris une inspiration. En trois
     minutes, il était de retour au fond de la mer, et tout le processus recommençait de
     manière très régulière. Après une heure, le phoque était

     A. au fond de la mer ;

     B. en train de remonter vers la surface ;

     C. en train de respirer ;

     D. en train de descendre.
     Source : Exemple de mathématiques : OCDE, 2007. Reproduit avec autorisation.
                               DÉCISIONS À PRENDRE DANS LES ÉVALUATIONS NATIONALES       | 47




ENCADRÉ 4.3


 Exemples de questions ouvertes

 Domaine d’évaluation : Langue

 GRAND est le contraire de PETIT.

 Quel est l’opposé de

 RAPIDE _______            SOMBRE _______
 LOURD _______             VIEUX  _______

 Domaine d’évaluation : Mathématiques

 Utilisez votre règle pour dessiner un rectangle d’un périmètre de 20 cm. Identifiez la
 largeur et la longueur du rectangle.




          (voir A.8 dans l’annexe A ; B.1 et B.3 dans l’annexe B). Cette approche
          étend la couverture globale du programme par les épreuves, sans
          imposer un fardeau trop lourd à chaque élève. Elle permet également
          d’utiliser des passages plus longs (par exemple, une histoire courte ou
          un article de journal) pour l’évaluation de la compréhension de l’écrit.
          Dans d’autres évaluations, tous les élèves répondent à un même
          ensemble de questions. Un système où les élèves ne répondent
          qu’à une partie des questions présente certains avantages, mais aussi
          des inconvénients, en particulier pour les pays s’engageant dans un
          programme d’évaluation nationale. La gestion administrative (par
          exemple, l’impression et la distribution des carnets de test) est plus
          complexe, de même que la correction et la mise à l’échelle des scores,
          tandis que les analyses portant sur les données de chacun des élèves
          ou établissements peuvent être problématiques (voir Sofroniou et
          Kellaghan, 2004).
             La question de la langue d’évaluation bénéficie généralement de
          moins d’attention qu’elle ne le mérite. Deux problèmes expliquent
          pourquoi. Premièrement, bien que dans de nombreux pays, de grands
          groupes minoritaires (et parfois majoritaires) suivent un enseigne-
          ment donné dans une langue autre que leur langue maternelle,
          les élèves sont généralement évalués dans la langue d’enseignement.
          En Ouganda, par exemple, la grande majorité des élèves passent
          les épreuves dans leur seconde langue (voir A.9 dans l’annexe A).
48   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




De médiocres performances aux épreuves sont attribuées à cette
pratique, de même que des progrès scolaires généralement insuffi-
sants et des taux élevés d’abandon scolaire précoce (Naumann, 2005).
   Un deuxième problème se pose lorsque les instruments d’évalua-
tion doivent être traduits dans une ou plusieurs langues. Lorsque des
comparaisons doivent être effectuées entre des performances éva-
luées dans différentes langues, l’analyse doit envisager la possibilité
que certains écarts soient dus à des différences de difficulté des tâches
d’évaluation liées à la langue. La question peut être en partie résolue
en modifiant certains mots. Par exemple, dans une évaluation interna-
tionale réalisée en Afrique du Sud, des mots tels que « carburant »
(« pétrole ») et « lampe de poche » (« torche ») ont été modifiés. Le
Ghana a remplacé le mot « neige » par « pluie ». Une covariance des
différences de langue et de facteurs culturels et économiques aggrave
le problème, car il peut être difficile d’obtenir une formulation équi-
valente des questions et une même pertinence culturelle du contenu
dans toutes les versions linguistiques d’une épreuve. Par exemple, un
matériel adapté au contexte d’élèves des zones rurales – évoquant la
chasse, le marché local, les activités agricoles et les jeux locaux – peut
être peu familier pour les élèves vivant en milieu urbain.
   Quels que soient les détails de la méthode d’évaluation, celle-ci
doit fournir une information valide et fiable. La validité a plusieurs
facettes, notamment l’adéquation de l’instrument d’évaluation à la
représentation du construct (par exemple, la compréhension de
l’écrit) ou du domaine du programme de cours (par exemple, les
sciences sociales) identifié dans le cadre de l’évaluation. Le point de
vue des spécialistes des programmes de cours a ici toute son impor-
tance. L’instrument d’évaluation doit, en outre, ne mesurer que ce
qu’il est appelé à mesurer. Par exemple, une épreuve de mathéma-
tiques ou de sciences doit évaluer les savoirs et savoir-faire des élèves
dans ces domaines, et non leur compétence en langue. La fiabilité des
procédures d’évaluation concerne généralement la façon dont les dif-
férents items d’une épreuve couvrent l’ensemble du construct visé et,
dans le cas des questions ouvertes, le degré d’accord sur la notation
d’un ou plusieurs correcteurs.
   Responsabilité de la détermination de la manière d’évaluer la perfor-
mance : organisme d’exécution.
                   DÉCISIONS À PRENDRE DANS LES ÉVALUATIONS NATIONALES   | 49



À QUELLE FRÉQUENCE LES ÉVALUATIONS SONT-ELLES
EFFECTUÉES ?

la fréquence à laquelle une évaluation nationale est effectuée varie d’un
pays à l’autre, allant d’une fois par an à tous les dix ans. On pourrait être
tenté d’évaluer chaque année la performance dans les mêmes domaines
du programme et au sein d’une même population, mais cette fréquence
est non seulement inutile, mais aussi très coûteuse, lorsque le but est de
suivre les niveaux nationaux. Aux États-Unis, la lecture et les mathéma-
tiques sont évaluées tous les deux ans et d’autres domaines moins fré-
quemment. Le Programme international de recherche en lecture scolaire
(PIRLS) a laissé passer cinq ans entre la première et la deuxième admi-
nistration (2001-2006). Au Japon, la performance dans les domaines de
base du programme de cours a été évaluée tous les dix ans pour orienter
la révision des programmes et des manuels scolaires (Ishino, 1995).
    Lorsque l’objectif d’une évaluation est de rendre les enseignants,
les établissements et même les élèves redevables de l’apprentissage,
les tests peuvent être effectués chaque année. De plus, ce type d’éva-
luation étant axé tout autant sur la performance des individus que sur
celle du système, tous les élèves scolarisés (ou la plupart d’entre eux)
sont évalués. Ce système a été mis en œuvre au Chili et en Angleterre.
    Par contre, si le but est uniquement de fournir de l’information sur la
performance de l’ensemble du système, une évaluation basée sur un
échantillon d’élèves, effectuée tous les trois à cinq ans dans un domaine
déterminé du programme de cours semble convenir. Les systèmes
d’éducation n’évoluant pas rapidement, des évaluations plus fréquentes
ne seraient probablement pas en mesure d’enregistrer le changement.
Des évaluations trop fréquentes limiteraient plus que probablement
l’impact des résultats, tout en occasionnant des coûts superflus.
    Responsabilité de la détermination de la fréquence d’évaluation :
ministère de l’Éducation.



COMMENT EXPRIMER LA PERFORMANCE DES ÉLÈVES ?

Même si les décideurs préfèrent probablement des statistiques
résumées, le caractère de toute évidence multidimensionnel de la
50   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




performance suggère qu’un seul indice de performance, tel que le score
total au test, peut masquer des informations importantes. Une approche
alternative consiste à fournir une information différenciée, reflétant les
forces et les faiblesses d’un programme de cours national. Cette infor-
mation est encore plus utile si elle établit une distinction entre la
connaissance des faits élémentaires par les élèves et des compétences
et une compréhension plus approfondies ou d’un niveau plus élevé.
   Une série de procédures a été utilisée pour décrire la performance
des élèves aux évaluations nationales, ce qui reflète la richesse des
données que celles-ci peuvent fournir (voir volume 5 de cette série,
Communiquer et utiliser les résultats d’une évaluation nationale des
acquis scolaires). La sélection d’une ou plusieurs procédures doit être
guidée par les besoins d’information du ministère de l’Éducation et
des autres parties prenantes.


Information de niveau item

Cette information implique un peu plus que l’expression pure et
simple du pourcentage des élèves ayant correctement répondu aux
différents items. Une évaluation nationale peut révéler que la majo-
rité des élèves se sont montrés peu performants à un item de mathé-
matique requérant l’utilisation d’indices ou que pratiquement tous
les élèves ont réussi à associer des mots simples avec des images.
Au Ghana, par exemple, seul 1 % des élèves a répondu correctement
à une question sur la réfraction de la lumière, dans le cadre de l’en-
quête TIMSS (Ghana, ministère de l’Éducation, de la Jeunesse et des
Sports, 2004). Bien que trop détaillées pour l’élaboration des poli-
tiques nationales, des informations de ce type sont susceptibles d’inté-
resser le personnel responsable des programmes de cours, les
formateurs des enseignants et, éventuellement, les auteurs de manuels.


Performance dans les domaines du programme de cours

Les items peuvent être regroupés en unités ou domaines des pro-
grammes de cours, et les scores des tests peuvent être exprimés sous
la forme de performance dans chacun de ces domaines. Les items de
compréhension de l’écrit, par exemple, ont été classés suivant la
                                       DÉCISIONS À PRENDRE DANS LES ÉVALUATIONS NATIONALES   | 51



capacité à retrouver des informations dans un texte, à effectuer des
déductions à partir d’un texte, à interpréter et intégrer l’information,
et à analyser et évaluer l’information du texte (Eivers et coll., 2005).
La Figure 4.1 illustre comment le Lesotho a exprimé la performance
en mathématiques par domaine de contenu.


Niveaux de performance

La performance aux évaluations nationales et internationales corres-
pond à la proportion des élèves ayant atteint aux tests un niveau « élé-
mentaire », « compétent » ou « avancé » dans un domaine du programme
de cours. Le nombre de niveaux peut varier (voir A.2 dans l’annexe A
pour une description des six niveaux de compétence en lecture utili-
sés dans une évaluation nationale au Vietnam et voir C.1 dans l’an-
nexe C pour une description des huit niveaux de lecture et des huit
niveaux de compétence en mathématiques utilisés dans le SACMEQ).
La détermination des seuils entre les niveaux implique l’utilisation de
données statistiques et de critères subjectifs.

 FIGURE 4.1

 Pourcentage moyen de scores corrects pour la performance des élèves en
 mathématiques, par domaine de contenu, Lesotho

                              80

                              70
    facilité des élèves (%)




                              60

                              50

                              40

                              30

                              20

                              10

                               0
                                   nombres        mesures         formes       représentation
                                                                                des données
                                                    domaine de contenu

 Source : Lesotho, Conseil des examens du Lesotho et Centre national de développement des
programmes de cours, 2006.
52   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




TABLEAU 4.4
Pourcentage d’atteinte du niveau « adéquat » ou « avancé » par année d’études,
Connecticut, 2006
                 Mathématiques                            Lecture                    Écriture
              Niveau           Niveau            Niveau          Niveau        Niveau        Niveau
           « adéquat »       « avancé »       « adéquat »      « avancé »   « adéquat »    « avancé »
                ou               ou                ou              ou            ou            ou
            supérieur        supérieur         supérieur       supérieur     supérieur     supérieur
Classe         (%)               (%)              (%)              (%)          (%)            (%)
3               56                22                54              17          61              22
4               59                22                58              16          63              22
Source : ministère de l’Éducation du Connecticut, 2006.




Niveau de maîtrise

Le niveau de maîtrise peut être basé sur un score global au test (par
exemple, une réponse correcte à un certain pourcentage d’items). Au
Sri Lanka, le niveau de maîtrise pour une évaluation nationale de la 4e
année était fixé à 80 %. Moins de 40 % des élèves l’ont atteint en
langue maternelle ou en mathématiques, et moins de 10 % en anglais
(Perera et coll., 2004). Le niveau de maîtrise peut également être
aligné sur un niveau de performance déterminé. Aux États-Unis, le
Connecticut utilise cinq niveaux de performance (« insuffisant »,
« élémentaire », « compétent », « adéquat » et « avancé »). Le niveau
« adéquat » est considéré comme un niveau d’attente difficile, mais
raisonnable et est accepté comme niveau de maîtrise. Le tableau 4.4
montre que plus de la moitié des élèves de 3e et 4e années ont atteint
le niveau « adéquat » ou « de maîtrise » dans les trois domaines du
programme de cours.
   Responsabilité de la détermination de la manière d’exprimer la perfor-
mance des élèves : organisme d’exécution avec la contribution du CDN



QUELS SONT LES TYPES D’ANALYSES EFFECTUÉS ?

Certaines analyses sont dictées par les questions de politiques qui
ont initialement motivé l’évaluation. La plupart des évaluations
                  DÉCISIONS À PRENDRE DANS LES ÉVALUATIONS NATIONALES   | 53



nationales fournissent des données sur la performance par sexe,
région, zone urbaine ou rurale, appartenance à un groupe ethnique ou
linguistique, et type d’établissement fréquenté (public ou privé).
Certaines évaluations fournissent également des données sur la qua-
lité des installations scolaires (par exemple, au Kenya). Les analyses
utilisant ces variables sont relativement simples et intuitives pour
les décideurs et les responsables des politiques. Elles ne reflètent tou-
tefois pas de manière adéquate la complexité des données. Des formes
d’analyse plus complexes sont nécessaires si l’on souhaite, par
exemple, de l’information sur les facteurs scolaires et contextuels qui
contribuent à la performance. La description de l’évaluation nationale
vietnamienne (voir A.2 dans l’annexe A) comprend des exemples de
l’utilisation de procédures statistiques complexes.
   Les limites des analyses et les problèmes liés à la recherche des
causes doivent être reconnus lorsque les études recueillent en même
temps des données sur la performance et d’autres variables. Même s’il
est difficile, voire impossible, de démêler les effets sur l’apprentissage
des élèves de facteurs liés à la communauté, la famille et l’établisse-
ment, cette complexité n’a pas empêché certaines recherches d’inter-
préter de manière causale les données recueillies dans les évaluations
nationales et internationales.
   Responsabilité de la sélection des méthodes d’analyse statistique :
organisme d’exécution.



COMMENT LES RÉSULTATS D’UNE ÉVALUATION NATIONALE
SONT-ILS COMMUNIQUÉS ET UTILISÉS ?

Lorsque les résultats d’une évaluation nationale sont appelés à
influencer la politique nationale d’éducation, ils doivent être commu-
niqués aussi tôt que possible après la fin de l’analyse des données.
Dans le passé, les rapports techniques présentant un volume considé-
rable de données étaient généralement l’unique type de rapports dis-
ponible. Certains groupes d’utilisateurs (par exemple, les enseignants
au Chili ; voir A.7 dans l’annexe A) les trouvaient toutefois exagéré-
ment techniques. Aujourd’hui, la nécessité de fournir d’autres formes
de rapports est, par conséquent, de plus en plus reconnue. Il s’agit
54   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




notamment de brefs rapports de synthèse centrés sur les principales
constatations, destinés aux décideurs politiques la plupart du temps
très occupés ; de communiqués de presse ; de rapports spéciaux pour
la radio et la télévision ; et de rapports séparés pour les établisse-
ments, les enseignants, les concepteurs des programmes de cours et les
formateurs des enseignants. Dans certains pays (par exemple, le Sri
Lanka), des rapports distincts sont préparés pour chaque province. En
Éthiopie, un rapport a été traduit dans quatre grandes langues. Les
besoins d’information des parties prenantes doivent déterminer le
contenu des rapports supplémentaires.
   Pendant l’étape de planification, le ministère de l’Éducation doit
prévoir des provisions budgétaires appropriées pour la préparation et
la diffusion des rapports. En collaboration avec le comité directeur
national, il doit également élaborer des procédures pour la communi-
cation des constatations des évaluations nationales aux parties
prenantes. Les bonnes stratégies de communication des résultats
doivent tenir compte du fait que l’aptitude à comprendre et à appli-
quer l’information statistique dans leur prise de décision varie consi-
dérablement selon les utilisateurs (qu’il s’agisse d’administratifs ou
d’enseignants). La production de rapports est de toute évidence sans
intérêt si l’information qu’ils contiennent n’est pas diffusée de façon
adéquate. Une stratégie de diffusion est donc également indispensable
pour qu’une information pertinente parvienne à toutes les parties
prenantes. Elle doit identifier les utilisateurs potentiels (institutions et
individus clés) et leurs niveaux d’expertise technique.
   Les résultats des évaluations nationales ont été utilisés pour consti-
tuer des références pour le suivi des acquis scolaires (par exemple, au
Lesotho), la réforme des programmes de cours, l’obtention de don-
nées de base sur la quantité et la qualité du matériel pédagogique
dans les établissements (par exemple, au Vietnam), la détermination
des corrélats de la performance, et l’identification des aspects du
programme de cours non maîtrisés par les élèves. L’Uruguay, par
exemple, a utilisé les résultats de son évaluation nationale pour aider
à préparer des guides destinés aux enseignants et pour identifier le
contenu et les domaines comportementaux des programmes, qui ont
ensuite contribué à la définition d’un vaste programme de formation
continue des enseignants (voir A.3 dans l’annexe A).
                  DÉCISIONS À PRENDRE DANS LES ÉVALUATIONS NATIONALES   | 55



   Le volume 5 de cette série, Communiquer et utiliser les résultats
d’une évaluation nationale des acquis scolaires, comprend toute une
section sur la rédaction des rapports et l’utilisation des résultats des
évaluations nationales.
   Responsabilité de la communication et de l’utilisation des résultats
des évaluations nationales : organisme d’exécution, ministère de l’Édu-
cation, CDN, prestataires de la formation des enseignants, autorité
responsable des programmes de cours, enseignants.



QUELS SONT LES ÉLÉMENTS DE COÛT D’UNE ÉVALUATION
NATIONALE ?

Le coût d’une évaluation nationale varie largement d’un pays à l’autre,
en fonction des salaires du personnel et du coût des services. Au sein
d’un même pays, le coût peut également varier, en fonction d’une
partie ou de la totalité des facteurs suivants (Ilon, 1996).

• Organisme d’exécution. Les coûts varient selon que l’organisme
  d’exécution dispose des installations et de l’expertise requises,
  doit les renforcer ou faire appel à des consultants à temps plein ou
  partiel. Le coût des installations et de l’équipement à fournir, y
  compris des ordinateurs et des logiciels, doit également être pris en
  compte.
• Contenu et mise au point de l’instrument. Le coût ainsi que d’autres
  facteurs, tels que la validité et la facilité d’administration, doivent
  être considérés pour chacune des options de contenu et de forme
  de l’évaluation. La rédaction des questions à choix multiple est
  plus onéreuse que celle des questions ouvertes, mais leur correc-
  tion est généralement moins coûteuse. Le coût de traduction des
  tests, questionnaires et manuels ainsi que de la formation des
  rédacteurs des items doit également être pris en compte.
• Nombre d’établissements et d’élèves participants. Une évaluation
  basée sur un recensement est évidemment plus coûteuse qu’une
  évaluation basée sur un échantillon. Les coûts augmentent si des
  données fiables sont requises pour certains secteurs du système
  (par exemple, les États ou les provinces). Le ciblage d’un niveau
56    |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




     d’âge est généralement plus coûteux que celui d’une année
     d’études, parce que les élèves d’un âge donné peuvent être répartis
     sur différentes années, ce qui exige un matériel d’évaluation et des
     séances de test supplémentaires.
•    Administration. La collecte des données est habituellement la com-
     posante la plus coûteuse d’une évaluation nationale. Elle requiert le
     recueil d’informations auprès des écoles avant l’évaluation ; la
     conception, l’impression, l’emballage et l’expédition du matériel de
     test et des questionnaires ; et la mise en place d’un système pour
     l’administration des instruments. Les facteurs qui contribuent au
     coût global comprennent a) le nombre des établissements et des
     élèves participants ; b) les déplacements ; c) la difficulté d’accès aux
     établissements ; d) l’hébergement des enquêteurs (si nécessaire) ; et
     e) la collecte et le renvoi des tests et questionnaires remplis.
•    Correction, gestion et saisie des données. Les coûts varient en fonc-
     tion du nombre des établissements, élèves, enseignants et parents
     participant à l’évaluation ; du nombre de questions ouvertes ; de la
     correction manuelle ou automatique ; du nombre d’études de lafia-
     bilité en fonction des correcteurs ; et de la qualité de l’administra-
     tion et de la correction des épreuves.
•    Analyse. Le coût des analyses dépend du type des procédures d’éva-
     luation utilisées et de la technologie disponible pour la correction et
     l’analyse. Bien que la correction automatique soit généralement
     considérée comme moins coûteuse que la correction manuelle, tel
     n’est pas nécessairement le cas dans les pays où le coût de la techno-
     logie est élevé tandis que celui de la main-d’œuvre est faible.
•    Rapports. La détermination des coûts doit tenir compte du fait que
     différentes versions d’un rapport seront nécessaires pour les déci-
     deurs politiques, les enseignants et le grand public, et doit égale-
     ment considérer la nature et l’étendue de la stratégie de diffusion
     des rapports.
•    Activités de suivi. Des provisions budgétaires doivent éventuelle-
     ment être constituées pour des activités telles que la formation
     continue des enseignants basée sur les constatations de l’évaluation
     nationale, des séances d’information des entités responsables
     des programmes de cours, et des analyses secondaires des données.
     Des provisions peuvent également être constituées pour combler
                  DÉCISIONS À PRENDRE DANS LES ÉVALUATIONS NATIONALES   | 57



  le manque de compétences dans des domaines d’expertise clés
  (par exemple, l’analyse statistique). Les probables augmentations
  salariales pendant la durée de l’évaluation (normalement, deux à
  trois ans), l’inflation et les événements inattendus (imprévus)
  doivent également être couverts par des provisions budgétaires.

    Certaines évaluations nationales n’ont pas atteint leurs objectifs de
base en raison d’un budget insuffisant. Bien que le budget global
relève de la responsabilité du ministère de l’Éducation, des spécia-
listes de la budgétisation et des projets traitant des données à grande
échelle doivent participer aux discussions budgétaires. Les fonction-
naires du ministère qui ne sont pas familiers des projets traitant des
données à grande échelle sont peu susceptibles d’identifier la néces-
sité de prévoir un budget pour des activités telles que les tests pilotes
et le nettoyage des données.
    Les chiffres de l’évaluation NAEP des États-Unis fournissent une
indication approximative des coûts : collecte des données (30 %),
mise au point de l’instrument (15 %), analyse des données (15 %),
rapports et diffusion (15 %), échantillonnage (10 %), traitement
des données (10 %) et gouvernance (5 %) (Ilon, 1996). Dans cer-
tains pays, où, par exemple, les employés du ministère ou du conseil
des examens se chargent de l’administration des épreuves dans le
cadre de leurs fonctions habituelles, des provisions budgétaires spé-
cifiques peuvent ne pas être prévues pour certaines activités. Les
coûts et les salaires varient en fonction des conditions économiques
nationales. Au Cambodge (qui ne fait pas partie des 100 premiers
pays du classement mondial basé sur le revenu national brut), les
rédacteurs des items percevaient l’équivalent de 5 dollars EU par
jour en 2006.
    Les pays disposant de ressources très limitées peuvent considérer
comme déraisonnable d’en allouer à une évaluation nationale, en par-
ticulier lorsque leur système d’éducation comporte vraisemblable-
ment de nombreux besoins non satisfaits. S’ils souhaitent malgré tout
s’engager dans une activité d’évaluation nationale, ils seraient avisés
de limiter le nombre des domaines évalués (éventuellement à un seul
et dans une unique année d’études) et de solliciter l’assistance tech-
nique et l’appui de bailleurs de fonds.
58   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




   En ce qui concerne les coûts, il est bon de garder à l’esprit que celui
des programmes de responsabilisation en général, et des évaluations
nationales en particulier, est très faible comparé à celui d’autres
programmes d’éducation (voir Hoxby, 2002). Le coût de la non-
réalisation d’une évaluation, et donc de la non-identification de ce
qui fonctionne et ne fonctionne pas dans le système éducatif, est vrai-
semblablement beaucoup plus élevé que celui d’une évaluation. Le
volume 3 de cette série, Mettre en œuvre une évaluation nationale des
acquis scolaires, examine les questions liées à la détermination des
coûts d’une évaluation nationale.
   Responsabilité de l’estimation des coûts des composantes d’une éva-
luation nationale :
   ministère de l’Éducation avec la contribution de consultants.




TABLEAU 4.5
Organismes ayant la responsabilité principale des décisions dans une évaluation
nationale
                                                          Responsabilité principale
                                                   Ministère    Comité
                                                      de       directeur Organisme
 Décision                                        l’Éducation   national d’exécution Autre
 Orientation des politiques                          •
 Exécution de l’évaluation nationale                                          •
 Administration des épreuves et questionnaires                                •
 Sélection de la population à évaluer                •            •
 Choix entre un échantillon et la population
 complète                                            •
 Détermination de l’objet de l’évaluation            •            •           •
 Choix de la manière d’évaluer la performance                                 •
 Détermination de la fréquence d’évaluation          •
 Sélection des méthodes de production des
 rapports                                                         •           •
 Détermination des procédures statistiques                                    •
 Identification des méthodes de
 communication et d’utilisation des résultats        •            •           •       •
 Estimation des composantes de coût                  •                                •
                 DÉCISIONS À PRENDRE DANS LES ÉVALUATIONS NATIONALES   | 59



RÉSUMÉ DES DÉCISIONS

Le tableau 4.5 identifie les organismes ayant la responsabilité princi-
pale des décisions liées aux 12 composantes d’une évaluation nationale
qui ont été abordées dans ce chapitre.
CHAPITRE

         5               ÉLÉMENTS À
                         PRENDRE EN COMPTE
                         DANS LA
                         CONCEPTION, LA
                         MISE EN ŒUVRE,
                         L’ANALYSE, LA
                         PRODUCTION DES
                         RAPPORTS ET
                         L’UTILISATION D’UNE
                         ÉVALUATION
                         NATIONALE


                           Dans ce chapitre, nous identifions un certain
      nombre de points importants pour la confiance que les parties pre-
      nantes peuvent avoir dans les résultats d’une évaluation nationale. Pour
      cinq composantes de l’évaluation nationale (conception, mise en œuvre,
      analyse des données, production des rapports, et diffusion et utilisation
      des résultats), nous suggérons un certain nombre d’activités qui amélio-
      reront la confiance, qui, à son tour, devrait contribuer à une utilisation
      optimale des résultats. Pour chaque composante, nous identifions égale-
      ment les erreurs les plus communément commises dans les évaluations
      nationales et que les correcteurs doivent connaître et éviter.



                                                                            61
62   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




CONCEPTION

La conception de l’évaluation définit les paramètres généraux de
l’exercice : les performances à évaluer, l’année scolaire ou l’âge auquel
les élèves seront évalués, les questions de politique à traiter et si l’éva-
luation portera sur l’effectif total ou un échantillon des élèves.


Activités recommandées

• Impliquer dès le départ les décideurs de haut niveau pour obtenir
  un soutien politique et aider à cadrer la conception de l’évaluation.
• Déterminer et traiter les besoins d’information des responsables
  des politiques lors de la sélection des aspects du programme de
  cours, des années d’études et des sous-groupes de la population
  (par exemple, région ou genre) à évaluer.
• Obtenir le soutien des enseignants en impliquant leurs représen-
  tants dans les décisions stratégiques liées à l’évaluation.
• Être conscient qu’associer des enjeux élevés à la performance des
  élèves peut entraîner une opposition des enseignants et un rétrécis-
  sement du programme de cours effectivement délivré en raison
  d’une concentration des enseignants sur les aspects qui seront
  évalués.


Erreurs communes

• Ne pas réserver une enveloppe financière suffisante pour les aspects
  essentiels d’une évaluation nationale, notamment la production
  des rapports et leur diffusion.
• Ne pas mettre en place un comité directeur national et ne pas l’uti-
  liser comme une source d’information et d’orientation pendant
  l’évaluation nationale.
• Ne pas obtenir l’engagement des pouvoirs publics envers le proces-
  sus d’évaluation nationale, avec pour conséquence a) une incapa-
  cité à identifier les questions de politique clés à prendre en compte
  lors de la conception de l’évaluation, b) l’absence d’un comité
  directeur national, ou c) des évaluations nationales séparées menées
  en parallèle (souvent soutenues par des donateurs extérieurs).
                   ÉLÉMENTS À PRENDRE EN COMPTE DANS LA CONCEPTION   | 63



• Ne pas impliquer les principales parties prenantes (par exemple,
  les représentants des enseignants ou les formateurs des enseignants)
  dans la planification de l’évaluation nationale.
• Exclure de la population évaluée un sous-groupe susceptible de
  biaiser les résultats de l’évaluation (par exemple, les élèves des
  écoles privées ou des petites écoles).
• Fixer des objectifs irréalistes pour les scores aux épreuves (par
  exemple, une augmentation de 25 % dans les scores sur une période
  de quatre ans).
• Accorder trop peu de temps à la mise au point des tests.



MISE EN ŒUVRE

La mise en œuvre comprend un large éventail d’activités, allant de la
mise au point d’instruments d’évaluation appropriés jusqu’à leur
administration dans les établissements d’enseignement, en passant
par la sélection des élèves appelés à participer.


Activités recommandées

• Décrire en détail le contenu et les acquis cognitifs ainsi que les
  variables contextuelles à évaluer.
• Confier l’élaboration des épreuves à des personnes connaissant à la
  fois les normes du programme de cours et les niveaux d’apprentis-
  sage des élèves (en particulier des enseignants en exercice).
• Utiliser des instruments d’évaluation estimant de façon adéquate
  les savoirs et savoir-faire au sujet desquels une information est
  requise, et capables de la détailler au niveau de sous-domaines (par
  exemple, la résolution de problèmes) plutôt que de fournir un
  score global.
• Concevoir des tests et questionnaires clairs et sans ambiguïté, et les
  présenter d’une manière limpide et attrayante.
• Veiller à ce que des procédures adéquates soient mises en place
  pour évaluer l’équivalence des versions en différentes langues, si les
  instruments doivent être traduits.
• Effectuer des essais pilotes des items, questionnaires et manuels.
64   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




• Examiner les items pour identifier les ambiguïtés et d’éventuels
  biais liés aux caractéristiques des élèves (par exemple, le genre, le
  lieu ou l’appartenance à un groupe ethnique), et procéder aux
  modifications ou suppressions nécessaires.
• Relire soigneusement les épreuves de l’ensemble du matériel.
• Établir des procédures pour assurer la sécurité de l’ensemble du
  matériel d’évaluation nationale (par exemple, les tests et les ques-
  tionnaires) tout au long du processus d’évaluation, de manière à
  éviter qu’il ne tombe entre les mains de personnes non autorisées.
• S’assurer les services d’une personne ou d’une unité dotée d’une
  expertise en matière d’échantillonnage.
• Spécifier la population cible définie (la population qui servira
  effectivement de base à la constitution de l’échantillon, c’est-à-dire
  le cadre d’échantillonnage) et la population exclue (par exemple,
  des membres de la population trop difficiles à atteindre ou qui ne
  seraient pas en mesure de répondre à l’instrument). Des données
  précises sur les populations exclues doivent être fournies.
• S’assurer que l’échantillon proposé est représentatif et d’une taille
  suffisante pour fournir des informations sur les populations d’inté-
  rêt avec un niveau d’erreur acceptable.
• Sélectionner les membres de l’échantillon à partir du cadre
  d’échantillonnage en fonction des probabilités de sélection
  connues.
• Appliquer une procédure standard lors de l’administration des
  tests et questionnaires. Préparer un manuel d’administration.
• Veiller à ce que les administrateurs de test aient une solide connais-
  sance du contenu des épreuves, des questionnaires et des manuels
  ainsi que des procédures administratives.
• Préparer et mettre en place un mécanisme d’assurance qualité pour,
  entre autres, la validation des tests, l’échantillonnage, l’impression,
  l’administration des épreuves, et la préparation des données.


Erreurs communes

• Assigner des tâches d’élaboration des épreuves à des personnes qui
  ne connaissent pas les niveaux probables de performance des élèves
  (par exemple, des universitaires), et obtenir ainsi des épreuves trop
  difficiles.
                   ÉLÉMENTS À PRENDRE EN COMPTE DANS LA CONCEPTION   | 65



• Ne pas refléter correctement le programme de cours dans les
  épreuves, par exemple, en n’intégrant pas certains de ses aspects
  importants.
• Ne pas mener des tests pilotes des items ou les effectuer sur un
  échantillon non représentatif de la population.
• Utiliser un nombre insuffisant d’items dans la version définitive de
  l’épreuve.
• Ne pas fournir une définition claire du construct évalué (par
  exemple, la compréhension de l’écrit).
• Inclure un nombre insuffisant d’items exemplatifs pour les élèves
  qui ne sont pas familiers avec le format des épreuves.
• Ne pas encourager les élèves à demander des éclaircissements au
  superviseur de l’épreuve avant de la passer.
• Ne pas avertir à temps les imprimeurs des épreuves, questionnaires
  et manuels.
• Accorder une attention insuffisante à la relecture des épreuves,
  questionnaires et manuels d’administration avant l’impression finale.
• Utiliser des données nationales sur les élèves inadéquates ou obso-
  lètes ou un nombre inapproprié d’établissements pour
  l’échantillonnage.
• Ne pas appliquer des procédures d’échantillonnage appropriées,
  notamment la sélection d’un pourcentage prédéterminé d’établis-
  sements (par exemple, 5 %).
• Ne pas former correctement les administrateurs de test aux
  épreuves et questionnaires.
• Autoriser une intervention extérieure (par exemple, le principal
  assis dans la salle de classe) pendant l’administration du test.
• Permettre aux étudiants de s’asseoir les uns près des autres pen-
  dant l’évaluation (encourage la tricherie).
• Ne pas parvenir à créer une culture de travail en dehors des heures
  normales lorsque cela s’avère nécessaire pour achever des tâches
  clés dans les temps.



ANALYSE

Les analyses statistiques organisent, résument et interprètent les
données recueillies dans les établissements. Elles doivent aborder les
66   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




questions de politique identifiées lors de la conception de l’évalua-
tion nationale.


Activités recommandées

• S’assurer des services statistiques compétents.
• Élaborer un manuel de codage avec des instructions spécifiques
  pour la préparation des données à analyser.
• Vérifier et nettoyer les données pour éliminer les erreurs (par
  exemple, liées aux chiffres, les scores hors limite, et les incohé-
  rences entre les données recueillies à différents niveaux).
• Calculer les erreurs d’échantillonnage, en tenant compte des com-
  plexités de l’échantillon, telles que la stratification et le
  regroupement.
• Pondérer les données pour que la contribution des différents sec-
  teurs de l’échantillon aux scores de performance agrégés reflète
  leur part dans la population cible.
• Identifier le pourcentage des élèves ayant atteint les niveaux ou
  normes acceptables définis.
• Analyser les données d’évaluation pour identifier les facteurs sus-
  ceptibles d’expliquer les variations dans les niveaux de perfor-
  mance des élèves afin d’éclairer l’élaboration des politiques.
• Analyser les résultats par domaine du programme de cours. Fournir
  de l’information sur les sous-domaines (par exemple, les aspects de
  la compréhension de l’écrit, des mathématiques).
• Reconnaître qu’une variété de mesures, de programmes de cours,
  et de facteurs sociaux peut expliquer la performance des élèves.


Erreurs communes

• Utiliser des analyses statistiques inappropriées, notamment ne pas
  pondérer les données de l’échantillon dans l’analyse.
• Baser les résultats sur un petit nombre (par exemple, une minorité
  des enseignants échantillonnés qui aurait répondu à une question
  particulière).
• Opposer les performances des élèves dans différents domaines du
  programme de cours, et prétendre que les élèves réussissent
                     ÉLÉMENTS À PRENDRE EN COMPTE DANS LA CONCEPTION   | 67



    mieux dans un domaine en se basant sur les différences moyennes
    de scores.
•   Ne pas mettre l’accent sur le caractère arbitraire des seuils choisis
    pour délimiter les niveaux de performance (par exemple, la maî-
    trise par rapport à la non-maîtrise, la réussite par rapport à l’échec),
    dichotomiser les résultats, et ne pas reconnaître la diversité des
    scores au sein d’un groupe.
•   Ne pas signaler les écarts types associés aux statistiques
    individuelles.
•   Déterminer et publier les classements des établissements sur la
    base des résultats aux tests de performance sans tenir compte des
    facteurs contextuels clés qui contribuent au classement. Des clas-
    sements différents apparaissent lorsque les performances des éta-
    blissements sont comparées à l’aide de scores non ajustés, de scores
    ajustés aux facteurs contextuels (par exemple, le pourcentage des
    élèves issus de milieux socioéconomiques pauvres), et de scores
    ajustés aux performances antérieures.
•   Trouver une relation de cause à effet là où elle ne se justifie pas
    forcément (par exemple, en attribuant les différences dans les
    acquis à une unique variable, comme l’administration privée des
    établissements ou la taille des classes).
•   Comparer les résultats des épreuves de deux périodes données
    bien que des items non équivalents aient été utilisés.
•   Comparer les résultats des épreuves de deux périodes données
    sans signaler dans quelle mesure d’importantes conditions
    contextuelles (par exemple, le programme de cours, les inscrip-
    tions, les revenus du ménage, ou des troubles civils) peuvent
    avoir changé dans l’intervalle. Bien que la plupart des variables
    liées à l’éducation n’aient pas tendance à changer rapidement
    sur une courte période (par exemple, de trois à quatre ans),
    certains pays ont adopté des politiques qui ont abouti à des
    changements majeurs dans les inscriptions. À la suite de la sup-
    pression des frais de scolarité, par exemple, le nombre des élèves
    inscrits à l’école a considérablement augmenté au Malawi et en
    Ouganda.
•   Limiter l’analyse à une liste de scores moyens des régions géogra-
    phiques ou administratives.
68   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




PRODUCTION DES RAPPORTS

La réalisation d’une évaluation nationale a peu d’intérêt si les résul-
tats ne sont pas clairement rapportés en gardant à l’esprit les besoins
des différentes parties prenantes.



Activités recommandées

• Produire les rapports en temps opportun en gardant à l’esprit les
  besoins des clients et en les présentant dans un format facile à com-
  prendre par les parties intéressées, en particulier celles en mesure
  de prendre des décisions.
• Établir les rapports sur les résultats par genre et par région, si la
  conception de l’échantillonnage le permet.
• Fournir une information adéquate dans le rapport ou dans un manuel
  technique afin de permettre la reproduction de l’évaluation.



Erreurs communes

• Rédiger des rapports trop techniques.
• Ne pas mettre en évidence un certain nombre de conclusions
  majeures.
• Faire des recommandations concernant une variable spécifique,
  même si l’analyse remet en question la validité des données liées à
  cette variable.
• Ne pas relier les résultats de l’évaluation aux questions relatives au
  programme de cours, aux manuels et à la formation des
  enseignants.
• Ne pas reconnaître que des facteurs sur lesquels les enseignants et
  les établissements n’ont aucun contrôle contribuent à la perfor-
  mance des élèves.
• Ne pas reconnaître que certaines différences entre les scores
  moyens ne sont pas statistiquement significatives.
• Produire le rapport trop tard pour influencer les décisions
  politiques.
                    ÉLÉMENTS À PRENDRE EN COMPTE DANS LA CONCEPTION   | 69



• Faire un examen trop approfondi de la documentation dans le
  rapport d’évaluation.
• Ne pas communiquer aux différentes parties prenantes les mes-
  sages clés du rapport qui les intéressent.



DIFFUSION ET UTILISATION DES RÉSULTATS

Il est important que les résultats des évaluations nationales ne restent
pas sur les étagères des décideurs politiques, mais soient communi-
qués dans un langage approprié à tous ceux qui peuvent avoir un
impact sur la qualité de l’apprentissage des élèves.


Activités recommandées

• Fournir les résultats aux parties prenantes, en particulier les déci-
  deurs politiques et les gestionnaires clés.
• Utiliser les résultats pour l’élaboration des politiques et l’améliora-
  tion de l’enseignement et des programmes de cours.


Erreurs communes

• Ignorer les résultats lors de l’élaboration des politiques.
• Pour les parties prenantes clés (par exemple, les formateurs des
  enseignants ou le personnel chargé des programmes de cours), ne
  pas prendre en compte les implications des conclusions de l’éva-
  luation nationale.
• Pour l’équipe d’évaluation nationale, ne pas réfléchir aux enseigne-
  ments tirés de l’expérience et ne pas en tenir compte dans les
  évaluations de suivi.
CHAPITRE

         6               ÉVALUATIONS
                         INTERNATIONALES
                         DE LA PERFORMANCE
                         DES ÉLÈVES




                           Ce chapitre décrit les évaluations internationales
      de la performance des élèves utilisées par de nombreux pays pour
      obtenir des données pour une évaluation nationale. Nous commen-
      çons par leurs principales caractéristiques en évoquant leurs
      similitudes et différences avec les évaluations nationales. Nous parlons
      ensuite de l’accroissement de l’activité d’évaluation internationale.
      Puis le chapitre identifie les avantages des évaluations internationales
      ainsi que les problèmes qui y sont associés.
          Une évaluation internationale de la performance des élèves
      ressemble à bien des égards à une évaluation nationale. Les deux
      exercices appliquent des procédures similaires (pour l’élaboration de
      l’instrument, l’échantillonnage, la correction et l’analyse). Leurs
      objectifs peuvent également être similaires : a) déterminer la qualité
      de l’apprentissage au sein du système éducatif ; b) identifier les forces
      et les faiblesses des savoirs et savoir-faire acquis par les élèves ;
      c) comparer les performances de sous-groupes de la population
      (définis, par exemple, par le genre ou le lieu) ; ou d) déterminer
      la relation entre la performance des élèves et une série de caracté-
      ristiques de l’environnement scolaire, familial et communautaire.
      En outre, les deux exercices peuvent tenter d’établir si la performance



                                                                           71
72   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




des élèves évolue dans le temps (Kellaghan et Greaney, 2004).
En pratique, les raisons motivant la participation d’un pays à une éva-
luation internationale ne sont toutefois pas toujours claires
(Ferrer, 2006).
   Le principal avantage d’une évaluation internationale par rapport à
une évaluation nationale est que la première a pour objectif de four-
nir aux décideurs politiques, aux éducateurs et au public de l’infor-
mation sur leur système éducatif par rapport à un ou plusieurs autres
systèmes (Beaton et coll., 1999 ; Husén, 1973 ; Postlethwaite, 2004).
Cette information est supposée exercer une pression sur les décideurs
et les responsables des politiques en faveur d’une amélioration des
services. En principe, elle doit également contribuer à une meilleure
compréhension des facteurs (variables d’un pays à l’autre) qui
influencent les différences dans la performance des élèves.
   La compréhension de l’écrit, les mathématiques et les sciences sont
les domaines d’études qui ont attiré les plus hauts taux de participa-
tion aux études internationales au fil des ans. Des études ont été
menées dans les cycles primaire et secondaire. Habituellement,
le choix des participants est déterminé par une combinaison de classe
et d’âge (par exemple, les élèves de deux années adjacentes comptant
les plus fortes proportions d’élèves de 9 et 13 ans ; les élèves des
années rassemblant la plupart des enfants de 9 ans et la plupart de
ceux de 14 ans ; la plus élevée des deux années adjacentes comptant
le plus d’élèves de 9 ans). Dans une autre étude internationale, les
élèves d’un âge donné ont été sélectionnés (15 ans).
   Les résultats des évaluations internationales, telles que les Tendances
de l’enquête internationale sur les mathématiques et les sciences
(TIMSS – Trends in International Mathematics and Science Study) et le
Programme international pour le suivi des acquis des élèves (PISA),
et des évaluations régionales peuvent et ont été utilisés pour préparer
des rapports nationaux séparés sur la performance au niveau des pays.
Des bases de données internationales sont accessibles pour mener à
bien ce type d’analyses.
   L’utilisation des résultats des évaluations internationales et natio-
nale dans l’élaboration des politiques varie considérablement d’un
pays à l’autre. De nombreux pays industrialisés mènent leurs propres
évaluations nationales tout en participant à des évaluations
             ÉVALUATIONS INTERNATIONALES DE LA PERFORMANCE DES ÉLÈVES   | 73



internationales. Les États-Unis ont leur propre National Assessment of
Educational Progress pour les 4e, 8e et 12e années, et participe égale-
ment à des évaluations internationales de la performance. Certains
pays industrialisés participent à des évaluations internationales sans
toutefois réaliser des évaluations nationales (la Fédération de Russie
et l’Allemagne, par exemple). De même, certains pays en développe-
ment utilisent des évaluations internationales pour réaliser leur
unique forme d’évaluation nationale (Braun et Kanjee, 2007). Bon
nombre des pays les plus pauvres du monde ne font ni l’un ni l’autre,
même si la situation a évolué au cours des dernières années.



ACCROISSEMENT DE L’ACTIVITÉ D’ÉVALUATION
INTERNATIONALE

L’activité d’évaluation internationale a commencé lorsqu’un groupe
de chercheurs s’est réuni en 1958 pour envisager la possibilité d’en-
treprendre l’étude de résultats mesurés et de leurs déterminants dans
et entre les systèmes éducatifs (Husén et Postlethwaite, 1996). Depuis
lors, plus de 60 pays ont participé à des études internationales de la
performance dans un ou plusieurs domaines d’études : la compréhen-
sion de l’écrit, les mathématiques, les sciences, l’écriture, la littérature,
les langues étrangères, l’éducation civique et l’informatique. Les éva-
luations internationales les plus connues sont l’enquête TIMSS (voir
B.1 dans l’annexe B) et le Programme international de recherche en
lecture scolaire (PIRLS) (voir B.2 dans l’annexe B) de l’Association
internationale pour l’évaluation du rendement scolaire (IEA –
International Association for the Evaluation of Educational Achievement),
ainsi que le Programme international pour le suivi des acquis des
élèves (PISA) (voir B.3 dans l’annexe B) de l’Organisation de coopé-
ration et de développement économiques (OCDE). Des évaluations
régionales de la performance en compréhension de l’écrit et en
mathématiques ont été réalisées en Afrique australe et orientale (voir
C.1 dans l’annexe C), en Afrique francophone (voir C.2 dans
l’annexe C), et en Amérique latine (voir C.3 dans l’annexe C).
Le tableau 6.1 (voir aussi B.1 et B.3 dans l’annexe B) reprend un cer-
tain nombre de différences entre les enquêtes TIMSS et PISA.
74   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




TABLEAU 6.1
Comparaison des enquêtes TIMSS et PISA
                            TIMSS 2003                               PISA 2003
Buts                Fournir des données             Fournir des données comparatives sur le
                    comparatives sur la façon       « rendement » du système scolaire dans les
                    dont les élèves maîtrisent le   principaux pays industrialisés et évaluer
                    contenu du programme de         dans quelle mesure les étudiants peuvent
                    cours officiel en                appliquer leurs savoirs et savoir-faire en
                    mathématiques et en             compréhension de l’écrit, mathématiques
                    sciences, commun à un           et sciences à des situations du monde réel.
                    certain nombre de pays.         Suivre l’évolution des niveaux de
                    Suivre l’évolution des          performance et de l’équité dans les acquis
                    niveaux de performance au       au cours du temps.
                    cours du temps.                 Suivre les approches d’apprentissage et
                    Suivre l’attitude des élèves    l’attitude des élèves à l’égard des
                    envers les mathématiques        mathématiques, des sciences et de la
                    et les sciences.                compréhension de l’écrit.
                    Examiner la relation entre la   Fournir une base de données pour
                    performance et une série        l’élaboration des politiques.
                    de facteurs pédagogiques
                    et scolaires.
                    (La compréhension de
                    l’écrit est couverte par une
                    évaluation PIRLS séparée.)
Cadre               Déterminé par des               Déterminé par des spécialistes du contenu
                    spécialistes du contenu de      de certains pays participants.
                    certains pays participants.
Population cible    4e et 8e années                 Élèves de 15 ans.
Adéquation par      Conçu pour évaluer le           Conçu pour évaluer l’aptitude des élèves à
rapport au          programme de cours              exploiter les savoirs et savoir-faire acquis à
programme de        officiel organisé autour de      la fois à l’école et en dehors d’elle, dans
cours               domaines d’études               des situations personnelles, éducatives,
                    reconnus et communs aux         professionnelles, publiques et scientifiques.
                    pays participants.
Différences de      8e année, répartition des       Mathématiques,        Répartition des items :
contenu des         items :                         concepts majeurs :    • Nombres, 31,8 %
items               • Nombres, 30 %                 • Quantité            • Géométrie, 21,2 %
(mathématiques,     • Algèbre, 25 %                 • Espace et           • Statistiques, 21,2 %
8e année)           • Données, 15 %                   formes              • Fonctions, 10,6 %
                    • Géométrie, 15 %               • Variations et       • Mathématiques
                    • Mesure, 15 %                    relations             discrètes, 5,9 %
                                                    • Incertitude         • Probabilité, 5,9 %
                                                                          • Algèbre, 3,5 %
                                                                                             (suite)
                                  ÉVALUATIONS INTERNATIONALES DE LA PERFORMANCE DES ÉLÈVES                     | 75



TABLEAU 6.1 (suite)
                                  TIMSS 2003                                       PISA 2003
                          e
 Processus              8 année :                             Répartition des items :
 cognitifs              • Résolution de problèmes             • Connexion, 47 %
                          de routine, 40 %                    • Reproduction, 31 %
                        • Utilisation de concepts,            • Réflexion, 22 %
                          20 %
                        • Connaissance des faits et
                          des procédures, 15 %
                        • Raisonnement, 25 %
 Types d’items          Environ deux tiers d’items à          Environ un tiers d’items à choix multiple, le
 (mathématiques)        choix multiple, le reste              reste étant généralement des items à
                        étant des items à réponses            réponses construites fermées (une seule
                        construites ou ouvertes.              réponse correcte possible) ou ouvertes
                                                              (plus d’une réponse correcte possible).
 Fréquence              Tous les quatre ans : même            Tous les trois ans : couverture complète
                        accent sur les                        d’un domaine (matière) tous les neuf ans
                        mathématiques et les                  (compréhension de l’écrit en 2000,
                        sciences dans chaque cycle.           mathématiques en 2003 et sciences en
                                                              2006), plus une couverture moindre des
                                                              deux autres tous les trois ans.
 Couverture             48 pays : 20 pays à revenu            30 pays de l’OCDE ainsi que 11 autres
 géographique           élevé, 26 pays à revenu               pays.
                        intermédiaire et 2 pays à
                        faible revenu.
 Analyse                Quatre niveaux de                     Sept niveaux de compétence et un score
                        comparaison et un score               moyen en mathématiques, basés sur les
                        moyen, basés sur                      pays de l’OCDE.
                        l’ensemble des pays
                        participants.
 Source : Cadres TIMSS et PISA ; U.S. National Center for Education Statistics s.d. ; base de données des indicateurs
du développement dans le monde.



                  Le nombre des pays participant à des études internationales a
               augmenté au fil des ans. Alors que jusqu’aux années 1980, moins de
               20 pays y prenaient habituellement part, les études sur la lecture
               scolaire de l’IEA ont vu leur nombre de participants passer à 32 en
               1991. En 2003, l’enquête TIMSS a attiré 52 pays et celle du PISA 41
               (30 États membres de l’OCDE et 11 pays « partenaires »). Les études
               internationales réalisées au cours des dernières années ont en outre
               accordé une attention accrue au suivi de la performance au cours
               du temps. Les trois grandes évaluations internationales actuelles
76   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




(TIMSS, PIRLS et PISA) sont administrées de manière cyclique et
sont désormais décrites comme des études « de tendances ».
   La participation des pays non industrialisés aux évaluations inter-
nationales est généralement faible. Néanmoins, tout comme le nombre
des pays qui y participent, le nombre des pays non industrialisés aug-
mente avec les années. L’enquête TIMSS en a attiré le plus grand
nombre en 2003 (sept pays d’Afrique) et 2007 (six pays d’Afrique).
Comme c’est généralement le cas dans les études internationales, les
pays non industrialisés manifestent un plus grand intérêt pour une
participation aux enquêtes sur les mathématiques et la compréhen-
sion de l’écrit que pour celles portant sur d’autres domaines.
   Le récent accroissement de la participation aux études internatio-
nales peut être attribué à la mondialisation, à une tendance de la santé
et de l’éducation à comparer leurs services avec ceux d’autres pays et,
à un intérêt pour les mandats mondiaux. Certaines données issues de
la recherche soutiennent l’idée que la qualité de l’éducation
(en particulier ses aspects représentés par les performances en mathé-
matiques et en sciences) joue un rôle important dans la croissance
économique, même si le phénomène n’est pas absolument constant
dans tous les pays ou dans le temps (Coulombe, Tremblay et Marchand,
2004 ; Hanushek et Kimko, 2000 ; Hanushek et Wössmann, 2007 ;
Ramirez et coll., 2006). Quelle qu’en soit la raison, la politique de
l’éducation à travers le monde met de plus en plus l’accent sur la
nécessité de suivre la performance agrégée des élèves dans un contexte
international.



AVANTAGES DES ÉVALUATIONS INTERNATIONALES

Une série de raisons est avancée pour encourager les pays à participer
à une évaluation internationale de la performance des élèves. La plus
évidente est peut-être le fait que les études internationales fournissent
un cadre de comparaison au sein duquel la performance des élèves et
la délivrance des programmes de cours peuvent être évaluées dans un
pays et où des procédures pour corriger les défauts décelés peuvent
être conçues (Straus, 2005). La comparaison des résultats de diffé-
rents pays permet à chacun d’eux de se servir des constats de
             ÉVALUATIONS INTERNATIONALES DE LA PERFORMANCE DES ÉLÈVES   | 77



l’évaluation pour déterminer ce qui est réalisable, la manière dont la
performance est distribuée et les relations existant entre la perfor-
mance moyenne et sa distribution. Par exemple, une performance
moyenne élevée peut-elle cacher d’importantes disparités ? Les résul-
tats de l’enquête PISA suggèrent que la chose est possible.
    Les données sur la performance ne fournissent qu’une information
limitée. Un des avantages souvent avancés pour les évaluations inter-
nationales est qu’elles tirent parti de la diversité des systèmes éduca-
tifs, élargissant ainsi la gamme des conditions étudiées au-delà de
celles existant dans chaque pays (Husén, 1973). Sur cette base, l’ana-
lyse des données recueillies dans ces études examine systématique-
ment les associations entre la performance et un large éventail de
variables contextuelles. Celui-ci comprend le contenu du programme
de cours, le temps consacré au travail scolaire, la formation des ensei-
gnants, la taille des classes et l’organisation du système éducatif. La
valeur des études internationales est clairement renforcée dans la
mesure où celles-ci fournissent aux chercheurs et décideurs une
information permettant d’émettre des hypothèses pour expliquer les
différences de performance des élèves entre les pays. Les études
constituent également une base pour l’évaluation des politiques et
des pratiques.
    Les évaluations internationales ont la capacité de mettre en
lumière les concepts permettant de comprendre l’éducation qui ont
été négligés dans un pays (par exemple, dans la définition de la litté-
ratie ou dans la conceptualisation des programmes de cours, en ce qui
concerne l’intention, la mise en œuvre et la performance ; voir, par
exemple, Elley, 2005). Les évaluations peuvent également aider à
identifier et à remettre en question des hypothèses éventuellement
tenues pour acquises (par exemple, la valeur d’un enseignement
généraliste plutôt que sélectif, l’association entre des classes plus
petites et une performance plus élevée, ou l’avantage du redouble-
ment pour les élèves).
    Les études internationales sont susceptibles d’attirer l’attention
des médias et d’un large éventail de parties prenantes telles que les
décideurs, les responsables des politiques, les universitaires, les ensei-
gnants et le public. Les différences de niveaux de performance entre
les pays sont évidentes dans les statistiques descriptives publiées
78   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




dans les rapports des études. Elles sont, en effet, généralement mises
en évidence dans les « palmarès » des pays en fonction de leur niveau
moyen de performance. Les données comparatives fournies par ces
études ont un « effet-choc » plus prononcé que les résultats d’une
évaluation nationale. De mauvais résultats peuvent encourager le
débat, qui, à son tour, peut aider les responsables des politiques et
autres décideurs à justifier un appui budgétaire accru au secteur de
l’éducation, en particulier si de médiocres résultats sont associés à
un faible niveau des dépenses dans l’éducation.
   Une caractéristique importante de l’évaluation internationale est
qu’elle fournit des données que chaque pays peut utiliser pour
effectuer en interne des analyses pour ce qui peut, en fait, devenir
un rapport d’évaluation nationale. Cette pratique est adoptée par
les pays participant aux enquêtes PISA (voir B.3 dans l’annexe B)
et du Consortium de l’Afrique australe et orientale pour le pilotage
de la qualité de l’éducation (SAQMEQ – Southern and Eastern
Africa Consortium for Monitoring Educational Quality) (voir C.1
dans l’annexe C). Elle est améliorée lorsqu’en plus des données
recueillies pour l’étude internationale, des données liées à des ques-
tions d’intérêt ou préoccupations spécifiques au pays sont égale-
ment recueillies.
   La participation aux évaluations internationales présente un certain
nombre d’avantages pratiques, en particulier pour les pays dont les
universités n’ont pas la capacité de développer le type de compé-
tences nécessaires pour les évaluations nationales. Premièrement, un
organisme central peut effectuer au niveau national des analyses
utilisables dans les rapports de chaque pays. Deuxièmement, les
études peuvent contribuer à renforcer la capacité locale dans une
variété d’activités techniques telles que l’échantillonnage, la défini-
tion de la performance, la mise au point des épreuves, l’analyse statis-
tique et la rédaction de rapports. Troisièmement, les besoins en
personnel et les coûts (par exemple, pour la mise au point de l’instru-
ment, le nettoyage des données et l’analyse) peuvent être plus faibles
que dans les évaluations nationales parce qu’ils sont partagés avec
d’autres pays.
   Une étude de l’effet de l’enquête TIMSS sur l’enseignement et
l’apprentissage des mathématiques et des sciences dans les pays
             ÉVALUATIONS INTERNATIONALES DE LA PERFORMANCE DES ÉLÈVES   | 79



participants prouve la diversité des activités qu’une étude internatio-
nale peut engendrer (Robitaille, Beaton et Plomp, 2000) :

• Les résultats de l’enquête TIMSS ont été utilisés dans les débats
  parlementaires sur les changements prévus dans la politique de
  l’éducation (Japon).
• Le ministre de l’Éducation a mis en place un groupe de travail sur
  les mathématiques et les sciences (Nouvelle-Zélande).
• Le président a ordonné la mise en œuvre d’un « plan de sauvetage »
  pour améliorer les performances en sciences et en mathématiques
  (avec une attention particulière à la formation des enseignants)
  (Philippines).
• Des références nationales ont été constituées en littératie et numé-
  ratie (Australie).
• Les résultats ont contribué à la définition de nouvelles normes édu-
  catives en mathématiques et en sciences (Fédération de Russie).
• Les résultats ont aidé à faire évoluer la nature des débats publics
  sur l’éducation, qui de discussions fondées sur des opinions se sont
  transformés en discussions fondées sur des faits (Suisse).
• Les résultats ont inspiré l’élaboration d’un matériel didactique
  basé sur l’analyse des mauvaises compréhensions et erreurs des
  élèves apparaissant fréquemment dans leurs réponses à l’enquête
  TIMSS (Canada).
• Les résultats ont accéléré les changements dans la révision des pro-
  grammes de cours (République tchèque, Singapour).
• Les résultats de l’enquête TIMSS ont été identifiés comme l’un des
  facteurs influant sur les changements de politique dans l’enseigne-
  ment des mathématiques (Angleterre).
• Des comités ont été formés pour réviser les programmes de mathé-
  matiques et de sciences (Koweït).
• De nouveaux sujets ont été ajoutés au programme de mathéma-
  tiques (Roumanie).
• Un nouveau contenu relié à des situations de la vie réelle a été
  introduit dans les programmes de mathématiques et de sciences
  (Espagne).
• Les résultats ont souligné la nécessité d’améliorer l’équilibre entre les
  mathématiques pures et les mathématiques dans un contexte (Suède).
80   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




• Les conclusions de l’enquête TIMSS ont mis en évidence les
  croyances relatives aux différences entre les sexes et les attitudes
  négatives vis-à-vis des sciences et des mathématiques, et ont servi
  de base à une réforme des programmes de cours et à la formation
  continue des enseignants (République de Corée).
• Les résultats ont influencé les conclusions des discussions sur
  l’amélioration de la formation des enseignants et l’attention qui
  doit lui être accordée (Islande).
• Les résultats de l’enquête TIMSS ont conduit à des mesures renfor-
  çant la formation continue des enseignants en mathématiques et
  en sciences (Norvège, États-Unis).
• Un système d’examen centralisé a été créé, en partie en réponse
  aux résultats de l’enquête TIMSS (Lettonie).
• Les conclusions de l’enquête TIMSS ont influencé des change-
  ments majeurs dans l’enseignement, l’organisation des écoles et des
  classes, la formation des enseignants et la définition d’objectifs
  pour les écoles (Écosse).
• Les conclusions de l’enquête TIMSS ont affecté la recherche péda-
  gogique, la définition des normes, l’élaboration des documents des
  programmes de cours, les études des enseignants, les méthodes
  d’enseignement des mathématiques et des sciences et la rédaction
  des manuels scolaires (République slovaque).

  Les résultats de l’analyse des données de l’enquête PISA ont per-
mis de :

• Jeter le doute sur la valeur d’une utilisation intensive des ordina-
  teurs en salle de classe pour l’amélioration des performances.
• Souligner le fait que le niveau de la dépense nationale dans l’édu-
  cation n’est pas associé aux performances (dans les pays
  participants).
• Ouvrir un débat de politique général sur l’éducation (Allemagne).
• Contribuer à l’élaboration du programme de sciences pour l’ensei-
  gnement secondaire (Irlande).
• Mettre en évidence la complexité de la relation entre le statut
  socioéconomique et la performance en compréhension de l’écrit à
  travers les pays.
            ÉVALUATIONS INTERNATIONALES DE LA PERFORMANCE DES ÉLÈVES   | 81



• Souligner le lien entre la performance et les types d’écoles ainsi
  que le suivi des programmes de cours dans les écoles.
• Étayer l’idée que les écoles publiques et privées ont tendance à
  avoir les mêmes effets sur les mêmes types d’élèves, mais que
  les établissements privés subventionnés sont relativement plus
  efficaces pour les élèves des niveaux socioéconomiques inférieurs.
• Souligner la nécessité de programmes intensifs de langue et de
  compréhension de l’écrit pour les élèves nés à l’étranger, afin de
  stimuler la performance (Suisse).



PROBLÈMES LIÉS AUX ÉVALUATIONS INTERNATIONALES

Malgré des avantages évidents, un certain nombre de problèmes liés
aux évaluations internationales méritent un examen avant que les
pays ne décident d’y participer (voir Kellaghan, 1996).
   Tout d’abord, il est difficile de concevoir une procédure d’évalua-
tion capable de mesurer de manière adéquate les résultats d’une
variété de programmes de cours. Même s’il existe des points com-
muns à travers le monde, en particulier au niveau de l’enseignement
primaire, il subsiste néanmoins des différences considérables entre les
pays dans le contenu enseigné, le moment où il est dispensé et les
normes de performance attendues.
   L’examen des items de l’enquête TIMSS en Afrique du Sud montre
que seuls 18 % des items scientifiques correspondaient au programme
national de la 7e année et 50 % à celui de la 8e année (Howie et Hughes,
2000). Plus la différence est grande entre les programmes et les niveaux
de performance des pays participant à une évaluation internationale,
plus il est difficile de mettre au point une procédure d’évaluation qui
conviendra à tous les pays, et plus la validité des déductions tirées de
la comparaison des performances est douteuse.
   On peut s’attendre à ce qu’un test de performance établi sur le
contenu d’un programme de cours national fournisse une mesure
de la maîtrise de ce programme plus valable que celle produite par
un test conçu pour être le dénominateur commun des programmes
de 30 à 40 pays. Par exemple, l’autorité nationale responsable des
82   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




programmes de cours et les concepteurs d’une évaluation interna-
tionale peuvent pondérer de manière très différente un savoir-faire
tel que l’aptitude à tirer des déductions d’un texte. Contrairement
à une évaluation internationale, une évaluation nationale peut
également tester les aspects des programmes de cours propres à
chaque pays.
   La conception d’un instrument d’évaluation commun est plus
difficile pour certains domaines d’études (par exemple, les sciences et
les études sociales) que pour d’autres (par exemple, la compréhen-
sion de l’écrit). Dans le cas des sciences, par exemple, les profils de
performance se sont avérés plus hétérogènes qu’en mathématiques.
En outre, un plus grand nombre de facteurs sont nécessaires pour
expliquer les différences de performance des élèves en sciences qu’en
mathématiques. Il est donc difficile d’envisager une épreuve de
sciences appropriée pour une variété de systèmes d’éducation.
   Un deuxième problème lié aux évaluations internationales est que
l’ambitieux objectif des premières études de tirer parti de la diversité
des systèmes éducatifs pour évaluer l’importance relative d’une série
de ressources scolaires et processus pédagogiques différents s’est, en
fait, avéré très difficile à atteindre dans la pratique. L’effet relatif des
variables dépendant de leur contexte, les pratiques associées à une
performance élevée dans un pays ne mènent pas nécessairement à
une relation similaire dans un autre. En fait, la force des corrélations
entre les facteurs contextuels et la performance s’est avérée variable
d’un pays à l’autre (voir, par exemple, OCDE et Institut de statis-
tiques de l’UNESCO, 2003 ; Wilkins, Zembylas et Travers, 2002). Les
pays en développement rencontrent des difficultés lorsqu’ils s’en-
gagent dans une étude conçue pour les pays industrialisés, parce que
leurs facteurs socioéconomiques peuvent être très différents et com-
prendre notamment la pauvreté, les facteurs nutritionnels et de santé
ainsi que de médiocres infrastructures et ressources éducatives.
   Troisièmement, il se peut que les populations et échantillons
d’élèves participant aux évaluations internationales ne soient pas
strictement comparables. Par exemple, des différences de perfor-
mance peuvent être dues à la manière dont les pays éliminent cer-
taines catégories d’élèves de l’effectif des classes ordinaires et les
excluent par conséquent de l’évaluation (par exemple, les élèves
             ÉVALUATIONS INTERNATIONALES DE LA PERFORMANCE DES ÉLÈVES   | 83



participant à des programmes spéciaux ou ceux des écoles où la
langue d’enseignement diffère de la langue de l’évaluation). Le pro-
blème est plus évident lorsque a) l’âge d’inscription à l’école, b) la
rétention et c) les taux d’abandon scolaire diffèrent d’un pays à
l’autre, et il se pose tout particulièrement dans les études auxquelles
participent des pays industrialisés et en développement. Dans cer-
tains pays en développement, une forte proportion des élèves a aban-
donné l’école bien avant la fin de la scolarité obligatoire. En Europe
occidentale et Amérique du Nord, les taux nets de scolarisation à
l’école primaire atteignent presque 100 %, alors qu’ils sont, en
moyenne, inférieurs à 60 % dans les pays d’Afrique subsaharienne
(UNESCO, 2002). Les schémas d’abandon scolaire précoce peuvent
varier d’un pays à l’autre. Dans les pays arabes et d’Amérique latine,
les garçons sont plus susceptibles que les filles de ne pas terminer la
5e année tandis qu’on observe l’inverse dans certains pays africains
(par exemple, la Guinée et le Mozambique). Des problèmes d’échan-
tillonnage pour l’enquête TIMSS sont survenus en République du
Yémen, où plusieurs écoles n’avaient pas de classe de 4e année et où
une école pour les enfants nomades n’a pas pu être localisée.
    Des problèmes de comparabilité similaires peuvent survenir dans
une évaluation nationale. Par exemple, le différentiel de performance
des élèves dans les États de l’Inde a été attribué à la différence de taux
de survie (voir A.1 dans l’annexe A).
    Quatrièmement, parce que la variation des scores au test de per-
formance est un facteur important lorsqu’il s’agit a) de décrire de
manière adéquate la performance des élèves dans le système éducatif
et b) de déterminer les corrélats de la performance, des épreuves
nationales soigneusement conçues doivent assurer une distribution
relativement large des scores. De nombreux items des évaluations
internationales s’avèrent toutefois trop difficiles pour les élèves des
pays moins industrialisés, entraînant une variance restreinte des scores.
Ce résultat se reflète dans les données présentées dans le tableau 6.2,
qui sont fondées sur une sélection de pays ayant participé à l’enquête
TIMSS 2003.
    Les données indiquent le pourcentage des élèves de 8e année
ayant atteint les niveaux ou les références de performance par rap-
port à l’ensemble des élèves ayant participé aux épreuves : 7 % des
84   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




TABLEAU 6.2
Pourcentage des élèves de 8e année ayant atteint les niveaux TIMSS
internationaux en mathématiques : Pays ayant obtenu des scores élevé
et faible
 Pays                                   Avancéa         Élevéa       Intermédiairea         Faiblea
 Singapour                                 44              77                93               99
 Taïwan                                    38              66                85               96
 Corée, Rép. de                            35              70                90               98
 Moyenne internationale                      7            23                49                74
 Philippines                                 0              3                14               39
 Bahreïn                                     0              2                17               51
 Afrique du Sud                              0              2                 6               10
 Tunisie                                     0              1                15               55
 Maroc                                       0              1                10               42
 Botswana                                    0              1                 7               32
 Arabie saoudite                             0              0                 3               19
 Ghana                                       0              0                 2                 9
 Source : Mullis et coll., 2004, 64.

  a. Définitions utilisées dans l’enquête TIMSS 2003 : Avancé : Les élèves sont capables d’organiser
l’information, de faire des généralisations, de résoudre des problèmes non routiniers et de tirer des
conclusions à partir des données et de les justifier. Élevé : Les élèves sont capables d’appliquer leur
compréhension et leurs connaissances dans une grande variété de situations relativement complexes.
Intermédiaire : Les élèves sont capables d’appliquer les connaissances de base en mathématiques
dans des solutions simples. Faible : Les élèves ont quelques connaissances de base en
mathématiques.




participants à l’épreuve de mathématiques ont atteint le niveau inter-
national « avancé », 23 % le niveau « élevé », presque la moitié le
niveau « intermédiaire » et environ les trois quarts le niveau « faible ».
À l’opposé, 2 % des élèves ghanéens ont atteint le niveau « intermé-
diaire » et 9 % le niveau « faible », avec 0 % dans les niveaux « avancé »
et « élevé ».
   De même, dans l’enquête PISA 2003, l’utilisation limitée de l’éva-
luation pour l’élaboration de politiques internes a été soulignée par le
manque de variation des scores obtenus dans un certain nombre de
pays participants ; la majorité des élèves de 15 ans au Brésil, en
Indonésie et en Tunisie ont obtenu un score inférieur au niveau 1. (Le
niveau 2 était proposé comme exigence minimale pour les élèves
entrant dans le monde du travail ou poursuivant leurs études.) De
toute évidence, ces enquêtes fournissent aux responsables des
            ÉVALUATIONS INTERNATIONALES DE LA PERFORMANCE DES ÉLÈVES   | 85



politiques et aux décideurs une information limitée sur l’éventail des
performances des élèves dans leurs systèmes éducatifs. En outre, en
raison de la variance limitée de la performance, les corrélations entre
celle-ci et les variables contextuelles ou scolaires n’apportent que peu
d’éclaircissement sur les facteurs contribuant à la performance.
   Cinquièmement, un problème se pose lorsque la première préoc-
cupation des rapports sur les résultats d’une évaluation internationale
est de classer les pays sur la base des scores moyens de leurs élèves,
habituellement le principal intérêt des médias. En elles-mêmes, les
positions dans le classement ne nous disent rien sur les nombreux
facteurs qui peuvent sous-tendre les différences de performance entre
les pays. Elles peuvent également être trompeuses lorsque la significa-
tion statistique des différences moyennes de performance est ignorée.
La position d’un pays peut varier en fonction des pays participants,
une considération importante lorsque les classements sont comparés
dans le temps. Par exemple, si le nombre de pays traditionnellement
performants diminue et que celui des pays traditionnellement peu
performants augmente, un pays peut progresser dans le classement
sans que cela implique nécessairement une amélioration de sa
performance.
   Sixièmement, une performance médiocre dans une évaluation
internationale (aussi bien que nationale) peut représenter un risque
politique pour les hauts collaborateurs de l’État associés à l’ensei-
gnement, y compris les ministres et secrétaires des ministères de
l’Éducation. Le risque peut être encore plus grand lorsque la posi-
tion internationale d’un pays est inférieure à celle d’un pays tradi-
tionnellement rival. Dans certains pays où les données ont été
collectées, les autorités ont refusé que les résultats soient repris
dans des comparaisons entre pays destinées à être publiées. (L’IEA
ne permet plus aux pays participants de se retirer des comparai-
sons.) Le recueil de données comparatives semble plus approprié
pour des pays voisins ou les pays d’une même région que pour des
pays du monde entier, dont le niveau de développement socioéco-
nomique varie largement. On trouve un exemple de cette approche
en Amérique latine et dans les Caraïbes, où 13 pays ont effectué
conjointement une évaluation des compétences de base en langue
et en mathématiques en 1997 (voir C.3 dans l’annexe C).
86    |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




 ENCADRÉ 6.1


     Expérience de l’Afrique du Sud en matière d’évaluations internationales

     L’expérience de l’Afrique du Sud en matière d’enquête TIMSS met en évidence les
     problèmes auxquels sont confrontés les responsables de la mise en œuvre des
     évaluations internationales. Les délais imposés par les organisateurs peuvent être
     difficiles, voire impossibles, à respecter lorsque les services de distribution du courrier,
     les services du téléphone ou les fonds pour les déplacements vers les écoles sont
     insuffisants.

        Les autres problèmes comprennent le manque de données précises sur la population
     des écoles ; de faibles compétences en gestion ; une attention insuffisante aux détails,
     en particulier dans l’édition, le codage et la saisie des données ; un manque de
     financement pour soutenir les collaborateurs du projet ; et la difficulté à obtenir une
     impression de qualité en temps voulu. Les instructions destinées aux administrateurs
     de test (par exemple, monter et descendre l’allée) sont manifestement inappropriées
     lorsque les salles de classe n’ont pas d’allée.
     Source : Howie, 2000.




Les évaluations du SACMEQ réalisées dans les années 1990 en
Afrique australe et orientale, sous les auspices d’un réseau de minis-
tères ont permis des comparaisons internationales au niveau régio-
nal (voir C.1 dans l’annexe C).
   Septièmement, le respect des délais peut s’avérer très difficile dans
les pays manquant de personnel administratif et confrontés à de
médiocres infrastructures de communication (voir encadré 6.1).
Le temps imparti pour l’exécution de certaines tâches associées à une
évaluation internationale (par exemple, l’impression ou la distribu-
tion des carnets) peut être jugé raisonnable dans les pays industriels,
mais s’avérer insuffisant dans de nombreux pays en développement
compte tenu des problèmes de base qui y existent, notamment la
faiblesse des systèmes de communication.
   Enfin, la participation à une étude internationale nécessite des
coûts importants. Un pays participant à une enquête TIMSS pour la
8e année doit débourser 40 000 dollars EU en plus de tous les coûts
associés à l’impression, la distribution, l’administration des épreuves,
la saisie des données et la correction. Les coûts associés aux
évaluations nationales sont, bien sûr, eux aussi considérables.
CHAPITRE

         7                CONCLUSION




                             Les lecteurs qui nous ont accompagnés jusqu’ici
      sont maintenant familiarisés avec les principales caractéristiques des
      évaluations nationales et internationales, leurs similitudes et diffé-
      rences, les raisons d’entreprendre une évaluation et les problèmes à
      résoudre au cours du processus. Ils ont également une compréhension
      générale des principales activités requises, à savoir l’identification des
      questions clés de politiques, la mise au point des instruments, la sélec-
      tion des établissements et des élèves pour représenter le système
      éducatif, l’analyse des données décrivant les performances des élèves
      et leurs corrélats, et la communication des résultats à différentes
      audiences. Des connaissances et compétences spécialisées sont néces-
      saires pour toutes ces tâches.
          Si le lecteur est un décideur politique de haut niveau ou un respon-
      sable du ministère de l’Éducation, il ou elle a peu de chances d’avoir
      l’une des connaissances ou compétences spécialisées nécessaires à la
      réalisation d’une évaluation nationale. Cela ne signifie pas qu’il ou elle
      n’a pas un rôle crucial à jouer dans l’évaluation – depuis son lancement
      et sa conception générale jusqu’à la facilitation de sa mise en œuvre et
      à l’interprétation et utilisation de ses conclusions. Dans le présent cha-
      pitre, nous portons une attention particulière au rôle du décideur ou



                                                                             87
88   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




du responsable dans le développement et l’institutionnalisation de
l’activité d’évaluation nationale ainsi que l’utilisation optimale des
résultats des évaluations.
    Les décideurs de haut niveau et les responsables en position de
prendre des décisions sur l’opportunité d’entreprendre une évalua-
tion nationale (ou de participer à une évaluation internationale)
doivent être convaincus que l’information qui sera ainsi fournie sera
utile pour identifier les problèmes du système éducatif et éclairer les
politiques et pratiques visant ces problèmes. Leur engagement devrait
être amélioré si l’évaluation remplit cinq conditions.
    Premièrement, les performances des élèves qui sont évaluées sont
considérées comme d’importants résultats de la scolarisation, reflétant
correctement le programme de cours. Deuxièmement, l’instrument
utilisé dans l’évaluation a la capacité de fournir des informations dia-
gnostiques sur les aspects de la performance des élèves, en particulier
les forces et faiblesses du profil de performance. Troisièmement,
la méthode d’échantillonnage (si l’évaluation est basée sur un échan-
tillon) garantit que les données recueillies représentent correctement
les performances de l’ensemble du système éducatif (ou d’une partie
clairement identifiée de celui-ci). Quatrièmement, des analyses
appropriées sont utilisées pour identifier et décrire les principales
caractéristiques des données, y compris les relations entre les variables
significatives. En cinquième lieu, les aspects techniques de l’évalua-
tion répondent aux normes professionnelles en vigueur dans des
domaines tels que la mise au point des épreuves, l’échantillonnage et
l’analyse statistique.
    Toutes ces activités nécessitent des ressources et un soutien
politique considérables. Par exemple, le décideur ou le responsable a
un rôle crucial à jouer en s’assurant de la disponibilité des connais-
sances et compétences nécessaires à la conception, la gestion et l’in-
terprétation d’une évaluation nationale. Dans de nombreux pays, elles
ne seront pas disponibles au niveau local et devront être développées
spécifiquement pour réaliser une évaluation. Ce développement
nécessitera des programmes de formation initiale à court ou long
terme. Après ces programmes, il faudra prévoir d’accroître les compé-
tences techniques des personnes impliquées dans l’administration
régulière d’une évaluation nationale, à l’aide de programmes locaux
                                                       CONCLUSION   | 89



de formation, d’une participation à des réunions professionnelles et
d’études supérieures à plus long terme.
   Dans certains pays, l’activité d’évaluation nationale semble fonc-
tionner en marge du système éducatif, en divorce complet avec la
structure et les processus normaux d’élaboration des politiques et de
prise de décision. En pareil cas, il n’y a aucune garantie que l’informa-
tion tirée d’une évaluation sera utilisée pour orienter les politiques ou
que des évaluations nationales seront réalisées à l’avenir pour suivre
l’évolution des performances dans le temps. Pour éviter ces pro-
blèmes, l’activité d’évaluation nationale doit faire partie intégrante du
fonctionnement du système éducatif. Elle nécessite l’implication
active de certains décideurs de haut niveau dans la conception globale
de l’évaluation et dans la participation ou la représentation au comité
directeur national. Il lui faut aussi un budget suffisant et une décision
sur la localisation de l’activité, qui varie d’un pays à l’autre en fonc-
tion des conditions locales.
   L’engagement à long terme des pouvoirs publics est très important
dans la constitution d’une base institutionnelle solide pour la réalisa-
tion d’évaluations nationales régulières. Il peut permettre à un orga-
nisme de recruter et former des personnes ayant une expertise clé
dans des domaines tels que l’élaboration des épreuves, l’échantillon-
nage et l’analyse statistique. Un faible engagement peut entraîner
l’affectation des évaluations nationales à différents organismes, une
stratégie qui ne fait rien ou pas grand-chose pour renforcer l’expertise
technique faisant cruellement défaut dans les disciplines concernées.
Dans plusieurs pays, des organismes multiples ont effectué des éva-
luations nationales séparées, en utilisant une série d’approches d’une
valeur limitée pour l’élaboration des politiques éducatives.
   Dans certains cas, l’engagement des pouvoirs publics peut être
accru lorsqu’une unité au sein du ministère (bénéficiant d’une ligne
dans le budget de l’éducation) effectue l’évaluation. Au Chili, par
exemple, l’engagement des pouvoirs publics et leur réactivité par
rapport aux résultats du Sistema de Medición de la Calidad de la
Educación (SIMCE) ont augmenté lorsque l’évaluation nationale a été
transférée d’une université au ministère. L’évaluation annuelle, la
communication des résultats en temps opportun et une appréciation
de la valeur des résultats pour l’élaboration des politiques ont
90   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




contribué à renforcer la légitimité du SIMCE, à institutionnaliser son
travail et à assurer un engagement et un appui à long terme supplé-
mentaires des autorités nationales. Dans d’autres pays d’Amérique
latine, des instituts d’évaluation, indépendants du ministère de l’Édu-
cation, ont réussi à se faire une réputation de compétence et d’auto-
nomie qui leur a permis de réaliser des évaluations avec une flexibilité
et une cohérence remarquables (Ferrer, 2006).
   À elle seule, l’institutionnalisation n’est pas suffisante mais elle
contribue probablement à ce que ne s’installe pas une situation dans
laquelle les résultats des évaluations nationales n’atteignent pas les
fonctionnaires occupant des postes clés. Des efforts doivent égale-
ment être consacrés à la mise en place de procédures pour la commu-
nication des résultats aux parties prenantes intérieures et extérieures
au ministère.
   En plus des fonctionnaires, les résultats des évaluations nationales
intéressent également les personnes chargées de la définition des pro-
grammes de cours, les entités responsables des examens, les forma-
teurs des enseignants et les enseignants dans leur pratique quotidienne
à l’école. La réponse aux besoins d’information de ces diverses
audiences nécessite la production d’un certain nombre de rapports et
l’adoption de stratégies de diffusion différentes. Celles-ci doivent
identifier les utilisateurs potentiels (institutions et individus clés) et
leur niveau d’expertise technique. Un rapport technique est certes
nécessaire (avec suffisamment d’information pour permettre une
reproduction de l’étude), mais les données techniques doivent égale-
ment être traduites dans des formats accessibles aux non-techniciens,
à présenter dans un rapport de synthèse (destiné au grand public, par
exemple) ou dans un rapport plus détaillé destiné aux responsables
des politiques. Ces formats peuvent par exemple montrer a) si un
groupe donné est mal desservi par le système, b) si des défaillances
requièrent des mesures correctives, et c) si les facteurs associés à une
performance supérieure peuvent être identifiés.
   Dans de nombreux pays, l’élaboration des politiques tend à être
influencée par les priorités politiques et les perceptions des ministres
et hauts fonctionnaires. Elle est fréquemment inspirée par des expé-
riences personnelles, une information anecdotique et des pressions
politiques. Elle est beaucoup trop rarement éclairée par les résultats
                                                        CONCLUSION   | 91



d’une analyse de données valides et fiables sur le fonctionnement du
système éducatif, tels que ceux fournis par une évaluation nationale
correctement conçue et mise en œuvre.
   Les décideurs politiques doivent faire preuve de leadership en
s’assurant que les données objectives et fiables sur le fonctionnement
du système éducatif fournies par l’évaluation nationale soient utilisées
pour améliorer la qualité générale de l’élaboration des politiques. Ils
peuvent le faire en réfléchissant à la pertinence des résultats de l’éva-
luation nationale pour l’élaboration des politiques dans des domaines
tels que l’égalité des sexes et l’équité régionale, la fourniture du maté-
riel pédagogique aux écoles, les qualifications des enseignants et l’offre
d’une formation continue aux enseignants. Ils peuvent se demander si
les changements introduits depuis la précédente évaluation nationale
ont affecté la performance des élèves. Ils peuvent encourager les pres-
tataires de la formation (initiale et continue) des enseignants à étudier
les résultats et à adapter les pratiques actuelles lorsque les données
indiquent un besoin d’ajustement. Les décideurs peuvent également
conseiller les autorités responsables des programmes de cours sur les
modifications à apporter à leur contenu lorsque les données montrent
clairement que les élèves trouvent la matière beaucoup trop facile ou,
plus probablement, trop difficile.
   Une implication étroite des décideurs, au départ, dans la conception
générale de l’évaluation et ensuite, après la fin de l’évaluation dans la
discussion de la pertinence des résultats peut les aider à apprécier la
valeur d’une évaluation nationale. Avec le temps, on peut espérer que
les décideurs politiques parviendront à considérer l’évaluation natio-
nale comme un instrument clé d’élaboration des politiques.
   Une brève description des pratiques d’évaluation nationale dans
neuf pays est fournie dans l’annexe A. Elle n’est pas exhaustive et les
cas ne sont pas présentés comme des modèles parfaits de bonnes
pratiques. Certains aspects techniques de plusieurs d’entre elles pré-
sentent, en fait, des défauts, mais elles révèlent cependant des simili-
tudes et différences d’approche qui sont dignes d’intérêt. Les
similitudes sont notamment le fait que, dans tous les pays, les
évaluations portaient sur le langage/la littératie et les mathéma-
tiques/la numératie à un ou plusieurs niveaux du primaire. Dans tous
les pays, les évaluations ont été réalisées sur des échantillons. Le Chili
92   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




et l’Uruguay ont également réalisé des évaluations auxquelles la
population des écoles a participé.
   Une des différences entre les pays est la fréquence de l’évaluation,
qui va d’un à quatre ans. Les organismes chargés de la mise en œuvre
de l’évaluation diffèrent également et comprennent le ministère de
l’Éducation, un institut de recherche soutenu par l’État et un bureau
national des examens. L’organisme d’exécution bénéficie d’un impor-
tant appui extérieur dans plusieurs pays. Dans au moins deux d’entre
eux (Chili et Afrique du Sud), l’organisme d’exécution a changé entre
les évaluations.
   La façon de décrire la performance des élèves va de la simple expres-
sion de la moyenne et de la distribution du nombre d’items auxquels
les élèves ont correctement répondu, jusqu’à la détermination du
pourcentage des élèves dont la performance a atteint les normes
« attendues » ou du score en pourcentage à différents niveaux de
« compétence ». Les méthodes d’analyse varient elles aussi considéra-
blement, reflétant probablement la capacité technique des équipes
d’évaluation nationale. Des approches d’analyse sophistiquées sont
utilisées dans certains pays (par exemple, les États-Unis et le Vietnam).
   L’utilisation des résultats des évaluations semble très variable, bien
qu’il soit difficile de tirer des conclusions dans la mesure où la plupart
des pays disposent de peu d’information sur la diffusion des résultats
ou l’efficacité de leur contribution à l’élaboration des politiques. Tout
comme pour la description des différences liées au genre, certains
pays utilisent les résultats d’évaluations nationales pour soutenir les
actions suivantes :

• Émettre des recommandations de politiques pour le secteur de
  l’éducation (Sri Lanka, Vietnam).
• Documenter les disparités régionales de performance (Népal,
  Afrique du Sud, Sri Lanka).
• Concevoir un important programme de formation continue pour
  les enseignants (Uruguay).
• Fournir des formes d’appui financier et autre aux écoles peu per-
  formantes (Chili).
• Porter à la connaissance des enseignants les forces et faiblesses de la
  performance des élèves (Ouganda).
                                                       CONCLUSION   | 93



• Décrire l’évolution de la performance des élèves des groupes mino-
  ritaires au cours du temps (États-Unis).
• Proposer une réduction de l’importance de l’algèbre et de la géo-
  métrie dans les programmes de cours (Bhoutan).

  Les personnes impliquées dans la conception d’une évaluation
nationale pourraient être intéressées par certaines des pratiques
quelque peu inhabituelles présentées dans les évaluations décrites
dans l’annexe A :

• Lancer une campagne de sensibilisation du public avant l’évalua-
  tion (Chili).
• Recueillir, en même temps que celles sur les performances des
  élèves, des données permettant un suivi de l’amélioration des ins-
  tallations scolaires au cours du temps (Vietnam).
• Administrer les épreuves à la fois aux enseignants et aux élèves
  (Inde, Vietnam).
• Réaliser l’évaluation en étroite collaboration avec les syndicats
  d’enseignants (Uruguay).

   L’Annexe B décrit les principales caractéristiques des trois études
internationales actuelles, à grande échelle, couvrant le monde entier.
Elles portent sur la compréhension de l’écrit/littératie, les mathéma-
tiques/numératie, et les sciences (trois domaines de savoirs et savoir-
faire vraisemblablement considérés dans tous les pays comme
« fondamentaux » dans l’éducation des élèves). Ces trois études s’inté-
ressent également au suivi de la performance des élèves au cours du
temps.
   Le niveau de compétence technique est très élevé dans les études
internationales et les pays peuvent améliorer leurs connaissances et
compétences en y participant. Comme nous l’avons vu, de nombreux
pays utilisent également les données recueillies dans une évaluation
internationale pour effectuer des analyses au niveau national et utiliser
en fait l’évaluation internationale comme une évaluation nationale.
Cette procédure peut être enrichie si l’information contextuelle natio-
nale est recueillie en plus de celle requise pour l’étude internationale.
   La conception des études internationales est très semblable à celle
d’une évaluation nationale, à la différence que l’évaluation sera
94   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




réalisée dans un certain nombre de pays. Les instruments d’évaluation
peuvent donc ne pas convenir de manière égale à tous les pays, soit
parce qu’ils ne correspondent pas totalement aux programmes de
cours (qui diffèrent d’un pays à l’autre) soit parce qu’ils ne reflètent
pas correctement l’éventail des performances des élèves (qui peut
considérablement varier d’un pays à l’autre). Deux approches ont été
adoptées pour traiter les différences dans les programmes de cours.
Dans les Tendances de l’enquête internationale sur les mathématiques
et les sciences (TIMSS – Trends in International Mathematics and
Science Study) (B.1 dans l’annexe B), comme dans les études anté-
rieures menées sous les auspices de l’Association internationale pour
l’évaluation du rendement scolaire (IEA – International Association for
the Evaluation of Educational Achievement), les épreuves sont prépa-
rées en recherchant un consensus entre les pays participants, en vue
de l’intégration des éléments communs de leurs programmes dans les
tests. L’approche du Programme international pour le suivi des acquis
des élèves (PISA) (B.3 dans l’annexe B) n’a pas été de fonder les ins-
truments d’évaluation sur une analyse des programmes de cours, mais
d’utiliser une opinion « experte » pour déterminer les savoirs et savoir-
faire que les jeunes de 15 ans devraient avoir acquis en fin de scolarité
obligatoire s’ils veulent participer pleinement à la société.
   Le fait que la performance des élèves est liée aux moyens de
développement économique du pays a pour conséquence que les éva-
luations conçues pour les pays industrialisés (tels que les enquêtes
TIMSS et PISA) sont peu susceptibles de fournir une description
satisfaisante des performances dans un pays en développement. Pour
résoudre ce problème, des études régionales ont été conçues pour les
pays moins industrialisés et trois de ces études (deux en Afrique et
une en Amérique latine) sont décrites dans l’annexe C. Elles servent
à la fois d’évaluations nationales et internationales.
ANNEXE

       A               ÉTUDES DE CAS DE
                       DIFFÉRENTS PAYS




    A.1. INDE

    Objectif. Une évaluation a été mise au point pour aider le gouverne-
    ment de l’Inde à fournir à chacun des États des données de référence
    sur la qualité de l’éducation. Elle faisait partie du programme Sarva
    Shiksha Abhiyan (SSA) du gouvernement, qui visait à instaurer la
    scolarisation universelle jusqu’à la fin de l’enseignement primaire
    pour 2010. Des évaluations de performance à grande échelle avaient
    été précédemment effectuées dans des districts scolaires désignés
    dans le cadre du Projet d’enseignement primaire de district du gou-
    vernement (Prakash, Gautam et Bansal, 2000). Les scores moyens en
    mathématiques et en langue ont été comparés par district, matière et
    année d’études. L’évaluation a conclu que les élèves étaient meilleurs
    en langue et que la performance moyenne dans l’échantillon des
    élèves plus âgés n’était pas aussi bonne que celle des élèves des classes
    inférieures. Au sein des districts, la plupart des différences entre les
    garçons et les filles en mathématiques et en langue n’étaient pas sta-
    tistiquement significatives. Outre cette évaluation à l’échelle des dis-
    tricts, une évaluation à grande échelle a été réalisée dans 22 États au
    début des années 1990 (Shukla et coll., 1994).



                                                                          95
96   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




Fréquence. Tous les trois ans.

Années d’études. L’évaluation de la 5e année a été administrée en
2001–2002. Les élèves de 3e année et de l’année terminale de l’ensei-
gnement primaire (qui varie d’un État à l’autre) ont également été
évalués.

Performance évaluée. Langue et mathématiques.

Responsable de l’administration ? Le Conseil national pour la
recherche et la formation pédagogiques de Delhi, avec l’appui des
Instituts d’enseignement des districts, qui ont supervisé la collecte des
données.

Échantillon ou population. Échantillon.

Analyse. Scores des élèves de 5e année rapportés pour chaque
État, en pourcentage des items auxquelles les élèves ont répondu
correctement.

Utilisation des résultats. Les résultats des élèves de 5e année ont
montré de petits écarts de performance entre les sexes ainsi qu’entre
les zones rurales et urbaines. Les données seront utilisées pour suivre
l’évolution des acquis scolaires et identifier les facteurs éducatifs et
non éducatifs qui contribuent à expliquer les différences de perfor-
mance entre les élèves.

Éléments intéressants. Une évaluation antérieure à grande échelle
couvrant 22 États a fait passer la même épreuve aux enseignants et
aux élèves. Dans un État où le score moyen des élèves était très bas,
seul un des 70 enseignants soumis à l’épreuve a répondu correcte-
ment aux 40 questions d’arithmétique. Parmi tous les enseignants,
10 % ont répondu correctement à moins de la moitié des questions
(Shukla et coll., 1994).
   L’évaluation nationale sera utilisée pour suivre l’effet de l’initia-
tive SSA. Contrairement à ceux de la plupart des autres évaluations
nationales, les scores sont exprimés en pourcentage des items
auxquelles les élèves ont correctement répondu. Les États ayant
des niveaux de performance particulièrement faibles sont suppo-
sés bénéficier d’une attention spéciale. Certains États ayant une
                                   ÉTUDES DE CAS DE DIFFÉRENTS PAYS   | 97



tradition de forte fréquentation scolaire (par exemple, le Kerala et
l’Himachal Pradesh) ont enregistré des scores moyens relativement
faibles à l’évaluation des élèves de 5e année, alors que certains des
États affichant des taux de fréquentation scolaire relativement bas
(par exemple, le Bihar, l’Odisha et le Bengale-Occidental) obte-
naient de meilleurs scores. Ce résultat, également enregistré à l’éva-
luation précédente de 22 États, s’explique par le fait que dans ces
derniers, les élèves des échantillons soumis aux épreuves étaient
généralement des « rescapés » du système éducatif, bon nombre des
élèves les plus défavorisés au niveau de leur environnement familial
et de leurs niveaux d’aptitudes ayant déjà abandonné l’école avant
la 5e année.

Source : Inde, Conseil national pour la recherche et la formation
pédagogiques, Département de la mesure et de l’évaluation dans
l’éducation, 2003.


A.2. VIETNAM

Objectif. Mesurer la qualité de l’enseignement en mettant particuliè-
rement l’accent sur la performance des élèves au niveau primaire.

Fréquence. Des évaluations précédentes à petite échelle avaient été
réalisées entre 1998 et 2000 pour les 3e et 5e années, mais elles ne
convenaient pas pour fournir des informations de référence permet-
tant de suivre les tendances dans le temps.

Année d’études. 5e.

Performance évaluée. Compréhension de l’écrit en vietnamien et
mathématiques en 2001.

Instruments. Tests de performance ; questionnaires destinés aux
élèves, enseignants et établissements scolaires.

Responsable de l’administration ? Le ministère de l’Éducation et de
la Formation, soutenu par d’autres organismes nationaux et une équipe
internationale appuyée par la Banque mondiale et le Département
pour le développement international du Royaume-Uni.
98   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




Échantillon ou population. L’échantillon a été conçu pour être repré-
sentatif de la population nationale et des populations de chacune des
61 provinces.

Analyse. Les analyses comprenaient des tableaux croisés par région
des données de performance et des données des établissements, les
corrélats de la performance, l’analyse des facteurs, la modélisation des
données des items de l’épreuve par la méthode de la réponse à l’item,
et la modélisation linéaire hiérarchique pour l’identification des fac-
teurs associés à la performance.

Utilisation des résultats. Sur la base des résultats, les fonctionnaires
ont formulé 40 recommandations pour les politiques.

Éléments intéressants. Des items tirés de l’Étude sur la lecture
scolaire, menée en 1991 par l’Association internationale pour l’éva-
luation du rendement scolaire (Elley, 1992, 1994), ont été utilisés
pour comparer les résultats avec ceux d’autres pays. Les mêmes
épreuves ont été administrées aux enseignants et aux élèves ; 12 %
des élèves ont obtenu de meilleurs scores que 30 % des enseignants.
Moins de 3 % des établissements scolaires disposaient des ressources
scolaires obligatoires (par exemple, bibliothèque, eau courante). Plus
de 80 % des élèves étaient dans des salles de classe disposant de res-
sources minimales (tableau, craie, etc.), tandis que 10 % avaient des
enseignants qui n’avaient pas achevé l’école secondaire.
   Six niveaux de compétence ont été définis en fonction de la perfor-
mance des élèves à l’épreuve de lecture :

• Niveau 1. Établit la correspondance entre des mots ou des phrases
  simples et des images. Réduit à un vocabulaire limité de mots liés
  à des images.
• Niveau 2. Localise un texte exprimé sous forme de phrases brèves
  et répétitives et peut traiter un texte sans l’aide d’images. Le texte
  est limité à de courtes phrases et à des expressions présentant des
  modèles répétitifs.
• Niveau 3. Lit et comprend des passages plus longs. Peut rechercher
  des informations en parcourant le texte vers l’avant ou l’arrière.
  Comprend les paraphrases. L’étendue du vocabulaire permet de
                                                             ÉTUDES DE CAS DE DIFFÉRENTS PAYS     | 99



                comprendre des phrases d’une structure présentant une certaine
                complexité.
              • Niveau 4. Relie l’information de différentes parties du texte.
                Sélectionne et associe du texte pour comprendre et déduire diffé-
                rentes significations possibles.
              • Niveau 5. Relie les déductions et identifie l’intention de l’auteur à
                partir d’une information donnée de différentes manières, dans
                différents types de textes et sous une forme non explicite.
              • Niveau 6. Associe le texte à un savoir extérieur afin de déduire
                différentes significations, y compris les sens cachés. Identifie les
                buts, les attitudes, les valeurs, les croyances, les motivations, les
                hypothèses implicites et les arguments d’un auteur.

                 Le niveau de performance des élèves aux épreuves tant de compré-
              hension de l’écrit que de mathématiques présentait des variations
              considérables. Par exemple, beaucoup moins d’élèves ont atteint les
              deux plus hauts niveaux en lecture à Ha Giang et Tien qu’à Da Nang
              (Tableau A.2.1). La relation entre les caractéristiques des enseignants
              et les scores des élèves a été examinée après avoir pris en compte le
              contexte familial (Tableau A.2.2).

              Source : Banque mondiale, 2004.




TABLEAU A.2.1
Pourcentages et écarts types des élèves de différents niveaux de compétence en lecture
Province           Unité         Niveau 1      Niveau 2   Niveau 3   Niveau 4   Niveau 5   Niveau 6
Ha Giang      Pourcentage            7,5         22,1      27,4       18,7       18,5           5,7
              ET                     1,66          3,23     3,06       2,97       3,07          2,09
Tien          Pourcentage            2,8         13,4      28,8       20,2       22,4       12,5
Giang         ET                     0,7           2,0      2,49       1,8        2,46          2,78
Da Nang       Pourcentage            0,8           5,7     15,4       21,3       32,9       24,1
              ET                     0,34          0,88     1,79       1,89       1,98          3,23
Vietnam       Pourcentage            4,6         14,4      23,1       20,2       24,5       13,1
              ET                     0,17          0,28     0,34       0,27       0,39          0,41
Source : Banque mondiale, 2004, vol. 2, tableau 2.3.
Remarque : ET = écart type.
100   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




TABLEAU A.2.2
Relation entre des variables des enseignants sélectionnées et la performance en
mathématiques
                                                                                Corrélation partielle, après
                                                             Corrélation       prise en compte du contexte
Variable des enseignants                                       simple                familial de l’élève
Genrea                                                           0,17                      0,14
Niveau d’études                                                  0,08                      0,04
Connaissance de la matière (mathématiques)                       0,29                      0,25
Classé comme « excellent enseignant »                            0,18                      0,13
Ressources en salle de classe                                    0,24                      0,15
Nombre d’heures consacrées à la préparation
et à la correction des copies                                    0,00                      0,01
Fréquence des réunions avec les parents                          0,05                      0,04
Nombre de visites d’inspection                                   0,13                      0,11
Source : Banque mondiale, 2004, vol. 2, tableau 4.38.
Remarque : Les corrélations supérieures à 0,02 sont statistiquement significatives.
a. Les élèves ayant une enseignante ont obtenu de meilleurs scores.



A.3. URUGUAY

Objectif. L’évaluation nationale visait à identifier a) dans quelle
mesure les diplômés de l’école primaire avaient acquis une « compré-
hension fondamentale » de la langue et des mathématiques, et b) les
facteurs socioculturels susceptibles d’avoir une incidence sur la
performance des élèves. L’évaluation mettait l’accent sur le dévelop-
pement professionnel, ce qui a nécessité de diagnostiquer les
problèmes d’apprentissage, de fournir aux enseignants de l’informa-
tion sur la performance des élèves, et de les aider à améliorer leurs
pratiques d’enseignement et d’évaluation. L’étude visait également à
utiliser les données des épreuves et des questionnaires pour améliorer
la situation des établissements.

Fréquence et année d’études. 6e année (tous les trois ans) en 1996,
1999, 2002 et 2005. En plus, les élèves de 1re, 2e et 3e années ont été
évalués à des fins de perfectionnement des enseignants en 2001. Les
élèves de 9e année ont été évalués en 1999 et ceux de 12e en 2003.
Depuis 2003, les élèves de 15 ans sont évalués dans le cadre du
Programme international pour le suivi des acquis des élèves (PISA).
                                    ÉTUDES DE CAS DE DIFFÉRENTS PAYS   |   101




Performance évaluée. Mathématiques (résolution des problèmes) et
compréhension de l’écrit pour les élèves de 6e année ; mathématiques,
langue, et sciences naturelles et sociales pour les élèves de 9e et 12e
années.

Instruments. Tests de performance ; questionnaires destinés aux
parents, enseignants et directeurs d’école.

Responsable de l’administration ? Au début, l’Unidad de Medición
de Resultados Educativos (UMRE), une unité créée dans le cadre
d’un projet financé par la Banque mondiale, était responsable de
l’évaluation nationale des élèves de 6e année, tandis que le Programa
de Modernización de la Educación Secundaria y Formación Docente
(MESyFOD), un projet financé par la Banque interaméricaine, était
responsable de l’évaluation nationale au niveau du secondaire. Depuis
2001, les activités d’évaluation ont été réunies et institutionnalisées
sous la conduite de la Gerencia de Investigación y Evaluación (Division
de la recherche et de l’évaluation), faisant partie de l’Administration
nationale de l’éducation publique. Le financement est assuré par des
bailleurs de fonds internationaux.

Échantillon ou population. Population et échantillon pour la 6e année,
excluant les établissements scolaires très petits ; population des élèves
de 9e année ; échantillon d’élèves de 1re, 2e, 3e et 12e année ; échantil-
lon pour les évaluations PISA.

Analyse. L’UMRE a utilisé 60 % de réponses correctes comme seuil
de performance satisfaisante des élèves. Les scores individuels des éta-
blissements ont été comparés à la moyenne nationale, à la moyenne
départementale ou régionale et à celles des écoles accueillant des
élèves issus de milieux socioéconomiques similaires. Les données des
épreuves ont été associées aux facteurs contextuels.

Utilisation des résultats. Les résultats ont été principalement utilisés
par les enseignants, les directeurs d’école et l’inspection des écoles.
Les autorités publiques ont utilisé les résultats pour identifier
les établissements ayant besoin d’un appui particulier et pour
des programmes à grande échelle de formation continue des enseignants.
Les résultats de niveau national ont été largement diffusés.
102   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




Quarante jours après les épreuves et avant la fin de l’année scolaire,
les établissements participants ont reçu un rapport confidentiel conte-
nant les résultats agrégés des établissements, présentés item par item.
Les rapports ne comprenaient pas les résultats individuels des élèves
ou les résultats ventilés par classe. L’UMRE a a) produit des guides
pédagogiques pour aider à corriger les faiblesses détectées en langue
et en mathématiques et organisé des programmes de formation conti-
nue des enseignants pour les établissements des zones défavorisées ;
b) rédigé des rapports pour le personnel de supervision ; et c) organisé
pour les inspecteurs des ateliers basés sur les résultats des épreuves.
Les épreuves ont été mises à la disposition des établissements non
inclus dans l’échantillon. Chaque établissement a reçu un rapport
des moyennes nationales pour chaque compétence évaluée. Des
normes ont été envoyées aux établissements non évalués à des fins de
comparaison. Près de 80 % de ces établissements ont administré les
épreuves à leurs élèves et comparé leurs résultats aux normes natio-
nales fournies. Les inspecteurs ont organisé leurs propres ateliers pour
mieux comprendre les résultats, apprécier l’effet du dénuement social
sur les acquis des élèves et proposer des pistes d’action pour amélio-
rer la qualité de l’éducation.

Éléments intéressants. Au départ, le syndicat des enseignants du pri-
maire était fortement opposé à l’évaluation nationale. Il s’opposait en
particulier à la publication des résultats individuels des établisse-
ments. Il a finalement été convaincu, et les autorités ont accepté de ne
pas publier les résultats individuels des établissements ou des ensei-
gnants, mais de permettre l’utilisation des résultats à des fins de dia-
gnostic. Seules les données agrégées devaient être publiées. Les
autorités ont, en outre, invité les enseignants à participer a) aux
groupes de planification de l’évaluation et b) à d’autres groupes
consultatifs. Les enseignants ont également été fortement impliqués
dans le développement des épreuves. À ce jour, peu d’opposition s’est
manifestée à une évaluation formelle de ce type au niveau primaire.
Il a été généralement admis que les enseignants ou les établissements
ne seraient pas pénalisés pour avoir obtenu de mauvais résultats aux
épreuves. Le syndicat des enseignants du secondaire ne s’est pas mon-
tré très favorable à l’évaluation et a adopté une attitude attentiste.
                                    ÉTUDES DE CAS DE DIFFÉRENTS PAYS   |   103




L’acceptation par les enseignants de l’initiative de l’UMRE et des
résultats tient à la confidentialité des résultats aux épreuves, à la com-
munication rapide des rapports, à la contextualisation socioculturelle
des scores aux épreuves et à la reconnaissance du fait que les acquis
des élèves dépendent d’une combinaison de facteurs (liés notamment
aux caractéristiques de la famille, de l’établissement, de la commu-
nauté et des enseignants).
   L’approche adoptée par l’Uruguay est différente de celle de cer-
tains pays qui cherchent des moyens de rendre les établissements et
les enseignants redevables des acquis des élèves. L’État a, quant à lui,
la responsabilité de promouvoir un environnement favorable à
l’équité au sein du système éducatif.

Sources : Benveniste, 2000 ; Ravela, 2005.


A.4. AFRIQUE DU SUD

Objectif. L’Afrique du Sud a effectué une série d’évaluations natio-
nales des 3e, 6e et 9e années. Elle a également participé à trois études
internationales visant à 1) fournir des données de référence par
rapport auxquelles les progrès futurs pourraient être vérifiés et 2) per-
mettre au pays de comparer ses programmes de cours et ses résultats
en mathématiques et en sciences avec ceux des pays industrialisés.
Chacune de ces études internationales peut être considérée comme
une évaluation nationale des acquis scolaires. La participation aux
évaluations internationales a été l’occasion de renforcer les capacités.
   En 1995, l’Afrique du Sud a été l’unique participant africain à
l’étude Tendances de l’enquête internationale sur les mathématiques
et les sciences (TIMSS). Elle y a également participé en 1999 avec le
Maroc et la Tunisie, qui ont ensuite été rejoints par le Botswana, le
Ghana et l’Égypte en 2003. L’Afrique du Sud a également participé à
l’évaluation des élèves de 6e année par le Consortium de l’Afrique
australe et orientale pour le pilotage de la qualité de l’éducation effec-
tuée en 2000 et à l’évaluation « Suivi des acquis scolaires » (Monitoring
Learning Achievement) de 4e année, qui a débuté en 1992.

Fréquence. Enquête TIMSS 1995, 1999 et 2003.
104   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




Année d’études. 8e.

Instruments. Tests de performance ; questionnaires destinés aux
élèves, enseignants et directeurs d’école.

Performance évaluée. Mathématiques et sciences.

Responsable de l’administration ? Le Human Sciences Research
Council (Conseil pour la recherche en sciences humaines) en 1995 et
1999, et l’Université de Pretoria en 2003.

Échantillon ou population. Échantillon. Une classe complète de 8e
année a été incluse dans l’échantillon dans chaque établissement
sélectionné.

Analyse. L’étude a comparé la performance moyenne des élèves en
mathématiques et en sciences avec celle des autres pays, de même que
la performance des 5e, 25e, 50e, 75e et 95e percentiles. Elle a également
comparé l’Afrique du Sud à d’autres pays participants, du point de
vue de l’environnement et de l’attitude des élèves, des programmes de
cours, des caractéristiques des enseignants, des caractéristiques des
salles de classe et du contexte d’apprentissage et d’enseignement. Elle
comprenait une comparaison des scores moyens au cours du temps.

Utilisation des résultats. Les résultats de l’enquête TIMSS ont été
utilisés dans des débats parlementaires.

Éléments intéressants. L’Afrique du Sud compte 11 langues
officielles. Certains mots ont dû être traduits en anglais sud-africain,
et certains contextes ont dû être modifiés. Un temps considérable a
été consacré à la résolution des problèmes logistiques imputables
aux insuffisances des services, tels que le courrier et le téléphone, qui
sont considérés comme acquis à d’autres endroits de la planète.
L’équipe nationale de recherche a trouvé les délais imposés par l’en-
quête TIMSS difficiles à respecter. L’effort initial d’échantillonnage a
permis de dénicher environ 4 000 établissements qui n’étaient pas
dans la base de données nationale. Le transfert de compétences liées
à l’évaluation entre les équipes chargées des trois évaluations TIMSS
a été limité. Seul un des membres de la première équipe de l’évalua-
tion TIMSS a participé à l’enquête TIMSS de 2003. La plupart des
                                     ÉTUDES DE CAS DE DIFFÉRENTS PAYS   |   105




élèves ont passé l’épreuve rédigée dans une langue autre que leur
langue maternelle.
   La deuxième enquête TIMSS a été utilisée pour une étude nationale
approfondie (Howie, 2002). Elle a notamment abouti aux conclu-
sions suivantes :

• Les statistiques officielles sur la taille des classes étaient différentes
  (beaucoup plus importantes) des tailles trouvées dans l’échantillon
  des établissements représentatif au niveau national, ce qui suggère
  une déclaration inexacte des données sur les inscriptions.
• Certains élèves craignaient que leur performance aux épreuves soit
  prise en compte dans leurs résultats scolaires officiels. Certains
  avaient peur de demander de l’aide. Bon nombre ont eu des diffi-
  cultés avec les questions ouvertes. L’arrivée tardive, l’absentéisme
  et la tricherie lors de l’administration des épreuves ont causé des
  problèmes supplémentaires.
• De nombreux élèves ont éprouvé des difficultés à répondre à
  l’épreuve et au questionnaire à cause de difficultés linguistiques.
  Beaucoup d’enseignants ne maîtrisaient pas suffisamment leur
  langue pour communiquer efficacement avec les élèves.
• Les enseignants passent beaucoup de temps à enseigner des conte-
  nus qui auraient dû être couverts les années précédentes.
• Près d’un quart des enseignants de 8e année n’étaient pas qualifiés
  pour enseigner les mathématiques et n’avaient pas de diplôme
  d’études postsecondaires.
• Les élèves dont la langue maternelle était l’anglais ou l’afrikaans
  ont obtenu des scores nettement plus élevés que ceux qui parlaient
  une autre langue africaine à la maison.
• Moins de 0,5 % des élèves ont atteint le plus haut niveau de per-
  formance en mathématiques, contre 10 % pour l’échantillon inter-
  national. Le score moyen (381) correspondant aux meilleures
  performances des neuf provinces (Western Cape) était nettement
  inférieur au score moyen international (487) de l’enquête TIMSS.
• Ni l’école ni la taille de la classe ne constituent un déterminant
  significatif de la performance en mathématiques.

   Les évaluations nationales des 3e, 6e et 9e années demandées par
le ministère de l’Éducation ont été effectuées pour obtenir des
106   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




données de référence pour les évaluations futures et suggérer des
actions au niveau des politiques. Chacune de ces évaluations utili-
sait les données de questionnaires ainsi que des épreuves, pour four-
nir une base à l’estimation des efforts à entreprendre à long terme
pour améliorer l’accès, la qualité, l’efficacité et l’équité. Les compa-
raisons entre provinces ont démontré l’existence de fortes disparités
régionales dans la performance. Les niveaux de performance géné-
rale sont considérés comme faibles. Par exemple, dans l’évaluation
de la 6e année, un pourcentage moyen de réponses correctes de seu-
lement 38 % a été enregistré en langue, 27 % en mathématiques et
41 % en sciences naturelles. Des rapports sur la 6e année ont été
produits séparément pour chaque province ainsi que pour un rap-
port national.

Sources : Howie, 2000, 2002 ; Kanjee, 2006 ; Reddy, 2005, 2006.



A.5. SRI LANKA

Objectif. Évaluer les acquis des élèves ayant terminé leur 4e année en
2003.

Fréquence. Des évaluations antérieures avaient été réalisées pour les
élèves de 3e (1996) et 5e (1994, 1999) années. D’autres évaluations
ont été effectuées pour la 4e année (2007) ainsi que pour les 8e et 10e
années (2005).

Année d’études. 4e.

Performance évaluée. Première langue (cinghalais ou tamoul), mathé-
matiques et anglais.

Instruments. Test de performance ; questionnaires destinés aux direc-
teurs d’école, chefs de section, enseignants de la classe correspondante
et parents (voir le tableau A.5.1).

Responsable de l’administration ? Centre national de recherche et
d’évaluation dans l’éducation (National Education Research and
Evaluation Centre), situé au sein de la Faculté de l’éducation,
Université de Colombo.
                                                            ÉTUDES DE CAS DE DIFFÉRENTS PAYS   |   107



TABLEAU A.5.1
Données et source contextuelles dans l’évaluation nationale sri lankaise
                                                                                     Nombre de
 Type d’informations             Questionnaire               Sections                 questions
 Contexte scolaire              Directeur        •   Informations générales
                                                 •   Profil des enseignants
                                                 •   Installations scolaires             37
                                                 •   Situation financière
                                                 •   Opinions
                                Chef de          • Informations générales
                                section          • Installations scolaires
                                                 • Procédures d’évaluation de
                                                                                         13
                                                   l’enseignement et de
                                                   l’apprentissage
                                                 • Opinions
                                Enseignant       • Informations générales
                                                 • Information académique et
                                                   professionnelle                       41
                                                 • Détails sur la salle de classe
                                                 • Opinions
 Famille                        Parents          •   Informations générales
                                                 •   Installations domestiques
                                                 •   Situation socioéconomique           51
                                                 •   Soutien à l’apprentissage
                                                 •   Opinions
                                Élèves           •   Informations générales
                                                 •   Enseignement préscolaire
                                                                                         26
                                                 •   Activités postscolaires
                                                 •   Opinions
 Source : Perera et coll., 2004, tableau 3.7.




                Échantillon ou population. Échantillon conçu pour être représentatif
                de la population des élèves de 4e année au niveau national et dans
                chacune des 9 provinces.

                Analyse. Comparaison des scores de performance par type d’établis-
                sement, localisation, sexe et niveau de formation des enseignants. Les
                provinces et les districts ont été classés dans chaque matière. Une
                analyse causale a été utilisée pour déterminer les relations entre
                l’école, l’environnement familial et les facteurs liés aux élèves d’une
                part, et la performance des élèves d’autre part.
108   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




Utilisation des résultats. Les résultats ont été utilisés pour l’analyse
du secteur de l’éducation afin de contribuer à l’élaboration d’une
nouvelle stratégie d’appui de l’État et des donateurs à ce secteur.
Actuellement, ils sont aussi utilisés pour définir des valeurs de réfé-
rence destinées au suivi des niveaux de performance des élèves dans
chacune des provinces.

Éléments intéressants. L’équipe d’évaluation nationale sri lankaise a
fixé à 80 % le score déterminant la « maîtrise ».1 Des rapports ont été
établis sur les pourcentages des élèves considérés comme « ayant
maîtrisé » chacune des trois matières évaluées. Les résultats suggèrent
que la norme attendue avait été fixée à un niveau irréaliste. Si, sur la
base des scores moyens, le rapport de l’évaluation a conclu que la
performance globale en première langue semblait atteindre un niveau
« satisfaisant » (Perera et coll., 2004, 47), lorsque la performance est
évaluée sur la base du niveau de maîtrise, le tableau est assez diffé-
rent. Moins de 40 % des élèves ont atteint le niveau de maîtrise en
langue locale et en mathématiques, et moins de 10 % en anglais. Les
résultats affichaient de larges disparités de performance entre les pro-
vinces et les districts (tableau A.5.2). Les sous-groupes peu perfor-
mants ont été identifiés. Des rapports distincts ont été publiés pour
chacune des neuf provinces du pays.

Source : Perera et coll., 2004.



A.6. NÉPAL

Objectif. L’évaluation nationale de 2001 a été effectuée dans le but de
déterminer comment la performance des élèves avait évolué au cours
d’une période de quatre ans caractérisée par des changements majeurs
dans les politiques.

Fréquence. Les données de référence sur les élèves de 3e année ont été
obtenues en 1997. (Les élèves de 5e année ont été évalués en 1999.)

1
 Cette détermination était apparemment fondée sur un seuil utilisé par l’Organisation
des Nations Unies pour l’éducation, la science et la culture dans des études antérieures
de Suivi des acquis scolaires (UNESCO, 1990).
                                                       ÉTUDES DE CAS DE DIFFÉRENTS PAYS   |   109



TABLEAU A.5.2
Pourcentage des élèves ayant atteint le niveau de maîtrise en première langue,
par province
                                                     Pourcentage ayant atteint   Pourcentage
Groupe                Position            Province     le niveau de maîtrise        cible
Plus de 50 %              1         Ouest                      53,5                  80,0
26–50 %                   2         Sud                        42,6                  80,0
                          3         Nord-Ouest                 42,2                  80,0
                          4         Sabaragamuwa               40,2                  80,0
                          5         Centre-Nord                35,6                  80,0
                          6         Uva                        33,9                  80,0
                          7         Centre                     33,8                  80,0
1–25 %                    8         Est                        23,7                  80,0
                          9         Nord                       22,7                  80,0
Source : Perera et coll., 2004, tableau 4.14.




              Année d’études. 3e.

               Performance évaluée. Mathématiques, népalais et sciences sociales.

               Instruments. Tests de performance en mathématiques, népalais et
               sciences sociales administrés à tous les élèves de l’échantillon. Des
               questionnaires ont été administrés au directeur d’école et aux ensei-
               gnants des trois matières ciblées dans chaque école échantillonnée, et
               25 % des élèves ainsi que leurs parents ont été interrogés.

               Responsable de l’administration ? Centre de service d’éducation et
               de développement.

               Échantillon ou population. Un échantillon de 171 établissements.

               Analyse. Les scores aux épreuves supérieurs à 75 % de réponses
               correctes méritaient la note de performance « satisfaisant ». Les
               autres analyses comprenaient des études de fiabilité de chaque
               épreuve et des comparaisons des scores moyens de 1997 et 2001. Une
               analyse de variance a été utilisée pour comparer les scores moyens
               de performance des élèves entre les régions, et une analyse de régres-
               sion multiple a permis d’identifier les facteurs liés à la performance
               des élèves.
110   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




Utilisation des résultats. Les résultats ont été utilisés pour suivre
l’évolution des performances de 1997 à 2001 et, en particulier, pour
évaluer l’effet des changements de politiques, à savoir une augmenta-
tion du budget, de nouveaux programmes de cours, de nouveaux
manuels scolaires et matériel didactique, et de nouveaux centres de
formation des enseignants. Les régions les plus performantes ont été
identifiées. En 2001, la différence entre les scores moyens des filles et
des garçons n’était significative qu’en mathématiques, où les garçons
se sont montrés plus performants. Les scores moyens globaux en
sciences sociales étaient nettement plus élevés en 2001 qu’en 1997.

Éléments intéressants. Les données ont permis d’identifier les
domaines du programme de cours où les élèves semblent avoir eu des
difficultés. En mathématiques, les élèves étaient généralement
capables de traduire les mots en chiffres et inversement, de mesurer
le temps et le poids, d’additionner des nombres de maximum quatre
chiffres exprimés en mots et d’additionner des nombres décimaux.
Ils étaient généralement incapables de résoudre des problèmes
écrits impliquant l’une des quatre opérations de base (addition, sous-
traction, multiplication et division). En népalais, l’élève moyen était
généralement capable de lire une histoire simple et d’utiliser un cer-
tain vocabulaire, mais pas de lire et de répondre correctement à des
questions basées sur des passages ou décrivant une histoire en images.
   Les résultats de l’évaluation ont montré que bon nombre des
réformes semblaient avoir eu peu d’effet. Plus de 60 % des ensei-
gnants ont indiqué que leurs cours n’étaient jamais supervisés. En
général, ils recevaient relativement peu d’appui dans leur travail.
Environ un tiers n’étaient pas formés. L’enseignement en classe a été
jugé inefficace.
   Le rapport a conclu que, bien que de nombreuses réformes aient
clairement été mises en œuvre, il était probablement trop tôt pour
espérer des améliorations de la performance des élèves. Le rapport
d’évaluation nationale a également souligné la qualité relativement
médiocre de l’appui apporté aux élèves par leurs familles. Plus d’un
quart des mères avaient été identifiées comme analphabètes, tandis
que moins de 7 % avaient poursuivi leurs études jusqu’en 5e année.

Source : Khaniya et Williams, 2004.
                                   ÉTUDES DE CAS DE DIFFÉRENTS PAYS   |   111




A.7. CHILI

Objectif. Le Sistema de Medición de la Calidad de la Educación
(SIMCE) du Chili a été initialement conçu pour orienter les parents
dans le choix d’une école. Il cherche maintenant à fournir de l’infor-
mation a) sur la manière dont les élèves atteignent les objectifs d’ap-
prentissage considérés comme minimaux par le ministère de
l’Éducation ; b) aux parents, aux enseignants et aux autorités munici-
pales, régionales et centrales ; et c) permettant aux décideurs d’orien-
ter l’allocation de ressources au développement des manuels et
programmes de cours et à la formation continue des enseignants, en
particulier dans les domaines qui en ont le plus besoin. Il vise à amé-
liorer le système éducatif en mettant en place des procédures axées
sur l’évaluation, l’information et les incitations. Il contribue égale-
ment à souligner l’engagement du ministère de l’Éducation à amélio-
rer la qualité et l’équité au sein du système éducatif.
   Le Chili gère également un système d’évaluation distinct, mais lié,
utilisé comme base pour récompenser l’excellence dans le cadre du
SNED (Système national d’évaluation de la performance des ensei-
gnants dans les écoles soutenues par l’État) en offrant aux enseignants
et aux établissements des mesures d’incitation à augmenter les
niveaux de performance des élèves.

Fréquence. Annuelle.

Années d’études. 4e et 8e.

Performance évaluée. Espagnol (lecture et écriture), mathématiques,
sciences naturelles et sociales.

Instruments. Tests de performance, d’idée de soi et de perception
administrés aux élèves. Questionnaires remplis par les directeurs, les
enseignants et les parents (seulement une année).

Responsable de l’administration ? D’abord administrée en 1978 par un
organisme externe, la Pontificia Universidad Católica du Chili, l’évalua-
tion SIMCE est maintenant administrée par le ministère de l’Éducation.

Échantillon ou population. La quasi-totalité des élèves des années
concernées est évaluée en espagnol et en mathématiques. Les épreuves
112   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




de sciences naturelles, histoire et géographie sont administrés à
10 % des élèves. Les très petits établissements situés dans des zones
inaccessibles sont exclus.

Analyse. Classement des établissements au niveau national et par
catégorie socioéconomique. Le SIMCE a identifié 900 établissements
dont les scores figuraient parmi les 10 % les plus faibles de leurs pro-
vinces aux épreuves de mathématiques et de langue, et auxquels des
ressources spéciales sont fournies (programme P-900).

Utilisation des résultats. Les résultats du SIMCE sont largement uti-
lisés dans les discussions sur les politiques. Le SIMCE publie les résul-
tats des classes reprenant le pourcentage moyen des réponses correctes
par objectif évalué ainsi que le nombre moyen de réponses correctes
pour l’ensemble de l’épreuve. Au début de l’année scolaire, le SIMCE
publie ses résultats à l’échelle nationale et aussi par école, situation
géographique et région. Les manuels du SIMCE expliquent les résul-
tats et la façon dont les enseignants et les établissements peuvent les
utiliser pour améliorer la performance des élèves. Les établissements
du programme P-900 bénéficient d’un soutien sous la forme d’une
amélioration de l’infrastructure, de manuels scolaires et de biblio-
thèques, de matériel didactique, et d’ateliers de formation continue
des enseignants. Ils sont retirés du programme P-900 lorsque leurs
scores du SIMCE dépassent le seuil de 10 %.
    Le programme SNED utilise les scores du SIMCE ainsi que quatre
autres mesures de la qualité de l’éducation. Les enseignants des éta-
blissements les plus performants d’une région reçoivent un prix en
espèces à peu près équivalent à un mois de salaire. Dans le but de
garantir l’équité, le ministère sélectionne des établissements accueil-
lant des groupes socioéconomiques similaires, classés selon leur situa-
tion en zone urbaine ou rurale et leur niveau primaire ou secondaire.
Bien qu’un ensemble de facteurs soit pris en compte dans le calcul de
l’indice, les acquis scolaires représentent près des deux tiers du score
(tableau A.7.1). Le système de pondération est régulièrement modifié
pour refléter les priorités des politiques.

Éléments intéressants. Le SIMCE s’appuie sur une campagne de rela-
tions publiques intensive comprenant des brochures pour les parents
                                          ÉTUDES DE CAS DE DIFFÉRENTS PAYS       |   113



TABLEAU A.7.1
Indice des prix d’excellence pour les écoles du Chili, 1998-1999

 Facteur                                                            Pourcentage
 Efficacité (scores SIMCE en mathématiques et en sciences)                37
 Valeur ajoutée (progression moyenne des scores SIMCE)                   28
 Initiative                                                                  6
 Amélioration des conditions de travail                                      2
 Égalité des chances                                                     22
 Coopération parents-enseignants                                             5
 Source : Delannoy, 2000, tableau 1.5.




et les établissements, des affiches pour les établissements, des vidéos
pour les ateliers, des programmes de télévision et des communiqués
de presse. Les rapports sont distribués aux directeurs d’école, respon-
sables municipaux, superviseurs des établissements et fonctionnaires
du ministère. Les parents reçoivent également un rapport individua-
lisé pour leur école. Les journaux publient les résultats école par
école. Parce que les municipalités reçoivent de l’État central des fonds
déterminés par le nombre d’élèves, elles ont un intérêt direct dans le
résultat ; de bons résultats au SIMCE ont tendance à attirer plus
d’élèves, et donc plus de revenus.
   Les établissements où un grand nombre d’élèves étaient absents le
jour de l’épreuve ne reçoivent pas les résultats. Certains établisse-
ments ont surévalué l’ampleur de la pauvreté de leurs élèves afin
d’accroître leurs chances de bénéficier d’une aide au titre du pro-
gramme P-900. Les enseignants ont tendance à être plus préoccupés
par la position de leur établissement par rapport aux établissements
similaires que par la possibilité d’utiliser les résultats pour promou-
voir le dialogue au sein de leur établissement pour aider à diagnosti-
quer les domaines où les élèves semblent avoir des difficultés
d’apprentissage. Certains enseignants ont critiqué le caractère trop
technique des rapports destinés aux établissements. Le SIMCE
accorde relativement peu d’attention aux données figurant dans les
questionnaires des élèves, parents et enseignants. L’attitude à l’égard
de l’apprentissage et les valeurs des élèves se sont révélées technique-
ment difficiles à mesurer. Le programme SNED présume que les
114   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




incitations financières encourageront les enseignants à faire davantage
d’efforts pour améliorer l’apprentissage des élèves.

Sources : Arregui et McLauchlan, 2005 ; Benveniste, 2000 ; Himmel,
1996, 1997 ; McMeekin, 2000 ; Olivares, 1996 ; Wolff, 1998.



A.8. ÉTATS-UNIS

Objectif. La National Assessment of Educational Progress (NAEP –
l’évaluation nationale des progrès dans l’éducation), qui a débuté en
1969, mesure les acquis des élèves et surveille leur évolution à des
âges et niveaux d’études déterminés. La NAEP, souvent appelée
The Nation’s Report Card, examine également les acquis de sous-
populations définies en fonction de caractéristiques démographiques
et d’expériences contextuelles spécifiques. L’échantillon de la NAEP
dans la plupart des États est suffisamment large pour permettre des
déductions concernant les acquis dans chaque État.

Fréquence. Les évaluations sont effectuées au moins une fois tous les
deux ans pour les mathématiques et la lecture et moins souvent pour
d’autres matières.

Années d’études. 4e, 8e et 12e. Les évaluations réalisées séparément au
niveau des États à l’aide des épreuves de la NAEP portent sur les 4e et
8e années.

Performance évaluée. Mathématiques, compréhension de l’écrit,
sciences, écriture, arts, instruction civique, économie, géographie et
histoire des États-Unis. Nouvelles matières à évaluer : langue étran-
gère et histoire mondiale.

Instruments. Tests de performance en compréhension de l’écrit,
mathématiques, sciences, écriture, histoire des États-Unis, instruction
civique, économie, géographie et arts. À la fin du carnet de test, un
questionnaire (volontaire) destiné aux élèves recueille des informa-
tions sur les caractéristiques démographiques des élèves, les expé-
riences en classe et le soutien éducatif. Un questionnaire destiné aux
enseignants met l’accent sur leur environnement, leur formation et
                                   ÉTUDES DE CAS DE DIFFÉRENTS PAYS   |   115




leurs pratiques pédagogiques. Un troisième questionnaire collecte des
informations sur les politiques et les caractéristiques des établisse-
ments. Des données contextuelles sur les élèves handicapés ou les
élèves qui apprennent l’anglais sont fournies par l’enseignant.

Responsable de l’administration ? La responsabilité globale de la
NAEP incombe au National Assessment Governing Board (conseil
directeur de l’évaluation nationale), nommé par le secrétaire d’État à
l’Éducation. Il se compose de gouverneurs, législateurs, responsables
d’établissements scolaires locaux et publiques, éducateurs, représen-
tants d’entreprises et membres du grand public. Des contrats ont été
signés avec divers organismes pour l’exécution de certains aspects de
la NAEP. Sur la période 2003-2006, des organismes distincts ont été
chargés de l’une des activités suivantes : mise au point des items,
analyse, échantillonnage et collecte des données, distribution et
correction, et maintenance du site Web.

Échantillon ou population. Des échantillons d’élèves des 4e et 8e
années au niveau des États (écoles publiques uniquement) et d’élèves
de 12e année au niveau national. La taille de l’échantillon pour chaque
épreuve NAEP est d’environ 2 500 élèves dans chaque État. Une
étude séparée des tendances à long terme publie des résultats au
niveau national en mathématiques et compréhension de l’écrit pour
des échantillons d’élèves de 9, 13 et 17 ans issus d’établissements
d’enseignement publics et privés.

Analyse. Chaque élève n’est soumis qu’à une partie du nombre total
des items d’évaluation dans un domaine donné. Les données per-
mettent des comparaisons entre groupes (par exemple, garçons et
filles dans un État donné). Le modèle de la réponse à l’item est utilisé
pour estimer les caractéristiques de mesure de chaque question d’éva-
luation et pour créer une échelle unique afin de représenter la perfor-
mance. Les poids de l’échantillonnage sont appliqués pour tenir
compte des caractéristiques de la population. Des échelles sont
construites pour permettre la comparaison des évaluations effectuées
au cours de différentes années pour des populations communes. Des
mesures de contrôle de qualité sont appliquées à chaque étape de
l’analyse. Les pourcentages des élèves classés dans chacun des niveaux
116   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




de compétence – « élémentaire » (maîtrise partielle des connaissances
fondamentales), « compétent » (bonne maîtrise de la matière) et
« avancé » (performance de niveau supérieur) – sont publiés.

Utilisation des résultats. Les résultats sont largement publiés. Les
orateurs politiques et autres les utilisent pour souligner les messages
positifs et négatifs sur la qualité du système scolaire américain.

Éléments intéressants. La NAEP suit les tendances de la performance
de sous-groupes. Une attention particulière est accordée à la progres-
sion des sous-groupes minoritaires, notamment l’accroissement des
scores en lecture depuis 1971. Dans l’ensemble, les scores en lecture et
en mathématiques des élèves de quatrième année ont augmenté, et
l’écart racial s’est rétréci. Des taux de croissance plats ont été enregis-
trés en lecture pendant une période où le nombre d’étudiants hispa-
niques (qui ont, traditionnellement, des difficultés à maîtriser la lecture
de l’anglais) a doublé. À cause du caractère changeant de la population
des élèves, il est difficile de déterminer si les efforts pour améliorer la
pédagogie et les programmes de cours ont ou non un impact.

Sources : Johnson, 1992 ; U.S. National Center for Education Statistics (le
centre national américain de statistiques de l’éducation), 2005, 2006.



A.9. OUGANDA

Objectif. La National Assessment of Progress in Education (NAPE), réa-
lisée en juillet 2005 pendant le second semestre scolaire, a fait partie
d’une série d’évaluations nationales en Ouganda. Les objectifs spéci-
fiques de l’évaluation étaient les suivants :

• Déterminer les niveaux de performance des élèves en littératie
  (anglais) et numératie.
• Examiner les relations entre la performance et le sexe et l’âge des
  élèves, la localisation de l’établissement scolaire (milieu urbain,
  périurbain, rural), et les zones du pays.
• Examiner les modèles de performance.
• Comparer les performances des élèves de 3e et 6e années en 1999
  et 2005.
                                    ÉTUDES DE CAS DE DIFFÉRENTS PAYS   |   117




Fréquence. L’Ouganda effectue des évaluations nationales des acquis
scolaires depuis 1996. Au départ, des paires de matières (littératie et
numératie, sciences et sciences sociales) étaient évaluées tous les trois
ans. Depuis 2003, l’accent est mis sur la littératie et la numératie, qui
sont évaluées chaque année.

Années d’études. 3e et 6e.

Performance évaluée. Littératie en anglais et numératie. L’aisance
verbale en anglais est évaluée tous les trois ans.

Instruments. Tests de performance en littératie et numératie. Les éva-
luations nationales précédentes utilisaient des questionnaires destinés
aux élèves, aux enseignants et aux directeurs d’école. Les évaluations
recueillant les données des questionnaires sont administrées tous les
trois ans.

Responsable de l’administration ? L’Uganda National Examinations
Board (UNEB).

Échantillon ou population. Au départ, les districts de chacune des 14
zones du pays ont été sélectionnés dans l’échantillon. La taille de
celui-ci a été augmentée afin d’assurer un minimum de trois établis-
sements par district.

Analyse. Les scores des élèves à chaque épreuve ont été attribués à
l’un des quatre niveaux : « avancé », « satisfaisant », « élémentaire »,
« insuffisant ». Les scores correspondant à ces niveaux ont été déter-
minés et fixés lorsque les épreuves ont été mises au point par des
groupes de représentants du National Curriculum Development
Centre (le centre national de développement des programmes de
cours), des écoles normales primaires, de l’organisme responsable
des normes dans l’éducation, de l’UNEB et des syndicats enseignants.
Pour l’épreuve d’anglais de 50 questions administrée aux élèves de
3e année, les fourchettes de scores suivantes ont été utilisées pour
définir les niveaux de performance : 38 à 50 « avancé », 20 à 37
« satisfaisant », 15 à 19 « élémentaire » et 0 à 14 « insuffisant ». Les
jurys ont décidé que le niveau satisfaisant devait être considéré
comme le niveau minimal de compétence « souhaité ». Moins de
40 % des élèves de 3e année ont atteint ce niveau de compétence
118   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




souhaité en anglais (tableau A.9.1). Les résultats des épreuves ont
été présentés (en pourcentages) par âge des élèves, milieu (urbain ou
rural) de l’établissement, région géographique et zone.

Utilisation des résultats. Pour chaque classe ougandaise de 3e et 6e
années, l’UNEB a imprimé une affiche énumérant les matières pour
lesquelles la performance des élèves a été jugée satisfaisante au niveau
national (par exemple, « Nous sommes capables de compter les
nombres », ou « Nous sommes capables d’additionner et soustraire
des nombres écrits en chiffres et en symboles ») et moins que satisfai-
sante (par exemple, « Aidez-nous à acquérir un vocabulaire plus
riche » ou « Aidez-nous à diviser les nombres correctement » ou
« Aidez-nous à résoudre les problèmes écrits en maths »). Elle a réalisé
une affiche similaire pour les enseignants.
   L’UNEB prévoit de diffuser les principaux enseignements tirés de
la NAPE 2005 sous la forme de rapports conviviaux séparés sur les
implications de la NAPE pour les enseignants, les directeurs d’école,
les superviseurs et inspecteurs, les formateurs d’enseignants et les
décideurs. Il est également en train de concevoir une initiative pilote
visant à utiliser les approches de l’évaluation nationale pour aider à
améliorer l’évaluation en classe.

Éléments intéressants. La grande majorité des élèves a dû passer les
épreuves dans leur seconde langue. Il serait très difficile de trouver une
langue couramment utilisée dans laquelle administrer l’épreuve. Plus
d’un quart des écoles primaires n’a pas pu participer à l’évaluation
nationale, en partie à cause de troubles civils dans certaines régions.
L’UNEB a constaté que les écoles gonflaient parfois leurs données sur les
inscriptions pour accroître le niveau des ressources qui leur sont allouées.


TABLEAU A.9.1
Pourcentages des élèves ougandais de 3e année jugés compétents en
littératie anglaise, 2005
 Note                                    Garçons (%)     Filles (%)   Tous (%)
 Compétent (avancé + satisfaisant)           36,9          39,7        38,3
 Au-dessous du niveau de compétence
 souhaité (élémentaire + insuffisant)         63,1          60,3        61,7
 Source : UNEB, 2006, tableau 3.02.
                                             ÉTUDES DE CAS DE DIFFÉRENTS PAYS   |   119




   De nombreux items de langue étaient placés sous la rubrique
« grammaire » (50 % pour la 3e année et 30 % pour la 6e année). En
général, les élèves ont trouvé difficiles les questions de l’épreuve.
Nombre d’entre eux ont obtenu des scores relativement faibles (voir
figure A.9.1). L’âge normal des élèves de 3e année est d’environ 8 à 9
ans, alors que l’âge moyen réel des élèves qui ont passé l’épreuve de
3e année était de 10,2 ans, certains étant même âgés de 11 ans et plus.
   D’importantes différences de performance ont été constatées entre
les zones. Dans la zone de Kampala, 87,5 % des élèves de 6e année ont
atteint le niveau de compétence souhaité en littératie anglaise. Dans
chacune des six autres zones, le pourcentage correspondant était infé-
rieur à 30. La performance à la sous-épreuve d’écriture pour la 6e
année a révélé des différences substantielles entre les niveaux de per-
formance réels et escomptés. Environ la moitié des élèves a atteint le
niveau de compétence souhaité en rédaction d’une histoire basée sur
une image, un quart en rédaction d’une lettre, et un dixième en com-
position et rédaction d’une histoire. Le rapport technique contient un
échantillon des lettres rédigées par les élèves et énumère les erreurs


 FIGURE A.9.1

 Distribution des scores à l’épreuve de littératie pour la 6e année en Ouganda

                140


                120


                100
    fréquence




                 80


                 60


                40


                20


                 0
                      0   5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85
                                               score

Source : Clarke, 2005.
120   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




les plus courantes relevées dans les épreuves de mathématiques.
Il comprend également une série de recommandations et désigne
pour chacune l’organisme ou l’unité responsable du suivi.
   L’UNEB s’est adjoint les services d’un consultant externe pour
examiner la qualité de son travail, en particulier celle des caractéris-
tiques statistiques de ses items, ainsi que l’adéquation entre les ques-
tions et les objectifs du programme de cours. Le consultant a noté
une étroite correspondance entre les questions et le programme,
mais a recommandé qu’une plus grande attention soit accordée à la
résolution de problèmes en mathématiques. Le travail du consultant
a été quelque peu limité par l’indisponibilité de l’information des
évaluations nationales antérieures relative à la mise au point des
épreuves, la pondération des échantillons, la conception et l’analyse.
Certains des problèmes provenaient du fait que certains travaux
d’analyse de la NAPE avaient été confiés par contrat à un organisme
extérieur à l’UNEB. Le consultant a recommandé que des copies de
tous les instruments, les détails des procédures d’échantillonnage et
d’analyse, et d’autres documents pertinents soient conservés par l’or-
ganisme d’évaluation nationale (UNEB).

Source : UNEB, 2006.
ANNEXE

       B               ÉTUDES
                       INTERNATIONALES




    B.1. TENDANCE DE L’ENQUÊTE INTERNATIONALE SUR LES
    MATHÉMATIQUES ET LES SCIENCES

    Cadre

    L’étude des Tendances de l’enquête internationale sur les mathéma-
    tiques et les sciences (TIMSS – Trends in International Mathematics and
    Science Study) organisée par l’Association internationale pour l’évalua-
    tion du rendement scolaire (IEA – International Association for the
    Evaluation of Educational Achievement) a pour objectifs principaux de :

    • Évaluer les performances des élèves en mathématiques et en
      sciences, décrites sous la forme de concepts, processus, compé-
      tences et attitudes.
    • Décrire le contexte dans lequel se développe la performance des
      élèves, afin d’identifier les facteurs liés à l’apprentissage des élèves
      qui pourraient être améliorés par des changements de politiques
      (concernant, par exemple, l’accent mis par le programme de cours,
      la répartition des ressources ou les pratiques pédagogiques).

      Trois études TIMSS ont été réalisées : en 1994–1995, la première
    portait sur 45 systèmes éducatifs et 3 populations (3e et 4e années ;


                                                                        121
122   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




7e et 8e années, dernière année du secondaire) ; la seconde, en 1999,
sur la 8e année de 38 systèmes éducatifs ; et la troisième, en 2003, sur
les 4e et 8e années de 50 systèmes. Des études supplémentaires avaient
été prévues pour 2007, 2008 (dernière année du secondaire unique-
ment) et 2011.
    L’enquête TIMSS établit une distinction entre les programmes de
cours prévu, délivré et assimilé et analyse la façon dont ils sont reliés. Le
programme de cours prévu représente l’expression des objectifs poursui-
vis par une société en matière d’enseignement et d’apprentissage, qui
sont habituellement décrits dans les programmes, plans de cours, décla-
rations de politiques et règlements, et reflétés par les manuels, res-
sources et examens. Le programme de cours délivré correspond à la façon
dont le programme prévu est interprété par les enseignants et enseigné
aux élèves. L’information sur la mise en œuvre (qui donne une idée des
conditions d’apprentissage des élèves) est principalement recueillie à
l’aide de questionnaires administrés aux enseignants et aux élèves.
Le programme de cours assimilé désigne ce que les élèves ont appris,
comme il est possible de le déduire de leur performance aux épreuves.


Instrumentation

Les composantes mathématiques suivantes sont évaluées par les
épreuves TIMSS :

• Contenu. Nombres ; mesure ; géométrie ; proportionnalité ; fonc-
  tions, relations et équations ; données, probabilité, statistiques ;
  analyse élémentaire ; et validation et structure.
• Performance attendue. Connaître, utiliser des procédures de routine,
  faire des recherches et résoudre des problèmes, raisonner de façon
  mathématique et communiquer.
• Perspectives. Attitudes, carrières, participation, intérêt croissant et
  habitudes mentales.

Les composantes scientifiques de l’enquête TIMSS comprennent les
éléments suivants :

• Contenu. Sciences de la terre ; sciences de la vie ; sciences phy-
  siques ; science, technologie, mathématiques ; histoire des sciences ;
                                           ÉTUDES INTERNATIONALES   |   123




  questions environnementales ; nature de la science ; et sciences et
  autres disciplines.
• Performance attendue. Comprendre ; élaborer des théories, analyser,
  résoudre des problèmes ; utiliser des outils, des procédures de rou-
  tine et des processus scientifiques ; étudier le monde naturel ; et
  communiquer.
• Perspectives. Attitudes, carrières, participation, intérêt croissant,
  sécurité et habitudes mentales.

    Depuis ses débuts, l’enquête TIMSS a modifié ses cadres pour
refléter l’évolution des programmes de cours et de la pédagogie dans
les pays participants. Les concepteurs de l’enquête TIMSS ont utilisé
un cadre de programme de cours fondé sur des études antérieures
(notamment la Deuxième étude internationale sur les mathéma-
tiques, dans le cas de cette matière) pour développer des tests à l’aide
d’un processus de concertation entre les pays participants. Plusieurs
centaines d’items (à choix multiples et à réponses construites) ont été
mis à l’essai et évalués pour déterminer leur pertinence et leur adé-
quation au programme de cours. Pour atteindre une couverture maxi-
male du programme de cours sans imposer une charge trop lourde
aux élèves participant à l’étude, les items de l’épreuve ont été répartis
en plusieurs carnets. Un seul d’entre eux est attribué à chaque élève
participant à l’épreuve. Le Tableau B.1.1 présente un exemple tiré du
cadre de programme de cours de l’évaluation TIMSS 2007.
    Les questionnaires ont été élaborés et administrés pour obtenir de
l’information sur les points suivants :

• Contexte social et éducatif général (niveau du système) ;
• Contexte local, communautaire et scolaire (niveau de l’école) ;
• Facteurs contextuels personnels (niveau individuel des élèves).

Les instruments ont été traduits dans plus de 30 langues.


Participants

Trois populations ont participé à l’enquête TIMSS initiale en 1994–1995 :

• Population 1. Élèves de la paire d’années adjacentes rassemblant la
  majorité des élèves de 9 ans (en général les 3e et 4e années).
124    |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




TABLEAU B.1.1
Pourcentages cibles des épreuves de mathématiques de l’enquête TIMSS 2007
attribués aux domaines de contenus et cognitifs, 4e et 8e années
 Domaines de contenu, 4e année                                           Pourcentages
 Nombres                                                                     50
 Mesures et formes géométriques                                              35
 Représentation des données                                                  15
                                 e
 Domaines de contenu, 8 année                                            Pourcentages
 Nombres                                                                     30
 Algèbre                                                                     30
 Géométrie                                                                   20
 Données et probabilités                                                     20
 Domaines cognitifs                                                      Pourcentages
                                                                4e année           8e année
 Savoir                                                             40                  35
 Appliquer                                                          40                  40
 Raisonner                                                          20                  25
Source : Mullis et coll., 2005, pièce 2. Reproduit avec autorisation.




• Population 2. Élèves de la paire d’années adjacentes rassemblant la
  majorité des élèves de 13 ans (en général les 7e et 8e années).
• Population 3. Élèves de dernière année du secondaire. Deux sous-
  populations étaient identifiées : a) tous les élèves, qui ont passé des
  épreuves de mathématiques et de littératie, et b) les élèves spécia-
  lisés en mathématiques ou en physique, qui ont passé une épreuve
  spécialisée.

   En 1994-1995, 45 systèmes éducatifs ont participé à l’enquête
TIMSS (populations 1, 2 et 3). Parmi eux, un seul était africain
(Afrique du Sud) ; dix se trouvaient en Asie/Moyen-Orient (RAS de
Hong Kong, Chine ; Israël ; Japon ; Koweït ; République de Corée ;
République islamique d’Iran ; Singapour et Thaïlande) ; et un était en
Amérique latine et Caraïbes (Colombie). Les noms des systèmes édu-
catifs cités dans cette annexe sont ceux énumérés dans les rapports
des études.
   En 1999, 38 systèmes éducatifs ont participé à l’enquête TIMSS
(population 2). Parmi eux, trois se trouvaient en Afrique (Afrique du
                                              ÉTUDES INTERNATIONALES   |   125




Sud, Maroc et Tunisie) ; treize en Asie/Moyen-Orient (RAS de
Hong Kong, Chine ; Indonésie ; Israël ; Japon ; Jordanie ; Malaisie ;
Philippines ; République de Corée ; République islamique d’Iran ;
Singapour ; Taipei chinois ; Thaïlande et Turquie) ; et deux en
Amérique latine et Caraïbes (Argentine et Chili).
   L’enquête TIMSS 2003 comprenait 50 participants (populations 1 et
2). Parmi eux, on comptait six pays d’Afrique (Afrique du Sud ; Botswana,
Ghana ; Maroc ; République arabe d’Égypte et Tunisie) ; dix-sept d’Asie/
Moyen-Orient (Arabie saoudite ; Bahreïn ; RAS de Hong Kong,
Chine ; Indonésie ; Israël ; Japon ; Jordanie ; Liban ; Malaisie ; Palestine ;
Philippines ; République arabe syrienne ; République de Corée ;
République du Yémen ; République islamique d’Iran ; Singapour et
Taipei chinois) ; et un d’Amérique latine et des Caraïbes (Chili).


Quelques constatations

Le Tableau B.1.2 présente les résultats à l’épreuve de mathématiques
pour la 8e année en 2003. Dans les systèmes les plus performants,
environ un tiers des élèves ont obtenu un score correspondant au
niveau de référence avancé. En net contraste, dans les 19 systèmes les
moins performants, 1 % des élèves ou moins atteignaient ce niveau de
référence. Singapour s’est classé premier aux épreuves tant de 4e que
de 8e année. Certains systèmes ont considérablement amélioré leurs
performances moyennes par rapport à 1995 et 1999, tandis que
d’autres enregistraient une baisse importante. La République de
Corée; RAS de Hong Kong, Chine; la Lettonie; la Lituanie; et les États-
Unis étaient parmi les pays qui s’étaient améliorés en 8e année.
   Dans l’ensemble, les différences de performance en mathéma-
tiques étaient négligeables entre les sexes. Les filles dépassaient toute-
fois les garçons dans certains systèmes, tandis que ceux-ci étaient plus
performants dans d’autres. Un niveau d’études élevé des parents était
associé à de meilleurs scores de performance dans pratiquement tous
les systèmes. En 2003, tant pour la 4e que pour la 8e année, le nombre
de livres possédés par la famille était corrélé de manière significative
avec la performance en mathématiques des élèves.
   Le degré de couverture du programme de cours testé dans l’en-
quête TIMSS 2003 variait suivant les systèmes. Les rapports des
126        |     ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




TABLEAU B.1.2
Distribution de la performance en mathématiques de l’enquête TIMSS,
8e année
                                         Années       Âge                Distribution des performances en               Score moyen        Indice de
                 Pays                   d’études*    moyen                                                               de l’échelle   développement
                                                                                   mathématiques
                                                                                                                                           humain**

              Singapour                      8        14.3                                                              605 (3.6)          0.884
              Corée, Rép. de                 8        14.6                                                              589 (2.2)          0.879
           †
              RAS de Hong Kong, Chine        8        14.4                                                              586 (3.3)          0.889
              Taipei chinois                 8        14.2                                                              585 (4.6)            –
              Japon                          8        14.4                                                              570 (2.1)          0.932
              Belgique (Flandre)             8        14.1                                                              537 (2.8)          0.937
            †
              Pays-Bas                       8        14.3                                                              536 (3.8)          0.938
              Estonie                        8        15.2                                                              531 (3.0)          0.833
              Hongrie                        8        14.5                                                              529 (3.2)          0.837
              Malaisie                       8        14.3                                                              508 (4.1)          0.790
              Lettonie                       8        15.0                                                              508 (3.2)          0.811
              Fédération de Russie        7 or 8      14.2                                                              508 (3.7)          0.779
              République slovaque            8        14.3                                                              508 (3.3)          0.836
              Australie                   8 or 9      13.9                                                              505 (4.6)          0.939
            ‡
              États-Unis                     8        14.2                                                              504 (3.3)          0.937
            1
              Lituanie                       8        14.9                                                              502 (2.5)          0.824
              Suède                          8        14.9                                                              499 (2.6)          0.941
            1
              Écosse                         9        13.7                                                              498 (3.7)          0.930
            2
              Israël                         8        14.0                                                              496 (3.4)          0.905
              Nouvelle-Zélande           8.5 - 9.5    14.1                                                              494 (5.3)          0.917
              Slovénie                    7 or 8      13.8                                                              493 (2.2)          0.881
               Italie                        8        13.9                                                              484 (3.2)          0.916
              Arménie                        8        14.9                                                              478 (3.0)          0.729
            1
              Serbie                         8        14.9                                                              477 (2.6)            –
              Bulgarie                       8        14.9                                                              476 (4.3)          0.795
              Roumanie                       8        15.0                                                              475 (4.8)          0.773
              Moy. internationale            8        14.5                                                              467 (0.5)            –
              Norvège                        7        13.8                                                              461 (2.5)          0.944
              Moldavie, Rép. de              8        14.9                                                              460 (4.0)          0.700
              Chypre                         8        13.8                                                              459 (1.7)          0.891
            2
              Macédoine, Rép. de             8        14.6                                                              435 (3.5)          0.784
              Liban                          8        14.6                                                              433 (3.1)          0.752
              Jordanie                       8        13.9                                                              424 (4.1)          0.743
              Iran, Rép. islamique d’        8        14.4                                                              411 (2.4)          0.719
            1
              Indonésie                      8        14.5                                                              411 (4.8)          0.682
              Tunisie                        8        14.8                                                              410 (2.2)          0.740
              Égypte                         8        14.4                                                              406 (3.5)          0.648
              Bahreïn                        8        14.1                                                              401 (1.7)          0.839
       Autorité nat. palestinienne           8        14.1                                                              390 (3.1)          0.731
              Chili                          8        14.2                                                              387 (3.3)          0.831
           1‡
              Maroc                          8        15.2                                                              387 (2.5)          0.606
              Philippines                    8        14.8                                                              378 (5.2)          0.751
              Botswana                       8        15.1                                                              366 (2.6)          0.614
              Arabie saoudite                8        14.1                                                              332 (4.6)          0.769
              Ghana                          8        15.5                                                              276 (4.7)          0.567
              Afrique du Sud                 8        15.1                                                              264 (5.5)          0.684
           ¶
              Angleterre                     9        14.3                                                              498 (4.7)          0.930
      Participants de référence
      Pays basque, Espagne                  8         14.1                                                              487 (2.7)            –
      État de l’Indiana, États-Unis         8         14.5                                                              508 (5.2)            –
     Province de l’Ontario, Canada          8         13.8                                                              521 (3.1)            –
      Province du Québec, Canada            8         14.2                                                              543 (3.0)            –
                                                             0     100   200    300   400   500   600       700   800

                                                                             Centiles de performance                      Moyenne du pays nettement
                                                                                                                          supérieure à la moyenne internationale
                                                                         5th     25th        35th 95th
                                                                                                                          Moyenne du pays nettement inférieure
                                                                 Intervalle de confiance de 95 % de la moyenne             à la moyenne internationale
                                                                                 (±2 écarts types)

*    Représente l’année d’études comptée à partir de la première année du niveau 1 de la CITE.
**    Tiré du Rapport 2003 sur le développement humain du Programme des Nations Unies pour le développement, p. 237-240.
†    N’a respecté les directives pour les taux de participation de l’échantillon qu’après inclusion des écoles
     de remplacement (voir pièce A.9).
‡    A tout juste respecté les directives pour les taux de participation de l’échantillon, et ce uniquement après
     inclusion des écoles de remplacement (voir pièce A.9).
¶    N’a pas respecté les directives pour les taux de participation de l’échantillon (voir pièce A.9).
1    La population nationale souhaitée ne couvre pas toute la population internationale souhaitée (voir pièce A.6).
2    La population nationale définie couvre moins de 90 % de la population internationale souhaitée (voir pièce A.6).
     La Corée a testé la même cohorte d’élèves que les autres pays, mais plus tard en 2003, au début de l’année scolaire suivante.
()   Les écarts types figurent entre parenthèses. Parce que les résultats sont arrondis à l’entier le plus proche,
     certains totaux peuvent sembler incohérents.
Un tiret (–) indique que des données comparables ne sont pas disponibles.

Source : Mullis et coll., 2004, pièce 1.1. Reproduit avec autorisation.
                                               ÉTUDES INTERNATIONALES   |   127




enseignants indiquaient qu’en moyenne, les sujets liés aux nombres
avaient été enseignés à 95 % des élèves de 8e année, les sujets liés aux
mesures à 78 %, les sujets de géométrie à 69 %, les sujets d’algèbre à
66 % et les sujets liés aux données à 46 %. Plus de 80 % des élèves
avaient des enseignants ayant au moins une certaine formation pro-
fessionnelle en mathématiques. Les manuels scolaires étaient large-
ment utilisés comme base d’enseignement. L’usage de la calculatrice,
en revanche, variait fortement d’un système à l’autre. L’utilisation
généralisée en 4e année n’était autorisée que dans cinq systèmes. Les
écoles avec peu d’élèves issus de familles défavorisées ont obtenu en
moyenne des scores supérieurs de 57 points en 8e année et 47 points
en 4e année à ceux des écoles dont plus de la moitié des élèves prove-
naient de foyers défavorisés.



B.2. PROGRAMME INTERNATIONAL DE RECHERCHE EN
LECTURE SCOLAIRE

Cadre

L’étude de la lecture scolaire réalisée par l’IEA en 1991 a servi de base
à la définition de la littératie dans le Programme international de
recherche en lecture scolaire (PIRLS – Progress in International
Reading Literacy Study). Pour les PIRLS (de 2001 et 2006), la com-
préhension de l’écrit a été définie comme

  « ... l’aptitude à comprendre et utiliser les formes de langage écrit
  requises par la société ou valorisées par l’individu. Les jeunes
  lecteurs peuvent découvrir le sens de textes très variés. Ils lisent
  pour apprendre, pour s’intégrer dans des communautés de
  lecteurs à l’école et dans la vie de tous les jours, et pour le plaisir ».
  (IEA, 2000, 3)

   Le cadre d’évaluation PIRLS comprend deux grandes fins de lec-
ture croisées avec quatre processus de compréhension. Les fins sont
les suivantes :

• littéraire. Lecture en vue d’une expérience littéraire, dans laquelle
  le lecteur s’implique dans le texte pour s’embarquer dans des
128   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




  événements et avec des personnages imaginaires et pour apprécier
  la langue elle-même.
• informative. Lecture en vue d’obtenir et utiliser de l’information,
  où le lecteur s’intéresse à des aspects du monde réel représentés
  par des textes chronologiques (par exemple lorsque des événe-
  ments sont décrits dans des biographies, des recettes ou des ins-
  tructions) ou non chronologiques dans lesquels les idées sont
  organisées de manière logique plutôt que chronologique (par
  exemple des textes de discussion ou d’argumentation).

  Les processus de compréhension exigent que les élèves sachent :

• Se concentrer sur des informations énoncées de façon explicite et les
  retrouver dans le texte. Par exemple, rechercher des idées spéci-
  fiques ; trouver la phrase présentant explicitement le sujet ou l’idée
  principale.
• Faire des inférences simples. Par exemple, déduire qu’un événement
  en a entraîné un autre ; identifier les généralisations dans un texte.
• Interpréter et combiner des idées et informations. Par exemple, distin-
  guer le message global ou le thème d’un texte ; comparer et
  confronter des informations textuelles.
• Examiner et évaluer le contenu, le langage et les éléments textuels.
  Décrire comment l’auteur a imaginé une fin surprenante ; juger de
  l’exhaustivité ou de la clarté des informations dans le texte.

  Des enquêtes PIRLS ont été réalisées en 2001 et 2006.



Instruments

Il a été estimé que l’utilisation de textes « authentiques » (c’est-à-dire
du type de ceux que lisent les élèves dans leurs expériences quoti-
diennes) pour chaque fin (lecture en vue d’une expérience littéraire
et lecture en vue d’acquérir et utiliser de l’information) nécessiterait
une épreuve de quatre heures. Parce que demander aux élèves de
rester assis pendant plus d’une heure dans une situation d’examen
semblait peu raisonnable, le matériel d’évaluation a été réparti en dix
carnets, chaque élève n’en complétant qu’un seul.
                                          ÉTUDES INTERNATIONALES   |   129




    L’aptitude des élèves par rapport à chacun des quatre processus
de compréhension a été évaluée dans les questions accompagnant
les textes. Deux formats ont été utilisés : questions à choix multiples
et réponses construites.
    De l’information sur l’attitude des élèves vis-à-vis de la lecture
et sur leurs habitudes de lecture a été obtenue à l’aide d’un
questionnaire. Des questionnaires ont également été administrés aux
parents, aux enseignants et aux directeurs d’école pour recueillir de
l’information sur les expériences des élèves à la maison et à l’école,
considérées comme pertinentes par rapport au développement de la
compréhension de l’écrit.


Participants

La population cible du PIRLS a été définie comme les élèves de l’an-
née supérieure de la paire d’années adjacentes regroupant la majorité
des enfants de neuf ans. Dans la plupart des systèmes, il s’agissait de
la 4e année.
   En 2001, 35 systèmes éducatifs ont participé au PIRLS. Ils compre-
naient un pays d’Afrique (Maroc) ; six d’Asie/Moyen-Orient (RAS de
Hong Kong, Chine ; Israël ; Koweït ; République islamique d’Iran ;
Singapour et Turquie) ; et trois d’Amérique latine et Caraïbes
(Argentine, Belize et Colombie) (Mullis et coll., 2003). En 2006,
les participants au PIRLS étaient au nombre de 41. Le nombre des
pays africains avait augmenté d’une unité (avec l’arrivée de l’Afrique
du Sud). Les pays d’Asie ou du Moyen-Orient étaient deux de plus
(entrée de Taipei chinois, de l’Indonésie et du Qatar, mais abandon de
la Turquie). Un système éducatif d’Amérique latine et des Caraïbes a
participé (Trinidad et Tobago a rejoint le programme, tandis que les
trois participants de 2001 l’ont quitté).
   Il avait été prévu que le PIRLS soit administré à nouveau en 2011.


Quelques constatations

Quatre catégories de référence ont été créées sur la base des scores
des élèves aux épreuves : la catégorie du quart inférieur, définie comme
130   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




le 25e centile (point au-dessus duquel les 75 % supérieurs ont été
notés) ; la catégorie médiane, définie comme le 50e centile ; la catégorie
du quart supérieur, définie comme le 75e centile ; et la catégorie des
10 % supérieurs, définie comme le 90e centile. Si la distribution des
scores de performance à la compréhension de l’écrit était la même
dans tous les pays, environ 10 % des élèves de chaque pays seraient
classés dans la catégorie supérieure. Le Tableau B.2.1 présente les
résultats pour les pays participants. Il montre, par exemple, que 24 %
des élèves anglais avaient un score les classant dans la catégorie la plus
élevée tandis que dix systèmes avaient moins de 5 % des élèves dans
cette catégorie.
   Les filles ont obtenu des scores moyens sensiblement supérieurs
à ceux des garçons dans tous les systèmes. Pour les items évaluant
la lecture à des fins informatives, les élèves de Suède, des Pays-Bas
et de Bulgarie ont obtenu les meilleurs scores. Les activités de lit-
tératie précoce avant l’entrée à l’école, comme la lecture de livres
et le récit d’histoires, étaient positivement corrélées aux perfor-
mances ultérieures en lecture. Les enfants dont les parents ont des
attitudes favorables à la lecture ont obtenu des notes plus élevées
en compréhension de l’écrit. Les élèves parlant à la maison la
langue utilisée dans l’évaluation avaient tendance à obtenir des
scores plus élevés que ceux parlant d’autres langues. Les réponses
des directeurs d’école montraient que pendant les cinq premières
années et dans tous les systèmes éducatifs, l’accent était plus
fortement mis sur la lecture que sur toutes les autres matières du
programme.
   En moyenne, les enseignants ont déclaré qu’ils demandaient, tous
les jours, à la majorité des élèves de 4e année de lire à voix haute
devant la classe. Ils utilisaient relativement peu les bibliothèques,
même si celles-ci étaient généralement disponibles. En moyenne,
la plupart des enseignants se fondaient sur leurs propres évaluations
plutôt que sur des tests objectifs pour suivre les progrès des élèves.
Près de deux élèves sur trois ont déclaré lire des histoires ou des
romans au moins une fois par semaine. Dans tous les systèmes, l’atti-
tude des élèves à l’égard de la lecture était positivement corrélée à la
performance en lecture.
                                                                                               ÉTUDES INTERNATIONALES                                    |   131



TABLEAU B.2.1
Pourcentage des élèves dans les catégories de performance PIRLS en
compréhension de l’écrit, 4e année
                                                                                                     Catégorie Catégorie                    Catégorie
                                                  Pourcentage des élèves dans les catégories                              Catégorie
                              Pays                                                                   des 10 %   du quart                    du quart
                                                         de référence internationales                                     médiane
                                                                                                     supérieurs supérieur                    inférieur
                     ** Angleterre                                                                    24 (1.6        45 (1.9)    72 (1.6)    90 (1.0)
                      Bulgarie                                                                        21 (1.3)       45 (1.9)    72 (1.9)    91 (1.1)
                          Suède                                                                       20 (1.1)       47 (1.4)    80 (1.3)    96 (0.5)
                    * États-Unis                                                                      19 (1.3)       41 (2.0)    68 (2.0)    89 (1.2)
                  Nouvelle-Zélande                                                                    17 (1.4)       35 (1.7)    62 (1.9)    84 (1.3)
                      1
                          Canada                                                                      16 (1.0)       37 (1.3)    69 (1.3)    93 (0.6)
                     Singapour                                                                        15 (1.5)       35 (2.3)    64 (2.3)    85 (1.6)
                     * Pays-Bas                                                                       14 (1.0)       40 (1.7)    79 (1.5)    98 (0.5)
                              Italie                                                                  14 (1.0)       36 (1.3)    69 (1.5)    92 (0.8)
                      * Écosse                                                                        14 (1.1)       32 (1.8)    62 (1.8)    87 (1.1)
                      Hongrie                                                                         13 (0.9)       36 (1.5)    71 (1.2)    94 (0.6)
                      1
                          Lituanie                                                                    13 (1.4)       36 (1.7)    71 (1.7)    95 (0.6)
                      Lettonie                                                                        12 (1.1)       36 (1.6)    73 (1.5)    96 (0.6)
                     Allemagne                                                                        12 (0.8)       34 (1.3)    69 (1.2)    93 (0.6)
                          2
                              Israël                                                                  11 (0.8)       28 (1.2)    54 (1.4)    79 (1.1)
                     Roumanie                                                                         11 (1.3)       27 (2.0)    54 (2.1)    81 (1.7)
                 République tchèque                                                                   10 (0.9)       32 (1.5)    68 (1.5)    93 (0.7)
                          2
                              Grèce                                                                   10 (0.8)       28 (2.0)    60 (2.2)    89 (1.2)
                          France                                                                      9 (0.9)        26 (1.2)    60 (1.4)    90 (0.9)
             2
                 Fédération de Russie                                                                 8 (1.0)        27 (2.1)    64 (2.3)    92 (1.6)
             République slovaque                                                                      7 (1.0)        23 (1.4)    59 (1.7)    88 (1.1)
                          Islande                                                                     7 (0.6)        23 (1.0)    53 (1.0)    85 (0.8)
           RAS de Hong Kong, Chine                                                                    6 (0.7)        26 (1.7)    64 (1.9)    92 (1.1)
                      Norvège                                                                         6 (0.9)        19 (1.2)    48 (1.4)    80 (1.4)
                          Chypre                                                                      6 (0.8)        18 (1.3)    45 (1.6)    77 (1.4)
                      Slovénie                                                                        4 (0.5)        17 (1.0)    48 (1.2)    83 (0.9)
                 Moldavie, Rép. de                                                                    4 (0.9)        15 (1.8)    79 (1.7)    42 (2.5)
                 Macédoine, Rép. de                                                                   3 (0.4)        10 (0.9)    28 (1.5)    55 (2.1)
                          Turquie                                                                     2 (0.3)         7 (0.9)    25 (1.6)    58 (1.7)
                     Argentine                                                                        2 (0.4)         5 (0.8)    17 (1.6)    46 (2.5)
             Iran, Rép. islamique d’                                                                  1 (0.2)         4 (0.5)    16 (1.4)    42 (1.9)
                     Colombie                                                                         1 (0.4)         3 (0.8)    45 (2.4)    14 (1.5)
                          2
                              Maroc                                                                   1 (0.9)         3 (1.4)    8 (2.1)     23 (3.0)
                          Koweït                                                                      0 (0.1)         2 (0.4)    10 (1.1)    36 (2.0)
                              Belize                                                                  0 (0.2)         1 (0.4)    5 (0.6)     16 (1.3)




                   Ontario (Canada)                                                                   19 (1.4)       40 (1.8)    70 (1.6)    92 (0.8)
                  Québec (Canada)                                                                     11 (1.0)       31 (1.8)    67 (2.0)    94 (0.8)

                                        0255075                                                100

                                                                                                 Catégorie des 10 % supérieurs (90e centile) = 615
                                                                                                  Catégorie du quart supérieur (75e centile) = 570
                                        Pourcentage     Pourcentage     Pourcentage                              Catégorie médiane (50e centile) = 510
                                        des élèves      des élèves      des élèves
                                        atteignant ou   atteignant ou   atteignant ou                Catégorie du quart inférieur (25e centile) = 435
                                        dépassant la    dépassant la    dépassant la
                                        catégorie       catégorie       catégorie
                                        des 10 %        du quart        médiane
                                        supérieurs      supérieur


*    Le Canada n’est représenté que par les provinces de l’Ontario et du Québec. La moyenne internationale
     n’inclut pas les résultats de ces provinces séparément.
†    N’a respecté les directives sur les taux de participation de l’échantillon qu’après l’inclusion des écoles de
     remplacement (voir pièce A.7).
‡    A tout juste respecté les directives sur les taux de participation de l’échantillon et ce, uniquement après
     inclusion des écoles de remplacement (voir pièce A.7).
¶    La population nationale souhaitée ne couvre pas toute la population internationale souhaitée. Parce que
     la couverture est inférieure à 65 %, le Canada est noté comme « Canada (O, Q) » pour les provinces de
     l’Ontario et du Québec uniquement.
2a La population nationale définie couvre moins de 95 % de la population internationale souhaitée (voir pièce A.4).
2b La population nationale définie couvre moins de 80 % de la population internationale souhaitée (voir pièce A.4).
()   Les écarts types apparaissent entre parenthèses. Parce que les résultats sont arrondis à l’entier le plus proche,
     certains totaux peuvent sembler incohérents.

Source : Mullis et coll., 2004, pièce 1.1. Reproduit avec autorisation.
132   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




B.3. PROGRAMME INTERNATIONAL POUR LE SUIVI DES
ACQUIS DES ÉLÈVES

Cadre

Le Programme international pour le suivi des acquis des élèves (PISA)
évalue les savoirs et savoir-faire des élèves de quinze ans à des inter-
valles de trois ans sous les auspices de l’Organisation de coopération
et de développement économiques (OCDE). L’enquête PISA a été
développée pour fournir des indicateurs réguliers de la performance
des élèves en fin de scolarité obligatoire en vue de l’élaboration des
indicateurs internationaux de l’OCDE sur les systèmes éducatifs.
   Les élèves sont évalués dans trois domaines : compréhension de
l’écrit, culture mathématique et culture scientifique. À ce jour, trois
évaluations PISA ont été réalisées. En 2000, la compréhension de
l’écrit était le principal domaine évalué, avec les mathématiques et les
sciences comme domaines secondaires. En 2003, le domaine principal
était les mathématiques ; les domaines secondaires étant la compré-
hension de l’écrit et les sciences. En 2006, c’était au tour des sciences
de constituer le domaine principal, tandis que les domaines secon-
daires étaient la compréhension de l’écrit et les mathématiques.
   Les épreuves PISA sont conçues pour être utilisées par chacun des
pays pour a) évaluer les savoir-faire en compréhension de l’écrit de ses
élèves par rapport à ceux des pays participants ; b) constituer des
références permettant de suivre l’amélioration de l’éducation par
comparaison avec les performances des élèves d’autres pays ; et
c) évaluer sa capacité à entretenir des niveaux élevés d’équité en
matière de chances et de résultats éducatifs. Les épreuves PISA
cherchent à évaluer dans quelle mesure les élèves sur le point de ter-
miner leur scolarité obligatoire ont acquis certains des savoirs et
savoir-faire indispensables pour participer pleinement à la société.


Participants

En 2000, 32 pays ont participé au PISA. Deux ans plus tard, 11 pays
supplémentaires ont effectué les tâches d’évaluation du PISA
2000. Aucun pays africain n’a participé à l’évaluation de 2000. Les par-
ticipants d’Asie/du Moyen-Orient comprenaient deux pays de l’OCDE
                                            ÉTUDES INTERNATIONALES   |   133




(Japon et République de Corée) et cinq pays « partenaires » non
membres de l’OCDE (Fédération de Russie ; RAS de Hong Kong,
Chine ; Indonésie ; Israël et Thaïlande). Les systèmes participants
d’Amérique latine et des Caraïbes comprenaient le Mexique ainsi que
les pays non membres de l’OCDE suivants : Argentine, Brésil, Chili et
Pérou. Les 30 États membres de l’OCDE et 11 systèmes « partenaires »
ont pris part à l’évaluation en 2003. Parmi les nouveaux systèmes par-
tenaires, un se trouvait en Afrique (Tunisie) ; un en Asie (RAS de Macao,
Chine) ; et un autre en Amérique latine et Caraïbes (Uruguay). Trois
systèmes partenaires de l’évaluation initiale (Argentine, Chili et Pérou)
n’ont pas participé en 2003. La Turquie, un pays de l’OCDE, a parti-
cipé pour la première fois en 2003. En 2006, le nombre de systèmes
participants était passé à 57. La Tunisie est restée le seul système afri-
cain participant. Les nouveaux systèmes partenaires en Asie/Moyen-
Orient comprenaient l’Azerbaïdjan, la Jordanie, le Kirghizistan, le Qatar
et Taipei chinois. Les systèmes d’Amérique latine qui avaient participé
aux évaluations de 2000 ou de 2003 ont passé les épreuves PISA en
2006, de même qu’un nouveau système partenaire (Colombie).
   La population étudiée est constituée d’élèves de quinze ans. Ils
font l’objet d’un échantillonnage aléatoire à travers les années scolaires
dans les écoles participantes.



Instruments

L’épreuve de compréhension de l’écrit suppose que les élèves sont
techniquement capables de lire et s’efforce d’évaluer leur aptitude à
comprendre et à réfléchir, dans différentes situations, à partir d’un
large éventail de textes écrits. Il couvre trois dimensions : le contenu
ou format des textes (continu, comme les narrations et descriptions,
ou discontinu, comme les tableaux, graphiques et formulaires) ; les
processus qui doivent être effectués (localisation, compréhension,
interprétation, réflexion/évaluation) ; et le contexte où les savoirs et
savoir-faire sont mis à contribution ou appliqués (usages personnel,
public, professionnel et éducatif).
   L’épreuve de culture mathématique porte sur l’aptitude des élèves à
formuler, employer et interpréter les mathématiques dans un éventail
de contextes. Le cadre mathématique comprend trois dimensions : le
134   |       ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




contenu (quantité, espace et formes, variations et relations, incertitude
et données) ; les compétences (groupe de reproduction, groupe de
connexions et groupe de réflexion) ; et le contexte (personnel, profes-
sionnel, sociétal, et scientifique). Les items de l’épreuve se rapprochent
davantage de situations « réelles » que ne le font normalement les tests
de performance conventionnels (voir figure B.3.1).

 FIGURE B.3.1

 Exemple d’items de mathématiques du PISA

          Menuisier

          Un menuisier dispose de 32 mètres de bois et veut construire
          une bordure autour d’une plate-bande. Il envisage les plans
          suivants pour la plate-bande.
          A                                         B



                      6m                                            6m



                      10 m                                         10 m


          C                                         D


                      6m                                            6m




                      10 m                                         10 m



                                        Question 1
                    Pour chaque plan, entourer « oui » ou « non »
                    pour indiquer si la bordure peut être construite
                               avec 32 mètres de bois.

                     Plan de       En utilisant ce plan, est-il possible de
                    la plate-          construire une bordure avec
                     bande                   32 mètres de bois ?
                   Plan A       Oui / Non
                   Plan B       Oui / Non
                   Plan C       Oui / Non
                   Plan D       Oui / Non

Source : OCDE, 2003. Reproduit avec autorisation.
                                             ÉTUDES INTERNATIONALES   |   135




   L’épreuve de culture scientifique évalue l’aptitude des élèves à tirer
des conclusions appropriées à partir des éléments et de l’information
fournis, de critiquer des affirmations sur la base d’éléments probants
et de faire la différence entre des opinions et des déclarations fondées
sur des preuves. Le cadre pour la science comprend trois dimensions :
concepts (scientifiques en rapport avec la physique, la chimie, la biolo-
gie et les sciences de la Terre et de l’espace) ; processus (décrire, expli-
quer et prévoir des phénomènes scientifiques ; comprendre la
démarche scientifique ; et interpréter des données et des conclusions
scientifiques) ; et application (à la vie et à la santé ; à la Terre et à
l’environnement ; à la technologie).
   Pour assure une couverture correcte des domaines d’intérêt,
l’épreuve doit comporter un nombre d’items nettement supérieur à
celui auquel un élève est à même de répondre. Les items de l’épreuve
sont donc répartis en treize carnets constitués de diverses combinai-
sons pour les mathématiques, la compréhension de l’écrit, les sciences
et la résolution de problèmes.
   Des questionnaires sont administrés aux élèves (pour recueillir
des renseignements sur leur engagement vis-à-vis de l’apprentissage,
leurs stratégies d’apprentissage et leurs idées à propos d’eux-mêmes ;
leur perception de l’environnement d’apprentissage ; et leur milieu
familial) et aux directeurs d’école (pour obtenir des informations
sur les politiques et pratiques scolaires et la qualité des ressources
disponibles) (OCDE, 2004b).


Quelques constatations

Les rapports PISA présentent les notes moyennes des pays dans
un « palmarès » (figure B.3.2). Il classe également la performance
des élèves par niveaux de compétence, basés sur ce que, selon les
scores aux épreuves, les élèves sont typiquement capables de faire.
La figure B.3.3 décrit les savoir-faire associés à chacun des six niveaux
de compétence PISA pour les mathématiques. La figure suivante
(figure B.3.4) résume la performance des élèves de chaque pays par
niveau de compétence.
   Les résultats montrent des différences très importantes entre des
pays tels que la Finlande, la République de Corée et le Canada, où la
majorité des élèves ont obtenu un score supérieur au niveau 2, et le
136         |     ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




   FIGURE B.3.2

   Scores moyens et scores des sous-échelles de compréhension de l’écrit aux épreuves
   PISA, 2000
                                                                                              Sous-échelles de compréhension de l’écrit

        Score combiné de
     compréhension de l’écrit                         Localisation de l’information                      Interprétation des textes                         Réflexion sur les textes
     Pays                      Moyenne                 Pays                       Moyenne                 Pays               Moyenne                     Pays               Moyenne
     Finlande                     546                  Finlande                      556                  Finlande             555                       Canada               542
     Canada                       534                  Australie                     536                  Canada               532                       Royaume-Uni          539
     Nouvelle-Zélande             529                  Nouvelle-Zélande              535                  Australie            527                       Irlande              533
     Australie                    528                  Canada                        530                  Irlande              526                       Finlande             533
     Irlande                      527                  Corée, Rép. de                530                  Nouvelle-Zélande     526                       Japon                530
     Corée, Rép. de               525                  Japon                         526                  Corée, Rép. de       525                       Nouvelle-Zélande     529
     Royaume-Uni                  523                  Irlande                       524                  Suède                522                       Australie            526
     Japon                        522                  Royaume-Uni                   523                  Japon                518                       Corée, Rép. de       526
     Suède                        516                  Suède                         516                  Islande              514                       Autriche             512
     Autriche                     507                  France                        515                  Royaume-Uni          514                       Suède                510
     Belgique                     507                  Belgique                      515                  Belgique             512                       États-Unis           507
     Islande                      507                  Norvège                       505                  Autriche             508                       Norvège              506
     Norvège                      505                  Autriche                      502                  France               506                       Espagne              506
     France                       505                  Islande                       500                  Norvège              505                       Islande              501
     États-Unis                   504                  États-Unis                    499                  États-Unis           505                       Danemark             500
     Danemark                     497                  Suisse                        498                  République tchèque   500                       Belgique             497
     Suisse                       494                   Danemark                     498                  Suisse               496                       France               496
     Espagne                      493                  Italie                        488                  Danemark             494                       Grèce                495
     République tchèque           492                   Espagne                      483                   Espagne             491                       Suisse               488
     Italie                       487                  Allemagne                     483                   Italie              489                       République tchèque   485
     Allemagne                    484                   République tchèque           481                  Allemagne            488                       Italie               483
     Hongrie                      480                  Hongrie                       478                  Pologne              482                       Hongrie              481
     Pologne                      479                  Pologne                       475                  Hongrie              490                        Portugal            480
     Grèce                        474                  Portugal                      455                  Grèce                475                       Allemagne            478
     Portugal                     470                   Grèce                        450                  Portugal             473                       Pologne              477
     Luxembourg                   441                  Luxembourg                    433                  Luxembourg           446                       Mexique              446
     Mexique                      422                  Mexique                       402                  Mexique              419                       Luxembourg           442
     Moyenne de l’OCDE            500                  Moyenne de l’OCDE             498                  Moyenne de l’OCDE    501                       Moyenne de l’OCDE    502

     Pays non membres de l’OCDE                        Pays non membres de l’OCDE                        Pays non membres de l’OCDE                     Pays non membres de l’OCDE
     Liechtenstein           483                       Liechtenstein           492                        Liechtenstein         484                      Liechtenstein          468
     Fédération de Russie    462                       Lettonie                451                        Fédération de Russie 468                       Lettonie               458
     Lettonie                458                       Fédération de Russie    451                        Lettonie              459                      Fédération de Russie   455
     Brésil                  396                       Brésil                  365                        Brésil                400                      Brésil                 417


REMARQUE : Bien que les Pays-Bas aient participé aux épreuves PISA en 2000, des problèmes techniques liés à leur échantillon empêchent de discuter ici leurs résultats. Pour plus d’information
                sur les résultats obtenus par les Pays-Bas, voir OCDE, 2001. La moyenne de l’OCDE est la moyenne des moyennes nationales des 27 pays de l’OCDE. L’enquête PISA étant
                principalement une étude de l’OCDE, les résultats des pays non membres de l’OCDE sont présentés séparément de ceux des pays de l’OCDE et ne sont pas inclus dans la
                moyenne de ces derniers.


                          La moyenne est nettement plus élevée que celle des États-Unis.                 La moyenne n’est pas sensiblement différente de celle des États-Unis.



                                                                   La moyenne est sensiblement plus faible que celle des États-Unis.




  Source : OCDE, 2001, figure 3. Reproduit avec autorisation.




Brésil, la Tunisie et l’Indonésie, où seule une petite minorité a atteint
ce niveau de compétence. Il a également été constaté que moins de
5 % des élèves des pays de l’OCDE atteignaient le niveau 6, alors
qu’environ un tiers était capable d’effectuer les tâches associées aux
niveaux 4, 5 et 6. En mathématiques, 11 % des élèves n’étaient pas
capables d’effectuer les tâches du niveau 1. Dans la plupart des pays,
les garçons avaient tendance à obtenir de meilleurs scores que les
filles, notamment pour les tâches associées à l’espace et aux formes.
Dans certains pays (Australie, Autriche, Japon, Norvège, Pays-Bas et
Pologne), les différences de performance entre les sexes n’étaient pas
significatives. Les filles avaient tendance à avoir moins d’intérêt pour
                                                                     ÉTUDES INTERNATIONALES                      |    137




FIGURE B.3.3

Niveaux de compétence des élèves en mathématiques aux épreuves PISA


                            Compétences



Points            Niveau   Au niveau 6, les élèves sont capables de conceptualiser, de généraliser et d’utiliser des
de score                   informations sur la base de leurs propres recherches et de la modélisation de problèmes
                           complexes. Ils peuvent établir des liens entre différentes représentations et sources
                           d’information et passer des unes aux autres sans difficulté. Les élèves à ce niveau peuvent
                           se livrer à des raisonnements et à des réflexions mathématiques difficiles. Ils peuvent
                           s’appuyer sur leur compréhension approfondie et leur maîtrise des relations symboliques
                           et des opérations mathématiques classiques pour élaborer de nouvelles approches et de
                           nouvelles stratégies à appliquer lorsqu’ils sont face à des situations qu’ils n’ont jamais
                           rencontrées. Ils peuvent décrire clairement et communiquer avec précision leurs actes et
                           les fruits de leur réflexion – résultats, interprétations, arguments – qui sont en adéquation
                           avec les situations initiales.

           668
                  Niveau   Au niveau 5, les élèves peuvent élaborer et utiliser des modèles dans des situations complexes
                           pour identifier des contraintes et construire des hypothèses. Ils sont capables de choisir, de
                           comparer et d’appliquer des stratégies de résolutions de problèmes leur permettant de
                           s’attaquer à des problèmes complexes en rapport avec ces modèles. À ce niveau, les élèves
                           peuvent aborder les situations sous un angle stratégique en mettant en œuvre un grand
                           éventail de compétences pointues de raisonnement et de réflexion, en utilisant les
                           caractérisations symboliques et formelles et les représentations s'y afférent et en s’appuyant
                           sur leur compréhension approfondie de ces situations. Ils peuvent réfléchir à leurs actes et
                           formuler et communiquer leurs interprétations et leur raisonnement.
           606
                  Niveau   Au niveau 4, les élèves sont capables d’utiliser des modèles explicites pour faire face à des
                           situations concrètes complexes qui peuvent leur demander de tenir compte de contraintes
                           ou de construire des hypothèses. Ils peuvent choisir et intégrer différentes représentations,
                           dont des représentations symboliques, et les relier directement à certains aspects de
                           situations tirées du monde réel. À ce niveau, les élèves peuvent mettre en œuvre un éventail
                           de compétences pointues dans ces situations et raisonner avec une certaine souplesse en
                           s’appuyant sur leur compréhension de ces contextes. Ils peuvent formuler des explications
                           et des arguments sur la base de leurs interprétations et de leurs actions et les communiquer.
           544
                  Niveau   Au niveau 3, les élèves peuvent appliquer des procédures bien définies, notamment celles
                           qui leur demandent de prendre des décisions séquentielles. Ils peuvent choisir et mettre en
                           œuvre des stratégies simples de résolution de problèmes. À ce niveau, les élèves peuvent
                           interpréter et utiliser des représentations basées sur différentes sources d’information et
                           construire leur raisonnement directement sur cette base. Ils peuvent rendre compte
                           succinctement de leurs interprétations, de leurs résultats et de leur raisonnement.
           482
                  Niveau   Au niveau 2, les élèves peuvent interpréter et reconnaître des situations dans des contextes
                           qui leur demandent tout au plus d’établir des inférences directes. Ils ne peuvent puiser des
                            informations pertinentes que dans une seule source d’information et n’utiliser qu’un seul
                           mode de représentation.
                           Les élèves à ce niveau sont capables d’utiliser des algorithmes, des formules, des
                           procédures ou des conventions élémentaires. Ils peuvent se livrer à un raisonnement direct
           420             et interpréter les résultats de manière littérale.
                  Niveau    Au niveau 1, les élèves peuvent répondre à des questions s’inscrivant dans des contextes
                            familiers, dont la résolution ne demande pas d’autres informations que celles présentes et
                            qui sont énoncées de manière explicite. Ils sont capables d’identifier les informations et
                            d’appliquer des procédures de routine sur la base de consignes directes dans des situations
                            explicites. Ils peuvent exécuter des actions qui vont de soi et qui découlent directement du
                            stimulus donné.
           358




Source : OCDE, 2004a, figure 1. Reproduit avec autorisation.
138    |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




    FIGURE B.3.4

    Pourcentage des élèves à chaque niveau de compétence de l’échelle de
    culture mathématique du PISA

Pourcentage des élèves
100

75

50

25

0

25

50

75

100
                         Turquie


                          Tunisie
                      Finlande
          République de Corée
                        Canada
      RAS de Hong Kong,Chine
                      Pays-Bas
          RAS de Macao,Chine
                 Liechtenstein
                         Japon
                      Australie
                         Suisse
                        Islande
             Nouvelle-Zélande
                    Danemark
                      Belgique
           République tchèque
                         France
                        Irlande
                         Suède
                       Autriche
          République slovaque
                      Norvège
                    Allemagne
                  Luxembourg
                       Pologne
                      Espagne
                       Hongrie
                       Lettonie
                     États-Unis
                       Portugal
                Féd. de Russie
                           Italie
                          Grèce
                         Serbie
                       Uruguay
                     Thaïlande
                      Mexique
                          Brésil
                     Indonésie




Les pays sont classés par ordre décroissant des pourcentages d’élèves de 15 ans aux
niveaux 2, 3, 4, 5 et 6.

               En dessous du niveau 1        Niveau 1      Niveau 2   Niveau 3
               Niveau 4                      Niveau 5      Niveau 6

Source: OCDE, 2003b, figure 2.16a. Reproduit avec autorisation.



les mathématiques et à moins les apprécier. Elles ont déclaré ressentir
plus de stress que les garçons dans ce domaine du programme de
cours. Les élèves des États-Unis ont généralement une meilleure
confiance en eux en mathématiques que ceux d’autres pays. En
revanche, les élèves du Japon et de la République de Corée, qui ont
obtenu les meilleurs scores à l’épreuve de mathématiques, avaient
tendance à avoir une opinion relativement mauvaise de leurs capaci-
tés dans cette matière. La profession des parents et leur soutien à
l’éducation étaient fortement corrélés aux performances des élèves.
                                                          ÉTUDES INTERNATIONALES   |   139




   Les différences de performance en sciences étaient rarement mani-
festes entre les sexes. Des pourcentages similaires de garçons et de
filles ont obtenu des scores particulièrement élevés et faibles. En com-
préhension de l’écrit, le score moyen de la Finlande était supérieur à
la moyenne de l’OCDE de plus d’un demi-niveau de compétence.
La Finlande, la République de Corée et le Canada ont également
enregistré des différences internes relativement faibles, témoignant
ainsi de plus hauts niveaux d’équité dans l’enseignement que la plu-
part des pays participants. Très peu d’élèves en Indonésie, Tunisie ou
Serbie ont atteint un niveau 3 ou plus (voir figure B.3.5).


    FIGURE B.3.5

    Pourcentage des élèves à chaque niveau de compétence de l’échelle de
    compréhension de l’écrit du PISA

Pourcentage des élèves
100

75

50

25

0

25

50

75

100
                        Turquie



                         Tunisie
                     Finlande
         République de Corée
                       Canada
                Liechtenstein
                     Australie
     RAS de Hong Kong,Chine
                       Irlande
            Nouvelle-Zélande
                        Suède
                     Pays-Bas
                     Belgique
         RAS de Macao,Chine
                        Suisse
                     Norvège
                        Japon
                        France
                      Pologne
                   Danemark
                    États-Unis
                   Allemagne
                       Islande
                      Autriche
                      Lettonie
          République tchèque
                 Luxembourg
                     Espagne
                      Hongrie
                      Portugal
                          Italie
                         Grèce
         République slovaque
                      Uruguay
               Féd. de Russie
                         Brésil
                    Thaïlande
                     Mexique
                        Serbie
                    Indonésie




Les pays sont classés par ordre décroissant des pourcentages d’élèves de 15 ans aux
niveaux 3, 4 et 5.

              En dessous du niveau 1         Niveau 1      Niveau 2   Niveau 3
              Niveau 4                       Niveau 5

Source: OCDE, 2004b, figure 6.2. Reproduit avec autorisation.
ANNEXE

       C              ÉTUDES RÉGIONALES




    C.1. CONSORTIUM DE L’AFRIQUE AUSTRALE ET ORIENTALE
    POUR LE PILOTAGE DE LA QUALITÉ DE L’ÉDUCATION

    Cadre

    Le Consortium de l’Afrique australe et orientale pour le pilotage de
    la qualité de l’éducation (SACMEQ) est un groupement volontaire
    de ministères de l’Éducation de pays d’Afrique australe et orientale,
    comprenant l’Afrique du Sud, le Botswana, le Kenya, le Lesotho, le
    Malawi, Maurice, le Mozambique, la Namibie, l’Ouganda, les
    Seychelles, le Swaziland, la Tanzanie (continentale), la Tanzanie
    (Zanzibar), la Zambie et le Zimbabwe. Lancé en 1995 avec le
    concours de l’Institut international de planification de l’éducation
    (IIPE) de l’Organisation des Nations Unies pour l’éducation, la
    science et la culture (UNESCO), le SACMEQ a été conçu pour a)
    renforcer la capacité institutionnelle à travers une formation
    commune (« apprentissage par la pratique » destiné aux planifica-
    teurs de l’éducation) et une recherche coopérative sur la scolarisa-
    tion et la qualité de l’éducation (par exemple, l’identification des
    faiblesses des systèmes éducatifs en matière d’intrants et de
    processus) et b) suivre l’évolution de la performance (IIPE, 2007).


                                                                     141
142   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




Une caractéristique notable du SACMEQ est sa stratégie de consul-
tation systématique des décideurs de haut niveau de l’État, dans le
but d’identifier les questions susceptibles d’être abordées dans les
études empiriques. Il cherche également à promouvoir la participa-
tion des parties concernées et une plus grande transparence dans la
prise de décision. La première série d’études SACMEQ a été réali-
sée entre 1995 et 1999.
   Les préoccupations politiques des études SACMEQ II réalisées
entre 2000 et 2003 étaient regroupées sous cinq thèmes principaux
(Murimba, 2005b ; Passos et coll., 2005) :

• caractéristiques des élèves et de leurs environnements
  d’apprentissage ;
• caractéristiques et perceptions des enseignants (par exemple, en
  matière d’enseignement et de ressources) ;
• caractéristiques et perceptions des directeurs d’école (par exemple,
  en matière de fonctionnement des établissements et de problèmes
  rencontrés) ;
• équité dans l’allocation des ressources humaines et matérielles
  entre les régions et les établissements ;
• performances des élèves et de leurs enseignants en lecture et
  mathématiques.

   Le SACMEQ était fondé sur une étude antérieure (1991) réalisée
au Zimbabwe (Ross et Postlethwaite, 1991) et a commencé comme
une série d’études nationales. Il avait néanmoins une dimension
internationale dans la mesure où les études avaient de nombreuses
caractéristiques en commun (questions de recherche, instruments,
populations cibles, procédures d’échantillonnage et analyses).
Chaque pays a fait l’objet d’un rapport distinct. Des comparaisons
internationales ont été faites pour le SACMEQ II, mais pas pour le
SACMEQ I.


Instruments

Les données sur les niveaux des élèves en compréhension de l’écrit et
numératie ont été recueillies à l’aide d’un test de performance. Un
certain nombre d’items de l’enquête TIMSS ont été intégrés dans les
                                                ÉTUDES RÉGIONALES   |   143




épreuves SACMEQ II afin de recueillir des données de comparaison.
Des questionnaires ont été utilisés pour collecter des données de base
sur les intrants éducatifs, les conditions générales de scolarité et
l’équité dans l’allocation des ressources humaines et matérielles.
L’information sur le milieu familial a été obtenue à l’aide de question-
naires demandant aux élèves d’indiquer le nombre des biens existant
dans leurs maisons à partir d’une liste d’éléments tels qu’un quotidien,
un magazine hebdomadaire ou mensuel, un poste de radio, un télévi-
seur, un téléphone, une motocyclette, une bicyclette, l’eau courante et
l’électricité.
   Les épreuves SACMEQ II reprennent des items sélectionnés dans
quatre études antérieures : l’étude des Indicateurs de qualité de l’édu-
cation au Zimbabwe, le SACMEQ I, l’enquête TIMSS et l’étude de la
compréhension de l’écrit de l’Association internationale pour l’éva-
luation du rendement scolaire (IEA). L’utilisation de ces items a per-
mis de comparer les performances des élèves dans ces études avec
celles atteintes dans le SACMEQ II.
   Les rapports accordent une place considérable à la description des
caractéristiques des enseignants (leurs qualifications, par exemple) et
des conditions dans les établissements (le mobilier, les fournitures, la
taille des classes et l’espace, par exemple), à leur comparaison avec les
données de référence du ministère, et à leurs variations en fonction
des établissements et de la situation géographique.
   Le SACMEQ II a adopté la définition de la compréhension de
l’écrit utilisée dans l’étude de l’IEA (en 1990) : « [L’]aptitude à com-
prendre et à utiliser les formes du langage écrit requises par la société
et/ou valorisées par l’individu » (Elley, 1992, 3). Les épreuves ont
également été mises au point sur la base des trois domaines identifiés
dans l’étude de l’IEA :

• Prose narrative. Texte continu où l’auteur cherche à raconter une
  histoire réelle ou fictive.
• Prose explicative. Texte continu visant à décrire, expliquer, ou autre-
  ment communiquer une information factuelle ou une opinion.
• Documents. Information structurée présentée sous forme de
  diagrammes, tableaux, cartes, graphiques, listes ou ensembles
  d’instructions.
144   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




   Un tableau des spécifications a croisé ces trois domaines avec sept
niveaux de compétence en lecture :

•   Citation littérale
•   Concept de paraphrase
•   Identification de l’idée principale
•   Déduction à partir du texte
•   Localisation de l’information
•   Localisation et traitement
•   Application des règles.

   Le SACMEQ II définit la culture mathématique comme « la
capacité à comprendre et à appliquer des algorithmes mathématiques
et à en tirer des jugements en tant qu’individu et que membre de la
société en général » (Shabalala, 2005, 76). L’épreuve a évalué la
compétence dans trois domaines :

• Nombres. Opérations et droite numérique, racines carrées, arrondi
  et valeur associée à la position des chiffres dans un nombre, chiffres
  significatifs, fractions, pourcentages, ratios.
• Mesures. Distance, longueur, superficie, capacité, monétaires, temps.
• Données spatiales. Formes géométriques, graphiques, tableaux de
  données.

   Le tableau des spécifications a fait correspondre ces trois domaines
avec cinq niveaux de compétence « proposés » (ou attendus), allant, par
exemple, de la capacité d’effectuer des opérations simples uniques sur
des nombres à deux chiffres maximum (niveau 1) jusqu’à la capacité de
faire des calculs comportant plusieurs étapes et un mélange d’opéra-
tions utilisant des fractions, des nombres décimaux et entiers (niveau 5).
   La plupart des items de l’épreuve étaient à choix multiples.
   Les résultats ont été présentés sous trois formes : a) scores moyens ;
b) pourcentages des élèves ayant atteint les niveaux de performance
minimum et souhaités ; et c) pourcentages des élèves ayant atteint les
huit niveaux de compétence définis à l’aide de la théorie de la réponse
à l’item (Rasch).
   Les scores moyens sont les mesures moyennes de la performance
de différentes catégories d’élèves (par exemple, les garçons et les filles,
les élèves des provinces ou des districts).
                                                 ÉTUDES RÉGIONALES   |   145




  Avant la collecte des données, les niveaux de performance mini-
mum et souhaités ont été définis par des comités d’experts (composés
de spécialistes des programmes de cours, de chercheurs et d’ensei-
gnants expérimentés). Deux niveaux ont été identifiés :

• Un niveau minimum indiquant que l’élève devrait à peine suivre
  pendant l’année scolaire suivante.
• Un niveau souhaité indiquant que l’élève devrait être capable de
  réussir l’année suivante.

   Des analyses ont été effectuées pour identifier les niveaux de com-
pétence atteints par les élèves et donner une meilleure idée de la
nature des performances des élèves. Les compétences en compréhen-
sion de l’écrit associées aux huit niveaux étaient les suivants :

• Niveau 1. Prélecture : faire correspondre des mots et des images
  représentant des concepts concrets et des objets du quotidien.
• Niveau 2. Lecture débutante : faire correspondre des mots et des
  images représentant des concepts plus abstraits tels que des propo-
  sitions de position ou de direction ; utiliser des systèmes d’indices
  pour interpréter les phrases dans la suite du texte.
• Niveau 3. Lecture élémentaire : interpréter le sens (en faisant cor-
  respondre les mots ou expressions qui complètent une phrase)
  d’un texte court et simple.
• Niveau 4. Lecture de compréhension : parcourir le texte vers
  l’avant et l’arrière pour relier et interpréter des informations situées
  à divers endroits.
• Niveau 5. Lecture interprétative : parcourir le texte vers l’avant et
  l’arrière pour combiner et interpréter des informations situées à
  divers endroits, en association avec des informations externes
  (rappelées) qui complètent le sens et le mettent dans son contexte.
• Niveau 6. Lecture inférentielle : lire des textes (narratifs, informa-
  tifs) plus longs pour combiner des informations tirées de diverses
  parties du texte afin d’en déduire l’intention de l’auteur.
• Niveau 7. Lecture analytique : localiser des informations dans des
  textes (narratifs, informatifs) plus longs pour combiner des infor-
  mations afin d’en déduire les convictions personnelles de l’auteur
  (système de valeurs, préjugés, partis pris).
146   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




• Niveau 8. Lecture critique : localiser des informations dans des
  textes (narratifs, informatifs) plus longs pour déduire et évaluer les
  hypothèses de l’auteur à propos du sujet et des caractéristiques du
  lecteur (par exemple, âge, connaissances, convictions personnelles,
  valeurs).

   Les compétences en mathématiques associées aux huit niveaux
étaient les suivantes :

• Niveau 1. Prénumératie : effectuer des opérations simples d’addi-
  tion ou de soustraction sur des nombres à un chiffre ; reconnaître
  des formes simples ; faire correspondre des nombres à un chiffre et
  des images ; compter les nombres entiers.
• Niveau 2. Numératie débutante : effectuer des opérations d’addi-
  tion ou de soustraction sur des nombres à deux chiffres, avec des
  retenues et une vérification (par une estimation simple) ; détermi-
  ner la longueur de formes familières ; reconnaître des formes bidi-
  mensionnelles courantes.
• Niveau 3. Numératie élémentaire : traduire des informations
  graphiques en fractions ; reconnaître la valeur associée à la
  position des chiffres dans des nombres entiers inférieurs ou égaux
  à mille ; interpréter des unités de mesure quotidiennes simples
  courantes.
• Niveau 4. Numératie débutante : effectuer différentes opérations
  mathématiques sur des nombres entiers, fractions et/ou nombres
  décimaux.
• Niveau 5. Numératie démontrée : résoudre des problèmes à l’aide
  d’opérations multiples impliquant des unités de mesure quoti-
  diennes, des nombres entiers et mixtes.
• Niveau 6. Compétence mathématique : résoudre des problèmes à
  l’aide d’opérations multiples impliquant des fractions, des rapports
  et des nombres décimaux ; traduction sous forme symbolique,
  algébrique et d’équations d’informations présentées de manières
  verbale et graphique.
• Niveau 7. Résolution de problèmes concrets : extraction d’infor-
  mations de tableaux, graphiques et représentations visuelles et
  symboliques pour identifier et résoudre des problèmes à plusieurs
  étapes.
                                               ÉTUDES RÉGIONALES   |   147




• Niveau 8. Résolution de problèmes abstraits : identification de la
  nature d’un problème mathématique implicite intégré dans une
  information verbale ou graphique, et traduction sous forme
  algébrique ou d’équations pour résoudre le problème.


Participants

Entre 1995 et 1999, 7 ministères de l’Éducation ont recueilli des
informations dans le SACMEQ I sur la compréhension de l’écrit des
élèves de 6e année. Entre 2000 et 2002, 14 ministères ont participé
aux enquêtes SACMEQ II sur la compréhension de l’écrit et la numé-
ratie des élèves de 6e année. Les conditions différaient considérable-
ment d’un pays à l’autre. Par exemple, le revenu national brut des
Seychelles (6 730 dollars EU) était près de 40 fois supérieur à celui du
Malawi (170 dollars EU). La dépense publique dans l’éducation allait
de 30 % au Swaziland à 7 % en Tanzanie, tandis que le pourcentage
d’une cohorte de même âge scolarisée dans le primaire variait entre
environ 40 % au Mozambique et un peu plus de 90 % à Maurice, aux
Seychelles et en Afrique du Sud (Murimba, 2005b).
   Tout comme les élèves, les enseignants ont répondu aux épreuves
dans un certain nombre de pays.


Quelques constatations

Les pays présentaient des différences de performance considérables
(Figure C.1.1). Seul 1 % des élèves de 6e année avaient atteint le
niveau « souhaité » en compréhension de l’écrit au Malawi, contre
37 % au Zimbabwe. Dans les pays participant au SACMEQ II, près de
4 élèves sur 10 avaient atteint le niveau « minimum » de maîtrise en
compréhension de l’écrit (fixé par chaque pays avant que l’épreuve
soit administrée), mais seulement 1 sur 10 le niveau « souhaité ».
   La comparaison des scores en compréhension de l’écrit des élèves
urbains et ruraux a révélé de grandes différences en faveur des élèves
urbains dans quatre pays (Kenya, Namibie, Tanzanie et Zambie), tan-
dis qu’à Maurice et aux Seychelles, la différence n’était pas statisti-
quement significative. Les causes probables des différences entre les
milieux urbains et ruraux étaient complexes. Par rapport à ceux des
148   |    ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




 FIGURE C.1.1

 Pourcentage des élèves de 6e année ayant atteint les niveaux de
 compétence SACMEQ en compréhension de l’écrit, 1995-1998

           Kenya                             23
                                                                                      65
      Zimbabwe                                             37
                                                                                56
          Maurice                                 27
                                                                           53
       Zanzibar             5
(R.U. Tanzanie)                                                   46
          Namibie               8
                                                 26
          Zambie        2
                                                 26
           Malawi 1                         22

                    0           10     20         30        40        50         60        70
                        élèves ayant atteint les niveaux de compétence en lecture (%)

                                             souhaité       minimum

Source : UNESCO, 2004, Figure 3.1. Reproduit avec autorisation.



milieux urbains, les élèves des zones rurales avaient un statut socioé-
conomique familial plus bas, étaient plus âgés, plus susceptibles
d’avoir redoublé une année et de recevoir moins de soutien à domi-
cile pour leurs devoirs scolaires. En outre, les écoles rurales bénéfi-
ciaient en général de ressources moins importantes et de moins bonne
qualité que les écoles urbaines, ce qui se reflétait dans la façon dont
les enseignants donnaient et corrigeaient les devoirs des élèves, la fré-
quence de leurs rencontres avec les parents d’élèves et le degré de
soutien apporté par les inspecteurs (Zhang, 2006).
   Une caractéristique intéressante des études SACMEQ a été l’utili-
sation des résultats pour comparer l’allocation des ressources et les
tendances de la performance en compréhension de l’écrit au cours
d’une période marquée par une augmentation rapide de la scolarisa-
tion dans la région. Les six systèmes d’éducation qui ont participé
aux études SACMEQ I (1995) et SACMEQ II (2000) ont connu un
accroissement global de l’allocation des ressources aux écoles entre les
deux évaluations (Murimba, 2005a). Dans cinq des six pays, les scores
nationaux moyens en littératie ont toutefois diminué (figure C.1.2),
avec des différences statistiquement significatives uniquement au
                                                                 ÉTUDES RÉGIONALES   |   149




   FIGURE C.1.2

   Évolution des performances en littératie entre les épreuves SACMEQ I et
   SACMEQ II

                              560
                                                                         Kenya
 Scores moyens en fréquence




                              540
                                                                         Maurice
                              520

                              500

                              480                                         Moyenne
                                                                         Zanzibar
                                                                         (R.U. De Tanzanie)
                              460
                                                                         Namibie
                              440                                        Zambie
                                                                         Malawi
                              420
                                    SACMEQ I                        SACMEQ II
                                     1995 - 96                       2000- 01

Source : UNESCO, 2004, figure 2.4. Reproduit avec autorisation.



Malawi, en Namibie et en Zambie. Dans l’ensemble, les scores ont
baissé en moyenne de 4 % dans les six pays.
   Chaque rapport national a émis une série de recommandations
destinées aux décideurs politiques. Par exemple, le rapport tanzanien
a recommandé que les autorités étudient les différences de scolarisa-
tion entre les sexes et identifient des options pour aider à combler
l’écart entre eux (Mrutu, Ponera et Nkumbi, 2005). Cette action
devait comprendre la fourniture de soins aux enfants orphelins pour
soulager les filles de lourdes responsabilités domestiques afin qu’elles
puissent aller à l’école.
   Un certain nombre de pays ont également utilisé l’épreuve admi-
nistrée aux élèves pour évaluer la maîtrise du sujet par les enseignants.
En Tanzanie, moins de la moitié des enseignants ont atteint le plus
haut niveau (niveau 8) en compréhension de l’écrit (46,1 %) ou en
mathématiques (43,9 %).
   Les résultats des épreuves SACMEQ ont été présentés dans les
commissions présidentielles et nationales (au Zimbabwe et la
Namibie), dans les examens de la politique de l’éducation par le
Premier ministre et le gouvernement (à Zanzibar), dans les études
150   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




sectorielles de l’éducation nationale (en Zambie) et dans les examens
d’un schéma directeur national pour l’éducation (à Maurice).
   Plusieurs pays ont considéré les résultats comme un signe de la
nécessité d’établir des normes pour les ressources de l’éducation. Par
exemple, le Kenya a fixé des critères pour l’équipement des classes
(comme les bureaux et les livres par élève). Au Zimbabwe, des fonds
spéciaux ont été mis à disposition pour les fournitures scolaires.
   Les taux élevés d’abandon et faibles d’achèvement des études ont
poussé le ministère de l’Éducation du Kenya à renforcer son secteur
de l’enseignement non formel afin de prendre en charge ceux qui ne
s’adaptent pas au système formel. Toujours au Kenya, les constata-
tions de l’étude SACMEQ sur le genre, les disparités régionales et les
inefficacités internes ont été utilisées pour guider l’élaboration de
plans d’action pour la mise en œuvre de l’éducation pour tous aux
niveaux national, provincial et des districts (Murimba, 2005a).


C.2. PROGRAMME D’ANALYSE DES SYSTÈMES ÉDUCATIFS
DE LA CONFEMEN

Cadre

Le Programme d’analyse des systèmes éducatifs (PASEC) est mené
sous les auspices de la Conférence des ministres de l’Éducation des
États et gouvernements de la Francophonie (CONFEMEN, aussi
appelée Conférence des ministres de l’Éducation des pays ayant le
français en partage). Il a été lancé en 1991 lors d’une conférence des
ministres francophones de l’Éducation à Djibouti, où la première
étude a été réalisée en 1992.
   Le PASEC a pour principal objectif d’éclairer la prise de décision
en matière d’éducation et, plus spécifiquement, d’aborder d’impor-
tantes questions de politique nationale. Pour ce faire, il évalue la per-
formance des élèves et tente d’identifier les facteurs clés ainsi que les
coûts qui lui sont associés, afin d’établir une hiérarchie des interven-
tions éducatives potentielles, sur la base de leur efficacité.
   Le PASEC présente cinq caractéristiques notables. Premièrement,
les propositions d’études des pays sont examinées lors d’une réu-
nion des membres de la CONFEMEN, ce qui lui donne une
                                               ÉTUDES RÉGIONALES   |   151




dimension internationale. En cas d’approbation d’une proposition, le
représentant du pays à la CONFEMEN est chargé de la mise en place,
au sein du ministère de l’Éducation, d’un groupe interdisciplinaire
d’experts qui sera responsable de la mise en œuvre (conception et
administration des questionnaires, saisie et analyse des données, pro-
duction des rapports). À la base, le PASEC n’est toutefois pas prévu
pour comparer les performances des élèves entre les pays.
   Deuxièmement, les élèves sont testés en début et en fin d’année
scolaire. Cela signifie que dans les analyses, les caractéristiques des
élèves à l’entrée peuvent être prises en compte pour obtenir une
mesure de leurs progrès au cours de l’année scolaire.
   Troisièmement, dans quatre pays (Guinée, Mali, Niger et Togo),
des études ont été conçues autour d’un thème particulier. Par exemple,
celui de la Guinée et du Togo était les politiques d’emploi des ensei-
gnants (y compris leur formation) introduites au Togo en 1983 et en
Guinée en 1998 pour réduire l’embauche de plus d’enseignants tout
en reconnaissant que ces mesures pouvaient affecter la qualité de
l’enseignement.
   Quatrièmement, à partir de 1995, les mêmes instruments ont été
utilisés dans cinq pays (Burkina Faso, Cameroun, Côte d’Ivoire,
Sénégal [1995-1996], et Madagascar [1997-1998]), permettant ainsi
des comparaisons internationales.
   Cinquièmement, dans deux pays (Côte d’Ivoire et Sénégal), des
études longitudinales ont suivi, de 1995 à 2000, des groupes repré-
sentatifs d’élèves de leur 2e jusqu’à leur 6e année.


Instruments

Les épreuves (comportant des questions à choix multiples et à
réponse construite) ont été conçues en français et en mathématiques
sur la base d’éléments communs aux programmes de cours des pays
francophones d’Afrique. Elles devaient être administrées au début et
à la fin des 2e et 5e années. En plus des items basés sur la matière étu-
diée au cours de l’année, les épreuves de fin d’année en reprenaient
certains utilisés en début d’année.
   En 2e année, les épreuves de français évaluaient le vocabulaire écrit
des élèves, la compréhension de phrases et de textes, et l’écriture.
152   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




En plus d’évaluer la compréhension, celles de 5e année portaient sur
l’orthographe et certains aspects grammaticaux.
   Les épreuves de mathématiques de 5e année comprenaient des
items évaluant la connaissance des propriétés des nombres et l’apti-
tude à effectuer des calculs de base (addition et soustraction). Elles
comportaient également des items nécessitant que les élèves utilisent
l’addition, la soustraction, la multiplication et la division pour résoudre
des problèmes, de même que des items portant sur les nombres déci-
maux et les fractions ainsi que sur les concepts géométriques de base.
   À Maurice, une épreuve en arabe et, à Madagascar, une épreuve en
malgache ont également été administrées. Au Cameroun, une traduc-
tion en anglais de l’épreuve de français a été administrée aux élèves
anglophones.
   Des questionnaires administrés aux élèves ont recueilli des don-
nées sur leurs caractéristiques personnelles (sexe, âge, nutrition et
langue parlée) et leurs facteurs contextuels (niveau d’études des
parents, disponibilité de livres à la maison et distance par rapport à
l’école). Des questionnaires administrés aux enseignants portaient sur
leurs caractéristiques personnelles (sexe, âge et niveau d’études ou
formation) et sur l’environnement de leurs classes.
   Les analyses ont tenté d’identifier les relations entre les facteurs
contextuels et la performance des élèves. Une attention particulière a
été accordée à la « croissance » ou « valeur ajoutée » au cours d’une
année ainsi qu’à la contribution de facteurs purement scolaires, tels
que le niveau de formation des enseignants, la taille des classes et la
disponibilité de manuels scolaires, et de facteurs non scolaires, tels
que le niveau d’études des parents, la distance par rapport à l’école et
la langue parlée à la maison (Bernard, 1999 ; CONFEMEN, 1999 ;
Kulpoo et Coustère, 1999).

Participants

À ce jour, 18 pays ont participé à des activités du PASEC : Bénin,
Burkina Faso, Cameroun, Côte d’Ivoire, Djibouti, Gabon, Guinée,
Madagascar, Mali, Mauritanie, Maurice, Niger, République centrafri-
caine, République démocratique du Congo, République du Congo,
Sénégal, Tchad et Togo.
                                               ÉTUDES RÉGIONALES   |   153




Quelques constatations

Les résultats indiquent de faibles niveaux de performance, comme en
témoignent les scores obtenus aux épreuves de compréhension de
l’écrit et de mathématiques (figure C.2.1). « Faible performance »
correspondait à un score inférieur au 25e percentile.
   Plusieurs analyses des données du PASEC ont été effectuées.
Dans l’une d’elles, les données de cinq pays (Burkina Faso, Cameroun,
Côte d’Ivoire, Madagascar et Sénégal) ont été utilisées dans un
modèle linéaire hiérarchique pour évaluer les caractéristiques
individuelles, des établissements et nationales, déterminant la
performance des élèves de cinquième année en français et en mathé-
matiques (Michaelowa, 2001). Certaines des constatations sont les
suivantes :
   Premièrement, la performance des élèves était liée à une variété
de caractéristiques des élèves et des familles (notamment le
niveau d’études des parents et l’usage du français à la maison).
Deuxièmement, même si les élèves semblaient tirer un avantage du
redoublement, celui-ci n’était que temporaire. Troisièmement, la
formation, tant initiale que continue, des enseignants apparaissait
comme un déterminant important de la performance des élèves.
Quatrièmement, le nombre de jours d’absence des enseignants
affectait négativement la performance des élèves. Cinquièmement,
même s’ils étaient moins bien payés, les enseignants « volontaires »
(employés par les parents d’élèves) étaient plus efficaces que les
enseignants fonctionnaires.
   Sixièmement, l’appartenance à un syndicat d’enseignants était
significativement et négativement liée à la performance des élèves.
Septièmement, la disponibilité de manuels scolaires avait un effet for-
tement positif sur les acquis des élèves. Huitièmement, la taille des
classes (jusqu’à 62 élèves) était positivement liée à la performance.
Neuvièmement, l’apprentissage dans des classes à années multiples
avait un effet positif sur la performance. Dixièmement, les élèves des
écoles visitées pendant l’année par un inspecteur avaient de meilleurs
résultats que ceux des écoles qui ne l’étaient pas. Enfin, les élèves
semblaient avoir de meilleures performances lorsque leur enseignant
était du même sexe qu’eux.
154                        |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




   FIGURE C.2.1

   Pourcentage des élèves de 5e année ayant une faible performance, PASEC,
   1996-2001
élèves de 5e année ayant




                           50
une faible performance




                                   41 43
                           40                  36
                                                    33            32
                           30                                                                      27
                                                             17           19 22             21
                           20                                                          16               14
                           10
                               0
                                   Sénégal   Madagascar      Burkina      Togo          Côte      Cameroun
                                                             Faso                      d’lvoire
                                                          Français     Mathématiques

Source : UNESCO, 2004, Figure 3.32. Reproduit avec autorisation.
Note : L’évaluation a été effectuée au Burkina Faso, au Cameroun, en Côte d’Ivoire et au Sénégal en
1995/1996 ; à Madagascar en 1997/1998 ; et au Togo en 2000/2001. Les pays sont classés en fonction
de la proportion des élèves peu performants en mathématiques. La « faible performance » en
compréhension de l’écrit et en mathématiques est définie par un score inférieur au 25e percentile.




C.3. LABORATORIO LATINOAMERICANO DE EVALUACIÓN DE
LA CALIDAD DE LA EDUCACIÓN

Cadre

La Première étude comparative internationale de langue et de mathé-
matiques en Amérique latine a été réalisée par le Laboratorio
Latinoamericano de Evaluación de la Calidad de la Educación (LLECE
– le laboratoire latino-américain pour l’évaluation de la qualité de
l’éducation). Ce réseau de systèmes éducatifs nationaux d’Amérique
latine et des Caraïbes a été créé en 1994 et est coordonné par le
Bureau régional de l’UNESCO pour l’Amérique latine et les Caraïbes.
   Le but principal de l’étude était de fournir une information sur la
performance des élèves et les facteurs associés, qui pourrait être utile à la
formulation et à la mise en œuvre des politiques éducatives dans ces
pays. Pour ce faire, elle a évalué les performances de populations du pri-
maire pour répondre aux questions suivantes : Qu’apprennent les
élèves ? À quels niveaux l’apprentissage a-t-il lieu ? Quelles compétences
les élèves ont-ils acquises ? Quand l’apprentissage a-t-il lieu ? Dans
quelles conditions l’apprentissage a-t-il lieu ? (Casassus et coll., 1998).
                                                 ÉTUDES RÉGIONALES   |   155




   L’approche comparative a été considérée comme l’un des meil-
leurs moyens d’accroître la compréhension de la situation de l’éduca-
tion au sein des pays. La nécessité d’une étude internationale en
Amérique latine provenait du fait que peu de pays de la région avaient
participé à ce type d’études et que, lorsqu’ils l’avaient fait, les carac-
téristiques des programmes de cours propres à la région n’avaient pas
été prises en compte.


Instruments

Des épreuves reflétant le contenu du programme de cours de chaque
pays participant ont été mises au point en langue et en mathéma-
tiques. Elles comportaient des items à choix multiples et à réponse
ouverte (en langue uniquement).
   En langue, les composantes étaient la compréhension de l’écrit, la
pratique métalinguistique et la production de texte en espagnol, sauf
au Brésil où les élèves ont été évalués en portugais.
   Les composantes pour les mathématiques étaient les nombres, les
opérations sur les nombres naturels, les fractions, la géométrie et le
système métrique.
   Une information très complète a été recueillie dans les question-
naires (remplis par les élèves, les enseignants, les directeurs d’école et
les parents ou tuteurs) sur les facteurs considérés comme susceptibles
d’être associés à la performance des élèves (par exemple, la situation
géographique et le type de l’établissement, le niveau d’études des
parents ou tuteurs, et la perception des enseignants et des élèves de la
disponibilité des ressources d’apprentissage dans l’établissement).


Participants

En 1997, 13 pays ont participé à une enquête : Argentine, Bolivie,
Brésil, Chili, Colombie, Costa Rica, Cuba, Honduras, Mexique,
Paraguay, Pérou, République bolivarienne du Venezuela et République
dominicaine. Les données de 11 pays ont été intégrées dans le pre-
mier rapport de l’enquête.
   Dans chaque pays, des échantillons d’environ 4 000 élèves de
3e année (8 et 9 ans) et 4e année (9 et 10 ans) ont été évalués.
156   |   ÉVALUER LES NIVEAUX NATIONAUX DE PERFORMANCE DANS L’ÉDUCATION




Les « 20 % les plus âgés de la population totale » ont été exclus
(Casassus et coll., 1998, 18).


Quelques constatations

Les résultats, classés par type d’établissement fréquenté (public ou
privé) et situation géographique (villes de plus d’un million d’habi-
tants, milieux urbain et rural), indiquaient que les niveaux de perfor-
mance des élèves cubains, quelle que soit la situation géographique de
l’établissement, dépassaient de loin ceux observés dans d’autres pays
(tableaux C.3.1 et C.3.2). Plus de 90 % des élèves cubains avaient
atteint le niveau de compétence le plus élevé (niveau III) en langue.
À une exception près (écoles rurales), plus de 75 % l’atteignaient en
mathématiques. Alors que 72 % des élèves des zones rurales de Cuba
atteignaient le niveau III en mathématiques, moins de 10 % des élèves
de ces régions y parvenaient dans la plupart des autres pays.
    D’autres analyses des données LLECE ont porté sur la manière dont
la relation entre le statut socioéconomique (basé sur le niveau d’études
des parents) et la performance variait selon les pays (voir figure C.3.1).
Les données indiquent que les gradients socioéconomiques différaient
considérablement entre les pays, avec une relation plus prononcée en
Argentine et au Brésil qu’à Cuba, où le niveau d’études des parents
variait peu. Même si les élèves des écoles privées surpassaient ceux des
écoles publiques, les différences entre les groupes n’étaient pas signifi-
catives lorsque le statut socioéconomique de l’élève était pris en
compte (Sommet des Amériques, 2003).
    Cuba présentait à la fois la plus faible variation dans le niveau
d’études des parents et le plus haut niveau de performance des
élèves. D’autres analyses ont révélé que, par rapport à d’autres pays,
Cuba a généralement plus de garderies d’enfants, plus d’activités
éducatives à la maison, de plus petites classes, plus d’enseignants
qualifiés et moins de classes multigrades ou regroupées par aptitude
(Willms et Somers, 2001). Dans une étude de suivi, les résultats
LLECE ont été utilisés pour identifier les établissements présentant
des résultats remarquables dans sept pays : Argentine, Bolivie,
Chili, Colombie, Costa Rica, Cuba et République bolivarienne du
Venezuela (LLECE, 2002).
      TABLEAU C.3.1
      Pourcentage des élèves ayant atteint les différents niveaux de performance en langue, par type d’établissement et situation géographique,
      LLECE, 1997
                                    Public               Privé                   Mégapole                 Zone urbaine              Zone rurale
                        Niveau Niveau Niveau Niveau Niveau Niveau Niveau Niveau Niveau Niveau Niveau Niveau Niveau Niveau Niveau
      Pays                 I      II    III     I      II    III     I      II    III     I      II    III     I      II    III
      Argentine            95         77     57   99      93      78       96       85      72       96       79         59   88        62        42
      Bolivie              87         55     30   91      70      46       90       66      39       87       58         35   77        40        24
      Brésil               95         80     54   98      93      72       96       88      62       95       82         58   84        62        38
      Chili                93         71     49   97      86      67       94       76      53       95       79         60   89        63        41
      Colombie             89         59     35   97      81      56       96       79      53       89       60         36   89        57        33
      Cuba                100         98     92   s.o.   s.o.     s.o.    100       99      93      100       98         92   100       98        92
      Rép.
      dominicaine          77         52     30   83      64      42       84       65      42       73       44         25   73        39        20
      Honduras             87         55     29   94      73      44       92       67      38       87       55         29   78        35        17
      Mexique              89         58     38   96      84      65       94       70      50       89       64         43   82        48        30
      Paraguay             88         60     37   93      75      54      s.o.     s.o.     s.o.     90       67         44   81        51        32
      Pérou                86         55     29   94      78      54       92       70      43       85       57         34   71        30        13
      Venezuela,
      R. boliv. du         88         59     38   91      70      49       91       68      48       88       60         38   84        58        39
      Source : UNESCO, 2001, tableau 8.
      Remarque : s.o. = sans objet.




157
158
      TABLEAU C.3.2
      Pourcentage des élèves ayant atteint chaque niveau de performance en mathématiques, par type d’établissement et situation géographique,
      LLECE, 1997
                                    Public               Privé                  Mégapole               Zone urbaine             Zone rurale
                        Niveau Niveau Niveau Niveau Niveau Niveau Niveau Niveau Niveau Niveau Niveau Niveau Niveau Niveau Niveau
      Pays                 I      II    III     I      II    III     I      II    III     I      II    III     I      II    III
      Argentine            96         54     12   98      71     23      98        70      26     96       54         11   94       43          6
      Bolivie              93         43      9   96      59     18      95        49      12     94       51         14   89       36          8
      Brésil               93         52     12   97      67     26      96        58      17     94       55         15   84       40          7
      Chili                92         46      7   97      57     15      94        49      10     95       52         12   87       38          6
      Colombie             93         42      5   97      55     10      97        53       8     93       43          6   92       50        12
      Cuba                100         92     79   s.o.   s.o.    s.o.   100        95      82     99       90         76   99       50        72
      Rép.
      dominicaine          82         37      4   86      43      7      86        42       6     81       36          4   79       38          7
      Honduras             84         36      7   93      39      5      87        35       3     86       39          8   78       23        13
      Mexique              94         55     10   98      69     20      97        62      13     94       58         13   90       46        10
      Paraguay             87         29      2   90      49     12      s.o.     s.o.     s.o.   88       42          9   82       34          8
      Pérou                87         29      2   94      54     11      88        43       8     89       33          4   78       23          2
      Venezuela,
      R. boliv. du         76         25      2   76      33      5      75        26       3     77       27          3   68       22          2
      Source : UNESCO, 2001, tableau 8.
      Remarque : s.o. = sans objet.
                                                                          ÉTUDES RÉGIONALES      |   159




 FIGURE C.3.1

 Gradients socioéconomiques pour 11 pays d’Amérique latine, LLECE

                     350
                                                                  Cuba


                     325


                     300
   Score en langue




                                                             Chili           Argentine

                     275
                                                                             Paraguay
                                 Brésil          Colombie
                     250                                                      Venezuela, R. boliv. du

                                                                     as
                               Bolivie                         dur            République
                                                            Hon
                     225                                                      Dominicaine
                                 Mexique


                     200

                           0      2      4     6      8      10    12    14      15
                               Niveau d’études des parents (années de scolarité)

Source : Willms et Somers, 2005.




   En dépit de cette variété d’analyses, le Groupe de travail sur la
réforme de l’éducation en Amérique centrale (2000, 19) a noté dans
son rapport intitulé Tomorrow Is Too Late que

  « … dans presque tous les cas, il n’existe pas de politique claire
  dictant la manière dont les résultats de l’évaluation peuvent et
  doivent être utilisés. Les tests de performance scolaire n’ont
  pas encore été intégrés aux politiques de redevabilité deman-
  dées par différents groupes. Il n’y a eu aucun débat sur le type
  de décisions qui pourraient être fondées sur ces résultats, et il
  y a peu de consensus sur la valeur intrinsèque de l’évaluation
  de la performance des élèves. Ces programmes sont, par consé-
  quent, particulièrement vulnérables aux changements au
  sein du gouvernement et même des cadres supérieurs du
  ministère. »
                      RÉFÉRENCES


Arregui, P. et C. McLauchlan. 2005. « Utilization of Large-Scale Assessment
Results in Latin America. » Document inédit préparé pour le Partnership for
Educational Revitalization in the Americas et l’Institut de la Banque mondiale.
Banque mondiale. 2004. Vietnam: Reading and Mathematics Assessment Study.
Vols. 1–3. Washington, DC : Banque mondiale.
———. 2007. EdStats database. http://www1.worldbank.org/education
/edstats/.
Beaton, A. E., T. N. Postlethwaite, K. N. Ross, D. Spearritt et R. M. Wolf. 1999.
The Benefits and Limitations of International Educational Achievement Studies.
Paris : UNESCO Institut international de planification de l’éducation.
Benveniste, L. 2000. « Student Assessment as a Political Construction: The
Case of Uruguay. » Education Policy Analysis Archives 8 (32) : 1–41.
———. 2002. « The Political Structuration of Assessment: Negotiating State
Power and Legitimacy. » Comparative Education Review 46 : 89–118.
Bernard, J.-M. 1999. « Les Enseignants du Primaire dans Cinq Pays du
Programme d’Analyse des Systèmes Educatifs de la CONFEMEN: Le Rôle
du Maître dans le Processus d’Acquisition des Elèves. » Rapport du Groupe
de travail sur la profession enseignante, Section Francophone de l’Association
pour le développement de l’éducation en Afrique (ADEA). Paris : ADEA.
Bhoutan, Conseil des examens, Ministère de l’éducation. 2004. National
Educational Assessment in Bhutan: A Benchmark of Student Achievement in


                                                                             161
162   |   RÉFÉRENCES




Literacy and Numeracy at Class 6, 2003. Thimphou, Bhoutan : Ministère de
l’éducation.

Braun, H. et A. Kanjee. 2007. « Using Assessment to Improve Education in
Developing Countries. » Dans Educating All Children: A Global Agenda, J. E.
Cohen, D. E. Bloom et M. B. Malin (dir.), 303–53. Cambridge, MA : MIT Press.

Campbell, J. R., D. L Kelly, I. V. S. Mullis, M. O. Martin et M. Sainsbury. 2001.
Framework and Specifications for PIRLS Assessment 2001. 2ème éd. Chestnut
Hill, MA : Boston College.

Casassus, J., J. E. Froemel, J. C. Palafox et S. Cusato. 1998. First International
Comparative Study of Language, Mathematics, and Associated Factors in Third
and Fourth Grades. Santiago, Chili : El Laboratorio Latinoamericano de
Evaluación de la Calidad de la Educación.

Centre américain des données statistiques en éducation. 2005. National
Assessment of Educational Progress: The Nation’s Report Card, Reading 2005.
Washington, DC : Centre américain des données statistiques en éducation.

———. 2006. « NAEP Overview. » Centre américain des données statistiques
en éducation, Washington, DC. http://nces.ed.gov/nationsreportcard/about/.

———. n.d. « Comparing NAEP, TIMSS, and PISA in Mathematics and
Science. » Centre américain des données statistiques en éducation,
Washington, DC. http://nces.ed.gov/timss/pdf/naep_timss_pisa_comp.pdf.

Chinapah, V. 1997. Handbook on Monitoring Learning Achievement: Towards
Capacity Building. Paris : Organisation des Nations unies pour l’éducation, la
science et la culture.

Clarke, M. 2005. NAPE Technical Analysis and Recommendations. Kampala :
Uganda National Examinations Board.

CONFEMEN (Conférence des ministres de l’Éducation des États et
gouvernements de la Francophonie). 1999. Les facteurs de l’efficacité dans
l’enseignement primaire : Les résultats du programme PASEC sur neuf pays
d’Afrique et de l’océan Indien. Dakar : CONFEMEN.

Coulombe, S., J.-F. Tremblay et S. Marchand. 2004. International Adult
Literacy Survey: Literacy Scores, Human Capital, and Growth across Fourteen
OECD Countries. Ottawa : Statistique Canada.

Crespo, M., J. F. Soares et A. de Mello e Souza. 2000. « The Brazilian National
Evaluation System of Basic Education: Context, Process, and Impact. » Studies
in Educational Evaluation 26 : 105–25.

Déclaration mondiale sur l’éducation pour tous. 1990. Adoptée par la
Conférence mondiale sur l’éducation pour tous, Répondre aux besoins
                                                            RÉFÉRENCES     |   163



éducatifs fondamentaux, Jomtien, Thaïlande, 5–9 mars. New York :
Organisation des Nations unies pour l’éducation, la science et la culture.
http://www.unesco.org/education/information/ nfsunesco/pdf
/JOMTIE_E.PDF.

Delannoy, F. 2000. Education Reforms in Chile 1980–98: A Lesson in
Pragmatism. Washington, DC : Banque mondiale.

Eivers, E., G. Shiel, R. Perkins et J. Cosgrove. 2005. The 2004 National
Assessment of English Reading. Dublin : Educational Research Centre.

Elley, W. B. 1992. How in the World Do Students Read? IEA Study of Reading
Literacy. La Haye, Pays Bas : Association internationale pour l’évaluation du
rendement scolaire.

———, dir. 1994. The IEA Study of Reading Literacy: Achievement and
Instruction in Thirty-Two School Systems. Oxford, Royaume-Uni : Pergamon.

———. 2005. « How TIMSS-R Contributed to Education in Eighteen
Developing Countries. » Perspectives 35 (2): 199–212.

Ethiopia, National Organisation for Examinations. 2005. Second National
Learning Assessment of Ethiopia. Addis-Abeba : National Organisation for
Examinations.

Ferrer, G. 2006. Educational Assessment Systems in Latin America: Current
Practice and Future Challenges. Washington, DC : Partnership for Educational
Revitalization in the Americas.

Ghana, ministère de l’Éducation, de la Jeunesse et des Sports. 2004. Results
from Ghanaian Junior Secondary 2 Students’ Participation in TIMSS 2003 in
Mathematics and Science. Accra : ministère de l’Éducation, de la Jeunesse
et des Sports.

Greaney, V. et T. Kellaghan. 1996. Monitoring the Learning Outcomes of
Education Systems. Washington, DC : Banque mondiale.

Hanushek, E. A. et D. D. Kimko. 2000. « Schooling, Labor-Force Quality, and
the Growth of Nations. » American Economic Review 90 (5) : 1184–208.

Hanushek, E. A. et L. Wössmann. 2007. Education Quality and Economic
Growth. Washington, DC: Banque mondiale.

Himmel, E. 1996. « National Assessment in Chile. » Dans National
Assessments: Testing the System, P. Murphy, V. Greaney, M. E. Lockheed et
C. Rojas (dir.), 111–28. Washington, DC : Banque mondiale.

———. 1997. « Impacto Social de los Sistemas de Evaluación del
Rendimiento Escolar: El Caso de Chile. » Dans Evaluación y reforma
164   |   RÉFÉRENCES




educativa: Opciones de política, B. Álvarez H. et M. Ruiz-Casares (dir.),
125–57. Washington, DC : ABEL/PREAL/ Agence des États-Unis pour le
développement international.

Horn, R., L. Wolff et E. Velez. 1992. « Educational Assessment Systems in
Latin America: A Review of Issues and Recent Experience. » Major Project of
Education in Latin America and the Caribbean Bulletin 27 : 7–27.

Howie, S. 2000. « TIMSS-R in South Africa: A Developing Country
Perspective. » Document présenté lors la réunion annuelle de l’American
Educational Research Association, Nouvelle-Orléans, 24–28 avril.

———. 2002. « English Proficiency and Contextual Factors Influencing
Mathematics Achievement of Secondary School Pupils in South Africa. »
Thèse de doctorat, Université de Twente, Pays-Bas.

Howie, S. et C. Hughes. 2000. « South Africa. » Dans The Impact of TIMSS on
the Teaching and Learning of Mathematics and Science, D. Robitaille, A. Beaton
et T. Plomp (dir.), 139–45. Vancouver, Colombie-Britannique : Pacific
Educational Press.

Hoxby, C. E. 2002. « The Cost of Accountability. » Document de travail 8855,
National Board of Economic Research, Cambridge, MA.

Husén, T. 1973. « Foreword. » Dans Science Achievement in Nineteen Countries,
L. C. Comber et J. P. Keeves (dir.), 13–24. New York : Wiley.

Husén, T. et T. N. Postlethwaite. 1996. « A Brief History of the International
Association for the Evaluation of Educational Achievement (IEA). »
Assessment in Education 3 (2) : 129–41.

IEA Association internationale pour l’évaluation du rendement scolaire
(International Association for the Evaluation of Educational Achievement).
2000. Framework and Specifications for PIRLS Assessment 2001. Chestnut Hill,
MA : International Study Center, Boston College.

IIEP (International Institute for Educational Planning). 2007. « Southern and
Eastern Africa Consortium for Monitoring Educational Quality. » IIPE, Paris.
http://www.unesco.org/iiep/eng/networks/sacmeq/sacmeq.htm.

Ilon, L. 1996. « Considerations for Costing National Assessments. » Dans
National Assessment: Testing the System, P. Murphy, V. Greaney, M. E.
Lockheed et C. Rojas (dir.), 69–88. Washington, DC : Banque mondiale.

Inde, National Council of Educational Research and Training, Department of
Educational Measurement and Evaluation. 2003. Learning Achievement of
Students at the End of Class V. New Delhi : Department of Educational
Measurement and Evaluation.
                                                            RÉFÉRENCES    |   165




Ishino, T. 1995. « Japan. » Dans Performance Standards in Education: In Search
of Quality, 149–61. Paris : OCDE.

Johnson, E. G. 1992. « The Design of the National Assessment of
Educational Progress. » Journal of Educational Measurement 29 (2) :
95–110.

Jones, L. V. 2003. « National Assessment in the United States: The Evolution
of a Nation’s Report Card. » Dans International Handbook of Educational
Evaluation, T. Kellaghan et D. L. Stufflebeam (dir.), 883–904. Dordrecht,
Pays-Bas : Kluwer Academic.

Kanjee, A. 2006. « The State of National Assessments of Learner
Achievement. » Document inédit préparé pour le Human Sciences Research
Council, Pretoria, Afrique du Sud.

Keeves, J. P. 1995. « The Contribution of IEA Research to Australian
Education. » Dans Reflections on Educational Achievement: Papers in Honour of
T. Neville Postlethwaite, W. Bos et R. H. Lehmann (dir.), 137–58. New York :
Waxman.

Kellaghan, T. 1996. « IEA Studies and Educational Policy. » Assessment in
Education 3 (2) : 143–60.

———. 1997. « Seguimiento de los resultados educativos nacionales. » Dans
Evaluación y reforma educativa: Opciones de política, B. Álvarez H. et
M. Ruiz-Casares (dir.), 23–65. Washington, DC : ABEL/PREAL/Agence des
États-Unis pour le développement international.

———. 2003. « Local, National and International Levels of System
Evaluation: Introduction. » Dans International Handbook of Educational
Evaluation, T. Kellaghan et D. L. Stufflebeam (dir.), 873–82. Dordrecht,
Pays-Bas : Kluwer Academic.

———. 2006. « What Monitoring Mechanisms Can Be Used for
CrossNational (and National) Studies ? » Dans Cross-National Studies of the
Quality of Education : Planning Their Design and Managing Their Impact,
K. N. Ross et I. J. Genevois (dir.), 51–55. Paris : Institut international de
planification de l’éducation.

Kellaghan, T. et V. Greaney. 2001a. « The Globalisation of Assessment in the
20th Century. » Assessment in Education 8 (1) : 87–102.

———. 2001b. Using Assessment to Improve the Quality of Education. Paris :
Institut international de planification de l’éducation.

———. 2004. Assessing Student Learning in Africa. Washington, DC : Banque
mondiale.
166   |   RÉFÉRENCES




Khaniya, T. et J. H. Williams. 2004. « Necessary but Not Sufficient : Challenges
to (Implicit) Theories of Educational Change—Reform in Nepal’s Education
System. » International Journal of Educational Development 24 (3) : 315–28.

Kirsch, I. 2001. The International Adult Literacy Study (IALS) : Understanding
What Was Measured. Princeton, NJ : Educational Testing Service.

Kulpoo, D. et P. Coustère. 1999. « Developing National Capacities for
Assessment and Monitoring through Effective Partnerships. » Dans
Partnerships for Capacity Building and Quality Improvements in Education:
documents issus de la réunion biannuelle de l’ADEA en 1997, Dakar. Paris :
Association pour le développement de l’éducation en Afrique.

Lesotho, Examinations Council of Lesotho and National Curriculum
Development Centre. 2006. Lesotho: National Assessment of Educational
Progress, 2004. Maseru : Examinations Council of Lesotho and National
Curriculum Development Centre.

LLECE (Latin American Laboratory for Evaluation of the Quality of
Education). 2002. Qualitative Study of Schools with Outstanding Results in
Seven Latin American Countries. Santiago : LLECE.

Lockheed, M. E. et A. Harris. 2005. « Beneath Education Production
Functions: The Case of Primary Education in Jamaica. » Peabody Journal of
Education 80 (1) : 6–28.

Makuwa, D. 2005. The SACMEQ II Project in Namibia: A Study of the
Conditions of Schooling and Quality of Education. Harare : Consortium
d’Afrique australe et orientale pour le pilotage de la qualité de l’éducation.

McMeekin, R. W. 2000. Implementing School-Based Merit Awards: Chile’s
Experiences. Washington, DC : Banque mondiale.

Michaelowa, K. 2001. « Primary Education Quality in Francophone
SubSaharan Africa : Determinants of Learning Achievement and Efficiency
Considerations. » World Development 29 (10) : 1699–716.

Ministère de l’Éducation du Connecticut. 2006. « State Releases Connecticut
Mastery Test Results. » Nouvelles, 9 août. http://www.sde.ct.gov/sde/lib/sde
/ PDF/PressRoom/2006cmtresults.pdf.

Mrutu, A., G. Ponera et E. Nkumbi. 2005. The SACMEQ II Project in
Tanzania: A Study of the Conditions of Schooling and the Quality of Education.
Harare : Consortium d’Afrique australe et orientale pour le pilotage de la
qualité de l’éducation.

Mullis, I. V. S., A. M. Kennedy, M. O. Martin et M. Sainsbury. 2006. PIRLS
2006 : Assessment Framework and Specifications. Chestnut Hill, MA :
International Study Center, Boston College.
                                                            RÉFÉRENCES    |   167




Mullis, I. V. S., M. O. Martin, E. J. Gonzalez et S. J. Chrostowski. 2004. TIMSS
2003 International Mathematics Report : Findings from IEA’s Trends in
International Mathematics and Science Study at the Fourth and Eighth Grades.
Chestnut Hill, MA : International Study Center, Boston College.

Mullis, I. V. S., M. O. Martin, E. J. Gonzalez et A. M. Kennedy. 2003. PIRLS
2001 International Report: IEA’s Study of Reading Literacy Achievement
in Primary Schools. Chestnut Hill, MA : International Study Center,
Boston College.

Mullis, I. V. S., M. O. Martin, G. J. Ruddock, C. Y. O’Sullivan, A. Arora et
E. Erberber. 2005. TIMSS 2007 Assessment Frameworks. Chestnut Hill, MA :
International Study Center, Boston College.

Murimba, S. 2005a. « The Impact of the Southern and Eastern Africa
Consortium for Monitoring Educational Quality (SACMEQ). » Perspectives
35 (1) : 91–108.

———. 2005b. « The Southern and Eastern Africa Consortium for
Monitoring Educational Quality (SACMEQ): Mission Approach and
Projects. » Perspectives 35 (1) : 75–89.

Nassor, S. et K. A. Mohammed. 1998. The Quality of Education: Some Policy
Suggestions Based on a Survey of Schools—Zanzibar. SACMEQ Policy
Research 4, International Institute for Educational Planning, Paris.

Naumann, J. 2005. « TIMSS, PISA, PIRLS, and Low Educational
Achievement in World Society. » Perspectives 35 (2) : 229–48.

OCDE (Organisation de coopération et de développement économiques).
2001. Outcomes of Learning: Results from the 2000 Program for International
Student Assessment of 15-Year-Olds in Reading, Mathematics, and Science
Literacy. Paris : OCDE. http://nces.ed.gov/pubs 2002/2002115.pdf.

———. 2003. The PISA 2003 Assessment Framework: Reading, Mathematics,
Science and Problem Solving Knowledge and Skills. Paris : OCDE.

———. 2004a. First Results from PISA 2003: Executive Summary. Paris :
OCDE. http://www.oecd.org/dataoecd/1/63/34002454.pdf

———. 2004b. Learning for Tomorrow’s World: First Results from PISA 2003.
Paris : OCDE.

———. 2007. « Sample Questions: PISA Mathematics with Marking Guide. »
OCDE, Paris. http://pisa-sq.acer.edu.au.

OCDE (Organisation de coopération et de développement économiques) et
Institut de statistique de l’Unesco (Organisation des Nations unies pour
l’éducation, la science et la culture). 2003. Literacy Skills for the World of
168   |   RÉFÉRENCES




Tomorrow: Further Results from PISA 2000. Paris et Montréal : OCDE et
Institut de statistique de l’Unesco.

Olivares, J. 1996. « Sistema de Medición de la Calidad de la Educación de
Chile : SIMCE, Algunos Problemas de la Medición. » Revista Iberoamericana
de Educación 10. http://www.rieoei.org/oeivirt/rie10a07.htm.

Passos, A., T. Nahara, F. Magaia et C. Lauchande. 2005. The SACMEQ II
Project in Mozambique: A Study of the Conditions of Schooling and the Quality
of Education. Harare : Consortium d’Afrique australe et orientale pour le
pilotage de la qualité de l’éducation.

Perera, L., S. Wijetunge, W. A. de Silva et A. A. Navaratne. 2004. Achievement
after Four Years of Schooling. National Assessment of Achievement of Grade Four
Pupils in Sri Lanka : National Report. Colombo : National Education Research
and Evaluation Centre, Université de Colombo.

Postlethwaite, T. N. 2004. « What Do International Assessment Studies Tell
Us about the Quality of School Systems? » Document d’information pour
Education for All Global Monitoring Report 2005, Organisation des Nations
unies pour l’éducation, la science et la culture, Paris.

Prakash, V., S. K. S. Gautam et I. K. Bansal. 2000. Student Achievement under
MAS : Appraisal in Phase-II States. New Delhi : National Council of
Educational Research and Training.

Ramirez, F. O., X. Luo, E. Schofer et J. W. Meyer. 2006. « Student
Achievement and National Economic Growth. » American Journal of
Education 113 (1) : 1–29.

Ravela, P. 2005. « A Formative Approach to National Assessments: The Case
of Uruguay. » Perspectives 35 (1) : 21–43.

Reddy, V. 2005. « Cross-National Achievement Studies : Learning from South
Africa’s Participation in the Trends in International Mathematics and Science
Study. » Compare 35 (1) : 63–77.

———. 2006. Mathematics and Science Achievement at South African Schools
in TIMSS 2003. Capetown, Afrique du Sud: Human Sciences Research
Council Press.

Robitaille, D. F., A. E. Beaton et T. Plomp (dir.). 2000. The Impact of TIMSS on
the Teaching and Learning of Mathematics and Science. Vancouver, Colombie-
Britannique : Pacific Educational Press.

Rojas, C. et J. M. Esquivel. 1998. « Los Sistemas de Medición del Logro
Academico en Latino América. » LCSHD Paper 25, Washington, DC :
Banque mondiale.
                                                              RÉFÉRENCES    |   169




Ross, K. 1987. « Sample Design. » International Journal of Educational
Research 11 (1) : 57–75.

Ross, K. et T. N. Postlethwaite. 1991. Indicators of the Quality of Education:
A Study of Zimbabwean Primary Schools. Harare : ministère de l’Éducation et
de la Culture ; Paris : Institut international de planification de l’éducation.

Shabalala, J. 2005. The SACMEQ II Project in Swaziland: A Study of the
Conditions of Schooling and the Quality of Education. Harare : Consortium
d’Afrique australe et orientale pour le pilotage de la qualité de l’éducation.

Shukla, S., V. P. Garg, V. K. Jain, S. Rajput et O. P. Arora. 1994. Attainments of
Primary School Children in Various States. New Delhi : National Council of
Educational Research and Training.

Sofroniou, N. et T. Kellaghan. 2004. « The Utility of Third International
Mathematics and Science Study Scales in Predicting Students’ State
Examination Performance. » Journal of Educational Measurement 41 (4) :
311–29.

Štraus, M. 2005. « International Comparisons of Student Achievement as
Indicators for Educational Policy in Slovenia. » Perspectives 35 (2) : 187–98.

Sommet des Amériques. 2003. Regional Report : Achieving the Educational
Goals. Santiago : Ministère de l’éducation, Chili ; Paris : Organisation des
Nations unies pour l’éducation, la science et la culture.

Task Force on Education Reform in Central America. 2000. Tomorrow Is Too
Late. http://thedialogue.org/publications/preal/tomorrow.pdf.

UNEB (Uganda National Examinations Board). 2006. The Achievements of
Primary School Pupils in Uganda in English Literacy and Numeracy. Kampala :
UNEB.

UNESCO (Organisation des Nations unies pour l’éducation, la science et la
culture). 1990. Final Report of the World Congress on Education for All: Meeting
Basic Learning Needs, Jomtien, Thailand. Paris : UNESCO.

———. 2000. The Dakar Framework for Action—Education for All: Meeting
Our Collective Commitments. Paris : UNESCO.

———. 2001. Technical Report of the First International Comparative Study.
Santiago : Regional Office for Latin America and the Caribbean.

———. 2002. EFA Global Monitoring Report 2002: Is the World on Track?
Paris : UNESCO.

———. 2004. EFA Global Monitoring Report 2005: The Quality Imperative.
Paris : UNESCO.
170   |   RÉFÉRENCES




Wilkins, J. L. M., M. Zembylas et K. J. Travers. 2002. « Investigating Correlates
of Mathematics and Science Literacy in the Final Year of Secondary School. »
Dans Secondary Analysis of the TIMSS Data, D. F. Robitaille et A. E. Beaton
(dir.), 291–316. Dordrecht, Pays-Bas : Kluwer Academic.

Willms, J. D. et M.-A. Somers. 2005. « Raising the Learning Bar in Latin
America: Measuring Student Outcomes. » Note de politique, Institut
canadien de recherche en politiques sociales, Université de Nouveau-
Brunswick, Fredericton.

Winograd, P. et B. Thorstensen. 2004. « Using Large Scale Assessments to
Inform the Policies and Practices That Support Student Learning. »
Document de travail élaboré pour l’International Reading Association et
Global National Assessment Training Project de la Banque mondiale, Office
of Education Accountability, Santa Fe, NM.

Wolff, L. 1998. « Educational Assessment in Latin-America: Current Progress
and Future Challenges. » Document de travail 11, Programa de Promoción de
la Reforma Educativa en America Latina y el Caribe, Partnership for
Educational Revitalization in the Americas, Washington, DC.

Zhang, Y. 2006. « Urban-Rural Literacy Gaps in Sub-Saharan Africa: The
Roles of Socioeconomic Status and School Quality. » Comparative Education
Review 50 (4) : 581–602.