La production d’informations et ses défis

César Guadalupe
Universidad del Pacífico
Pérou

Résumé – Cet article met en lumière un certain nombre de questions importantes concernant la production et la disponibilité d’informations sur l’éducation des jeunes et des adultes. Il aborde la génération de données concernant les programmes et leurs effectifs ainsi que les financements et les questions liées à l’identification des populations cibles. Il accorde une attention particulière aux tests de connaissances et de compétences du fait de leur complexité ainsi que du profil et de l’importance prépondérants qu’ils ont acquis ces dernières années. Cet article souligne le fait que les caractéristiques techniques des efforts entrepris pour produire des informations dépendent de l’objectif visé. Il préconise à ce propos une approche non technocratique et plus sensible au plan politique.

Les informations systématiques sur l’éducation des jeunes et des adultes sont peu nombreuses, et leur qualité est rarement présentée convenablement ou connue. C’est assez typique d’un domaine trop souvent négligé – entre autres aussi dans les politiques de l’éducation.

Outre cette négligence, d’autres facteurs pourraient non seulement empêcher de réunir des éléments susceptibles de jouer un rôle en ce qui concerne l’analyse et les débats sur l’éducation des jeunes et des adultes, mais aussi d’en améliorer le profile.

Cet article se penche sur quatre domaines dans lesquels les informations sont rares ou ne sont pas systématiques : (i) les informations sur les programmes et les inscriptions ; (ii) les résultats de l’apprentissage ; (iii) la population à desservir et (iv) le financement.

Chacun de ces domaines se trouve confronté à des problèmes qui lui sont propres. Les comprendre permettra aux parties prenantes de mieux aligner leurs activités liées aux informations en disposant d’un cadre de référence organisé.

Les programmes éducatifs et leurs effectifs

Les programmes d’éducation pour les jeunes et les adultes sont très divers non seulement de par leur organisation et la façon dont ils sont mis en œuvre, mais aussi de par les organismes qui participent à ces activités. Leurs objectifs sont tout aussi variés. Par rapport aux programmes scolaires ordinaires destinés aux enfants, les programmes d’éducation ouverts aux jeunes et aux adultes sont beaucoup plus difficiles à cerner.

Nous pouvons néanmoins les classer dans trois catégories principales : (i) les programmes équivalents à ceux reconnus comme « officiels » dans le pays, qui mènent à des examens permettant d’obtenir des diplômes officiels donnant la possibilité de poursuivre des études dans le système d’éducation formelle ; (ii) les programmes avec des objectifs spécifiques destinés à répondre à des besoins particuliers et ne menant pas à des diplômes formels et (iii) un mélange des deux.

« Mesurer les résultats de l’apprentissage est probablement le domaine le plus difficile et le plus débattu en matière de génération de données relatives à l’éducation. »

Le premier groupe de programmes peut être défini comme entrant dans la structure des qualifications nationales et dans la classification internationale type de l’éducation (UNESCO/UIS 2013). L’organisation des inscriptions et de l’enregistrement des diplômes doit faciliter le transfert. Le second groupe pose un autre défi étant donné qu’il n’y a aucune nécessité de faire entrer les programmes qui en font partie dans des voies formelles, sauf s’il est nécessaire dans à des fins particulières de fournir une compilation standard d’informations. Dans ce cas, il est nécessaire de disposer d’un système de classification souple, reconnaissant la nature de ces programmes (en tant que programmes de formation continue ne menant pas à des certificats formels).

Dans les deux cas (de même que dans les cas où les deux types de programmes sont combinés), les intervenants doivent se mettre d’accord. Certaines d’entre eux devront se résoudre à accepter que la production d’informations ne se présente pas forcément sous la forme qu’ils souhaiteraient exactement, mais qu’il est globalement plus profitable de pouvoir faire une description complète et fiable des programmes d’éducation ouverts aux jeunes et aux adultes en général.

Dès que cette question a été mise au point, il faut se concentrer sur le recensement d’informations relatives aux effectifs des programmes. Il convient ici de différencier entre deux éléments d’observation distincts : (i) les individus et (ii) les unités de service (des individus desservis par un programme donné). L’un des problèmes courants vient du fait que l’on confond les deux : un individu peut être inscrit à plus d’un seul programme. Aussi convient-il de ne le compter qu’une seule fois (si l’on s’intéresse au comptage des effectifs), alors qu’il peut y avoir de nombreuses unités de service. Additionner les participants à différents programmes ne permet pas forcément de recueillir un nombre total de participants individuels. La seule exception : quand l’inscription à un programme donné exclut l’inscription à un autre programme pendant une durée déterminée.

Par contre, recenser les unités de service entraîne le risque de compter des programmes extrêmement différents comme s’ils étaient équivalents. Par exemple, un programme de six heures ne devrait pas compter comme l’équivalent d’un programme étalé sur un semestre à temps partiel. C’est vrai en particulier si l’on souhaite obtenir des informations concernant le financement et l’affectation de ressources. Utiliser des unités équivalentes comme, par exemple, des crédits pourrait être une façon de régler ce problème.

Ainsi serait-il finalement possible de recenser les participants (calcul des effectifs) de même que les unités de service en effectuant ce calcul en équivalents d’heures/de jours/de crédits des participants.

Les résultats de l’apprentissage

Mesurer les résultats de l’apprentissage est probablement le domaine le plus difficile et le plus débattu en matière de génération de données relatives à l’éducation. Comme dans toute tentative entreprise pour générer des informations, la question essentielle ici consiste à déterminer comment identifier dès le départ l’objectif/les objectifs poursuivi(s) avec la production de ces données. Si la dimension de comparaison (dans le temps, entre des groupes) est importante (pour déterminer des progrès ou des écarts), il convient de veiller à la prendre en compte à chaque étape tout au long du processus. Ceci inclut la façon dont les instruments de mesure sont conçus et gérés.

Les programmes sont d’habitude structurés pour aider les enseignants ou les facilitateurs à fournir une évaluation complète des progrès et résultats des participants. Ces évaluations sont nécessairement axées sur chaque contexte particulier, et réunissent par conséquent différents critères. Il est de ce fait difficile de produire des données agrégées utiles au-delà d’un pur comptage (pas très spécifique) des personnes ayant réussi/échoué à un programme ou étant allé jusqu’au bout de celui-ci. Nous n’obtenons ainsi aucune certitude quant aux compétences réelles que les participants ont acquises. Il est par conséquent difficile de suivre les progrès au fil du temps quand le véritable critère utilisé pour procéder à l’évaluation peut changer (si l’on veut mesurer le changement, il est important de ne pas changer l’unité de mesure) – d’où le fait qu’il pourrait être nécessaire de disposer de systèmes standardisés de mesure des connaissances et compétences. Toutefois, tester des compétences est une tâche complexe qui pose des difficultés liées à différentes questions, entre autre à la validité et à la fiabilité. À cet égard, il est important d’accorder l’attention qui convient à la complexité de la procédure de test (American Educational Research Association et coll. 2014) et de se méfier des propositions qui offrent une solution bon marché et rapide à un problème complexe.

Par exemple, un test peut être conçu de manière à constituer un classement parmi des individus (en faisant la différence entre ceux qui ont de meilleurs/de plus mauvais résultats que les autres, quel que soit le niveau de leurs résultats ; c’est ce l’on appelle généralement un test normatif). Il peut aussi être conçu pour identifier la façon dont les gens réussissent par rapport à une attente formulée explicitement comme une sorte de standard ou de niveau de résultats (c’est ce que l’on appelle un test critérié). Il peut aussi combiner ces deux approches (Glaser 1963). Ceci a des répercussions majeures sur le choix des questions (items incluant un stimulus et une question ou une tâche) incluses dans un test donné.

Un test devrait être capable de représenter correctement ce qu’il affirme vouloir mesurer (« validité conceptuelle ou de construit »). Il devrait être en mesure de saisir les éléments essentiels de ce construit (« validité de contenu »). Il devrait aussi être valable du point de vue de ce qui relève d’un comportement observable particulier qu’il entend décrire (« validité convergente ») ou anticiper (« validité prédictive »). Enfin, il est primordial lors de la conception d’un mécanisme de mesure de s’intéresser aux conséquences (« validité conséquentielle ») qu’il peut avoir sur l’environnement social au sein duquel il intervient (Zumbo et Hubley 2016).

Ce dernier élément attire également l’attention sur l’importance de tenir compte de la situation institutionnelle globale et sur les conditions dans lesquelles un test donné a été conçu, géré et utilisé. On peut rassembler des informations dans des buts divers, y compris à des fins politiques sujettes à controverse (Gorur 2015, 2017 ; Grek 2009 ; Guadalupe 2017 ; Hamilton 2012).

Nous devons aussi prendre en compte la façon dont les informations vont être traitées et analysées. Les pratiques actuelles en matière de tests ont tendance à s’appuyer sur des modèles mathématiques regroupés sous l’intitulé théorie des réponses aux items (Baker 2001 ; Hambleton et Jones 1993 ; Hambleton et coll. 1991). Cette approche permet d’aborder avec davantage de précisions les véritables attributs qu’ont des questions (items) individuelles lorsqu’on les applique à une population donnée, et elle permet par conséquent d’identifier des sujets en rapport avec la façon dont des populations fournissent des réponses différentes à des questions, ce qui peut se répercuter sur l’exploitabilité de certaines questions lorsqu’il s’agit d’obtenir des informations comparables qui sont fiables (Zumbo 1999, 2007).

Enfin, si un test particulier doit être géré par des individus de différents milieux culturels et linguistiques, certaines questions spécifiques seront suscitées en rapport avec la traduction et l’adaptation de ce test (Hambleton 2005 ; Hambleton et coll. 2005).

La population cible

Les programmes d’éducation destinés aux jeunes et aux adultes revêtent une importance croissante dans un monde qui prend progressivement conscience du fait que l’éducation et l’apprentissage se déroulent tout au long de la vie. Il est de ce fait souvent difficile de trouver une définition de la population cible à desservir, ce qui empêche de dresser une estimation correcte de la couverture de ces programmes au-delà d’une simple mesure du « nombre de leurs participants ».

Une première façon d’aborder ce sujet consiste à faire des distinctions en fonction de l’intention des programmes : (i) les programmes avec un élément de remise à niveau lié au fait de ne pas avoir réussi à aller jusqu’au bout de la scolarité obligatoire et (ii) les programmes qui vont au-delà de la démarche de remise à niveau.

Il est clair qu’il faudrait faire correspondre une population cible définie au premier groupe de programmes : une population composée de personnes n’ayant pas terminé (voire même pas commencé) la scolarité obligatoire au moment où elles étaient supposées le faire. On peut utiliser pour cela les résultats d’une enquête réalisée auprès des ménages pour dresser une estimation de ce segment de population (Guadalupe et coll. 2016 ; Guadalupe et Taccari 2004 ; UNESCO Santiago 2004), ce type d’estimations étant éminemment important pour éviter une propension à des pratiques complaisantes, trop axées sur ce que nous faisons et négligeant ce que nous devons faire. En même temps, les estimations du nombre de personnes n’ayant pas achevé la scolarité obligatoire peut conduire à une sous-estimation de la nécessité de disposer de programmes de remise à niveau. Malheureusement en effet, beaucoup de gens achèvent leur scolarité sans avoir acquis les connaissances et compétences qu’ils auraient dues. On peut dresser une estimation de cette nécessité supplémentaire en réalisant une enquête sur la distribution des compétences au sein de la population adulte.

En ce qui concerne les programmes non axés sur la remise à niveau, il n’existe aucun moyen clair ni précis d’identifier une population cible. Par conséquent, la couverture ne peut être estimée que sous la forme d’un pourcentage de la population des jeunes et des adultes.

Recueillir des données sur les financements

Il s’agit probablement du domaine le plus problématique du fait de la diversité des façons dont les informations sont recensées dans les sources gouvernementales, mais aussi des immenses difficultés pratiques qui surgissent lorsque l’on tente de compiler des données organisées et systématiques à partir de sources non gouvernementales. Disposer de définitions standard pour des éléments importants (dépenses courantes par opposition aux investissements ; salaires en tant que dépenses distinctes d’autres dépenses courantes ; frais généraux ou frais administratifs) n’est pas toujours chose aisée.

En même temps, les informations concernant les finances devraient être interprétées par rapport à un point de référence qui fournirait un certain nombre de renseignements sur le degré de suffisance des ressources investies. Il est difficile de déterminer un point de référence (UNESCO Santiago 2007) étant donné qu’il est pour cela nécessaire d’avoir une estimation précise des besoins (qui sont divers, de sorte qu’y répondre entraîne des coûts eux aussi divers). Nous devons également ignorer les simplifications excessives qui ont peuplé l’univers de l’éducation pendant des décennies, par exemple en déterminant un pourcentage magique (impossible à respecter) pour quelque chose (production, dépenses publiques, etc.) qui semble applicable partout (comme si la diversité n’existait pas), dans un monde un monde ou la diversité et le changement sont des règles qui sont là pour durer (comme si le changement n’existait pas).

À présent, à vous de jouer !

Cet article propose un bref résumé des questions essentielles liées au domaine de la production d’informations en matière d’éducation des jeunes et des adultes. La génération de données (pas leur collecte puisque les données ne sont pas des éléments naturels susceptibles d’être cueillis comme des fruits mais qu’elles sont des constructions sociales reposant sur des concepts, des intérêts, des idées, etc.) ne peut pas être considérée comme une simple question ou comme quelque chose de purement technique, dépourvu d’éléments politiques et idéologiques. Inversement, les décisions concernant le choix des données à générer et la façon de les produire, de les compiler, de les analyser et de les communiquer reposent fondamentalement sur les buts et priorités qu’un acteur particulier souhaite faire progresser (Guadalupe 2015). Par conséquent la pierre angulaire de tout effort entrepris pour produire des données consiste en une définition substantielle et explicite du ou des buts de cette production d’informations.

En même temps, ce point ne devrait pas être utilisé comme alibi pour justifier une décision concernant les données : certaines difficultés et attributs spécifiques doivent être correctement pris en compte dans toute génération de données si l’on veut produire et communiquer des informations solides et utiles. Les solutions bon marché et rapides font généralement fi des propriétés scientifiques que les données solides possèdent et qui les rendent par conséquent exploitables. Généralement, il vaut mieux ne pas disposer d’informations et être conscient de cette absence de preuves plutôt que d’avoir des données de mauvaise qualité en pensant que nous tenons des éléments auxquels nous pouvons nous fier. La première situation conduit à agir avec circonspection (y compris en abordant le manque d’informations) alors que la seconde entraîne des erreurs qui affectent la vie des gens.

Références

American Educational Research Association, American Psychological Association et National Council on Measurement in Education (2014) : Standards for educational & psychological tests. Washington, DC : AERA.

Baker, F. B. (2001) : The basics of item response theory (2e éd.). USA : ERIC Clearinghouse on Assessment and Evaluation.

Glaser, R. (1963) : Instructional technology and the measurement of learning outcomes: Some questions. Dans : American Psychologist, 18(8), 519-521. https://bit.ly/2vgo7Bd

Gorur, R. (2015) : Assembling a Sociology of Numbers. Dans : Hamilton, M. ; Maddox, B. et Addey, C. (dir. publ.) : Literacy as Numbers: Researching the Politics and Practices of International Literacy Assessment Regimes, 1-16. Cambridge : Cambridge University Press.

Gorur, R. (2017) : Towards productive critique of large-scale comparisons in education. Dans : Critical Studies in Education, 58(3), 1-15. https://bit.ly/2Mbw1Ce

Grek, S. (2009) : Governing by Numbers: The PISA “Effect” in Europe. Dans : Journal of Education Policy, 24(1), 23-37.

Grek, S. (2015) : Transnational education policy-making: international assessments and the formation of a new institutional order. Dans : Hamilton, M ; Maddox, B. et Addey, C. (dir. publ.) : Literacy as Numbers: Researching the Politics and Practices of International Literacy Assessment, 35-52. Cambridge : Cambridge University Press.

Guadalupe, C. et Taccari, D. (2004) : Conclusión Universal de la Educación Primaria: ¿cómo evaluar el progreso hacia esta meta? Santiago du Chili : UNESCO. https://bit.ly/2M9UmIl

Guadalupe, C. (2015) : Contar para que cuente: una introducción general a los sistemas de información educativa. Lima : Universidad del Pacífico. https://bit.ly/2n5LFUU

Guadalupe, C. ; Castillo, L. E. ; Castro, M. P. ; Villanueva, A. et Urquizo, C. (2016) : Conclusión de estudios primarios y secundarios en el Perú: progreso, cierre de brechas y poblaciones rezagadas (Documentos de Discusión no DD1615). https://bit.ly/2OEy8zQ

Guadalupe, C. (2017) : Standardisation and diversity in international assessments: barking up the wrong tree? Dans : Critical Studies in Education, 58(3), 326-340. https://bit.ly/2vpWhRW

Hambleton, R. K. et coll. (1991) : Fundamentals of Item Response Theory. Newsbury Park, Londres, New Delhi : Sage.

Hambleton, R. K. et Jones, R. W. (1993) : An NCME Instructional Modul on Comparison of Classical Test Theory and Item Response Theory and their Applications To Test Development. Dans : Educational Measurement: Issues and Practice, 12(3), 38-47. https://bit.ly/2J6bmi7

Hambleton, R. K. (2005) : Issues, Designs and Technical Guidelines for Adapting Tests Into Multiple Languages and Cultures. Dans : Hambleton, R. K. ; Merenda, P. et Spielberger, C. (dir. publ.) : Adapting Psychological and Educational Tests for Cross-Cultural Assessment, 38 (3). Mahwah, NJ : Lawrence Erlbaum Associates.

Hambleton, R. K. ; Merenda, P. et Spielberger, C. (dir. publ.) (2005) : Adapting Psychological and Educational Tests for Cross-Cultural Assessment, 3-38. Mahwah, NJ : Lawrence Erlbaum Associates.

Hamilton, M. (2012) : Literacy and the Politics of Representation. Oxon : Routledge.

UNESCO Santiago (2004) : La conclusión universal de la educación primaria en América Latina: ¿Estamos realmente tan cerca? Santiago du Chili : UNESCO. https://bit.ly/2vvmPBt

UNESCO Santiago (2007) : Educación de calidad para todos: un asunto de Derechos Humanos. Santiago du Chili : UNESCO. https://bit.ly/2f0VWOK

UNESCO/UIS (2013) : International Standard Classification of Education. ISCED 2011. Montréal : UNESCO/UIS.

Zumbo, B. (1999) : A Handbook on the Theory and Methods of Differential Item Functioning (DIF): Logistic Regression Modeling as a Unitary Framework for Binary and Likert-type (Ordinal) Item Scores. Ottawa :
Directorate of Human Resources Research and Evaluation, Department of National Defense.

Zumbo, B. (2007) : Three Generations of DIF Analyses: Considering Where It Has Been, Where It Is Now, and Where It Is Going. Dans : Language Assessment Quarterly, 4(2), 223-233. https://bit.ly/2LO0OsE

Zumbo, B. et Hubley, A. M. (2016) : Bringing consequences and side effects of testing and assessment to the foreground. Dans : Assessment in Education: Principles, Policy & Practice, 23(2), 299-303. https://bit.ly/2vbhJuZ
https://bit.ly/2vbhJuZ

L’auteur

César Guadalupe est titulaire d’un doctorat en éducation (Sussex) et d’une maîtrise en pensée politique et sociale (Sussex), et il est sociologue (PUCP). Il est enseignant-chercheur à l’Universidad del Pacífico (Pérou). Auparavant, il a travaillé pendant onze ans à l’Institut de statistique de l’UNESCO, et à l’UNESCO/Santiago. Il est membre du Conseil national péruvien de l’éducation (2014-2020) dont il est l’actuel président (2017-2020).

Contact :
ca.guadalupem@up.edu.pe