7.5 Méthodologie de l’évaluation

L’élaboration de l’évaluation doit contenir un plan de travail détaillé étape par étape, précisant les méthodes que l’évaluation va adopter pour la collecte de l’information nécessaire au traitement des critères d’évaluation et pour répondre aux questions sur l’évaluation, ainsi que les méthodes à suivre pour l’analyse des données, l’interprétation des conclusions et le rapport des résultats.   

Les méthodes d’évaluation doivent donc être choisies selon leur rigueur à produire des données empiriques destinées à aborder les critères d’évaluation et répondre aux questions d’évaluation. Le rapport initial d’évaluation doit contenir une matrice d’évaluation qui expose, pour chaque critère d’évaluation, les questions et sous-questions auxquelles l’évaluation apportera une réponse et, pour chaque question, les données à collecter qui renseigneront celle-ci ainsi que les méthodes à suivre pour la collecte de ces informations (voir encadré 40). Le rapport initial d’évaluation doit en outre mettre explicitement en relief, la théorie ou hypothèses sous-jacentes sur la manière avec laquelle chaque donnée contribuera à comprendre les résultats de développement – imputabilité, contribution, processus, mise en œuvre et ainsi de suite – et la raison de la collecte d’information et des méthodologies choisies pour l’analyse et la rédaction de rapports.  

Encadré 40. Questions pour les évaluateurs

Le bureau commissaire doit garantir au minimum que les méthodes exposées dans le rapport initial des évaluateurs répondent à chacune des questions suivantes :  
  • Quel élément est nécessaire pour répondre aux questions de l’évaluation ?
  • Quelle(s) méthode(s) de collecte de données seront utilisées pour répondre aux critères et aux questions de l’évaluation ? Pourquoi ces méthodes ont-elles été choisies ? Les ressources allouées sont-elles suffisantes ?
  • Qui sera chargé de la collecte des données?
  • Quel est le cadre choisi pour la modélisation ? Quel principe suit-il ?
  • Qui sera chargé d’impliquer les participants et autres parties prenantes?
  • Quels systèmes de gestion de données seront utilisés ? C'est-à-dire, quelle est la logistique, y compris les procédures, le calendrier et l’infrastructure physique, mises en place pour réunir et traiter l’information?
  • Comment les informations collectées seront-elles analysées et les conclusions interprétées et rapportées?
  • Quelles sont les questions de méthodologie à revoir pour garantir la qualité?
 
Méthodes de collecte de données 

Les données à collecter et la méthode à suivre à cet effet seront déterminées par : les éléments nécessaires pour répondre aux questions de l’évaluation ; l’analyse utilisée pour traduire ces données en conclusions significatives pour répondre aux questions de l’évaluation et ; les jugements sur quelles données il faudra collecter au vu des contraintes de temps et de ressources. Les évaluations du PNUD puisent énormément dans les données (indicateurs de performance) générées à travers le suivi pendant le cycle de mise en œuvre du programme ou projet. Les indicateurs de performance sont des moyens simples et fiables de documenter les changements des conditions de développement (effets), de la production, ou de la réalisation de produits et services (résultats), liés à une initiative de développement (voir chapitre 2).     

Les indicateurs de performance sont utiles mais ont des limites : ils indiquent, ils n’expliquent pas. Les indicateurs ne répondront pas à l’ensemble des questions auxquelles l’évaluation cherche à répondre. Ainsi, ils pourront mesurer le progrès, par exemple, mais ne pourront donner une explication sur la raison de ce progrès ou déterminer les facteurs ayant contribué à ce progrès. Les évaluations du PNUD font en général appel à un mélange d’autres sources de données, collectées selon différentes méthodes, pour donner un sens aux informations fournies par les indicateurs de performance à propos d’une initiative. 

Les données de base consistent en un ensemble d’informations observées par les évaluateurs ou collectées directement auprès des parties prenantes, et concernent leur premier contact avec l’initiative. Ces données constituent en général un ensemble d’observations sur les valeurs, les croyances, les attitudes, les opinions, les comportements, les motivations et les connaissances des parties prenantes, réunies à travers des questionnaires, des enquêtes, des entretiens, des groupes d’experts, d’informateurs-clés, de panels d’experts, d’observations directes et d’études de cas. Ces méthodes permettent d’effectuer une étude plus approfondie et fournissent plus d’information pouvant apporter une meilleure compréhension des changements observés dans les effets et les produits (aussi bien voulus que non), et des facteurs ayant contribué à un renforcement du contexte opérationnel des résultats.           

Les données secondaires sont les données de base qui ont été collectées puis qui ont été compilées et publiées par quelqu’un d’autre. Ces données peuvent adopter plusieurs formes mais consistent en général en une série d’éléments de documentation ayant un intérêt direct pour les objets de l’évaluation. Les sources de ces éléments comprennent : des données démographiques locales, régionales ou nationales ; des rapports publiés à niveau national ou international ; des indicateurs économiques, sociaux ou sanitaires ; des plans de programme ou projet ; de rapports de suivi ; d’examen, d’évaluations et autres rapports antérieurs, de plans stratégiques de pays et ; de rapports de recherches pouvant avoir un intérêt pour l’évaluation. Les éléments de documentation sont particulièrement utiles lorsque le projet ou programme manque d’indicateurs et de cibles de référence pour mesurer le progrès des produits et des effets. Malgré que ce ne soit pas la méthode la plus conseillée, les données secondaires peuvent être utilisées pour recréer des données et des cibles de références. Elles viennent enfin en complément et en supplément aux données de base mais ne remplacent pas la collecte de données de sources primaires.               
 
Au vu de la nature et du contexte des évaluations du PNUD au niveau décentralisé, et en tenant compte des limitations de temps et de ressources, les évaluateurs sont souvent amenés à utiliser un mélange de méthodes, y compris des indicateurs de performance, des éléments de documentation pertinents supplémentaires issus de sources secondaires et, de données de qualité collectées par différents moyens.   

Le tableau 28 présente de brèves descriptions des méthodes de collecte de données qui sont le plus communément appliquées pour les évaluations du PNUD aussi bien pour les évaluations de projet que pour les évaluations des effets.

Tableau 28. Récapitulatif des méthodes de collecte de données communément appliquées pour les évaluations du PNUD53

Méthode

Description

Avantages

Défis

Systèmes de suivi et d’évaluation

Utilisent les indicateurs de performance pour mesurer le progrès, particulièrement les résultats actuels face aux résultats escomptés.

Peuvent être une méthode fiable, efficiente  et objective pour l’évaluation du progrès des produits et des effets.

Dépend de systèmes de suivi et d’évaluation viables ayant mis en place des indicateurs et des cibles de référence et ont collecté des données fiables liées aux cibles dans le temps et aux indicateurs d’effets.

Rapports et documents existants

Documentation existante, y compris des informations quantitatives et descriptives sur l’initiative, ses produits et ses effets, telles que la documentation issue des activités de renforcement des capacités, les rapports des donateurs, et autres éléments.  

Rentables

Les éléments de documentation peuvent être difficiles à coder et à analyser en tant que réponse aux questions.

Difficulté de vérifier la fiabilité et la validité des données.

Questionnaires

Fournissent une approche standardisée pour l’obtention des informations sur un large éventail de sujets de la part d’un grand nombre de diverses parties prenantes (en employant généralement des techniques d’échantillonnage) pour l’obtention d’informations sur leurs attitudes, croyances, opinions, perceptions, niveau de satisfaction, etc. concernant les opérations, les apports, les produits, et les facteurs contextuels de l’initiative du PNUD.

Efficaces pour réunir rapidement et relativement à moindre coût, des données descriptives sur un large éventail de sujets

Faciles à analyser

Respecte l’anonymat des participants.


Les auto-rapports peuvent affecter leur objectivité.

Les données peuvent fournir une vue générale mais manquer d’approfondissement.

Susceptibles de ne pas fournir des informations adéquates sur le contexte.

Sujets à des erreurs d’échantillonnage.

Entretiens

Requièrent des réponses de personne à personne à des questions prédéterminées pour l’obtention d’informations approfondies sur les impressions ou expériences d’une personne, ou d’apprendre plus sur leurs réponses à des questionnaires ou enquêtes menés.

Une couverture, un éventail et approfondissement plus importants des informations sur un sujet. 

Peuvent nécessiter beaucoup de temps.

Peuvent être difficiles à analyser.

Peuvent être coûteux.

Peuvent donner lieu à un parti pris dans les réponses.

Observations sur le terrain

Impliquent l’utilisation d’un formulaire d’observation détaillé afin d’enregistrer les plus pertinentes informations sur le terrain sur le fonctionnement d’un programme (activités en cours, processus, discussions, interactions sociales et résultats tels qu’observés au cours d’une initiative).

Peuvent suivre les opérations d’un programme en temps réel.

Peuvent s’adapter aux évènements en temps réel.

Peuvent être difficiles à catégoriser ou compliquer l’interprétation des comportements observés.

Peuvent être coûteux.

Peuvent donner lieu à un parti pris dans le choix du site.

Entretiens de groupes

Entretiens avec de petits groupes (6 à 8 personnes) pour étudier en profondeur les opinions des parties prenantes, les points de vue semblables ou divergents, ou les jugements portés sur une initiative de développement  ou politique ainsi que les informations sur leurs comportements, compréhension et perception face à une initiative ou la collecte d’informations sur les changements tangibles et intangibles résultants d’une initiative.

Moyen rapide et fiable d’obtenir des impressions communes sur différentes parties prenantes.

Moyen efficace d’obtenir un ensemble important d’informations approfondies dans une courte durée.


L’analyse des réponses peut être difficile.

Requièrent un animateur expérimenté.

Peuvent être difficiles à mettre en place.
 

Informateurs-clés

Des entretiens qualitatifs approfondis, souvent en tête à tête, avec un large éventail de parties prenantes qui ont une connaissance de première main des opérations de l’initiative et du contexte. Ces communautés d’experts peuvent fournir une connaissance et une compréhension particulières des problèmes et faire des recommandations pour des solutions.    

Peuvent fournir un aperçu de la nature des problèmes et offrir des recommandations pour des solutions.

Peuvent fournir différentes perspectives sur une même question ou sur plusieurs.

Sujets à tendre vers un échantillonnage.

Doivent avoir les moyens de vérifier ou corroborer les informations.

 

Panels d’experts

 

Un examen par les pairs ou par un groupe de référence, composé d’experts externes permettant de fournir un apport en termes techniques ou autres sujets couverts par l’initiative. 

Augmentent la crédibilité.

Peuvent servir en tant que source (experts) supplémentaire d’informations approfondies.

Peuvent vérifier ou justifier les informations et les résultats dans le domaine du sujet.

Coût de la consultation et frais inhérents, le cas échéant.

Doivent garantir l’impartialité et l’absence de conflits d’intérêts.

Etudes de cas

Impliquent une étude détaillée, grâce au croisement de comparaisons de cas, pour l’obtention d’informations approfondies avec, pour objectif, de comprendre pleinement les dynamiques opérationnelles, les activités, les produits, les effets et les interactions d’un projet ou programme de développement.

Utiles pour une étude complète des facteurs contribuant aux produits et aux effets.

Requièrent un temps considérable et des ressources souvent indisponibles pour les évaluations mandatées.

Peuvent être difficiles à analyser.

Les bureaux mandatés doivent garantir que les méthodes et les instruments (questions, enquêtes, protocoles, listes de vérifications) utilisées pour la collecte ou l’enregistrement des données sont : cohérentes avec les normes de qualité en termes de validité et de fiabilité,54 sensibles à la culture et en adéquation avec les populations concernées et, pertinentes et appropriées aux différents types d’informations recherchées et aux questions sur l’évaluation auxquelles elles doivent apporter une réponse. Dans le cas de situations en milieux de conflits, les facteurs tels que les questions de sécurité, le manque d’infrastructures, l’accès limité aux populations détenant les informations ainsi que les sensibilités et considérations éthiques en termes de travail avec des populations vulnérables doivent alors être prise en ligne de compte pour déterminer les méthodes de collectes de données les plus adéquates. 

Questions sur la qualité des données

Les bureaux mandatés du PNUD doivent s’assurer que l’évaluation collecte des données liées aux objets fixés et qu’elle emploie les méthodologies et procédures de collecte d’information rigoureuses et défendables et qu’elles donnent lieu à des éléments empiriquement vérifiés, qui soient valides, fiables et crédibles.

La fiabilité et la validité sont également des aspects importants de la qualité d’une évaluation. La fiabilité fait référence à la cohérence des mesures effectuées – s’assurer par exemple qu’un instrument de collecte

de données particulier, tel qu’un questionnaire, donnera lieu aux mêmes réponses s’il est mené dans des conditions similaires. La validité fait référence à la précision des mesures effectuées – s’assurer par exemple qu’un instrument de collecte de données particulier mesure bien ce qu’il était censé mesurer. C’est également le degré auquel les déductions et conclusions tirées des données sont fondées et justifiables. La crédibilité concerne le degré perception des parties prenantes, et particulièrement les utilisateurs des résultats de l’évaluation, de la validité, fiabilité et impartialité des éléments d’évaluation et des résultats. Il existe trois grandes stratégies pour améliorer la fiabilité et la validité qu’une bonne évaluation devrait aborder :

  • Améliorer la qualité de l’échantillonnage
  • Améliorer la qualité du rassemblement des données
  • Utiliser un mélange de collecte de données et de stratégies constructives (comme par exemple la ‘triangulation’ ou croisement des données ou l’utilisation de sources multiples de données) afin de vérifier ou recouper les données en utilisant plusieurs éléments plutôt qu’un seul.
Améliorer la qualité de l’échantillonnage

Les évaluations du PNUD rassemblent souvent les éléments d’informations d’un échantillon de populations ou de lieux. Si cet échantillon n’est pas représentatif de la portion d’une population, il y a un risque que les conclusions tirées sur la population en question soient fausses. Ainsi, si un entretien de groupe par exemple, ne réunit que les personnes vivant en ville et pouvant donc facilement accéder au lieu ou se tient l’entretien, les intérêts et expériences de ceux vivant en dehors de la ville pourraient ne pas être tenu en compte. L’échantillon doit donc être sélectionné sur la base d’un raisonnement ou d’un but directement lié aux objets de l’évaluation et est censé garantir une précision dans l’interprétation des conclusions et de l’utilité des résultats de l’évaluation. Les bureaux mandatés doivent donc s’assurer que l’élaboration de l’évaluation retrace clairement les caractéristiques de l’échantillon, la manière avec laquelle il sera sélectionné et les raisons de cette sélection et enfin les limites de l’échantillon pour l’interprétation des résultats de l’évaluation. Si un échantillon n’est pas utilisé, les raisons et les répercussions sur l’évaluation doivent être discutées.             

Garantir la consistance du rassemblement des données

Que ce soit à l’heure d’utiliser des questionnaires, de fixer des entretiens, de suivre des protocoles d’observation ou autres outils de rassemblement de données, les équipes d’évaluation doivent tester tout d’abord les outils de collecte de données et s’assurer qu’ils rassemblent des éléments à la fois précis et cohérents. Quelques démarches à suivre seraient :  

  • La formation de collecteurs de données grâce aux protocoles d’observation, afin de s’assurer qu’ils enregistrent tous leurs observations de la même manière
  • Vérifier la signification de mots-clés utilisés dans les questionnaires et les calendriers des entretiens, particulièrement s’ils ont été traduits, afin de s’assurer que les personnes sondées comprennent bien ce qui leur est demandé. 
  • Prendre en ligne de compte comment les caractéristiques des personnes chargées de mener un entretien (particulièrement l’âge, le sexe et s’ils sont connu des informateurs) peuvent améliorer ou réduire la précision des informations fournies. 

 ‘Trianguler’ les données pour vérifier leur précision: utiliser plusieurs sources de données

Un bon élément d’évaluation doit être à la fois cohérent et précis. Concevoir des stratégies destinées à vérifier les données améliorera la fiabilité et garantira des résultats valides.

  • Utiliser un mélange de méthodes pour collecter l’information plutôt que de s’en tenir à une seule source ou à un seul élément. Recouper par exemple l’élément d’une source (telle que l’entretien de groupe) avec un autre élément sur les expériences des personnes vivant en milieu rural (pouvant être un élément documentaire en provenance de rapports ou d’entretiens avec des informateurs-clés crédibles et bien informés sur la situation).
  • Faire appel à des experts pour examiner et valider les faits.

Le défi pour les évaluations du PNUD est d’utiliser des méthodes d’élaboration d’évaluations rigoureuses qui donneront lieu à des informations utiles et basées sur des faits crédibles et défendables face au défi que représente la précision et la validité des déductions tirées de ces faits.

Considérations éthiques

Les évaluations doivent être élaborées et menées dans le respect et la protection des droits et du bien-être des populations et des communautés auxquelles elles appartiennent, conformément à la Déclaration Universelle des Droits de l’Homme des Nations Unies55 et autres conventions sur les droits de l’Homme. Les évaluateurs doivent donc respecter la dignité et la diversité des participants aux évaluations au moment de sa planification, de son déroulement et de la rédaction des rapports, en partie grâce à l’utilisation des instruments d’évaluation appropriés au milieu culturel. Plus encore, les éventuels participants à l’évaluation doivent être considérés comme autonomes, que le temps et les informations nécessaires leur soient donnés pour décider de leur participation ou pas, et qu’ils puissent prendre une décision libre et sans aucune pression. Les responsables de l’évaluation et les évaluateurs doivent être conscients des implications liées à la conduite d’une évaluation en zones de conflit. Les évaluateurs doivent particulièrement savoir que leur manière d’agir, y compris dans les messages explicites et implicites qu’ils transmettent, peut avoir des répercussions sur la situation et faire courir de plus grands risques aux personnes avec lesquelles ils interagissent.56 Lorsque les évaluateurs doivent s’entretenir avec des groupes vulnérables, ils doivent s’assurer que les personnes interrogées sont conscientes des implications potentielles de leur participation à l’évaluation et qu’ils ont reçu suffisamment d’informations leur permettant de décider de leur participation à cet exercice. Tous les évaluateurs mandatés par les unités de programme du PNUD doivent s’accorder à signer le Code de conduite des évaluateurs du système des Nations Unies.57 Pour de plus amples informations sur les questions déontologiques dans le cadre des évaluations, veuillez consulter: ‘UNEG Ethical Guidelines for Evaluation’.58

Encadré 41. Droits de l’Homme et égalité des sexes dans l’élaboration de l’évaluation
Les évaluations au sein du PNUD sont guidées par les principes du respect des Droits de l’Homme et de l’égalité des sexes. Ceci a des répercussions sur l’élaboration et la conduite des évaluations et requiert une compréhension mutuelle de ces principes et une attention particulière de part des évaluateurs, des responsables des évaluations et des parties prenantes. Ainsi, lors de la collecte de données par exemple, les évaluateurs doivent s’assurer que les femmes et les groupes les moins avantagés sont représentés de manière adéquate. Afin de faire apparaître les groupes exclus ou les moins avantagés, les données doivent être ventilées par sexe, âge, handicap, ethnicité, caste, richesse et toute autre différence pertinente.     

De plus, les données doivent être analysées, à chaque fois que cela est possible, sous différents points de vue, y compris le sexe, le groupe socio-économique, l’ethnicité et le handicap. Les groupes marginalisés sont souvent sujets à différentes formes de discriminations, et il est donc important de comprendre comment ces discriminations se croisent et privent ces groupes de leurs droits.


Analyse et synthèse des données

La collecte de données implique la gestion de questionnaires, la conduite d’entretiens, l’observation d’opérations de programmes et l’examen ou l’intégration de données de sources déjà existantes. L’analyse des données est un processus systématique pour lequel il s’agit d’organiser et de classer les informations collectées sous forme de tableaux, de les résumer et de comparer les résultats avec ceux d’autres informations adéquates afin d’en extraire des déductions pouvant répondre aux questions de l’évaluation et à ses objets. C’est également un processus qui permet de déchiffrer les faits issus d’un ensemble de témoignages grâce à une codification et un rassemblement systématique des données collectées, en veillant à s’assurer de leur précision, en effectuant toute analyse statistique nécessaire et en transposant ces données sur des formats ou unités d’analyse liés à chacune des questions sur l’évaluation.        

L’analyse des données cherche à identifier des modèles dans les faits, soit en isolant d’importantes déductions (analyse), soit en combinant des sources d’informations pour atteindre une plus grande compréhension (synthèse). Le mélange des méthodes d’évaluation requiert donc une analyse séparée de chaque élément et une synthèse de toutes les sources afin d’examiner les schémas, la convergence ou la complexité. 

Plan d’analyse

L’analyse et la synthèse des données doivent provenir d’un plan d’analyse devant être établi dans l’élaboration de l’évaluation et son plan de travail, détaillé dans le rapport initial de l’évaluation. Le plan d’analyse est un outil d’évaluation fondamental permettant de déterminer la manière avec laquelle l’information collectée sera
Organisée, classée, mise en corrélation, comparée et présentée selon les questions de l’évaluation, y compris ce qui sera fait pour intégrer les multiples sources, et particulièrement celles qui fournissent des informations sous forme narrative, et toute méthode statistique à laquelle on fera appel pour l’intégration ou la présentation des données (calculs, sommes, pourcentages, analyses des coûts, et ainsi de suite). Les éventuelles limites de l’analyse des données et les défis auxquels elle peut faire face doivent être décrits dans le plan d’analyse. Ce dernier doit être rédigé en même temps que les méthodes et instruments de collecte de données plutôt qu’après.       

Interprétation des résultats de l’analyse

L’interprétation des déductions est le processus par le biais duquel un sens est donné aux conclusions de l’évaluation tirées de l’analyse. Il puise dans l’ensemble des synthèses d’informations provenant de faits, de formulations, d’opinions et de documents pour transformer les déductions faites des données en jugements sur les résultats de développement (conclusions). Des recommandations pour les actions à venir seront alors faites sur la base de ces conclusions. L’interprétation est l’opération qui permet de comprendre la les déductions et de saisir la signification des éléments rassemblés dans une évaluation et de ses applications pour l’efficacité du développement. 

Tirer des conclusions

Une conclusion est un jugement raisonné se basant sur une synthèse de déductions empiriques ou formulations factuelles selon des circonstances bien déterminées. Les conclusions ne sont pas des déductions ; ce sont des interprétations donnant un sens aux déductions. Les conclusions sont considérées valables et crédibles lorsqu’elles sont directement liées au fait et peuvent être justifiées selon des méthodes d’analyse et de synthèse résumant les déductions. Les conclusions doivent :

  • Réfléchir à d’autres moyens de comparer les résultats (comme par exemple la comparaison avec les objectifs du programme, un groupe de comparaison, les normes nationales, les performances passées ou les besoins)
  • Générer d’autres explications pour les déductions et indiquer la raison pour laquelle il ne faut plus tenir compte de ces explications.
  • Créer la base pour la recommandation d’actions ou de décisions en cohérence avec les conclusions 
  • Se limiter aux situations, périodes de temps, personnes, contextes et objets pour lesquels les déductions sont applicables.59
Faire des recommandations

Les recommandations sont des propositions basées sur les faits en vu de prise de mesures de la part des utilisateurs de l’évaluation. Elles doivent être fondées sur les conclusions. Faire des recommandations est néanmoins un élément différent de l’évaluation qui requiert plus d’informations que celles qui sont nécessaires aux conclusions. Elaborer des recommandations implique la prise en compte d’alternatives efficaces, de politiques, de priorités de financement entre autres, dans un contexte plus large. Cet exercice requiert également une connaissance approfondie de contexte, particulièrement le contexte organisationnel au sein duquel les décisions sur les politiques et les programmes seront prises ainsi que le contexte politique, social et économique dans lequel l’initiative va opérer.    
Les recommandations devraient être formulées de manière à faciliter le développement d’une réponse de gestion (voir chapitre 6 et l’annexe 6 sur le système de réponse de gestion). Elles doivent également être réalistes et refléter une bonne compréhension de l’organisation mandatée et les principales contraintes à suivre. Chaque recommandation devrait clairement identifier ses groupes ciblés et stipuler l’action recommandée et sa raison.

Leçons tirées
Les leçons tirées d’une évaluation comprennent les nouvelles connaissances acquises de la circonstance particulière (initiative, effets du contexte et même des méthodes d’évaluation) qui sont applicables et utiles à d’autres contextes similaires. Les leçons tirées mettent souvent en valeur les forces et les faiblesses de la préparation, de l’élaboration et de la mise en œuvre qui ont une influence sur la performance, l’effet et l’impact. Quelles leçons ont été tirées et pourquoi ces leçons sont significatives et peuvent être généralisées à des programmes ou des projets similaires ou à venir, sont des questions pouvant être soulevées par l’évaluation.