通向结果之路 : 有效发展评价的设计与实施 [ 美] 琳达·G ·莫拉·伊玛斯 [ 美] 雷·C·瑞斯特摇 著 李扣庆摇 等译 经 济 科 学 出 版 社 摇 图书在版编目 ( CIP ) 数据 摇 通向结果之路: 有效发展评价的设计与实施 / ( 美) 伊玛斯, ( 美) 瑞斯特著; 李扣庆等译 郾 —北京: 经济 科学出版社, 2011郾 12 摇 ISBN 978 - 7 - 5141 - 1271 - 9 摇 玉郾 淤通…摇 域郾 淤伊… 于瑞… 盂石…摇 芋郾 淤经济评 价 - 研究摇 郁郾 淤F014郾 9 摇 中国版本图书馆 CIP 数据核字 (2011) 第 237645 号 责任编辑: 白留杰摇 李摇 剑 责任校对: 刘欣欣 版式设计: 代小卫 技术编辑: 李摇 鹏 通向结果之路: 有效发展评价的设计与实施 [ 美] 琳达·G·莫拉·伊玛斯 [ 美] 雷·C·瑞斯特摇 著 李扣庆摇 等译 经济科学出版社出版、 发行摇 新华书店经销 社址: 北京市海淀区阜成路甲 28 号摇 邮编: 100142 教材分社: 88191354摇 发行部电话: 88191540 网址: www郾 esp郾 com郾 cn 电子邮件: bailiujie518@ 126郾 com 北京中科印刷有限公司印装 787 伊 1092摇 16 开摇 27 印张摇 640000 字 2011 年 12 月第 1 版摇 2011 年 12 月第 1 次印刷 ISBN 978 - 7 - 5141 - 1271 - 9摇 定价: 56郾 00 元 ( 图书出现印装问题, 本社负责调换) ( 版权所有摇 翻印必究) 图字 : 01—2011—6912 号 The Road to Results: Designing and Conducting Effective Development Evaluations Copyright 襂2009 by The international Bank for Reconstruction and Development / The World Bank This work was originally published by The World Bank in English郾 as The Road to Results: De鄄 signing and Conducting Effective Development Evaluation in 2009郾 This Chinese translation was arranged by Economic Science Press郾 Economic Science Press is responsible for the quality of the translation郾 In case of any discrepancies, the original language will govern郾 该作品中所有的调查结果、 解释及结论均为作者本人观点, 并不影响世界银行或其代表的 政府的执行长官的观点。 世界银行不确保作品中数据的准确性。 作品中所涉及的地图中的边界、 颜色、 统治等其他 信息并不代表世界银行的立场及判断。 襂2011 中文简体字版专有出版权属经济科学出版社 版权所有摇 翻版必究 中 文版序 能为此书的中文版作序, 我们甚是高兴。 这是在中国出版的关于发展评价的首部教 材, 内容全面, 而且是中文版本, 因而极具里程碑意义。 本书付梓问世, 犹如向一个强盛民族打开了通向评价这一公共管理工具的大门。 利益 相关者, 不论是内部的或是外部的, 均可以借助这个工具衡量政府和组织对战略、 政策、 计划和项目的执行方法与效率, 以系统地提高对政府和组织的问责, 因而意义可谓重大。 我们不能再像过去那样只是对资金的消耗额度和去向进行简单的记录, 而是要进一步回答 几个关键问题: “ 这些资金是否用在了最迫切的干预活动上? 资金的利用效率如何? 干预 活动的效果怎样? 干预活动能否持续? 有没有产生预期影响?冶 发展评价面临诸多困难: 如数据缺乏, 信息因政治目的而被歪曲, 信息不透明, 通过 其他方式获取的信息不一定可靠等。 面对重重困难, 发展评价要在收集和提供干预措施有 效性信息的方法上有所创新。 在发展领域, 人们强烈呼吁, 要突破捐助机构采用的那种衡量其资助活动成效的评价 体系, 应该采用一种能适用于各种类型干预活动的评价工具, 以系统地评价政府和组织如 何实现预期结果以及最终的效果。 本书正是在此大背景下产生的。 2001 年, 世界银行和 卡尔顿大学联合推出了国际发展评价培训项目, 简称 IPDET ( 参见 www郾 ipdet郾 org) 。 IP鄄 DET 由两周的发展评价基础课程和两周的独立研讨会组成。 研讨会可对具体的发展评价 议题进行深入探讨。 自 2001 年起, IPDET 每年夏天在加拿大渥太华的卡尔顿大学举办, 来自全球各地的参与者汇聚一堂, 共同学习发展评价的理论与实务。 作为 IPDET 的联合 主任, 我们将 IPDET 的核心课程材料进行扩充和改编, 形成了英文版的 《 通向结果之路: 有效发展评价的设计与实施》 (2009) 。 我们的目标是既让那些参加 IPDET 的学员能有一 本发展评价的教科书, 也要让无法到卡尔顿大学参加 IPDET 的人以一种易于理解和消化 的方式分享有关内容。 只是截至目前, 读者仅限于懂些英语的人。 尽管中国早已实施了很多评价活动, 如政策分析、 经济分析和管理研究、 调查研究、 项目竣工审核以及经验总结等, 但相对来说, 评价在中国还是个新现象。 中国要加入世界 贸易组织的愿望可能是促使中国引入评价的动力。 中国于 2001 年 12 月成功入世, 入世的 要求之一是加强政府的透明度。 2000 年, 受中国科技部委托, 中国国家科技评价中心对 中国高科技研发计划 ( “863冶 计划) 15 年来的活动进行了评估, 并公布了评估结果。 之 后, 中国政府对评价保持了浓厚的兴趣。 2006 年, 中国财政部国际司派代表参加了 IP鄄 DET 培训。 中国国家科技评价中心继续开展许多重要的评价工作, 与荷兰政策与业务评 价局进行了首次科技项目的联合评价, 并于 2004 年完成了项目评价报告。 2005 年, 我们 通向结果之路: 有效发展评价的设计与实施 llll llllllll 应邀对约 100 名来自中国国家科技评价中心和其他政府部门的官员进行发展评价培训。 2006 年, 中国第一次将系统性监测与评价内容列入其五年规划。 2007 年, 中国财政部与 合作伙伴一起发起了一年两期的上海国际发展评价培训项目 ( 简称 SHIPDET) , 对本国和 本地区内的评价人员进行培训。 这个至今仍在顺利开展的项目合作伙伴包括中国财政部、 世界银行、 亚洲开发银行和亚太财经与发展中心。 在这些活动的推动下, 评价已经在中国 和整个亚太地区打下了坚实的基础。 但是在此期间, 中国一直缺少一本中文版本的评价 教材。 中文版 《 通向结果之路》 提供了一本发展干预评价的教材, 可供政府官员、 大学教 师、 培训师以及现在和将来的专业人士研读, 因此, 该书出版的意义不言自明。 在亚太财 经与发展中心副主任李扣庆先生的主持下, 本书的翻译工作耗费了大量的心血, 最终才得 以问世。 我们向李扣庆、 吴宁沁、 曹声容、 赵敏等表示深深的谢意, 感谢他们投入了大量 的周末和假期时间来精心完成本书的翻译工作。 中国财政部的同事也对此书出版做出贡 献, 我们在此一并致谢。 中国的评价能力提升之快, 让人惊叹不已。 我们很骄傲, 也很荣幸, 能为此贡献一份 微薄之力, 相信本书会进一步推动中国的评价事业不断前进。 摇2 琳达·G·莫拉·伊玛斯 雷·C·瑞斯特 前摇 摇 言 发展评价是整个评价体系的一个亮点。 它研究的是发展领域影响深远、 纷繁复杂而又迫切需要解决的问题。 事实上, 在我们看来, 对扶贫、 全球化 及其对贫困人口的影响、 全球变暖给弱小国家带来的影响、 全球金融体系的 结构性不平等以及帮助冲突后国家的战略等领域的评价, 只是发展评价帮助 我们应对这些紧迫问题的几个例子。 全球范围内, 政府和组织面临的问责压力越来越大, 他们要向内外部的 利益相关者展示绩效和更富有成效的发展。 在这样的背景下, 发展评价逐渐 成为系统地探讨和回答 “ 那又怎么样?冶 问题的主要方法。 仅仅证明一个人很 忙是不够的, 现在还要证明一个人的工作是否有成效。 发展评价也是一个急需探索的领域。 政府的数据系统可能很欠缺或者根 本就没有, 出于政治意图的信息腐败层出不穷, 大量信息缺失, 对所提供信 息的可信度没有保障, 在此情况下, 寻找评价方法的工作是苍白无力的。 面 对这些挑战, 发展评价表现出灵活性、 创新性和创造性方法, 探寻有效的方 法向民众、 政府官员、 援助方、 民间团体和媒体提供关于政府计划是否起到 作用的信息。 本书力图通过强化发展评价这一工具, 帮助从总体上改进治理体系, 特 别是帮助改进政策与计划的制订和实施。 评价可以成为一个非常有力的公共 管理工具, 帮助政府和组织改进行为方式和结果。 评价的贡献绝不只限于公 共部门, 评价也可以成为那些致力于支持贫困地区发展的民间团体、 非政府 组织以及援助方的有力工具。 本书的材料源自国际发展评价培训项目 ( IPDET ) 。 IPDET 是世界银行和 卡尔顿大学 ( Carleton University ) 每年夏天共同举办的一个发展评价培训项 目。 它将世界各地的学员汇聚在一起, 用一个月的时间共同学习发展评价。 本书是 IPDET 核心课程的精华, 希望借此能与更多对发展评价感兴趣的人们 分享 IPDET 课程。 作为本书作者, 我们要感谢那些给我们提出咨询建议、 阅读本书手稿、 提出批评意见以及鼓励我们坚持完成本书的人。 还有一些人是我们在这里就 通向结果之路: 有效发展评价的设计与实施 llll llllllll 要感 谢 的, 他 们 是: 迈 克 尔 · 巴 顿 ( Mickeal Patton ) , 帕 特 里 瓦 · 格 拉 原 ( Patrick Grasso) , 马丁 · 艾布拉姆斯 ( Martin Abrams ) , 米尔 · 达贝尔斯坦 ( Miel Dabelstein) , 格雷格·杰克逊 ( Gregg Jackson) , 基因·斯威梅尔 ( Gene Swimmer) 和南希·博都斯 ( Nancy Porteous ) 。 以上各位都阅读了本书的一些 章节并提出了宝贵意见。 我们非常感谢他们为此付出的心血。 世界银行出版 办公室的圣地亚哥· 庞波 ( Santiago Pombo ) 给了我们强有力的支持。 他始终 坚定地鼓励我们完成本书。 我们还要感谢卡尔顿大学两位与我们共同合作 IPDET 的朋友: 凯伦 · 金 斯伯格 ( Karen Ginsberg) 和芭芭拉 · 莱文 ( Barbara Levine ) 。 没有 IPDET 也 就不会有这本书了。 他们是非常棒的合作伙伴, 也是非常好的朋友。 最后, 我们还要感谢黛安· 诺瓦克 ( Diane Schulz Novak ) , 写作和修改书 稿的整个过程中, 她都给了我们很大的帮助。 她的敬业、 细心和娴熟的技能 都是不可或缺的, 没有她, 我们也就不会写这篇序, 更不会有后面的书了。 摇2 我们俩是三十多年的同事和朋友。 1981 年我们在美国政府责任办公室首 次见面, 并开始合作共事。 其后我们又在世界银行做了十多年的同事。 合作 得越久, 友谊也越来越深厚。 随着我们走向事业的顶峰, 是的, 我们现在终 于可以向评价界献上我们的合作果实了。 摇 引摇 摇 言 发展的分析框架、 概念框架和政治框架日新月异。 新的发展议程要求以更加开阔的视 野解读部门和国家发展战略与政策。 它强调在发展周期的所有阶段都要进行学习和持续 反馈。 事实上, 发展评价可以被看做是一种公共产品: 评价超越了单个组织的边界。 一项好的评价研究可以给整个评价界带来积极的溢出效应。 发 展评价具有国际公共产品的特征。 ( Picciotto 和 Rist 1995, P郾 23) 随着发展议程涉及面的不断扩大, 复杂程度的不断增加, 发展评价也在不断跟进以适 应形势需要。 随着人们对结果的重视和对千年发展目标的认同, 评价人员正逐渐从传统的 实施和产出导向的评价转向结果导向的评价。 为全面应对各国所面临的挑战, 发展领域关 注的焦点已不再是项目, 发展评价人员正在探索用于评估国家、 部门、 主题、 政策甚至全 球层面结果的方法。 评价界认识到不仅要以全面而且要以合作的方式应对发展中国家挑战 的重要性, 开始重视合作伙伴关系, 发展评价人员也越来越多地参与联合评价。 这些联合 评价有很多方面的优点, 但也增加了发展评价的复杂度 ( OECD 2006) 。 而且, 在这种情 况下, 评价人员发现越来越难以度量单个发展组织的绩效, 界定单个组织的贡献也越来 越难。 发展越来越复杂, 对发展的要求越来越高, 评价设计也越来越难。 它需要运用多种错 综复杂的技术和方法, 并设定更高的标准以产生影响。 对新的评价方法和混合技巧的需求已经超出了经济学的范畴。 迫在眉睫的问题, 如气 候变化, 就需要能够评价可持续性的新方法。 环境问题、 多国影响、 难以获得共有可比性 的数据, 以及无法预料事件的持续发生等, 都需要复杂的、 融合多种方法的评价方法。 大概没有哪个学科能够主导应对大多数人所遇到的多种挑战和满足大多数人希望的工 作。 既然没有这样的单一学科, 就经常会出现跨越不同学科的现象, 评价人员越来越敢于 博采众长、 兼收并蓄地使用各种社会科学工具 ( Piccotto 和 Rist 1995, 第 169 页) 。 评价能力建设———建立受过发展评价实践和方法训练的评价团队———是大多数发展中 国家面对的挑战。 发展中国家全国性评价协会以及区域性评价组织的兴起是发展评价界走 向专业化所迈出的重要的第一步。 发展评价人员找到了致力于满足其需求的国际专业组 织———国际发展评价协会 ( IDEAS) 。 对发展评价能力建设同样起到积极推动作用的是大 学中发展评价研究生课程的开设和地区性培训中心的设立。 本书旨在为发展评价能力建设提供一个工具, 帮助发展评价人员思考和探索新的评价 通向结果之路: 有效发展评价的设计与实施 llll llllllll 体系, 特别是设计和实施能够应对发展挑战的结果导向的评价。 国际发展评价培训项目 ( IPDET) 由世界银行运营评价部 ( 现独立评价局 IEG) 于 2001 年创建。 IEG 在世界银行学院的帮助下, 与卡尔顿大学合作在加拿大渥太华举办了 第一期培训。 自 2003 年后, 该项目已在十多个国家提供了为期一周或两周的 IPDET 定制 课程。 2007 年上海国际发展评价培训项目 ( SHIPDET) 创建。 尽管 IPDET 持续不断地改进以适应不断变化的发展要求, 但目标对象仍基本定位于 从事或即将从事发展评价的人员。 它努力为评价地方、 全国、 区域或全球层面的发展干预 提供常用工具。 它的目标群体主要是在双边或多边发展机构、 发展中国家政府部门、 非政 府组织中从事评价工作的人员以及国会议员和私人顾问们。 IPDET 的总目标是提升参与者设计和实施有效的发展评价的知识、 技巧和能力, 以推 动基于事实的决策制定。 它通过十四个授课模块, 概要地介绍了实施有效的发展干预评价 的路径。 本书基于这些模块, 又有所扩展。 它全面讨论了发展评价人员面对的问题, 并为他们 完成发展评价提供指导。 通过阅读本书, 更多的从事发展评价工作的人将掌握能进行更具 说服力的发展结果评价的基本工具。 摇 2 目摇摇 摇摇 录 目 录 引言 …………………………………………………………………………………………… 1 基本原理 …………………………………………………………………………………… 1 摇 第一章摇 发展评价简介 ………………………………………………………………… 3 摇 摇 摇 什么是评价? …………………………………………………………………………… 3 摇 摇 摇 评价学科的起源和历史 ……………………………………………………………… 11 摇 摇 摇 发展评价的沿革 ……………………………………………………………………… 16 摇 摇 摇 发展评价的原则与标准 ……………………………………………………………… 18 摇 摇 摇 发展评价实例 ………………………………………………………………………… 23 摇 摇 摇 小结 …………………………………………………………………………………… 26 摇 摇 摇 练习 …………………………………………………………………………………… 26 摇 摇 摇 名词解释 ……………………………………………………………………………… 26 摇 摇 摇 参考书目 ……………………………………………………………………………… 27 摇 摇 摇 网址 …………………………………………………………………………………… 31 摇 第二章摇 推动发展评价的主要因素 ………………………………………………… 34 摇 摇 摇 发达国家及发展中国家的评价活动概况 …………………………………………… 34 摇 摇 摇 新出现的发展问题的意义 …………………………………………………………… 47 摇 摇 摇 小结 …………………………………………………………………………………… 61 摇 摇 摇 名词解释 ……………………………………………………………………………… 62 摇 摇 摇 参考书目 ……………………………………………………………………………… 62 摇 摇 摇 网址 …………………………………………………………………………………… 70 发展评价的准备与实施 ……………………………………………………………… 71 摇 第三章摇 建立结果导向的监测与评价体系 ……………………………………… 73 摇 摇 摇 结果导向的监测与评价体系的重要性 ……………………………………………… 73 摇 摇 摇 什么是结果导向的监测与评价体系? ……………………………………………… 74 通向结果之路: 有效发展评价的设计与实施 llll llllllll 摇 摇 摇 传统的监测与评价体系和结果导向的监测与评价体系 …………………………… 75 摇 摇 摇 建立结果导向的监测与评价体系的十个步骤 ……………………………………… 78 摇 摇 摇 小结 …………………………………………………………………………………… 94 摇 摇 摇 练习 …………………………………………………………………………………… 95 摇 摇 摇 名词解释 ……………………………………………………………………………… 96 摇 摇 摇 参考书目 ……………………………………………………………………………… 96 摇 摇 摇 网址 …………………………………………………………………………………… 97 摇 第四章摇 预期评价背景与项目变革理论…………………………………………… 99 摇 摇 摇 前期分析 ……………………………………………………………………………… 99 摇 摇 摇 确定主要客户和关键利益相关者 …………………………………………………… 101 摇 摇 摇 理解评价背景 ………………………………………………………………………… 104 摇 摇 摇 发掘已有知识 ………………………………………………………………………… 105 摇 摇 摇 变革理论的构建、 使用和评估 ……………………………………………………… 106 摇2 摇 摇 摇 小结 …………………………………………………………………………………… 120 摇 摇 摇 练习 …………………………………………………………………………………… 120 摇 摇 摇 名词解释 ……………………………………………………………………………… 122 摇 摇 摇 参考书目 ……………………………………………………………………………… 122 摇 摇 摇 网址 …………………………………………………………………………………… 125 摇 第五章摇 考虑评价方法 ……………………………………………………………… 128 摇 摇 摇 评价的一般方法 ……………………………………………………………………… 128 摇 摇 摇 评价方法的优势与挑战 ……………………………………………………………… 146 摇 摇 摇 小结 …………………………………………………………………………………… 150 摇 摇 摇 练习 …………………………………………………………………………………… 150 摇 摇 摇 名词解释 ……………………………………………………………………………… 150 摇 摇 摇 参考书目 ……………………………………………………………………………… 151 摇 摇 摇 网址 …………………………………………………………………………………… 155 设计与实施 ……………………………………………………………………………… 159 摇 第六章摇 评价问题及设计矩阵的开发 …………………………………………… 161 摇 摇 摇 问题的来源 …………………………………………………………………………… 161 摇 摇 摇 问题的类型 …………………………………………………………………………… 162 摇 摇 摇 问题类型与变革理论的关系 ………………………………………………………… 167 摇 摇 摇 识别和选择问题 ……………………………………………………………………… 167 摇 摇 摇 开发合适的评价问题 ………………………………………………………………… 169 目摇 摇 l 录lll llllllll 摇 摇 摇 评价设计 ……………………………………………………………………………… 170 摇 摇 摇 小结 …………………………………………………………………………………… 176 摇 摇 摇 练习 …………………………………………………………………………………… 177 摇 摇 摇 名词解释 ……………………………………………………………………………… 177 摇 摇 摇 参考书目 ……………………………………………………………………………… 178 摇 摇 摇 网址 …………………………………………………………………………………… 178 摇 第七章摇 因果性问题、 描述性问题和规范性问题的设计选择 ……………… 179 摇 摇 摇 将问题与设计相关联 ………………………………………………………………… 179 摇 摇 摇 因果性问题设计 ……………………………………………………………………… 182 摇 摇 摇 描述性问题设计 ……………………………………………………………………… 196 摇 摇 摇 规范性问题设计 ……………………………………………………………………… 198 摇 摇 摇 更严格的评价设计需求 ……………………………………………………………… 199 摇 摇 摇 练习 …………………………………………………………………………………… 202 摇 摇 摇 附表摇 不同设计类型的关键术语和特性概要 ……………………………………… 203 摇3 摇 摇 摇 名词解释 ……………………………………………………………………………… 204 摇 摇 摇 参考书目 ……………………………………………………………………………… 205 摇 摇 摇 网址 …………………………………………………………………………………… 209 摇 第八章摇 选择和构建数据收集工具 ……………………………………………… 210 摇 摇 摇 数据收集策略 ………………………………………………………………………… 210 摇 摇 摇 合理指标的特点 ……………………………………………………………………… 213 摇 摇 摇 定量数据和定性数据 ………………………………………………………………… 214 摇 摇 摇 收集数据的工具 ……………………………………………………………………… 217 摇 摇 摇 小结 …………………………………………………………………………………… 253 摇 摇 摇 练习 …………………………………………………………………………………… 253 摇 摇 摇 名词解释 ……………………………………………………………………………… 254 摇 摇 摇 参考书目 ……………………………………………………………………………… 255 摇 摇 摇 网址 …………………………………………………………………………………… 259 摇 第九章摇 抽样策略选择 ……………………………………………………………… 260 摇 摇 摇 抽样简介 ……………………………………………………………………………… 260 摇 摇 摇 样本类型: 随机和非随机 …………………………………………………………… 260 摇 摇 摇 确定样本大小 ………………………………………………………………………… 266 摇 摇 摇 小结 …………………………………………………………………………………… 268 摇 摇 摇 练习 …………………………………………………………………………………… 268 摇 摇 摇 名词解释 ……………………………………………………………………………… 269 摇 摇 摇 参考书目 ……………………………………………………………………………… 270 通向结果之路: 有效发展评价的设计与实施 llll llllllll 摇 摇 摇 网址 …………………………………………………………………………………… 271 摇 第十章摇 计划和实施数据分析 ……………………………………………………… 272 摇 摇 摇 数据分析策略 ………………………………………………………………………… 272 摇 摇 摇 分析定性数据 ………………………………………………………………………… 273 摇 摇 摇 定量数据分析 ………………………………………………………………………… 283 摇 摇 摇 定性数据与定量数据的关联 ………………………………………………………… 292 摇 摇 摇 小结 …………………………………………………………………………………… 294 摇 摇 摇 练习 …………………………………………………………………………………… 295 摇 摇 摇 名词解释 ……………………………………………………………………………… 296 摇 摇 摇 参考书目 ……………………………………………………………………………… 297 摇 摇 摇 网址 …………………………………………………………………………………… 300 迎接挑战 ………………………………………………………………………………… 303 摇4 摇 第十一章摇 复杂干预评价 …………………………………………………………… 305 摇 摇 摇 发展评价大局观 ……………………………………………………………………… 305 摇 摇 摇 联合评价 ……………………………………………………………………………… 306 摇 摇 摇 国家项目评价 ………………………………………………………………………… 309 摇 摇 摇 部门项目评价 ………………………………………………………………………… 311 摇 摇 摇 主题评价 ……………………………………………………………………………… 313 摇 摇 摇 全球和地区合作项目评价 …………………………………………………………… 314 摇 摇 摇 小结 …………………………………………………………………………………… 317 摇 摇 摇 名词解释 ……………………………………………………………………………… 317 摇 摇 摇 参考书目 ……………………………………………………………………………… 318 摇 摇 摇 网址 …………………………………………………………………………………… 321 引领 ………………………………………………………………………………………… 323 摇 第十二章摇 评价活动的管理 ………………………………………………………… 325 摇 摇 摇 设计矩阵的管理 ……………………………………………………………………… 325 摇 摇 摇 评价的承包 …………………………………………………………………………… 326 摇 摇 摇 不同参与人员的角色和职责 ………………………………………………………… 328 摇 摇 摇 人员、 任务和预算的管理 …………………………………………………………… 332 摇 摇 摇 小结 …………………………………………………………………………………… 339 摇 摇 摇 练习 …………………………………………………………………………………… 339 摇 摇 摇 名词解释 ……………………………………………………………………………… 340 目摇 摇 l 录lll llllllll 摇 摇 摇 参考书目 ……………………………………………………………………………… 341 摇 摇 摇 网址 …………………………………………………………………………………… 344 摇 第十三章摇 结果的展示 ……………………………………………………………… 346 摇 摇 摇 精心设计沟通策略 …………………………………………………………………… 346 摇 摇 摇 撰写评价报告 ………………………………………………………………………… 348 摇 摇 摇 形象地展示信息 ……………………………………………………………………… 353 摇 摇 摇 口头演讲 ……………………………………………………………………………… 362 摇 摇 摇 小结 …………………………………………………………………………………… 364 摇 摇 摇 练习 …………………………………………………………………………………… 365 摇 摇 摇 名词解释 ……………………………………………………………………………… 365 摇 摇 摇 参考书目 ……………………………………………………………………………… 365 摇 摇 摇 网址 …………………………………………………………………………………… 367 摇 第十四章摇 指导评价人员: 评价的道德、 政治、 标准和指导原则 ……… 368 摇5 摇 摇 摇 道德行为 ……………………………………………………………………………… 368 摇 摇 摇 政治与评价 …………………………………………………………………………… 371 摇 摇 摇 评价标准与指导原则 ………………………………………………………………… 376 摇 摇 摇 小结 …………………………………………………………………………………… 379 摇 摇 摇 练习 …………………………………………………………………………………… 379 摇 摇 摇 参考书目 ……………………………………………………………………………… 380 摇 摇 摇 网址 …………………………………………………………………………………… 381 摇 第十五章摇 展望未来 ………………………………………………………………… 384 摇 摇 摇 从过去到现在 ………………………………………………………………………… 384 摇 摇 摇 展望未来 ……………………………………………………………………………… 385 摇 摇 摇 练习 …………………………………………………………………………………… 392 摇 摇 摇 参考书目 ……………………………………………………………………………… 392 摇 摇 摇 网址 …………………………………………………………………………………… 394 摇 附录一摇 OECD DAC 发展评价网络评估发展合作关键规范和标准概述 …………… 395 摇 附录二摇 Outer Baldonia 中学职业培训项目的设计矩阵 ……………………………… 409 摇 附录三摇 缩略语表 ………………………………………………………………………… 415 摇 后记 ………………………………………………………………………………………… 420 基本原理 “ 真正的天分表现为评估不确定的、 危险的和相互矛盾信息的能力。冶 ———温斯顿·丘吉尔 第一章: 发展评价简介 * 什么是评价? * 评价学科的起源与历史 * 发展评价的沿革 * 发展评价的原则与标准 * 发展评价实例 第二章: 推动发展评价的主要因素 * 发达国家及发展中国家的评价概况 * 发展领域新问题的影响 第一章 摇 发展评价简介 本章介绍了项目、 计划和政策评价的定义和一般概念, 进而讨论了发展干预的评价, 即通常所称的发展评价。 本章包括五个主要部分: 誗 什么是评价? 誗 评价学科的起源和历史 誗 发展评价的沿革 誗 发展评价的原则与标准 誗 发展评价实例 什么是评价 ? 詪詪詪詪詪詪詪詪 理解评价的含义、 目的及其用途, 对理解发展评价是十分重要的。 本章的这一部分将 誗 对评价进行定义 誗 确定评价的目的 誗 列出评价的好处 誗 指出评价人员评价什么 誗 分析监测与评价的关系 誗 明确职业评价人员的作用和活动 评价的定义 评价有多种定义。 牛津英语词典将其定义为: 1郾 一种鉴定或估价 ( 物品等) 的活动; 价值的计算或声明; 2郾 估计或确定 ( 数学表达式、 物 理量等的) 数值, 或是估计概率、 证据等作用的行为。 在评价学科内, 评价这一术语有多种含义。 定义的差异反映了评价目的侧重点的不 同, 如问责与学习; 也反映了与计划、 项目或政策进展相关联的评价时间侧重点的不同。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 事实上, 对评价的定义尚没有统一的看法。 实际上, 现代评价学科创始人之一的迈克尔 · 斯奎文 ( Michael Scriven) 最近指出, 考虑到语 言差异, 有近 60 个不同的术语表达了评价的不同方面的含义。 这些术语包括裁决、 鉴定、 分析、 评估、 评论、 考级、 评分、 检验、 分级、 排名、 回顾、 打分、 研究、 测试等。 ( Fitzpatrick, Sanders, and Worthen 2004, p郾 5) 基 大多数评价定义包含了对评价对象的价值做出判断的概念。 事实上, 正是这种 “ 价 本 原 值评判冶 把评价与研究及监测活动区分开来。 理 本书采纳了经济合作与发展组织 ( OECD) / 发展援助委员会 ( DAC) 词汇表中的定 义 ( OECD 2000, p郾 21) : 评价是指决定一项活动、 政策或计划的价值或重要性的过程。 对计划好的、 进行中的或是已完 成的干预活动的评价, 要尽可能地系统客观。 评价可以是形成性的、 总结性的, 也可以是前瞻性的。 形成性评价是指旨在改进绩效的评价, 绝大多数在项目或计划的执行阶段进行。 当然, 也可能 出于其他理由进行形成性评价, 如合规性、 法规要求或是作为某个大型评价活动的组成部分。 与之 摇4 相反, 总结性评价是在某项干预的末期 ( 或干预的某个阶段 ) 进行的研究活动, 以便确定预期成 果达成的情况。 总结性评价旨在提供项目价值方面的信息。 ( OECD 2002, pp郾 21 - 22) 形成性评价重在研究计划、 政策或项目执行的方式。 它检测项目事先假设的 “ 运行 逻辑冶 与实际情况是否一致, 并界定执行过程产生的直接结果。 这类评价是在项目或计 划的执行阶段进行的, 由于侧重于运行阶段, 因此有时也被称为过程评价。 形成性评价的一个实例是国际发展研究中心 ( the International Development Research Center, IDRC) 对其拉美和加勒比地区自然资源管理倡议活动 ( 也称 Minga 倡议 ) 的评价 ( Adamo 2003) 。 Minga 倡议的总体目标是在玻利维亚、 厄瓜多尔和秘鲁培养包括女性和男 性在内的自然资源管理专业人员。 该倡议引起 IDRC 兴趣的一个部分是性别主流化淤 问题。 为更多地了解该倡议如何做 到性别主流化, IDRC 委托进行了一次形成性评价。 本次形成性评价的方法是首先检阅与 性别主流化及相关活动有关的计划文件。 评价人员也检阅了考察报告以便评估考察过程中 性别问题被重视的程度。 此外, 对工作人员进行了访谈, 以分析他们个人的努力、 经验, 将性别主流化纳入他们工作的情况, 以及在此过程中他们所学到的教训。 还有一种形成性评价是中间阶段或中间时点评价。 正如其名, 中期评价是在项目、 计 划或政策进行到一半时所开展的评价。 中期评价的目的是帮助识别哪些方面起到很好的作 用, 哪些不起作用。 中期评价可以首先侧重于应当汲取的教训以及相关性、 有效性和效 率。 学到的教训对指导未来的干预和改进当前的干预都是很重要的。 总结性评价经常也被称为结果或影响评价, 在干预的末期或针对已成熟的干预进行, 用以确定预期结果达成的程度。 总结性评价旨在提供有关计划的价值和影响的信息, 内容 淤 性别主流化是联合国在全世界推行的一个概念。 指所有政策活动, 皆以落实性别平等为核心。 要求各个层面 的政策、 立法与资源配置等均应真正反映性别平等。 ( 译者注) 第一章摇 发展评价简介 llll llllllll 包括影响评价、 成本———有效性调查、 准试验设计、 随机试验和案例研究等。 总结性评价的一个例子是亚洲开发银行 ( the Asian Development Bank, ADB) 完成的 对蒙古金融部门改革计划 ( the Second Financial Sector Program) 的评价 ( ADB 2007) 。 该 计划包括在亚行的支持下将垄断性的银行系统重组为两个层次的银行体系的金融部门改 革。 在计划的第二阶段结束时, 完成了一项总结性评价。 该评价被用以回答相关性、 绩 效、 影响、 可持续性、 外部效用和教训等问题。 基 形成性评价与总结性评价差别之间的可以表述如下: 本 原 誗 形成性评价注重于项目、 计划和政策的执行与改进。 理 誗 总结性评价注重于结果。 这类评价帮助人们做出有关继续、 复制、 扩大规模或终 止某一项目、 计划或政策的决定。 一般来说, 以上两种类型的评价都有必要, 通常在项目、 计划或政策周期的不同阶段 实施。 前瞻性评价 评估所建议的项目 、 计划或政策的可能结果 。 它在一定程度上与可评价 性评估相类似 。 可评价性评估回答以下问题 , 如 : “ 此计划或项目值得评价吗 ?冶 “ 未来 收益值得花费努力 / 资源吗 ?冶 前瞻性评价综合早期研究的发现与成果来评估所建议的 摇 5 新项目 、 计划或政策的可能结果 。 例如 , 美国国会的各委员会经常征询政府责任办公 室 淤 ( the Government Accountability Office, GAO) 的意见 , 对拟议法案草案的可能结果 进行预测 。 一个很早前进行但很有趣的前瞻性评价实例是政府责任办公室 1986 年所做的 《 少女 怀孕问题的研究: 一年出生 50 万但几乎没有测试计划 》 ( U郾 S郾 GAO 1986) 。 该评价包括 四个主要步骤, 包括分析两个国会议案的主要特点、 检阅有关青少年怀孕的统计数据、 分 析联邦和地方计划的特征, 以及检阅对以往帮助怀孕青少年、 育儿青少年及致孕概率较大 青少年的计划有效性的评价研究。 评价人员重构了基本的计划理论和两个国会法案的运行 逻辑, 以便弄清楚为何当初人们认为这些拟议中的立法倡议将能起到作用。 然后, 他们将 找到的证据与拟议立法的特点进行了比较。 这类前瞻性评价有时也被称为事前评价( Rossi and Freeman 1993) 。 事前或前瞻性评价 经常包括对计划理论的重构或评估、 情景研究及对现有研究和评价的总结, 以弄清对所建 议倡议的实证支持。 评价的目的 评价可服务于多种目的。 在学术界, 围绕着在某一给定的情境中评价应该达成何种目 的或目标, 存在不同的看法。 一种流行的看法是评价有四方面不同的目的: 淤 美国总审计局 ( General Accounting Office) 于 2004 年 7 月改名为政府责任办公室 ( the Government Accounta鄄 bility Office) , 其缩写仍为 GAO。 ( 译者注 ) 通向结果之路: 有效发展评价的设计与实施 llll llllllll 誗 道德目的: 向政治领导人或公众报告某项政策或计划的执行状况及结果达成的状 况。 这个目的涵括了更好地使用问责制、 信息处理及服务于民主公开等。 誗管理目的: 在 “ 竞争性冶 计划间实现财务和人力资源更加合理的分配, 改进计划 管理和提升计划收益。 誗 决策目的: 为继续、 中止或重新制定政策或计划等决策铺平道路。 基 誗 教育或激励目的: 通过使公共机构及其合作伙伴理解参与过程并确定参与目的, 本 帮助引导公共机构及其合作伙伴。 ( Scientific and National Councils of Evaluation 原 理 1999) 知名的评价人员描述了如下的评价目的: 誗 取得社会进步 誗 促进民主协商 誗 确保监管和合规 誗 确保责任和透明 誗 建立、 分享和管理知识 誗 促进组织提升 摇6 誗 促进关键利益相关人之间的对话与合作 誗 决定项目、 计划或政策的相关性、 执行、 效率、 有效性、 影响和可持续性 誗 获取教训 Chelimsky and Shadish (1997) 从全球视野探讨了评价在世界范围内所面临的挑战。 这些挑战包括新技术的影响、 各国人口数量不均衡、 环境保护、 可持续发展、 恐怖主义、 人权以及其他超越项目本身乃至超越国界的问题。 总的来说, 任一评价的目的都是要为决策制定者提供信息, 以便他们能做出更好的有 关项目、 计划或政策的决策。 评价应该帮助决策制定者了解: 由于实施干预, 哪些可能发 生、 哪些正在发生、 哪些已经发生, 并帮助他们确定获取更大的期望收益的方式。 评价的收益 评价帮助回答有关干预的如下问题: 誗 干预产生哪些影响? 誗 干预是否如预期那样起到作用? 誗 不同地点的干预效果是否存在差异? 誗 谁从干预中受益? 人们通过多种方式从评价中受益。 有些人直接从中获益, 那些并不介入干预但也从中 获取好处的人则是间接受益人。 某些干预产生短期收益, 有些则能产生长期收益。 为说明人们是如何以不同方式受益的, 请参考以下实例。 美国住房与城市发展部 ( the U郾 S郾 Department of Housing and Urban Development 1997) 评价了一个面向居住在公共 住房内 16 ~ 20 岁青少年的子夜篮球项目。 调查表明, 在实施项目前, 92% 的受访者表示 他们预期会遇到某种危险, 其中三分之二的人认为未来三个月内他们将会是暴力行为的受 第一章摇 发展评价简介 llll llllllll 害者。 在篮球项目实施后, 20% 的受访者表示他们预期会遇到某种危险; 仅有 5% 的人预 期自己将会成为暴力行为的受害者。 针对子夜篮球项目的评价表明, 在公共住房发展所在区域, 16 ~ 20 岁的青少年犯罪 率下降了 78% 。 根据受访者所提供的信息, 犯罪率下降的主要原因是: 子夜篮球项目使 那些可能犯罪的青少年有积极的事情可做。 在这个例子中, 项目的参与者是项目的直接受 益人, 他们认为项目的实施使他们免受危险并避免成为暴力犯罪的受害者。 基 在评估中, 也调查了社区居民。 受访者表示, 由于实施子夜篮球项目, 他们的社区及 本 原 其子女都觉得更安全了。 在此情况下, 社区居民就是间接且至少是短期受益人 ( 取决于 理 收益能持续多长时间) 。 尽管他们并未直接介入该项目, 但实施该项目的结果使他们感觉 更安全了。 上述的总结性发现可用于向更多的居民和社区展示子夜篮球项目在预防和减少暴力犯 罪方面是成功的。 项目管理者也可以向市政委员会报告评价发现, 作为申请进一步资助的 依据。 如果获得继续资助从而使他们能在更长时间内保有工作岗位, 则项目管理者也是间 接的受益者。 长期来看, 如果那些青少年避免入狱, 则整个社会也是受益的, 因为社会无须承担监 摇7 禁成本、 不会因此而丧失生产力。 将来那些青少年也许会成长为有能力就业、 从事劳动并 缴纳税收的公民, 而不是被送入监狱。 评价也能提供项目执行过程中的信息。 在项目执行阶段和后续的评价过程中, 其他公 共住房机构 ( 非预期受益人) 也可能从得到的教训中受益。 在第二个实例中, 建设和维护水处理厂这一干预措施会给居民带来安全的饮用水。 对 居民来说, 短期内的直接收益是干净的饮用水, 对社区居民和整个社区来说, 长期的直接 收益则是水源性疾病发生率的下降。 由于有了安全的饮用水, 可能吸引外来投资, 则是一 种间接的中期收益。 评价对象 评价可以围绕发展的不同层面展开 ( 见表 1郾 1) 。 以下是可开展评价的部分层面: 誗 项目: 在某个地点实施的某项干预或在几个地点实施的某项干预 誗 计划: 包括各种旨在实现某一共同目标的活动或项目在内的某项干预 誗 政策: 由某一组织制定的用于规制发展决策的标准、 指南或规则 誗 组织: 由某一组织实施的多项干预计划 誗 部门: 跨越某一特定政策领域, 如教育、 林业、 农业或卫生等的干预 誗 主题: 特定问题, 通常是跨领域的, 如性别平等或全球公共产品问题 誗 国家援助: 某一计划所推动的国家进步、 援助的总体效果、 获得的教训等 评价结果的运用 评价结果有多种用途。 评价给委托人、 政府机构、 非政府组织、 公众及许多其他人士 通向结果之路: 有效发展评价的设计与实施 llll llllllll 提供了有关政策、 计划和项目的反馈。 从评价结果中, 可以得到公共资金如何被使用的信 息。 评价也可以帮助管理人员和政策制定者了解原定目标或修正目标实现过程中的成败 因素。 摇 表 1郾 1 政策、 计划及项目评价实例 基 应用 本 评价类型 原 水系统私有化 居民搬迁 理 比较公共供水系 统 私 有 化 的 不 政策评价 比较异地安置农民的战略 同样板做法 评估重新安置的农民维持其原先生 计划评价 评估政府部门的财政管理 活水准的程度 比较两个省份的 水 费 交 付 率 改 评估一个省份重新安置农民的农业 摇8 项目评价 进的情况 生产情况 摇 摇 资料来源: 作者 评价能帮助说明项目、 计划和政策是如何使用公共资金的, 也能帮助确定项目、 计划 和政策是否应该复制、 扩大规模、 改进抑或终止。 Weiss (2004) 强调从最初的项目设计阶段就应该明确评价预期用途的重要性。 她指 出, “ 如果你无法确定和说明评价的主要预期使用者和用途, 你就不应当进行评价。冶 “ 束 之高阁的评价是对宝贵的人力资源和财务资源的浪费。冶 自始至终, 应该根据主要预期使用者的需要设计和实施评价过程。 主要使用者承担着 在他们的参与经验或评价发现的基础上去推动变革的责任。 评价可以服务于多种目的和用途 ( 专栏 1郾 1) 。 例如 誗 帮助分析为何能够达成或未能达成预期结果 誗 探究为何可能出现预期之外的结果或后果 誗 评估特定活动如何影响结果, 以及为何会产生这种影响 誗 弄清楚各个层面干预的实施过程、 失败或成功因素 誗 帮助提供教训, 突出取得成就和有潜力的领域, 并为改进和改革提供特别的建议 概括而言, 评价通过聚焦以下问题来发挥作用: 誗 广泛的政治战略和设计问题 ( “ 我们是否在做正确的事?冶 ) 誗 运行和执行问题 ( “ 我们是否在正确地做事?冶 ) 誗 是否存在更好地解决问题的方法 ( “ 我们学到了什么?冶 ) 第一章摇 发展评价简介 llll llllllll 专栏 1郾 1摇 评价的用途 评价有多种用途: 誗 帮助做出资源配置决策 誗 帮助重新思考问题的原因 基 誗 识别新问题 本 誗 帮助在竞争性或最优的选择间作出抉择 原 理 誗 支持公共部门改革和创新 誗 对问题产生的原因及应对措施达成共识 资料来源: Kusek and Rist 2004 监测与评价的关系 为保持一致性, 我们使用 OECD / DAC 《 评价关键术语词典》 中监测的定义: 摇9 监测是一种围绕特定的指标系统收集数据, 进而向正在进行的发展干预活动的管理者及主要 的利益相关者提供目标实现进度和进展状况以及所分配的资金使用状况信息的持续性活动。 监测是日常的、 持续的、 内部的活动。 为跟踪绩效状况, 监测系统用来收集项目活 动、 产出和结果方面的信息。 监测系统的一个实例是马拉维卫生部使用 26 个指标监测中央医院医疗服务的质量。 这些指标包括转诊后四个星期内专家诊治病人的数量、 住院病人死亡数、 住院产妇死亡数 及住院天数。 ( 马拉维政府 2007) 有关指标的常规数据为卫生部长提供了一条分析趋势线。 如果指标发生任何剧烈的波 动, 卫生部都可能对医院进行调查。 例如, 住院病人死亡人数的显著上升可能表明院内感 染率较高, 应当马上采取措施加以应对。 感染率的显著下降则可能表明新型消毒剂的效果 显著, 应当建议推广。 通常, 评价被用来对监测数据进行分析和归因。 例如, 为何 5 家医院的剖腹产数量都 上升了? 为什么 50 个地方中的 3 个地方早产儿的存活率特别高? 评价也需要弄清楚事情 的原因, 是否是某个特别的干预措施而非其他可能的原因导致了结果。 监测和评价都要衡量和评估绩效, 但两者采取的方式不同, 时间也不同 ( 见表 1郾 2) 。 誗 监测发生在计划或项目执行的全过程之中 誗 评价是对计划或项目绩效的阶段性评估。 它寻求回答 “ 为什么冶 问题 监测是由项目工作人员自行开展的内部活动。 确保监测的进行和监测结果的运用是项 目管理人员的责任。 与之不同, 评价既可由内部实施, 也可由外部实施, 它是评价者和项 目工作人员共同的责任 ( Insideout 2005) 。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 摇 表 1郾 2 监测与评价的比较 监测 评价 持续性的、 不间断的 阶段性的、 有时间限制 内部活动 内部、 外部或共同参与 基 管理层的责任 评价者、 工作人员和管理层的共同责任 本 提供持续反馈以改进项目绩效 阶段性反馈 原 理 摇 摇 资料来源: Insideout 2005 评价者的角色与活动 正如长期以来评价的概念和目的已经发生了变化一样, 评价者所扮演的角色和从事的 活动也在变化。 评价者扮演着多种角色, 从事着多种活动。 他们的角色往往取决于所从事 的评价的性质和目的。 Fitzpatrick, Sanders, and Worthen (2004, p郾 28) 指出, “ 评价者扮 摇 10 演着多重角色, 包括专家、 协助者、 计划人员、 决策者的助手以及至关重要的朋友。冶 他 们也充当了法官、 被信任的人、 教师和社会变革的推动者。 谁进行评价? 评价者可能是内部评价、 外部评价或参与式评价的一部分。 OECD / DAC 《 评价关键 术语词典》 将内部评价定义为: 由向援助方、 合作伙伴或实施机构的管理层汇报的某 一 单 位 或 个 人 进 行 的 发 展 干 预 评 价。 (2002, p郾 26) 《 评价关键术语词典》 将外部评价定义为: 由援助方、 合作伙伴或实施机构之外的机构和 / 或个人进行的发展干预评价。 (2002, p郾 23) 使用内部评价和外部评价各有利弊。 内部评价人员通常较外部人员更了解计划、 项目 或政策。 设计和管理干预活动的人也可能负责评价, 他们通常更了解有关的历史、 组织、 文化、 涉及的人员以及问题和成功之处。 由于具备这些知识, 内部评价人员可能能够问出 更加相关、 更加恰当的问题。 他们也知道在组织的哪些环节能够发现真实情况。 然而, 上述优势也可能成为劣势。 内部评价人员可能因为置身于计划、 项目或政策之 中, 而无法看清真相, 或是可能无法像他人那样发现解决方案或变化。 内部评价人员存在 的另一不足是他们更可能受到同时负责人事决策的计划决策者的压力或影响。 他们可能只 是从自己在组织中所处的位置来看待整个组织。 进一步而言, 外部利益相关者也可能觉得 内部评价人员的结论不如外部评价人员的那样可信。 外部评价人员通常具有更高的可信度, 并能增强评价的客观性。 此外, 大多数外部评 价人员都具备更强的进行有效评价所必需的专业技能。 他们往往也独立于项目的管理和财 务决策 ( Fitzpatrick, Sanders, and Worthen 2004) 。 第一章摇 发展评价简介 llll llllllll 然而, 外部评价并不能保证结果的独立可信, 当评价人员与项目存在某种关系时, 尤 为如此。 为了在未来能获得业务, 外部评价人员也可能过于迁就管理层的要求。 人们越来越多地将参与性评价视为第三种评价方法。 进行参与性评价的评价人员与有 关机构和利益相关者的代表一起, 共同设计、 实施评价并解读评价结果 ( OECD 2002) 。 在某些基本方面, 参与性评价与内部评价及外部评价均有所不同。 参与性评价代表了一种更加深入、 与独立评价有根本区别的评价模式 …… 这种评价不像传统 基 本 的评价那样强调专家与外行、 研究者与被研究者之间的区别, 而是对这种关系进行了重新定义。 评 原 价人员主要作为协调者和指导者, 帮助他人进行评估工作。 ( Molund and Schill 2004, p郾 19) 理 人们应当注意参与性评价与参与性方法之间的区别。 在内部评价和外部评价中, 都可 能用到参与性方法。 评价活动 根据所扮演角色的不同, 评价人员开展不同的活动。 内部评价人员可能会进行项目或 计划的设计、 执行并制定拓展战略, 外部评价人员一般不会参加项目或计划的管理。 所有 评价人员通常都会: 摇 11 誗 商询所有主要的利益相关者 誗 管理评价活动的预算 誗 对评价工作进行规划 誗 实施评价或雇用有关人员实施评价 誗 确定有效性的标准 ( 根据委托书或其他资料) 誗 收集、 分析、 解读并报告有关的数据和发现 为达成工作目标, 评价人员需要掌握多种技能。 在评价过程中, 这些技能能够帮助评 价人员积累知识和传播经验教训。 评价学科的起源和历史 詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪 现代评价学科源于以科学方法为基础的社会科学研究。 但评价古已有之。 考古学证据 表明, 早在 5000 多年前, 古埃及人就定期监测国家的谷物和牲畜产量。 古代中国人和希 腊人也开展评价活动: 早在公元前 2000 年, 就有确凿的证据表明, 在中国的公共部门, 存在正规的评价。 当时的政 府官员采用考试来衡量求官者的水平。 在古希腊, 作为学习过程的组成部分, 苏格拉底在教育中运 用了口头评价。 有些专家将现代评价方法的出现追溯至 17 世纪自然科学的出现和注重所观察到的现 象 ( 实证方法) 。 当时的瑞典还出现了履行某些评价职能的特别政策委员会。 事实上, 这 种委员会制度在今日之瑞典仍旧存在, 现存的委员会达数百个。 19 世纪, 对教育和社会计划的评价制度在一些盎格鲁 - 撒克逊国家牢固树立。 在英 通向结果之路: 有效发展评价的设计与实施 llll llllllll 国, 由政府指定的委员会进行计划评价, 调查和评价教育和社会计划中的不足之处。 今天 的学校外部督察员就是由早期的委员会演变而来。 在美国, 19 世纪开创性的工作是运用学业成绩考试来检测教学体系的质量。 该制度 一直延续至今, 学生的成绩得分仍是判定学校教育质量的一个关键指标。 美国的中学和大 学认证制度也开始于那一时期。 基 本 原 20 世纪评价发展史 理 美国和加拿大对医学院的正式评价和认证制度最早在 20 世纪初创立。 这一时期, 进 行调查 / 衡量和评价的领域还包括卫生、 住房、 劳动生产率、 民主与独裁的领导方式及标 准化的教育测试。 其中大多数是由政府机关和社会服务机构进行的小规模尝试。 Rossi and Freeman (1993) 认为在美国对计划进行系统性评价始自世纪之交提高读写 能力、 提供职业培训和降低传染病死亡率等工作。 在发展领域, “ 中东的村庄尝试推行饮 用开水这一公共卫生习惯是第二次世界大战前实证性的社会学文献中具有里程碑意义的研 究之一。冶 ( Rossi and Freeman 1993, p郾 10) 摇 12 在富兰克林·D·罗斯福总统实施新政后, 应用性社会研究在美国发展迅速。 由于需 要创建新的机构来管理和实施新政计划, 联邦政府的规模迅速扩大。 新政包括对农场主的 农业补贴、 公共岗位和就业创造计划、 农村电气化和社会保障体系等。 由于这些大型计划 都是全新的并带有试验性质, 因此, 评价它们在复苏经济、 创造就业和创建社会安全网络 方面的有效性需求也相应增加。 二战期间及战后, 由于在军事、 城市住房、 就业和职业培训及卫生等部门安排和实施 了更多的大规模计划, 评价的需求进一步增加。 也就是在这一时期, 发达国家做出重大承 诺, 开展包括计划生育、 卫生和营养、 农村社区建设等在内的国际项目。 由于支出巨大, 人们必然要求了解这些项目的实际结果。 20 世纪五六十年代, 美国和欧洲开始更加常规性地评估教育、 医疗和精神卫生等公 共事业、 预防青少年犯罪及罪犯改造等有关的计划。 林登 ·B· 约翰逊总统 60 年代提出 的 “ 向贫困宣战冶 项目提升了人们对评价的兴趣。 在全球发展中国家开展的工作进一步 扩展, 对农业、 社区发展、 计划生育、 卫生保健和营养领域的一些计划也实施了评价。 大 部分情况下, 这些评估依赖的还是调查和统计分析等传统的社会学工具。 1949 年, 胡佛委员会建议美国政府的预算信息应该按活动而不是相关项目来编制。 该委员会同时也建议在绩效报告中包括绩效衡量指标 ( Burkhead 1956; Mikesell 1995) 。 这类预算改革后来被称为绩效预算( Tyler and Willand 1997) 。 1962 年, 在国防部长罗伯特· 麦克纳马拉的领导下, 美国国防部开发了规划项目预 算系统 ( PPBS) 。 PPBS 的目的是提高效率, 改进政府部门的运作。 该系统包括 誗 设定长期计划目标 誗 对能够达成既定目标的可选方案进行成本和收益分析 誗 将项目转变为预算、 立法建议和长期规划 通过强调目标以及将计划制订与预算安排相联系, PPBS 改变了传统的预算流程 ( 美 第一章摇 发展评价简介 llll llllllll 国国防部办公室 2007) 。 PPBS 的早期努力最终促成了 “ 结果导向的监测冶 潮流。 20 世纪 60 年代后期, 许多西欧国家开始进行计划评价。 例如, 在联邦德国, 议会要 求联邦政府报告各类社会经济和税收政策的实施情况及其影响。 相关的评价报告包括: 劳 动力市场和就业法案 (1969) 、 全民教育补助法案 (1969) 、 联邦———州合作改善地区经 济结构计 划 ( 1970 ) 、 医 院 投 资 计 划 ( 1971 ) 以 及 各 类 补 贴 和 税 收 报 告 等 ( Derlien 1999) 。 在此期间, 加拿大政府也开始评价政府计划和绩效, 鼓励各政府部门下设规划和 基 评价部门。 本 原 早期的努力并未带来重大成果。 在加拿大、 联邦德国和瑞典, “ 尽管各类政策领域的 理 计划评价已经机制化, 但评价系统仍很分散, 实施的评价研究为数甚少。冶 ( Derlien 1999, p郾 146) 1965 年通过的中小学教育法案 ( ESEA) 是美国评价领域的里程碑。 该法案要求政府 评估学生表现和教师质量标准。 该法案也为评价活动的开展提供了资源 ( 开创了美国政 府为评价活动提供单独预算之先河) , 从而实现了评价的机制化。 在 60 年代后期和 70 年 代初期, 由于政府资金开始用于评价领域, 在美国和部分 OECD 国家都出现了大量的评价 学论文和书籍。 大学开发出了评价方向的研究生课程以培养评价骨干, 满足不断增长的对 摇 13 政府资助的社会经济计划进行问责和有效性评价的需求, 这些社会经济计划包括中小学教 育赠款, 以及包括扶贫计划、 学前启蒙计划、 人权活动和创造就业在内的 “ 大社会 冶 计 划。 加拿大、 联邦德国和瑞典在 20 世纪 60 年代实施计划评价, 评估新政府所资助的教 育、 卫生和社会福利计划。 在此背景下, 出现了正式的规划系统, 有些只是中期融资规划 ( 如联邦德国 ) , 有些则尝试将 预算编制与计划制定相结合 ( 如加拿大和瑞典) 。 无论何种情形, 评价或是理所当然地被看成规划 系统的组成部分, 或是因对干预计划的有关信息的需要而成为必需要做的事 …… 那个时期, 评价 主要为计划管理人员所用, 用以完成现有的或新的计划。 ( Derlien 1999, pp郾 153 - 54) 从 70 年代中期到 80 年代中期, 在许多 OECD 国家, 评价成为一个成熟的职业。 职业 评价协会应运而生, 引入更多培训评价人员的计划, 评价杂志创刊。 评价也不再局限于政 府资助的计划, 还扩展至公司、 基金会, 甚至宗教机构。 例如, 在法国, 形成了系统的公 共政策评价, 许多大学, 包括高等专业学院的课程表中都包括有关评价的课程和信息。 许多 OECD 国家均设立了面向公务员的评价培训计划, 培训或是由政府系统内提供, 或是由外部合同供应商提供。 人们探索新的方法与模型, 更加强调客户的信息需要、 检测 非预期的结果以及发展价值观和标准。 评价文献在数量和质量上都在进步 ( Fontaine and Monnier 2002) 。 1985 年以来, 计算机及相关技术大大增强了评价人员收集、 分析和报告 评价发现并将其与他人分享的能力。 发展评价与审计 发展评价由审计和社会学发展而来。 这两门传统学科间存在着重要的共同点、 差异及 联系。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 审计思想 审计起源于 19 世纪的英国, 当时工商业的不断发展催生了: 对经过验证的准确可靠的财务记录的需求……审计工作增加了人们对不断发展的西方资本主义制度 的信任。 由于审计师掌握专业技能并且是外部人士, 他们的观点受到了重视。 (Brooks 1996, p郾 16) 基 本 审计学的导向是调查、 财务管理和会计。 它寻求确定一项计划是否做了该做的事、 钱 原 花得是否符合计划的规则、 规定或要求。 审计学术语包括内部控制、 优良的管理和治理、 理 验证等。 其重点是会计责任和合规性。 OECD / DAC 词典定义了几类审计: 誗 标准审计: 独立、 客观的保证活动, 用以为组织运行增加价值, 并帮助该组织运 行。 ( 标准审计通过运用系统的专门方法来评估和改进风险管理、 控制及治理过程 的有效性, 从而帮助组织实现目标) 誗 财务审计: 注重审查是否符合适用的法令和规章的审计。 誗 绩效审计: 关注关联性、 经济、 效率和有效性的审计。 审计既可以是内部职能, 也可以是外部职能。 内部审计通过运用系统的、 专业的方法 摇 14 来评价和改进风险管理、 控制及治理过程的有效性, 从而有助于组织实现目标。 如果项目 管理需要独立性, 则政府会使用外部审计师。 专栏 1郾 2摇 内部审计师协会和最高审计机关国际组织 内部审计师协会成立于 1941 年, 是致力于内部审计推广和发展的主要国际组织。 在全球各地都有国家协会, 内部审计师协会的会员来自 165 个国家。 1947 年, 内部审计师协会发布了 《 内部审计责任说明》 , 成为制定内部审计标准的 基础。 1978 年, 通过了 《 内部审计职业惯例标准》 。 从阿富汗到津巴布韦, 几乎所有发达国家和发展中国家都加入了最高审计机关国际 组织 ( the International Organization of Supreme Audit Institutions, INTOSAI) 。 该组织是外 部政府审计社区的联合组织, 成立于 1953 年。 INTOSAI 旨在促进全球范围的知识开发 和转移以提升政府审计水平。 其制定的 《 绩效审计的伦理准则、 审计标准和执行指南 》 在全球范围内广为遵从。 截至 2008 年, INTOSAI 的会员中共有 188 个国家。 资料来源: http: / / www / theiia郾 org, http: / / www郾 intosai郾 org郾 发展中国家对审计也很重视, 因此在评价工作中经常开展合规性审计。 例如, 马来西 亚国家审计署 ( National Audit Department, NAD) 100 年来在确保公共责任方面发挥了作 用。 NAD 开展审计以便: 誗 确保符合法律和规章 誗 揭示可能导致低效率、 无效果或不经济流程的预料之外的因素 誗 确定财务报表真实公正, 有关记录按照通行的会计和审计标准妥善处理 内部审计摇 审计一系列的 “ 财务活动和包括系统、 生产、 工程、 营销及人力资源在 内的运营活动。冶 ( http: / / www郾 theiia郾 org) 审计人员职业论证为审计提供了很好的支持, 第一章摇 发展评价简介 llll llllllll 目前在评价领域尚未能做到这一点 ( 本书第 15 章将讨论评价人员认证的利弊) 。 发展评价从审计活动中汲取了高度重视遵守法律和程序的做法。 从双边援助机构和开 发银行基于目标的项目评价框架中就可以看出这一点。 例如, 由多边开发银行 ( the Mul鄄 tilateral Development Banks, MDB) 评价合作组 ( the Evaluation Cooperation Group) 制定的 “ 多边开发银行支持的公共部门运作评价优秀实践标准 冶 就包括了目标达成的情况, 其依 据是 “ 针对目标的评价能提高可信性冶 ( 多边开发银行评价合作组) 。 基 本 审计与评价之间的统一性 原 理 审计和评价可以被看成是同一整体的不同部分, 它们提供了相关但不同种类的有关合 规性、 责任、 影响和结果的信息。 两者在 “ 运作效率和成本有效性方面存在重叠, 评价 关注的是政策和产出分析, 审计关注的是内部财务控制和管理系统 冶 。 ( 加拿大财政委员 会秘书处 1993, 第三段) 。 审计和评价均旨在为决策者 “ 提供系统和可信赖的信息, 这些 信息能帮助他们创立、 管理、 监控及改变计划, 偶尔也帮助他们决定放弃某些计划 冶 。 ( Wisler 1996, p郾 1) 关于审计与评价两者之间的差异和重叠的著述很多。 两者之间的差异与其渊源有关。 摇 15 审计主要源自财务会计, 而评价主要源自社会科学。 审计往往注重是否符合规定, 评价则 往往注重分析观察到的变化与某项政策、 计划或项目间的关系。 审计师们倾向于为规范性 问题寻找答案 ( 现状如何? 应当是怎样的?) , 而评价人员则往往为描述性的问题和因果 问题寻找答案 ( Wisler 1996) 。 社会科学思想 随着政府和组织将重心从重视核实和合规转到重视影响, 社会科学技术逐渐被运用到 评价之中。 发展评价综合运用了科学研究和社会研究的方法。 科学的方法是为了将事实和认知客观地区分开来而收集数据的系统方法。 人们通过观 察和实验收集数据, 并基于对假设的构想和检验得出结论。 研究人员运用科学方法, 进行 以下工作: 誗 发现并研究问题, 思考以往的解释 誗 提出关于因果关系的假设, 并用可衡量的概念表达出来 誗 开展实验和收集数据, 检验假设 誗 分析数据并得出结论 誗 记录和传播研究结论 誗 运用结果完善假设 评价也从社会科学, 如社会学、 人类学、 政治科学和经济学等学科中汲取了其他一些 方法。 随着社会研究方法的不断发展和完善, 以及 21 世纪所发生的思想、 政治和人口因素 的变化, 社会科学在评价领域的应用范围也逐渐扩大。 其中至关重要的是社会科学学科在 大学中的涌现和持续增加, 以及对社会研究支持的持续增长。 大学中的社会科学院系是早 期计划评价工作的中心, 并继续在评价领域产生重要影响 ( Rossi 和 Freeman 1993, p郾 9) 。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 在理论构建、 设计、 路径、 数据收集方法论、 分析和诠释、 统计、 调查及抽样等方 面, 评价也大量借鉴了社会科学的研究。 发展评价的沿革 詪詪詪詪詪詪詪詪詪詪詪 基 本 发展评价是评价的子学科, 其发展主要始自第二次世界大战后的重建和开发。 1944 原 理 年, 世界银行成立, 并于 1972 年建立了首家独立评价局。 欧洲复兴与发展银行 ( the Eu鄄 ropean Bank for Reconstruction and Development, EBRD) 于 1991 年成立, 其他多边发展银 行也于 20 世纪 90 年代创建。 英国国际发展署 ( DfID) 、 加拿大国际发展署 ( CIDA) 等双 边机构也纷纷设立。 由于援助方关注项目资金和结果, 发展评价也就伴随着这些组织的建 立而发展。 相应地, 发展中国家的政府部门为了达到报告项目结果的要求, 也需要运用援 助方为学习和问责建立起来的项目评价系统。 随着过去几十年中发展概念内涵的演变, 发展评价也发生了变化。 例如, 从成立时 摇 16 起, 世界银行的重点就不断变化 ( 见表 1郾 3) , 由此也说明了发展评价的复杂性。 摇 表 1郾 3 世界银行不断变化的发展方式, 1950 ~ 2000 年 年代 重点 方式 学科 20 世纪 50 年代 重建、 复兴、 技术援助和工程 技术援助 工程 经济增长、 融资、 项目创设, 寄希望于强劲 20 世纪 60 年代 项目 融资 的经济增长能使更多的人脱离贫困 社会部门或基本需求 ( 教育、 卫生、 社会福 20 世纪 70 年代 部门投资 规划 利) ; 长期规划和社会部门投资 结构调整政策与信贷; 将信贷与支持重大政 20 世纪 80 年代 策改革的限制条件相关联、 帮助有关国家应 调整信贷 新古典经济学 对金融与债务危机 更多的国家层面综合项目而非单个项目; 更 20 世纪 90 年代 国家援助 多学科 注重发展中国家的能力和机构建设 减贫, 合作伙伴关系, 参与, 部门整体方法, 21 世纪 合作伙伴关系 结果导向管理 结果导向 摇 摇 资料来源: 根据 Picciotto 2002 的研究整理 OECD 在推动发展评价方面发挥了重要作用。 该组织创建于 1961 年, 目标是 “ 在保 持金融稳定的同时, 帮助成员国政府实现可持续的经济增长、 就业和生活水平的提升, 从 而为世界经济发展做出贡献冶 ( http: / / www郾 oecd郾 org) 。 OECD 成员国在各种专门委员会 中会晤, 其中包括发展援助委员会 ( DAC) , 该委员会下常设有发展评价工作组 ( 即现在 的发展援助委员会评价网络) 。 这一网络的目的是通过支持健全有素、 独立的评价来增强 国际发展计划的有效性。 它汇聚了 30 个双边和多边发展机构。 第一章摇 发展评价简介 llll llllllll 发展援助委员会对发展评价的定义已广为人们所接受。 其定义与我们在本章开始给出 的评价的定义有所不同。 依据发展援助委员会的定义, 发展评价是: 对一个正在进行或已完成的项目、 计划或政策的设计、 执行及结果所实施的系统而客观地评估。 目的是确定目标的相关性和完成状况、 发展效率、 有效性、 影响及可持续性。 评价应当提供可信、 有用的信息, 从而能使所获取的教训融入援助方和受援方的决策制定过程之中。 [OECD 1991, p郾 4] 基 发展评价领域内运用的方法和技术有多种。 由于发展项目、 计划和政策的规模不断扩 本 大, 并且越来越复杂, 人们已经认识到混合运用多种理论、 分析策略和方法的发展评价通 原 常能取得最佳效果。 混合性方法有助于增强评价效果。 理 这种混合方法, 也称三元检验法, 指: 综合运用几种理论、 多种来源和类型的信息, 以及不同的分析方法, 以证实和加强某项评估。 通过结合运用多个数据来源、 方法、 分析或理论, 评价人员设法克服运用单一信息源、 单一方法、 单一观察者或单一理论研究所带来的偏见。 正如 Chelimsky 和 Shadish (1997, p郾 11) 所指出的: 评价方法继续趋向于多样化。 现在人们普遍认为, 各种社会科学方法, 包括心理学、 统计学、 摇 17 教育学、 社会学、 政治学、 人类学和经济学等都是评价人员方法工具箱中可用的工具。 评价的设计和评价方法的选择 ( 或设计与方法的结合 ) 取决于提出的问题和想要获 取的信息。 职业评价协会的发展 职业评价协会创建了一个支持系统, 使评价界趋于专业化。 这一支持有助于发展评价 能力的提升。 20 世纪 80 年代, 全球仅有三个地区性评价协会。 此后, 新的国家、 地区和国际评价 协会的数量出现了爆炸式增长, 现在散布在全球各发达国家和发展中国家的评价协会超过 75 个 ( http: / / www郾 ioce郾 net / members / eval_associations郾 shtml) 。 协会数量增加相当部分是 由于许多发展中国家评价协会的建立。 例如, 在国家层面, 1999 年, 马来西亚和斯里兰 卡成立了评价协会, 乌干达则在 2002 年成立了评价协会。 在地区层面, 澳洲评价协会 ( Australasian Evaluation Society) 于 1991 年成立了评价协会, 欧洲评价协会成立于 1994 年, 非洲评价协会则成立于 1999 年。 评价领域一个重要的国际组织是国际评价合作组织 ( the International Organization for Cooperation in Evaluation, IOCE) , 它是由世界各国或地区评价组织组成的松散的联盟。 该 组织的目标是在发展中国家强化评价的领导地位和能力, 以促进世界各地的评价理论和实 践的交融。 要做到这一点, 评价从业人员就必须采用更加全球性的方式来识别和解决世界 上的问题 ( http: / / ioce郾 net / overview / general郾 shtml) 。 评价领域另一个重要的国际组织是国际发展评价协会 ( the International Development Evaluation Association, IDEAS) 。 该协会成立于 2001 年, 旨在帮助发展中国家进行评价能 力建设。 该协会的目标是 “ 通过改进方法、 提升能力和增强主人翁意识, 推进和扩展发 通向结果之路: 有效发展评价的设计与实施 llll llllllll 展评价实践冶 。 国际发展评价协会是唯一的发展评价专业人员协会。 协会的战略是: 誗 推广发展评价, 在公共政策和支出领域谋求更好的结果、 透明度和清晰的责任 誗 优先推动评价能力建设 誗 在发展评价领域树立最高的学术和专业规范 基 本 发展评价的原则与标准 原 詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪 理 评价界需要能加强责任、 提高可比性并提升服务的可靠性和质量的原则与标准 ( Pic鄄 ciotto 2005) 。 大 多 数 与 发 展 相 关 的 组 织 都 使 用 OECD / DAC 制 定 的 原 则、 标 准 和 准 则。 OECD 的一份重要文件 ( OECD 1991a) 确定了评价发展援助的五个准则: 誗 相关性: 发展干预的目标与受益人要求、 国家需要、 全球优先次序及合作伙伴和 发展机构的政策之间一致的程度 誗 有效性: 对援助活动达成目标程度的衡量 誗 效率: 从定性和定量两方面对产出———投入比的衡量 ( 这一经济学术语意味着发 摇 18 展援助要用尽可能少的成本来达到期望结果。 衡量效率通常要求比较能够获得同 样产出的各种备选方案以确定是否采用了最有效的办法。) 誗 影响: 某项发展干预带来的变化, 包括正面的和负面的、 直接的和间接的、 预料 之中和意料之外的 ( 衡量影响需要确定一项活动对当地社会、 经济、 环境和其他 发展指标的主要影响和效应。 影响分析应当既考虑到期望的结果, 也要考虑未曾 预料到的结果, 还必须包括例如贸易和财务状况的变化等外部因素的正面和负面 影响。) 誗 可持续性: 净收益流随着时间变化的风险弹性 [ 可持续性概念特别强调对援助方 的资助结束后一项活动或计划的收益是否能够继续的评估 ( 而非衡量 ) 。 项目或 计划在环境及财务方面都必须是可持续的 ( OECD 1991b) 。] 发展援助委员会制定了评价发展援助的原则 ( OECD1991b) 。 这些原则对以下问题作 了说明: 誗 评价的目的 誗 公正性与独立性 誗 可信度 誗 用途 誗 援助方和受援方的参与 誗 援助方的合作 誗 评价规划 誗 评价的设计和执行 誗 报告、 分享与反馈 誗 上述原则的应用 1998 年, 对发展援助委员会制定的 “ 发展援助评价原则 冶 进行了修订。 它比较了发 第一章摇 发展评价简介 llll llllllll 展援助委员会制定的原则与其他组织制定的原则, 寻找一致之处和可能扩展的方面。 委员 们提出的对原则进行修改的建议包括: 誗 修改对目的的说明 誗 直接提出分散式评价和参与式评价的问题 誗 进一步细化受援方参与和援助方合作的原则和做法 誗 介绍评价活动的近期发展, 如绩效衡量、 现状、 成功评级系统, 并开发一套评价 基 活动模版 ( OECD 1998) 本 原 这次修订为发展援助委员会后续的出版物奠定了基础。 理 1994 年, 美国评价协会 ( the American Evaluation Association, AEA) 出版了 “ 美国项 目评价标准冶 。 该标准经美国国家标准协会 ( the American National Standards Institute, AN鄄 SI) 批准作为全美项目评价的国家标准。 1998 年, 该标准被更新, 包括发展中国家的评 价协会在内的很多评价协会对美国评价协会制定的标准进行了适应性的修改。 2006 年 3 月, 发展援助委员会评价网络制定了 “ DAC 评价质量标准 冶 ( OECD2006) ( 专栏 1郾 3) 。 该标准目前尚处于试验性应用阶段, 其中明确了高质量的评价过程和产品所 需要的关键支柱: 摇 19 誗 提供评价过程 ( 行为) 和评价产品 ( 产出) 标准 誗 方便评价的国别比较 ( 广义评价) 誗 方便联合评价中的合作和协作 誗 使成员国能更好地运用其他国家的评价发现和报告 ( 包括优秀的案例和有意义的 经验教训) 誗 简化评价工作 专栏 1郾 3摇 DAC 评价质量标准的 10 个组成部分 OECD 制定了评估评价质量的 10 个标准: 誗 评价的基本逻辑、 目的和目标 誗 评价范围 誗 背景 誗 评价方法 誗 信息来源 誗 独立性 誗 评价道德 誗 质量保证 誗 评价结果的相关性 誗 完整性 资料来源: OEDC 2006 根据 OECD / DAC 评价网络和其他评价网络的要求, 世界银行独立评价局制订了评价 通向结果之路: 有效发展评价的设计与实施 llll llllllll 全球及区域合作计划 ( the Global and Regional Partnership Program, GRPP) 的指导性通用 原则和标准。 全球和区域合作计划具有一些独有的特征, 从而加大了评价的复杂性。 这些 指导性原则和标准正在实际试用并将在几年内修订通过。 ( 本章末尾处提供了这些原则和 标准的网站链接。 本书第 14 章将对这些原则和标准作进一步讨论。) 发展评价可信性的一个重要部分是其独立性。 OECD / DAC 词典将 独立评价 定义为 基 “ 指由局外的实体或个人进行的评估, 评估者不受被评对象责任人的控制 冶 ( OECD2002, 本 p郾 25) 。 该词典阐述道: 原 理 评价的可信性部分取决于实施评价的独立程度。 独立性意味着免受政治影响和组织压力。 其 特征是: 有权获得各种信息, 并且具有充分的自主权进行调查和报告评估的结果。 独立性并不意味着孤立性: 评价人员、 项目管理人员、 工作人员和受益人之间的互动 能够提高评价的效果和用途。 评价可以是内部实施的, 也可以是外部实施的, 也可以由对 项目设计和实施决策 ( 即项目管理 ) 负责的人来实施。 但这样的评价不是独立评价。 他 们的主要目的是为学习而不是问责。 作为评价合作组的成员, 多边开发银行评价部门的负责人定期会晤, 制定了评价独立 摇 20 性的四个维度或标准: 誗 组织独立性 誗 行为独立性 誗 免受外部影响 誗 避免利益冲突 表 1郾 4 叙述了评估评价组织独立性的标准和指标。 这些标准和指标均依据多个来源的 资料而得出。 摇 表 1郾 4 决定评价组织独立性的标准和指标 标准 方面 指标 评价小组是否有评价任务委托书, 其中清楚地阐 组织结构和评价 小 组 的 角 色 是 明其工作职责范围涵盖组织的各方面运行, 其报 恰当的 告流程、 工作人员、 预算和职能都独立于组织的 运行、 政策和战略部门及相关的决策制定活动 评价小组向组织 的 负 责 人 或 副 组织独立性 在评价小组与受评管理层或理事会之间是否存在 手或 理 事 会 负 责, 并 向 其 汇 报 直接的汇报关系 评价结果 在组 织 关 系 上, 评 价 小 组 不 隶 小组在与受评项目、 活动或实体相关的组织中的 属于 接 受 评 价 的 项 目、 活 动 实 位置 体的人事或管理职能部门 第一章摇 发展评价简介 llll llllllll 续表 标准 方面 指标 评价小组定期向 上 级 组 织 的 审 向监管机构汇报的关系及汇报频率 计委员会或其他监管机构报告 评价小组足以免 除 政 治 压 力 的 基 评价小组及其成员不对权力当局负责, 并免于参 干扰, 能 够 不 惧 怕 报 告 评 价 的 本 加政治活动的程度 原 真实结果 理 评价小组成员受 到 人 事 系 统 的 组织独立性 涵盖报酬、 培训、 任期和晋升等内在的业绩评价 保 护, 其 报 酬、 培 训、 任 期 及 系统建设及实施的情况 晋升均基于工作业绩 评价小组在多大程度上可以不受限制地接触被评 评价小组能够获 得 各 种 需 要 的 组织中的员工、 记录、 联合投资人和其他伙伴、 信息, 能够接触各种信息来源 客户, 或被评组织所资助的计划、 活动及实体的 员工、 记录、 联合出资人及其他合作伙伴、 客户 摇 21 评价小组公布评价报告, 并邀请公众对被评组织 的项目和活动的经验教训进行监督的频率 ( 需要 评价小组有能力 和 意 愿 发 布 强 有恰当的安全保护机制以保护私密的和专有的信 硬的、 不作妥协的报告 息, 减轻机构风险) ; 提出比被评组织当前更高 的绩效标准的情况, 以及对组织的计划、 活动和 个体进行评论的程度 组织规定明确评价小组在相关单位评估和评论后 行为独立性 评价小组能够直 率 地 报 告 评 价 将评价报告提送管理层 / 理事会, 不会受到管理 发现 层对报告范围和意见进行强制性限制的程度 组织的信息披露规则允许评价小组将重大的发现 向组织内外有关的利益相关方报告的程度 ( 当 评价结果的报告是透明的 然, 需要有恰当的安全保护机制以保护私密的和 专有的信息, 减轻机构风险) 评 价 设 计 合 理, 并 得 以 恰 当 评价小组在没有管理层干扰的情况下能够决定评 执行 价的设计、 范围、 时机和实施等决策的程度 评价单位不会因资金或其他资源限制而对其履行 免受外部影响 评价研究有足够的资金支持 职责产生负面影响的程度 评价人员对报告 内 容 的 判 断 不 评价人员对评价报告内容的判断不受外部权力部 会强制改变 门的影响或强制改变的程度 通向结果之路: 有效发展评价的设计与实施 llll llllllll 续表 标准 方面 指标 在组织规定或相关文件中明确评价小组负责人的 评价小组负责人 的 任 命 有 独 立 聘用、 解聘、 任期、 绩效评估及报酬等, 从而确 的人力资源流程 保评价独立于运行管理的程度 基 本 免受外部影响 评价 小 组 有 权 决 定 人 员 聘 用、 评价小组根据 评 分 系 统, 有 权 决 定 工 作 人 员 聘 原 晋升和辞退 用、 晋升、 加薪和解聘的程度 理 评价人员继续聘 用 与 否 不 是 基 评价人员的继续聘用只是依据其工作绩效、 能力 于评价的结果 和对评价人员服务的需要的程度 不存在可能导致 评 价 人 员 减 少 询问 范 围、 不 充 分 披 露、 弱 化 制定了识别可能干扰评价独立性的评价人员关系 或有倾向地报告 评 价 结 果 的 正 的政策和程序, 利用培训及其他方式与评价人员 式的、 职 业 性 的、 个 人 的 或 财 沟通政策与程序, 及政策和程序得到执行的程度 摇 22 务上的关系 要求评价人员评估和报告可能影响到其评价客观 评价人员不带有 可 能 影 响 评 价 性的个人成见或偏见的制度的制定和执行情况, 结果 的 先 入 为 主 的 成 见、 偏 见 以及将咨询各种利益相关者作为评价过程一部分 或社会 / 政治倾向 以确保避免评价人员偏见影响的制度的制定及执 行情况 评价人员当前或 过 去 都 没 有 在 避免利益冲突 决策 制 定、 财 务 管 理 层 面 或 作 预防评价人员参与评价他们正在或曾经发挥决策 为会计人员参与 到 将 要 评 价 的 制定或财务管理作用, 抑或是他们谋求就职机会 计划、 活 动 或 实 体 之 中; 并 且 的计划、 活动或实体的规则及人事管理流程制定 也没有在进行评 价 的 同 时 谋 求 和执行的情况 与被 评 价 的 计 划、 活 动 或 实 体 相关的职位 评价人员与正在被评价的计划、 预防评价人员参与评价其有经济利益关系的计 活动 或 实 体 不 存 在 经 济 利 益 划、 活动或实体的规则及人事管理流程制定和执 关系 行的情况 直系亲属没有参 与 或 处 于 对 正 预防评价人员参与评价其家庭成员能够施加影响 在被 评 价 的 计 划、 活 动 或 实 体 的计划、 活动或实体的规则及人事管理流程制定 有直接而且重大影响的职位 和执行的情况 摇 摇 资料来源: 丹麦外交部 1999; OECD 1991b; CIDA 2000; 内部审计师协会 2000; 欧洲会计师联盟 2001; INTOSAI 2001; 美国政府责任办公室 2002 第一章摇 发展评价简介 llll llllllll 发展评价实例 詪詪詪詪詪詪詪詪詪 专栏 1郾 4 ~ 1郾 8 摘自评价报告 ( ALNAP 2006) 。 每一个均举例说明了前文讨论到的评 价五大准则中的一个: 相关性、 有效性、 效率、 影响和可持续性。 基 本 原 专栏 1郾 4摇 相关性: 世界粮食计划署对索马里救济与重建食品援助的评价 理 此项评价是由两位外籍人士于 2001 年 7 月中旬对索马里进行了三周访问后作出的。 该评价评估了为期三年、 耗资 5 500 万美元、 向 130 万人分发 6 万 3 千吨食品的援助计 划。 在援助计划中, 51% 应当用于恢复重建, 30% 用于紧急救助, 19% 用于支持社会机 构。 这一长时间的救济和重建的主要目标是: “ 在保有既把握发展机会, 又能应对紧急 情况的灵活性的同时, 在索马里形成广泛的整合重建计划框架。冶 ( WFP2002 , p郾 4 ) 因 此, 这一评价需要分析食品分配组合的相关性, 并分析每一类干预是否恰当。 摇 23 在评价时, 在索马里援助的政治经济背景下对干预的总体相关性给予了考虑, 同时 也兼顾了在索马里提供食品援助的合理性。 支持食品援助的理由在于索马里总是陷入食 品匮乏危机, 许多地方的人根本无法接触到商品市场, 并且没有工作也没有任何财产。 反对食品援助的观点建议, 给受益人提供资金以购买当地可能买到的食物或许更有意 义, 援助既可以采用工作换现金的方式, 也可以采用工作换食品的方式。 这类承诺往往 是长期项目, 但却没有退出策略。 这项评价对广泛的和特定的问题进行了分析, 这也证 明其对相关性的分析是全面的。 专栏 1郾 5摇 有效性: DfID 对支持世界粮食计划署在孟加拉国救灾努力的评价 2000 年 9 月, 孟加拉国西南部六个地区的水灾严重影响到 270 万人。 DfID 对世界 粮食计划署提供了支持, 提供了包括配给量充分的大米、 豆类和食用油在内的三批食 品。 在第一次食品分配中, 26 万人得到了食品援助; 在第二批和第三批食品分配中, 42 万人得到了食品援助。 DfID 的评价报告 ( DfID 2001 ) 从配给的规模、 食品种类和分 配日程等方面, 对援助项目的目标是否达成作了全面的分析。 评价同时采用了定量和定性方法。 在项目覆盖的所有村庄中, 随机选取 2 644 户家 庭, 收集了定量数据。 选取了六个具有代表性的受洪灾影响的村庄, 对其生计系统、 生 活现状和生活前景等在内的状况进行评估, 获取了相关定性数据。 在第一次定性评估结 束大约五个星期后, 另一支小规模的评价团队进行了调研, 了解社区民众对食物配给相 关计划的感受和行为, 内容包括食物分配是否及时、 食品类别是否符合需要以及食用方 式等。 在分析中综合运用了定量数据和定性数据。 评价报告包含了有效性评价的主要要素, 包括: 通向结果之路: 有效发展评价的设计与实施 llll llllllll 摇 摇 誗 对干预目标形成的分析, 包括对逻辑框架的分析 誗 受益人选择标准的评估, 包括主要利益相关者对这些标准的看法 誗 对执行机制的分析, 包括社区参与程度 誗 根据性别和社会经济状况对受益人分组, 对针对目标群体实施援助的准确性进 行估计 基 本 誗 对所提供的资源 ( 配给规模和食品种类 ) 进行评估, 包括提供特定规模和种类 原 的原因 ( 这一点也可在相关性标准下评估) 理 誗 审查食品分配流程是否恰当 誗 分析受益人对干预的看法 专栏 1郾 6摇 效率: 紧急救灾委员会对莫桑比克洪灾救助资金的评价 2000 年 莫 桑 比 克 洪 灾 之 后, 紧 急 救 灾 委 员 会 ( Disasters Emergency Committee, DEC ) 对 DEC 机构采取的人道主义行动进行了仔细分析 ( DEC 2001 ) 。 评价的目的是 摇 24 向英国公众报告援助资金的使用方式和用途, 并为未来紧急行动提供良好的实践范例。 评价中所用的方法包括: 大规模访谈、 背景研究、 现场访问和详细的受益人调查。 此评价报告中关于效率的章节包含了评价所必需的诸多要素, 如: 誗 对 DEC 机构使用军用物资的情况进行了分析, 由于军用直升机的调用缺乏有效 配合, 因此开展了需求评估; 使用西方军事力量而非商业设施实施人道主义救 助的成本很高; 皇家空军、 美国军队和南非国防力量的比较成本 ( 报告提到昂 贵的军队运作耗费了大量的资金, 也影响了后来援助方对 NGO 项目的资助) 誗 欠发达的承包服务市场对效率的影响 ( 例如, 尽管使用当地的合同承包商能使 救援机构能以较低成本开展一些机械化的工作, 如修路等, 但他们经常不能按 时履行其职责) 誗 不同反应方式的效率 ( 通过直接实施某些计划来干预; 与当地合作伙伴一起开 展工作; 或通过国际网络成员开展工作) ; 评价发现, 在决定效率的因素中, 工 作人员构成比反应方式更为重要 ( 这也是可以在相关性标准下讨论的) 誗 援助机构基于受援国现有能力或是基于国际雇员来做出反应, 两者之中哪一个 更有效率 誗 已经拥有合作伙伴的援助机构的工作是否比尚无合作伙伴的援助机构的工作更 有效率 誗 如何在前期准备工作上投资才能使援助更有效率 誗 会计系统的效率 在评价过程中, 原本尝试比较不同机构的投入成本, 但由于项目细节不同且使用渠 道不同, 进行这种比较是不可能的。 评价分析了经营活动总成本, 如仓储成本和运输成 本。 评价也按部门统计了资金支出明细, 并对每个 DEC 机构的成本进行评估, 成本内 容包括日用品和原材料、 人工和非人工成本及机构管理成本。 第一章摇 发展评价简介 llll llllllll 专栏 1郾 7摇 影响: 对卢旺达紧急援助的联合评价 对卢旺达紧急援助的联合评价 ( JEEAR 1996 ) 是有史以来规模最大、 最为复杂的 人道主义行动评价。 52 位顾问和研究人员参加了评价。 在对复杂而又紧急情况下的政 治行动 ( 及缺乏行动) 的影响进行评价方面, 该评价报告设定了如何开展联合评价的 基 标准。 本 尽管有重大迹象表明, 卢旺达军事武装为种族屠杀和政治谋杀做了舆论和组织上的 原 准备, 但国际 社 会 却 没 有 在 卢 采 取 干 预 行 动。 JEEAR 主 要 据 此 对 影 响 进 行 了 评 估。 理 JEEAR 认为, 人道主义包含政治和社会经济两大功能, 而政治结构在很大程度上决定 了人道主义的行动和影响, 因此需要对政治结构进行分析。 国际干预缺乏的原因主要有以下两方面: 对种族屠杀历史原因的分析和直接导致种 族屠杀具体事件的描述。 联合评价的价值在于其超出了对单一部门干预分析的范围, 而 是扩展至对政治经济的分析。 在评价人道主义行动的有效性时也用了政治经济分析 方法。 这一方法与科索沃冲突及后果、 Mitch 飓风的影响、 阿富汗干预行动等其他危机评 摇 25 价中所使用的方法不同。 在那些案例中, 评价对象都是单一机构或单一部门, 因此在很 大程度上不能把握住事件的政治性质及相关反应。 在科索沃冲突和阿富汗干预行动评价 案例中, 所采用的评价方法导致评价人员对 人 权 保 护 问 题 关 注 不 够 ( ALNAP 2001 , 2004 ) 。 在 Mitch 飓风评价案例中, 没有足够关注人道主义行动在多大程度上支持了斯 德哥尔摩宣言所倡导的改革议程 ( ALNAP 2002 ) 。 由于 JEEAR 重点关注了国际社会为何没有兴趣在卢旺达采取干预措施 ( 主要因为 卢旺达缺乏地缘政治上的重要性) , 而不是单单罗列相关事件及其后果, 因此, JEEAR 的影响评价是独树一帜的。 对评价人员的一个教训是: 在影响评价中, 不仅要看采取了 何种干预措施, 还要看在其他各种情况和不同的干预措施下可能会发生什么。 专栏 1郾 8摇 可持续性: 日本国际协力事业团对信息与通信技术第三国培训 计划的评价 摇 摇 日本国际协力事业团 ( the Japan International Cooperation Agency, JICA ) 对在菲律 宾开展的一个项目进行了评价。 该项目旨在为来自柬埔寨、 老挝、 缅甸和越南的人员提 供培训, 以提升他们在创业所需要的信息和通信技术领域的知识和技能。 由于信息技术和教育发展基金会 ( the Foundation for Information Technology and Edu鄄 cation Development, FIT鄄ED) 承诺将负责未来的培训计划以达成项目目标, 该项评价 ( JICA 2005b) 得出结论, 该项目是可以持续的。 FIT鄄ED 已经建立了一个电子小组以方 便参加培训人员间的网络建设, 并能帮助 FIT鄄ED 分享知识和提升能力。 作为旨在帮助 东盟国家的政府和商业部门提高信息技术认知程度的机构, FIT鄄ED 将继续为东盟国家开 通向结果之路: 有效发展评价的设计与实施 llll llllllll 展与信息和通信技术有关的活动。 FIT鄄ED 对三次培训活动充分而又及时的资源投入印证了其持续实施培训计划的承 诺。 参加培训的人员也表达了对培训活动的坚定支持。 他们认识到了信息和通信技术在 其事业中的重要性, 84% 的受访者已经将在培训中学到的知识和技巧运用到工作之中 基 ( 如网站开发、 通信、 纺织服装、 工艺品进出口、 建筑、 咖啡生产、 政府事务等 ) 。 受 本 访者表示他们从培训课程中获益巨大, 并将此看做是培训计划的开始。 除了将参加培训 原 期间起草的电子商务战略计划用作参考外, 参加培训人员也已开始使用互联网, 并运用 理 所学到的知识促进有关部门的发展。 小摇 摇 结 詪詪詪詪詪詪 评价的历史已有数个世纪。 但是, 评价发展干预效果的历史并不长。 摇 26 评价有三种不同的形式 ( 形成性评价、 总结性评价和前瞻性评价) , 服务于四种不同 目的 ( 道德、 管理、 决策、 教育与激励) 。 评价能为战略决策 ( 是否在做正确的事?) 、 运 行 ( 是否在正确地做事?) 及学习 ( 是否有更好的方式做事?) 提供信息。 评价可以由内 部实施, 也可以由外部实施, 还可以以参与的方式进行。 发展评价衍生自社会科学研究、 科学方法及审计。 评价人员的角色一直在发生变化, 包括强调评价人员作为审计人员、 会计人员和公证员, 以及强调评价人员作为研究人员和 参与性评价的协助者。 发展评价基于 OECD / DAC 提出的相关性、 有效性、 效率、 影响和可持续性标准来进 行。 OECD / DAC 也制定了评价发展援助和评价质量标准的具体原则。 评价可信性的重要方面是独立性。 多边发展银行评价工作的负责人确定了评价独立性 的四个维度或标准, 即组织独立性、 行为独立性、 避免利益冲突和免受外部干扰。 练习 1郾 1 : 请说明为何发展评价应当为一项新的全国性计划的发展评价提供预算费用。 该 计划的目的是改进家庭教育、 培养有效卫生习惯方面的家庭教育。 在加强发展教育方面, 你有什么意见? 1郾 2 : 访问一位你所在领域的评价人员, 了解在他 / 她所观察的评价中满足有关标准和 指导原则的程度。 ( 如果你无法接触到一位评价人员, 也可研读一下有关领域内最近完成 的评价报告。) 有哪些优点? 存在哪些不足? 与你的评价同行分享你的发现并倾听他们的 意见和经验。 你能发现一些范式吗? 名词解释 评价: 计划、 项目或政策价值的确定 形成性评价: 对计划、 政策或项目执行方式的评价 第一章摇 发展评价简介 llll llllllll 总结性评价: 在干预末期为确定预期结果达成程度进行的评价 前瞻性评价: 对建议的项目、 计划或政策可能结果的评价 监测: 收集管理者用来评估目标达成程度的数据的行为 内部评价: 组织内部人员实施的评价 外部评价: 组织外部人员实施的评价 标准审计: 为改进组织运行进行的客观的保证活动 基 财务审计: 注重审查是否符合适用的法令和规章的审计 本 原 绩效审计: 关联性、 经济、 效率和有效性的审计 理 内部审计: 组织内部财务活动和运营的审计 独立评价: 由与干预活动的设计者和实施者无利害关系的人进行的评价 参考书目 1郾 Adamo, Abra郾 2003郾 Mainstreaming Gender in IDRC蒺s MINGA Program Initiative: A Formative Evaluation郾 https: / / idl鄄bnc郾 idrc郾 ca / dspace / bitstream / 123456789 / 30972 / 1 / 121759郾 pdf. 2郾 ADB ( Asian Development Bank ) . 2007郾 Mongolia: Second Financial Sector Program郾 摇 27 http: / / www郾 oecd郾 org / dataoecd / 59 / 35 / 39926954郾 pdf郾 3郾 ALNAP ( Active Learning Network for Accountability and Performance in Humanitarian Action) . 2001郾 Humanitarian Action: Learning from Evaluation郾 ALNAP Annual Review 2001郾 ALNAP / Overseas Development Institute, London郾 ———郾 2002郾 Humanitarian Action: Improved Performance through Improved Learning郾 AL鄄 NAP Annual Review 2002郾 ALNAP / Overseas Development Institute, London郾 ———郾 2006郾 Evaluating Humanitarian Action Using the OECD / DAC Criteria郾 Overseas Devel鄄 opment Institute, London郾 http: / / www郾 odi郾 org郾 uk / alnap / publications / eha _ dac / pdfs / eha_ 2006. pdf郾 4郾 Bhy, Y郾 Tan Sri Data蒺 Setia Ambrin bin Huang郾 2006郾 The Role of the National Audit Department of Malaysia in Promoting Government Accountability郾 Paper presented at the Third Symposium of the Asian Organisation of Supreme Audit Institutions ( ASOSAI ) , Shanghai, Sep鄄 tember 13郾 http: / / apps郾 emoe郾 gov郾 my / bad / NADRole郾 htm郾 5郾 Brooks, R郾 A郾 1996郾 “ Blending Two Cultures: State Legislative Auditing and Evaluation郾 冶 In Evaluation and Auditing: Prospects for Convergence, ed郾 Carl Wisler, 15 - 28郾 New Directions for Evaluation 71 ( Fall) . San Francisco: Jossey鄄Bass郾 6郾 Burkhead, J郾 1956郾 Government Budgeting郾 New York: John Wiley & Sons郾 7郾 Callow鄄Heusser, Catherine郾 2002郾 Digital Resources for Evaluators郾 http: / / www. re鄄 sources4evaluators郾 info / CommunitiesOfEvaluators郾 html郾 8郾 Chelimsky, Eleanor郾 1995郾 “ Preamble: New Dimensions in Evaluation郾 冶 In Evaluating Country Development Policies and Programs, ed郾 Robert Picciotto and Ray C郾 Rist, 3 - 8郾 New Approaches for a New Agenda 67 ( Fall) . Publication of the American Evaluation Association郾 San Francisco: Jossey鄄Bass Publishers郾 通向结果之路: 有效发展评价的设计与实施 llll llllllll ———郾 1997郾 “ The Coming Transformations in Evaluation郾 冶 In Evaluation for the 21 st Centu鄄 ry: A Handbook, eds郾 E郾 Chelimsky and W郾 R郾 Shadish, pp郾 1 - 26郾 Thousand Oaks, CA: Sage Publications郾 9郾 Chelimsky, Eleanor, and William R郾 Shadish郾 1997郾 Evaluation for the 21 st Century: A Handbook郾 Thousand Oaks, CA: Sage Publications郾 基 CIDA ( Canadian International Development Agency) . 2000郾 CIDA Evaluation Guide郾 Otta鄄 本 wa郾 原 理 10郾 Danida, Ministry of Foreign Affairs郾 1998 , 1999郾 Guidelines for an Output and Out鄄 come Indicator System郾 Copenhagen: Danida郾 11郾 DEC ( Disasters Emergency Committee) . 2001郾 Independent Evaluation of DEC Mozam鄄 bique Floods Appeal Funds: March 2000鄄December 2000郾 London郾 12郾 Derlien, Hans鄄Ulrich郾 1999郾 “ Program Evaluation in the Federal Republic of Germany郾 冶 In Program Evaluation and the Management of Government: Patterns and Prospects across Eight Nations, ed郾 Ray C郾 Rist, 37 - 52郾 New Brunswick, NJ: Transaction Publishers郾 13郾 DfID ( Department for International Development) . Sector Wide Approaches ( SWAps) 郾 摇 28 London郾 http: / / www郾 dfid郾 gov郾 uk / mdg / aid鄄effectiveness / swaps郾 asp郾 ———郾 2001郾 Emergency Food Aid to Flood鄄Affected People in South鄄Western Bangladesh: Evaluation report郾 London郾 14郾 European Federation of Accountants郾 2001郾 The Conceptual Approach to Protecting Audi鄄 tor Independence郾 Bruxelles郾 15郾 Evaluation Cooperation Group of the Multilateral Development Banks郾 n郾 d郾 Good Practice Standards for Evaluation ofMDB鄄Supported Public Sector Operations郾 Working Group on Evaluation Criteria and Ratings for Public Sector Evaluation郾 https: / / wpqp1郾 adb郾 org / QuickPlace / ecg / Main郾 nsf / h_B084A3976FF5F808482571D90027AD16 / 1E8F8A367033183248257463002F0726 / . 16郾 Feuerstein, M郾 T郾 1986郾 Partners in Evaluation: Evaluating Development and Commu鄄 nity Programs with Participants郾 London: MacMillan, in association with Teaching Aids at Low Cost郾 17郾 Fitzpatrick, Jody L郾 , James, R郾 Sanders, and Blaine R郾 Worthen郾 2004郾 Program Evaluation: Alternative Approaches and Practical Guidelines郾 3rd ed郾 New York: Pearson Educa鄄 tion, Inc郾 18郾 Fontaine, C郾 , and E郾 Monnier郾 2002郾 “ Evaluation in France郾 冶 In International Atlas of Evaluation, eds郾 Jan鄄Eric Furubo, Ray C郾 Rist, and Rolf Sandahl, 63 - 76郾 New Brunswick, NJ: Transaction Publishers郾 19郾 Furubo, Jan鄄Eric, Ray C郾 Rist, and Rolf Sandahl, eds郾 2002郾 International Atlas of Evaluation郾 New Brunswick, NJ: Transaction Publishers郾 20郾 Furubo, Jan鄄Eric, and R郾 Sandahl郾 2002郾 “ Coordinated Pluralism郾 冶 In International Atlas of Evaluation, eds郾 Jan鄄Eric Furubo, Ray C郾 Rist, and Rolf Sandahl, 115 - 28郾 New Brunswick, NJ: Transaction Publishers郾 第一章摇 发展评价简介 llll llllllll 21郾 Government of Malawi郾 2007郾 “ National Indicators for Routine Monitoring of Quality of Health Services at Central Hospital郾 冶 http: / / www郾 malawi郾 gov郾 mw / MoHP / Information / Cen鄄 tral% 20Hospital% 20Indicators郾 htm郾 22郾 Human Rights Education Associated郾 1997郾 Evaluation in the Human Rights Education Field: Getting Started郾 Netherlands Helsinki Committee郾 http: / / www郾 hrea郾 org / pubs / Evalu鄄 ationGuide / 郾 基 23郾 Insideout郾 2005郾 “ M&E In蒺s and Out蒺s郾 冶 Insideout 3 ( October / November ) p郾 1郾 本 原 http: / / www郾 insideoutresearch郾 co郾 za / news_l / Newsletter_issue% 203郾 pdf郾 理 24郾 Institute of Internal Auditors郾 2000郾 Professional Practices Framework郾 Altamonte Springs, Florida郾 25郾 Inter鄄American Development Bank郾 2004郾 Proposal for Sector鄄wide Approaches郾 http: / / idbdocs郾 iadb郾 org / wsdocs / getdocument郾 aspx? docnum = 509733郾 26郾 INTOSAI ( International Organization of Supreme Audit Institutions) . n郾 d郾 Draft Strate鄄 gic Plan 2004 to 2009郾 Vienna, Austria郾 http: / / www郾 gao郾 gov / cghome / parwi / img4郾 html郾 ———郾 2001郾 Code of Ethics and Auditing Standards郾 Stockholm郾 摇 29 27郾 JEEAR ( Joint Evaluation of Emergency Assistance to Rwanda) . 1996郾 The Internation鄄 al Response to Conflict and Genocide: Lessons from the Rwanda Experience, 5 volumes郾 JEEAR Steering Committee, Copenhagen郾 28郾 JICA ( Japan International Cooperation Agency) . 2005a郾 JICA Evaluation: Information and Communication郾 Tokyo郾 http: / / www郾 jica郾 go郾 jp / english / operations / evaluation / 郾 ———郾 2005b郾 Results of Evaluation, Achievement of the Project Joint Evaluation of Emergen鄄 cy Assistance to Rwanda郾 Tokyo郾 29郾 KRA Corporation郾 1997郾 A Guide to Evaluating Crime Control of Programs in Public Housing郾 Report prepared for the U郾 S郾 Department of Housing and Urban Development郾 http: / / www郾 ojp郾 usdoj郾 gov / BJA / evaluation / guide / documents / guide_to_evaluating_crime郾 html郾 30郾 Kusek, Jody Zall, and Ray C郾 Rist郾 2004郾 Ten Steps to a Results鄄Based Monitoring and Evaluation System郾 World Bank, Washington, DC郾 http: / / www郾 oecd郾 org / dataoecd / 23 / 27 / 35281194郾 pdf郾 31郾 Lawrence, J郾 1989郾 “ Engaging Recipients in Development Evaluation: The 蒺Stakeholder蒺 Approach郾 冶 Evaluation Review 13 ( 3 ) : 243 - 56郾 32郾 MEASURE Evaluation郾 n郾 d郾 Monitoring and Evaluation of Population and Health Pro鄄 grams郾 University of North Carolina, Chapel Hill郾 http: / / www郾 cpc郾 unc郾 edu / measure郾 33郾 Mikesell, J郾 L郾 1995郾 Fiscal Administration: Analysis and Applications for the Public Sector, 4th ed郾 Belmont, CA: Wadsworth Publishing Company郾 34郾 Molund, Stefan, and G觟ran Schill 2004郾 Looking Back, Moving Forward: SIDA Evalua鄄 tion Manual郾 Swedish International Development Agency, Stockholm郾 35郾 OECD ( Organisation for Economic Co鄄operation and Development) . 1991a郾 DAC Crite鄄 通向结果之路: 有效发展评价的设计与实施 llll llllllll ria for Evaluating Development Assistance郾 Development Assistance Committee郾 http: / / www郾 oecd郾 org / document / 22 / 0 , 2340 , en_2649_34435_2086550_1_1_1_1 , 00郾 html郾 ———郾 1991b郾 Principles for Evaluation of Development Assistance郾 Development Assistance Committee郾 http: / / siteresources郾 worldbank郾 org / EXTGLOREGPARPRO / Resources / DACPrinci鄄 ples1991郾 pdf郾 基 ———郾 1998郾 Review of the DAC Principles for Evaluation of Development Assistance郾 Develop鄄 本 ment Assistance Committee郾 http: / / www郾 oecd郾 org / dataoecd / 31 / 12 / 2755284郾 pdf郾 原 理 ———郾 2002郾 OECD Glossary of Key Terms in Evaluation and Results鄄Based Management郾 Development Assistance Committee, Paris郾 ———郾 2006郾 Evaluation Quality Standards for Test Phase Application郾 Development 36郾 Assistance Committee郾 http: / / www郾 oecd郾 org / dataoecd / 30 / 62 / 36596604郾 pdf郾 ———郾 2007a郾 General information郾 http: / / www郾 oecd郾 org / document / 48 / 0 , 3343 , en _ 2649_201185_1876912_1_1_1_1 , 00郾 html郾 ———郾 2007b郾 Development Co鄄operation Directorate DCD鄄DAC郾 http: / / www郾 oecd郾 org / department / 0 , 2688 , en_2649_33721_1_1_1_1_1 , 00郾 html郾 摇 30 37郾 Office of the Secretary of Defense Comptroller Center郾 2007郾 The Historical Context郾 http: / / www郾 defenselink郾 mil / comptroller / icenter / budget / histcontext郾 htm郾 38郾 Picciotto, Robert郾 2002郾 “ Development Evaluation as a Discipline郾 冶 International Pro鄄 gram for Development Evaluation Training ( IPDET) presentation, Ottawa, July郾 ———郾 2005郾 “ The Value of Evaluation Standards: A Comparative Assessment郾 冶 Journal of Multidisciplinary Evaluation 3 : 30 - 59郾 http: / / evaluation郾 wmich郾 edu / jmde / content / JMDE003 content / PDFspercent 20JMDEpercent20003 / 4_percent20The_Value_of_Evaluation_Standards_A_ Comparative_Assessment郾 pdf郾 39郾 Quesnel, Jean Serge郾 2006郾 “ The Importance of Evaluation Associations and Networks郾 冶 In New Trends in Development Evaluation 5 , UNICEF Regional Office for Central and Eastern Europe, Commonwealth of Independent States, and International Program Evaluation Net鄄 work, http: / / www郾 unicef郾 org / ceecis / New_trend s_Dev_E Valuation郾 p df郾 40郾 Quinn, Michael 1997郾 Utilization鄄Focused Evaluation郾 3rd ed郾 Thousand Oaks, CA: Sage Publications郾 41郾 Rossi, Peter, and Howard Freeman郾 1993郾 Evaluation: A Systematic Approach郾 Thou鄄 sand Oaks, CA: Sage Publications郾 42郾 Scientific and National Councils for Evaluation郾 1999郾 A Practical Guide to Program and Policy Evaluation郾 Paris: National Council of Evaluation郾 43郾 Sonnichsen, R郾 C郾 2000郾 High鄄Impact Internal Evaluation郾 Thousand Oaks, CA: Sage Publications郾 44郾 Treasury Board of Canada Secretariat郾 1993郾 “ Linkages between Audit and Evaluation in Canadian Federal Developments郾 冶 http: / / www郾 tbs鄄sct郾 gc郾 ca / pubs _ pol / dcgpubs / TB _ h4 / evaluation03_e郾 asp郾 第一章摇 发展评价简介 llll llllllll 45郾 Tyler, C郾 , and J郾 Willand郾 1997郾 “ Public Budgeting in America: A Twentieth Century Retrospective郾 冶 Journal of Public Budgeting, Accounting and Financial Management 9 ( 2 ) : 189 - 219郾 http: / / www郾 ipspr郾 sc郾 edu / publication / Budgeting_in_America郾 htm郾 46郾 U郾 S郾 Department of Housing and Urban Development郾 1997郾 “ A Guide to Evaluating Crime Control of Programs in Public Housing郾 冶 Paper prepared by the KRA Corporation, Wash鄄 ington, DC郾 http: / / www郾 ojp郾 usdoj郾 gov / B JA / evaluation / guide / documents / benefits_of_ evalu鄄 基 ation郾 htm郾 本 原 47郾 U郾 S郾 GAO ( General Accounting Office) . 1986郾 Teenage Pregnancy: 500 , 000 Births 理 a Year but Few Tested Programs郾 Washington, DC : U郾 S郾 GAO郾 ———郾 2002郾 “ Government Auditing Standards, Amendment 3 ,冶 GAO, Washington, DC郾 48郾 Weiss, Carol郾 2004郾 “ Identifying the Intended Use ( s) of an Evaluation郾 冶 Evaluation Guideline 6郾 http: / / www郾 idrc郾 ca / ev_en郾 php? ID = 58213_201&ID2 = DO_TOPIC p 1郾 49郾 WFP ( World Food Programme) . 2002郾 Full Report of the Evaluation ofPRRO Somalia 6073郾 00 , Food Aid for Relief and Recovery in Somalia郾 Rome郾 50郾 Wisler, Carl, ed郾 1996郾 “ Evaluation and Auditing: Prospects for Convergences郾 冶 In 摇 31 New Directions for Evaluation 71 ( Fall) , 1 - 71郾 San Francisco: Jossey鄄Bass郾 51郾 World Bank郾 1996郾 World Bank Participation Sourcebook郾 http: / / www. world鄄 bank郾 org / wbi / sourcebook / sbhome郾 htm郾 网址 评价机构 1郾 African Evaluation Association郾 http: / / www郾 afrea郾 org / 郾 2郾 American Evaluation Association郾 http: / / www郾 eval郾 org郾 3郾 Australasian Evaluation Society郾 http: / / www郾 aes郾 asn郾 au郾 4郾 Brazilian Evaluation Association郾 http: / / www郾 avaliabrasil郾 org郾 br郾 5郾 Canadian Evaluation Society郾 http: / / www郾 evaluationcanada郾 ca郾 6郾 Danish Evaluation Society郾 http: / / www郾 danskevalueringsselskab郾 dk郾 7郾 Dutch Evaluation Society郾 http: / / www郾 videnet郾 nl / 郾 8郾 European Evaluation Society郾 http: / / www郾 europeanevaluation郾 org郾 9郾 Finnish Evaluation Society郾 http: / / www郾 finnishevaluationsociety郾 net / 郾 10郾 French Evaluation Society郾 http: / / www郾 sfe郾 asso郾 fr / 郾 11郾 German Society for Evaluation Standards郾 http: / / www郾 degeval郾 de / 郾 12郾 Institute of Internal Auditors郾 http: / / www郾 theiia郾 org郾 13郾 International Development Evaluation Association ( IDEAS ) . http: / / www郾 ideas鄄 int郾 org / 郾 14郾 ( IDEAS Web page with links to many organizations: http: / / www郾 ideas鄄int郾 org / Links郾 aspx郾 ) 15郾 International Organisation for Cooperation in Evaluation郾 http: / / ioce郾 net / overview / 通向结果之路: 有效发展评价的设计与实施 llll llllllll general郾 shtml郾 16郾 International Organization of Supreme Audit Institutions ( INTOSAI ) . http: / / www郾 intosai郾 org / 郾 17郾 International Program Evaluation Network ( Russia and Newly Independent States ) . http: / / www郾 eval鄄net郾 org / 郾 基 18郾 Israeli Association for Program Evaluation郾 http: / / www郾 iape郾 org郾 il郾 本 19郾 Italian Evaluation Association郾 http: / / www郾 valutazioneitaliana郾 it / 郾 原 理 20郾 Japan Evaluation Society郾 http: / / ioce郾 net / members / eval_associations郾 shtml郾 21郾 Latin American and Caribbean Programme for Strengthening the Regional Capacity for Evaluation of Rural Poverty Alleviation Projects ( PREVAL) . http: / / www郾 preval郾 org / 郾 22郾 Malaysian Evaluation Society郾 http: / / www郾 mes郾 org郾 my郾 23郾 Nigerian Network of Monitoring and Evaluation郾 http: / / www郾 pnud郾 ne / rense / 郾 24郾 Polish Evaluation Society郾 http: / / www郾 pte郾 org郾 pl / x郾 php / 1, 71 / Strona鄄glowna. html郾 25郾 Quebecois Society for Program Evaluation郾 http: / / www郾 sqep郾 ca郾 26郾 Red de Evaluacion de America Latina y el Caribe郾 http: / / www郾 relacweb郾 org郾 摇 32 27郾 South African Evaluation Network郾 http: / / www郾 afrea郾 org / webs / southafrica / 郾 28郾 South African Monitoring and Evaluation Association郾 http: / / www郾 samea郾 org郾 za郾 29郾 Spanish Evaluation Society郾 http: / / www郾 sociedadevaluacion郾 org郾 30郾 Sri Lankan Evaluation Association郾 http: / / www郾 nsf郾 ac郾 lk / sleva / 郾 31郾 Swedish Evaluation Society郾 http: / / www郾 svuf郾 nu郾 32郾 Swiss Evaluation Society郾 http: / / www郾 seval郾 ch / de / index郾 cfm郾 33郾 Ugandan Evaluation Association郾 http: / / www郾 ueas郾 org郾 34郾 United Kingdom Evaluation Society郾 http: / / www郾 evaluation郾 org郾 uk郾 35郾 Wallonian Society for Evaluation郾 http: / / www郾 prospeval郾 org郾 评价标准 36郾 African Evaluation Association郾 Evaluation Standards and Guidelines郾 http: / / www郾 afrea郾 org / 郾 37郾 American Evaluation Association郾 Guiding Principles郾 http: / / www郾 eval郾 org / Publica鄄 tions / GuidingPrinciples郾 asp郾 38郾 Australasian Evaluation Society郾 Ethical Guidelines for Evaluators郾 http: / / www郾 aes郾 asn郾 au / content / ethics_guidelines郾 pdf郾 39郾 ECGnet [ The Evaluation Cooperation Group ] https: / / wpqp1郾 adb郾 org / QuickPlace / ecg / Main郾 nsf / h_B084A3976FF5F808482571D90027AD16 / 1E8F8A36703318324 8257463002F0726 / 郾 40郾 German Society for Evaluation郾 Standards郾 http: / / www郾 degeval郾 de / standards / stand鄄 ards郾 htm郾 41郾 Italian Evaluation Association郾 Guidelines郾 http: / / www郾 valutazioneitaliana郾 it / statu鄄 to郾 htm#Linee郾 42郾 OECD ( Organisation for Economic Co鄄operation and Development) . Evaluation Quality 第一章摇 发展评价简介 llll llllllll Standards ( for test phase application ) . Development Assistance Committee郾 http: / / www郾 oecd郾 org / dataoecd / 30 / 62 / 36596604郾 pdf郾 ———郾 Evaluating Development Co鄄Operation: Summary of Key Norms and Standards郾 Devel鄄 opment Assistance Committee, Network on Development Evaluation郾 http: / / www郾 oecd郾 org / dac / evaluationnetwork郾 43郾 Program Evaluation Standards ( updated 1998 ) . http: / / www郾 eval郾 org / Evaluation 基 Documents / progeval郾 html郾 本 原 44郾 Swiss Evaluation Society郾 Standards郾 seval郾 ch / 郾 理 45郾 UNEG ( United Nations Evaluation Group) . Norms for Evaluation in the UN Sy郾 stem郾 http: / / www郾 uneval郾 org / docs / ACFFC9F郾 pdf郾 ———郾 Standards for Evaluation in the UN System郾 http: / / www郾 uneval郾 org / docs / ACFF鄄 CA1郾 pdf郾 46郾 UNFPA ( United Nations Population Fund) . n郾 d郾 List of Evaluation Reports and Find鄄 ings郾 http: / / www郾 unfpa郾 org / publications / index郾 cfm郾 47郾 UNICEF Regional Office for Central and Eastern Europe, Commonwealth of Independent 摇 33 States, and International Program Evaluation Network郾 2006郾 New Trends in Development Evalua鄄 tion 5郾 http: / / www郾 unicef郾 org / ceecis / New_ trends_Dev_EValuation郾 pdf郾 48郾 United Nations Development Project Evaluation Office, http: / / www郾 undp郾 org / eo / 郾 第二章 摇 推动发展评价的主要因素 发展评价是为了应对发达国家与发展中国家出现的一些新问题而产生的一个相对较新 的领域。 本章将着重分析当前对发达国家和发展中国家有着较大影响的问题。 本章包括两个主要部分: 誗 发达国家及发展中国家的评价活动概况 誗 新出现的发展问题的意义 发达国家及发展中国家的评价活动概况 詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪 发展评价有助于各国深入了解发展目标 ( 包括千年发展目标 ) 实现的程度, 同时, 政策制定者及相关人士也可以利用从评价结果提炼出来的观点和建议来推动变革。 评价可 以帮助各国利用已有经验来改善当前项目、 计划和政策的设计及实施, 并不断调整未来的 发展方向。 根据各国的实际需求和现有资源, 许多发展中国家和发达国家都已建立和使用了监测 与评价体系以更好地促进社会发展。 发达国家的评价活动 大多数 OECD 国家的监测与评价体系都相当成熟, 但建立这样的体系并非易事, 也不 是一帆风顺的, 各国建立监测与评价体系的途径、 方法和监测与评价的实际发展水平也存 在较大差异。 为解释当前 OECD 国家监测与评价体系模式的差异, Furubo, Rist 和 Sandahl (2002) 对这些国家的评价文化进行了分析。 他们利用以下 9 大指标对 23 个国家分别进行打分 (0 分最低, 2 分最高) : 1郾 对许多政策领域实施了评价; 2郾 有较多掌握了不同评价方法和实施评价的专业人士; 3郾 根据国情能够就评价问题在全国范围内展开一般性讨论; 4郾 存在评价职业, 至少能够就职业准则和职业道德展开讨论, 拥有自己的体系或经 第二章摇 推动发展评价的主要因素 llll llllllll 常参加国际专业会议; 5郾 政府内部设立了专门的评价机构, 并能将评价结果反馈给有关决策部门; 6郾 议会或相关立法机关成立了评价机构, 并能将评价结果反馈给有关决策部门; 7郾 评价的多元化, 即针对同一政策领域, 有不同人员或机构从事评价活动; 8郾 最高审计部门开展评价活动; 9郾 评价不应只关注技术性的产出或投入产出关系, 某些公共部门的评价必须以项目 基 或活动能否达到预期结果作为评价内容 ( Furubo, Rist 和 Sandahl, 2002) 。 本 原 根据上述指标, 2002 年, 澳大利亚、 加拿大、 荷兰、 瑞典、 美国等国的 “ 评价文化 理 评级冶 在 OECD 成员国中排名最高。 为应对国内外不同程度的压力, OECD 国家都努力推动评价文化和监测与评价体系的 发展。 例如, 法国、 德国和荷兰 ( 以及其他大多数欧盟国家 ) 等国的评价事业压力不仅 来自国内也来自国外 ( 主要来自与欧盟相关的压力) 。 相反, 澳大利亚、 加拿大、 韩国和 美国评价事业的发展主要源自国内的强大压力 ( Furubo, Rist 和 Sandahl, 2002) 。 第一批引入评价文化的 OECD 国家主要受强大的内部压力推动, 如对新的社会经济支 出计划和法律制度进行规划、 计划和预算的迫切需求。 还有一些因素也促进了这些国家的 摇 35 评价文化发展, 例如民主的政治制度、 强大的实证传统、 经过严格的社会科学或法律培训 的政府公务员, 以及高效的行政体制与机构。 此外, 在教育、 卫生和社会福利等领域支出水平很高的国家也非常重视评价, 并逐步 对其他公共部门产生溢出效应。 最早采用评价的 OECD 国家也对其他国家起了模范带头作 用, 向它们提供评价理论和信息, 帮助它们成立评价机构、 培训机构、 网络和咨询公司。 较晚加入 OECD 的国家 ( 包括爱尔兰、 意大利和西班牙 ) 主要是受强大的外部压力 所推动, 特别是为了达到欧盟成员国资格的要求, 并获得欧盟结构基金淤的资助。 这些国 家的评价文化深受第一批 OECD 国家和评价文化盛行的国际机构的影响。 塔维斯托克研究所 ( Tavistock Institute) (2003) 为评价能力的发展路径提出了一个 包括四个主要阶段以及中期目标的模型或路线图: 誗 第一阶段: 评价的授权 誗 第二阶段: 评价的协调 誗 第三阶段: 评价的机制化 誗 第四阶段: 评价体系的建立 第一阶段的启动主要来自要求通过制定规章制度或政策目标来实施评价的外部压力。 尽管有时驱动力主要来自内部, 但一定程度的外部压力仍是必要的。 第二阶段是在第一阶段的规章制度的约束下产生的两种活动: 一是提供评价指南和基 本方法; 二是强调人员的职业化以提升评价的质量。 第三阶段开始于中央评价机构的成立, 该阶段包括两大并行步骤: 在各地成立评价机 构并加强评价知识的传播。 淤 欧盟结构基金: 主要由欧洲地区发展基金 ( ERDF) 、 欧洲社会基金 ( ESF) 、 农业指导与保障基金 ( EAGGF) 的指导部分和渔业指导资助工具 ( FIFG) 组成, 由欧洲投资银行的贷款予以支持。 ( 译者注) 通向结果之路: 有效发展评价的设计与实施 llll llllllll 第四阶段包括建立高效运行的评价体系, 并与政策制定、 项目管理和公共治理等领域 紧密结合。 该阶段还要求加强评价体系内部的联系, 并将整个评价体系向外部利益相关者 公开。 所有 OECD 国家在建立监测与评价体系时所采用的具体方法都不尽相同, 但一般来 说, 主要采用了以下 3 种方法: 基 誗 全面法 本 誗 局部法 原 理 誗 混合法 全面法 一些较早引入评价文化的国家 ( 例如澳大利亚等 ) 经常采用 全面法, 该方法要求各 级政府在多个领域内广泛建立监测与评价体系。 政府全面推动并不意味着一蹴而就, 而是 需要至少十年时间才能在整个政府部门建立可持续的评价体系 ( 世界银行, 1999) 。 全面法获得成功的先决条件是: 获得政府的长期支持, 拥有必要的评价技术, 必须建 立能充分利用监测与评价发现的公共服务体系和制度。 发展中国家还必须确保能从发展援 摇 36 助机构获得长期而稳定的支持。 为实现千年发展目标, 许多发展中国家都希望能够设计和实施全面的政府评价体系。 当国际援助贷款越来越关注发展结果时, 更多的援助方、 政府和其他机构都开始帮助发展 中国家增强评价能力, 建设评价体系。 澳大利亚评价体系的建立方法 ———早在 1987 年, 澳大利亚就开始发展其监测与评价 体系。 下列内部优势对澳大利亚建立发达的评价体系起到了至关重要的作用: 誗 政府部门拥有较强的人力资源、 机构能力和管理能力 誗 以可靠、 诚信和具有专业能力著称的公共服务 誗 拥有成熟的财务、 预算和会计体系 誗 健全的政府问责制和透明度 誗 拥有可信赖的、 合法当选的政治领导人 澳大利亚能够建立强大的评价体系主要归功于以下两大要素: 首先, 预算约束促使政 府寻找资金分配的最优方式; 其次, 澳大利亚两大重要机构———财政部和国家审计署均积 极推动评价工作的开展。 同时, 还获得了内阁成员及主要政府部门的支持, 并积极使用评 价结果来改进决策 ( Mackey, 2002) 。 第一代评价 (1987 ~ 1997 年) 主要是受强大的预算压力推动。 很多公共部门的改革 给予各部门和机构自主权, 却未对它们进行监测与评价。 因此, 各级政府要求各部门和机 构积极推行评价工作。 该阶段的监测与评价体系主要是加强预算决策的制定和政府官员的 问责。 第一代监测与评价体系主要由澳大利亚财政部设计和管理。 财政部强制要求每隔 3 ~ 5 年对所有计划进行评价。 此外, 还要求各部门对主要评价活动制订三年滚动计划。 第一代的评价方法多种多样。 在 20 世纪 90 年代中期, 澳大利亚始终有 160 项左右的 评价活动在开展。 但此时还没有对绩效指标的收集及报告提出正式要求。 第二章摇 推动发展评价的主要因素 llll llllllll 所有的评价结果都向内阁公开, 以保证结果使用的严肃性。 事实上, 大约 80% 的政 府新议案和三分之二的财政资金节约方案都对内阁制定财政预算政策产生了重要影响。 监 测与评价体系的优势还在于许多政府部门和机构都大量使用评价结果, 并且相互合作共同 开展评价。 当然, 第一代评价也有许多缺陷。 例如, 评价的质量不太稳定, 中央政府对评价的培 训投入不足, 没有规范绩效指标的数据收集和报告工作。 同时, 有很多部门抱怨评价增加 基 了其行政负担。 本 原 澳大利亚的第二代评价由新当选的保守党政府推动。 新政府领导了许多变革, 如政府 理 机关的部门精简、 预算过程的改革、 “ 官僚作风 冶 的整治等。 特别是对财政部进行大规模 精简, 削弱了财政部对预算过程提供建议的作用。 为了应对政府的这些新变革, 监测与评价体系也需要进行相应调整。 澳大利亚政府摒 弃了原有的评价策略, 对评价的要求变得更为 “ 宽松冶 ———只是鼓励性的而非强制性的。 评价的重点也更倾向于关注项目的事前和事后的产出与结果, 并直接向议会进行汇报。 澳大利亚国家审计署认为第二代评价体系的效果非常差。 由于缺乏标准, 收集到的数 据质量很差。 此外, 第二代评价体系的缺点还在于几乎很少使用目标和基准对照、 过多关 摇 37 注政府产出而非结果、 缺少对绩效信息的有效分析等, 这些缺陷让议会各委员会对评价结 果非常不满。 尽管如此, 仍有少数部门 ( 如家庭和社区服务部、 教育部和卫生部等 ) 从 优秀实践评价中获取了经验教训。 第三代评价起源于政府开始关注一些大型项目的复杂性和 “ 关联性 冶 ( 即中央政府各 部门和机构之间以及中央和州级政府之间的协调性) 。 此外, 第三代评价还起源于国防部 决定强化其在预算和政策建议方面的作用。 澳大利亚开展了两种类型的评价来确保政府支出有效、 高效并且符合政府战略目标。 战略评价 ( 每年 7 次) 关注政府的重要政策和支出范围的目标、 设计、 管理、 结果和提 高等方面。 项目评价 ( 也是每年 7 次 ) 则关注具体项目, 关注其与政府目标的吻合性、 有效性、 可复制性、 重叠性和节约性等方面。 澳大利亚政府责成国防部对评价体系进行评估, 并对该体系在部门间的推广做出相应 决策。 在四年间, 政府共投入了 1 700 万美元用于开展上述评估活动。 同时, 还返聘一些 退休的公务员来领导两个试点项目, 并沿用了第二代评价的绩效监测框架。 从澳大利亚政府的评价发展历程我们可以得出以下经验: 誗 项目协调、 实施和绩效 ( 结果) 等问题是所有政府部门面临的长期挑战; 誗 政府决策的性质决定了监测与评价 ( 和评议) 信息需求的层次; 誗 建立监测与评价体系需要时间; 誗 要平衡自上而下 / 中央集权和自下而上 / 地方分权对信息的不同需求是非常困难的; 誗 大多数政府部门并非积极主动地开展评价, 通常认为评价成本高、 风险大。 《 美国政府绩效结果法案》 ———在过去二十年里, 美国政府绩效评价工作发展的重要 里程碑是 1993 年通过的 《 美国政府绩效结果法案 》 ( GPRA) , 该法案要求美国所有政府 部门都必须开展面向结果的评价工作。 GPRA 直接影响了美国政府评价活动的实施方式。 同时, 该法案推行的是先试点再逐步展开的全面法。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 早在 20 世纪 70 年代, 美国的一些地方政府就开始对绩效进行评价, 然后逐步推广到 州政府和联邦政府, 并促使 GPRA 在 1993 年生效。 在美国, 联邦政府是各级政府中最迟 采用绩效评价体系的。 GPRA 的目标包括: 1郾 提高美国民众对联邦政府执政能力的信任度, 并系统地保证联邦政府对项目结果 基 负有责任; 本 2郾 通过一系列试点工作的开展逐步推进政府的绩效改革, 对项目实现目标的程度进 原 理 行考量, 并向公众报告评价结果; 3郾 更多关注项目的结果、 公共服务的质量和公众满意度, 从而提升联邦政府的有效 性和问责制; 4郾 要求各部门重视项目目标的实现程度, 以向其不断反馈项目结果和服务质量的信 息, 提高政府的公共服务质量; 5郾 对项目有无实现其法定目标, 以及对联邦政府项目和支出的有效性和效率提供相 关的客观信息以供国会进行决策; 摇 38 6郾 提高联邦政府的内部管理能力。 GPRA 要求各部门关注其使命和目标及实现方式, 以及如何提升机构和业务流程的质量。 该法案还要求各部门提供项目的五年战略计划, 并 且每三年必须更新。 还要求各部门明确所有可能会影响目标实现程度的 “ 关键外部要 素冶 。 各部门每年都要提供项目的绩效报告 ( 美国劳工部, 1993, 第一章) 。 美国各政府机构必须对绩效进行衡量以确保实现部门目标及政策的合理性。 绩效指标 必须基于项目本身的特征, 并且必须是全面的、 正确的和一致的。 收集的绩效数据还可以 用于改善机构流程、 建立绩效目标, 并随时了解现实 结 果 与 目 标 的 差 距 ( 美 国 GAO, 2003) 。 2003 年, 对美国政府 12 个部门的 16 个项目进行的调查结果显示, 很多联邦政府项 目已利用定期收集的绩效信息来提升项目的效果。 例如, 绩效数据常用来启动纠错行为, 推广 “ 最佳实践冶 , 激励相关人员, 并对政府计划和预算产生影响。 同时, 调查还发现在使用绩效数据时还遇到了一些障碍, 如: 誗 对项目变革缺少必要的权力和兴趣 誗 对绩效数据的理解和使用不足 誗 绩效数据存在问题 ( 如数据过期, 数据没有分类, 以及缺少具体的、 中期的数据 等) 誗 对 “ 制造麻烦冶 的担忧 ( Hartry 等, 2003) 2003 年, GPRA 将绩效与预算相整合。 与此同时, 政府致力于将战略和年度的计划与 报告相结合。 ChannahSorah 对 GPRA 总结如下: 这 ( GPRA) 是件非常好的事。 它的相关条例为政府部门提供了开展业务的一些基本方法: 建 立绩效目标并衡量短期和中期结果。 所有关心改善民生、 提升公共服务质量和提高公众满意度的 政府都必须设立自己的发展使命和目标, 并且必须对结果进行衡量。 (2003, pp郾 5 - 6) 2003 年, GAO 发现许多政府部门在部门内全面推行以结果为导向的管理体系过程中 第二章摇 推动发展评价的主要因素 llll llllllll 面临着严峻的挑战。 参与调查的官员认为部门领导对追求目标和结果支持不足。 此外, 大 家还反映各部门很少积极有效地激励员工帮助实现机构的战略目标。 GAO 的调查结果还 显示, 高绩效机构的管理和问责重心不再是关注活动和过程, 而是追求实际结果和目标实 现度。 然而, 尽管多数被访官员都认为自己要对项目结果负责, 但仅有少数人觉得他们拥 有必要的决策权来帮助机构实现战略目标。 最后, GAO 还发现尽管越来越多的政府部门 管理人员对其项目都设立了以目标为导向的考量体系, 但应用重大项目绩效信息的程度却 基 呈下降趋势。 GAO 的研究结果认为, 为更好地开展绩效管理体系, 组织文化必须转型, 本 原 使之更加关注结果, 更加关注公众和更加强调合作。 理 美国和其他国家的一些主要政府部门发现, 在所有能够引起变革的管理方法和实践 中, 战略人力资本管理才是实现组织文化转型的核心。 绩效管理体系离不开战略人力资本 管理, 这是将机构绩效衡量与个人绩效衡量紧密联系从而实现绩效最大化的有效工具, 并 在个人目标和组织目标之间形成 “ 共识冶 。 绩效高的机构在日常管理中就注重利用其绩效 管理系统来协调组织和员工绩效、 实现目标并促进变革, 因此会不断就个人与组织绩效如 何有效整合的问题进行探讨。 局部法 摇 39 各部门建立评价体系的能力不尽相同, 因此, 很可能无法在所有部门内同时推进, 而 只能循序渐进, 逐步推广。 某一级政府的创新成果往往还会向其他同级或上下级的部门进 行传播。 局部法是指先从政府的某一部门, 如某一部委, 开始进行试点。 例如, 墨西哥的社会 发展部、 约旦的计划部、 吉尔吉斯的卫生部等都是这些国家最早进行绩效评价的部委。 对 于一些不具备实施政府全面推进法的国家而言, 从某些重要部门开始建立评价体系可能是 最好的解决办法。 混合法 爱尔兰等国家的绩效评价体系建设采用了 混合法。 此方法在全面评价某些领域 ( 如 欧盟结构基金资助的项目 ) 的同时, 却较少关注其他项目。 爱尔兰政府采用混合法来推 进评价体 系 的 建 设, 但 在 政 府 支 出 项 目 方 面 仍 然 坚 定 不 移 地 向 全 面 评 价 的 方 向 发 展 ( Lee, 1999) 。 对许多发展中国家来说, 混合法不失为一种很好的选择。 爱尔兰逐步提升的评价能力摇 在 20 世纪 60 年代, 爱尔兰和许多其他国家一样, 开始 重视合理性分析并将其应用于计划和预算领域。 政府当局开始意识到需要对社会项目进行 目标研究, 同时也需要一些实施研究的相关技术人员 ( Friis, 1965; 公共组织管理评论小 组, 1969) 。 因此采取了一些措施来提升评价能力。 尽管爱尔兰政府采取了一些措施, 但评价的范围仍然较窄, 在 80 年代末以前对政府 决策影响甚微。 无法产生影响的一部分原因是爱尔兰的政策和项目一向缺乏评价的传统, 另一部分原因是由于评价开展的时机不对。 当时的爱尔兰正在爆发经济危机, 尽管评价是 很好的公共管理工具, 但政府认为控制政府支出更为重要。 欧盟在爱尔兰的支出是个例外。 欧盟基金用于爱尔兰———欧盟共同体框架 ( CSF) 计 通向结果之路: 有效发展评价的设计与实施 llll llllllll 划下的一系列运作项目。 欧盟———基金的主要来源———要求持续而系统的评价。 这些欧盟 项目评价对下列两大政策领域产生了巨大影响: (1) 行业培训和就业机会创造计划; (2) 扶贫和其他社区发展计划。 就业市场倾向于关注结果的量化考核, 而社会发展计划 则关注描述性定性方法而不是结果考核 ( Boyle, 2005) 。 1989 ~ 1993 年间爱尔兰成立了两家独立评价机构, 一家由欧盟社会基金建立, 另一 基 家则由某一行业评估中心建立。 自 1989 年起, 所有接受欧盟结构基金援助的项目都必须 本 进行评价, 这大大促进了评价事业的发展。 1994 ~ 1999 年间, 财政部成立了中央评价部 原 理 门。 爱尔兰建立了第三家评价机构, 主要开展农业和农村发展领域的评价, 并利用外部评 价人员对项目支出和 CSF 计划进行考核。 1999 ~ 2006 年间, 爱尔兰又开始重视对全国的 公共支出进行评价。 中央各评价单位的能力得到大幅提升, 从而能够承担更多的职责, 并 取代了原来的独立评估机构。 一些外部专家也受聘对项目和国民发展计划进行中期评估 ( Boyle, 2005) 。 法国采用新的评价方法———在 2001 年以前, 法国是 OECD 国家中评价体系建设最慢 的国家之一。 事实上, 它还落后于许多转型经济体和发展中国家。 20 世纪 80 年代末至 90 年代期间, 法国也做了各类渐进式改革尝试。 摇 40 2001 年, 政府通过了全新的法规, 替代 1959 年的财经宪法, 取消了分项预算, 并制 定了新的项目方法。 新法案要求在 5 年 (2001 ~ 2006 年 ) 时间内实现两大目标: (1) 改 革公共管理框架, 使其更加面向结果与绩效; (2) 强化立法监督。 当时的法国总理利昂 内尔·若斯潘这样说: “ 体现一组项目和重大公共政策财政支出的预算报告都要向议会和 民众详细阐述政府的战略及其行为的成本与结果 冶 ( 法国年鉴, 2001) 。 约有 100 个项目 被选定并编制了财政资金预算。 提交给立法机关的每个项目预算, 都要求明确说明目标和 绩效指标。 政府部门管理者在资源分配方面有了更多的自由和自主权, 但同时对项目结果 承担更多的问责。 这样新的预算就更加关注实际结果。 需要追加资金的每个项目预算申请必须包括年度绩效计划, 详细说明期望结果和实际 可能实现的结果。 预算评价时还要求制定项目的年度绩效报告。 这些措施旨在提高立法机 构对政府项目绩效评价的能力。 由于立法机构的预算审核能力得到加强, 这项改革措施改变了法国政府内部的一些政 治和机构关系。 “ 宪法第 40 条原本禁止 ( 立法机构 ) 成员提交增加支出和削减收入的请 求。 但现在他们可以改变某计划中各项目的拨款分配冶 。 立法机构可以对收入预测、 任务 拨款、 国家就业机会创造、 特别账户和特别预算进行表决。 此外, 立法机关的财务委员会 还可以对预算行使监督职责。 政府公务人员对上述变化立即做出了反应。 此时, 出现了新的官僚控制、 增加了会计 人员和更多的审计, 出现了更多关于审计署和监察机构的调查问卷、 更多的汇报要求等现 象。 管理层还难以适应新的制约, 在实现产出 ( 数量 ) 结果的同时忽视了服务质量, 这 些质量指标并未包含在目标之中。 在服务质量方面, “ 由于缺乏竞争机制或缺乏强大的消费主义压力, 服务质量难以得 到保证冶 ( Trosa, 2008) 。 社会是非常复杂的。 一些人需要资金援助, 一些人需要信任和 承担责任; 而其他人则生活得很幸福。 问题是如何找到一种模式将所有这些需求整合在一 第二章摇 推动发展评价的主要因素 llll llllllll 起 ( Trosa, 2008) 。 对评价新旧体系的整合极大地约束了管理、 创造和创新。 Trosa 认为需要一种新的替 代体系。 法国经验还表明, “ 如果不能与公共部门的内部治理架构结合, 则不可能强化内 部管理冶 ( Trosa, 2008) 。 根据 Trosa 的观点, 新建立的体系不需要彻底推翻, 而是应当对 目标进行清晰的讨论, 同时倡导行为逻辑而不是仅仅关注工具时使用, 由此来不断拓展 评价。 基 本 原 发展中国家的评价 理 发展中国家在推进和建立其评价体系时遇到的挑战既有与发达国家类似之处, 又有所 不同。 任何国家建立和维持评价体系, 都必须有利益相关者的关注、 对政府透明度的投入 和良好的公共治理。 就发展中国家而言, 更大的挑战可能是培育对评价体系的需求和建立 评价体系管理机制。 政治意愿不强和缺乏机构能力加大了发展中国家推广绩效评价工作的难度。 各部门间 难以合作和协调也会延缓战略规划进程。 事实上, 无论是发展中国家还是发达国家, 推广 摇 41 绩效评价工作都需要部门间的紧密合作和协调。 评价体系的建立和发展离不开政府的政治意愿以及高层领导的支持, 并愿意在推广绩 效评价工作时承担一定的政治风险。 高层支持对一国评价体系的建立和长期发展非常重 要。 据我们所知, 缺乏政府高层支持的发展中国家几乎不可能建立绩效评价体系。 许多发展中国家尚在致力于组建高效有力的政府机构, 有些国家还需要进行行政部门 和法律体制的改革。 国际发展机构正在帮助发展中国家克服这些影响评价发展的基本障 碍。 其中的挑战是在建立相关机构、 进行行政改革和修改法律法规的同时建立评价体系。 评价体系的机制化有利于引导政府在所有领域进行必要的改革。 发展中国家首先必须建立或拥有开展评价工作的基础, 其中包括要有基础统计体系和 数据, 以及基本的预算制度。 很多发展中国家已在做奠定基础的工作。 当然, 这些数据和 信息还要有必要的质量和数量保证。 同发达国家一样, 发展中国家也得明确基准条件——— 某计划或项目的当前情况。 评价工作的发展还得依靠专业人员的能力建设、 支持和发展。 政府官员得接受现代数据收集、 监测方法和分析培训———这是许多发展中国家面临的共同 困难 ( Schacter, 2002) 。 为应对这些挑战, 许多援助机构正积极帮助发展中国家提升机构能力建设, 包括为建 立统计系统提供技术和资金援助, 进行监测和评价的培训, 诊断评价就绪度和结果, 以及 建立绩效预算体系。 结果导向的国家援助战略, 以及支持发展中国家的减贫计划等均是提 高机构能力的实践范例。 发展机构支持发展中国家评价能力的措施还包括创建相关的发展网络, 如计算机网络 和共享专业知识与信息的参与式社区等。 “ 发展门户网冶 和 “ 亚洲实践社区 冶 就是很好的 例子。 可以认为, 每个国家的国情不同, 一国的成功经验未必对其他国家有效。 一旦我们 接受这样的现实, 即很少有通用的发展知识, 则所有知识都得收集、 分析、 修正、 分解并 根据实际需求再整合, 知识的来源并不重要。 现在人们奉行的座右铭是: “ 环顾全球, 本 通向结果之路: 有效发展评价的设计与实施 llll llllllll 土再造冶 ( Fukuda鄄Parr, Lopes 和 Malik, 2002, p郾 18) 。 国际发展评价培训项目 1999 年, 世界银行独立评价局 ( IEG) 开展了发展评价培训需求的调查, 发现当时只 有少量针对发展机构的一次性培训项目。 因此, IEG 于 2001 年牵头成立了 “ 国际发展评 基 价培训项目 ( IPDET) 冶 , 作为支持发展中国家和重点关注发展问题的机构进行能力建设的 本 重要举措。 原 理 IPDET 培训专业评价人士或将要从事评价工作的人员, 教会他们如何在发展环境下设 计和开展评价工作。 IPDET 培训每年举办一期, 为期四周, 地点在加拿大渥太华的卡尔顿 大学, 由世行独立评价局、 卡尔顿大学公共事务学院及其他机构, 如加拿大国际发展署 ( CIDA) 、 英国国际发展署 ( DFID) 、 瑞士合作与发展署 ( SDC) 、 挪威发展合作署 ( NO鄄 RAD) 、 国际发展研究中心 ( IDRC) 、 日内瓦国际人道排雷中心 ( GICHD) 、 瑞典国际发 展合作署 ( SIDA) 、 英联邦秘书处、 荷兰外交部、 非洲开发银行 ( AfDB) 以及丹麦国际 发展署 ( DANIDA) 等机构合作主办。 IPDET 前两周课程是核心课程, 重点学习减贫战略实施的监测与评价、 面向结果的监 摇 42 测与评价体系和利益相关者参与等方面的有关知识。 核心课程共计 80 个学时, 包括案例 研究、 小组讨论和文献阅读等, 大约三分之一的授课时间以工作组的形式进行, 使具有类 似兴趣的学员能一起探讨现实世界中的发展评价问题, 并就某一组员实际工作中即将实施 的某一计划进行初步的评价设计。 两周的核心课程结束后就是两周特设培训, 共包括 30 个小型研讨会, 由业内享有盛 誉的顶级专家主讲。 以下是研讨会的部分主要议题: 誗 约束条件下的影响评价设计 誗 面向结果的监测与评价体系的设计与建立 誗 世界银行的国家、 部门和项目评价方法介绍 誗 发展评价混合法的应用 誗 参与式监测与评价的应用 誗 冲突后形势评价及国际联合评价 誗 HIV / AIDS 计划评价 誗 隐藏及边缘人口的评价 IPDET 是发展评价领域为数不多的每年都会举办的培训项目之一, 先后已培训超过 2 000 名来自政府部门、 双边及多边援助机构、 非政府组织和其他发展机构的发展评价专 业人士。 一些地区及国家也开始采用 IPDET 核心课程。 一些个性化的 IPDET 项目已经在其他 地方出现, 如澳大利亚 ( 面向澳大利亚非政府组织 ) 、 博茨瓦纳、 加拿大、 中国、 印度、 南非、 突尼斯、 特立尼达和多巴哥、 乌干达等国。 这些精简型的项目———通常称作 “ 迷 你 IPDET冶 ———互动性很强, 有许多报告、 讨论组、 小组作业和案例研究。 这些项目重点 关注对现实问题的讨论和实践经验的学习, 有效促进了同行间的相互学习。 IPDET 的年度评价和影响评价都显示了巨大的成功。 在此基础上, IEG 和中国财政部 第二章摇 推动发展评价的主要因素 llll llllllll ( 国际司) 、 亚太财经与发展中心及亚洲开发银行正在努力建设全球首家机制化的地域性 培训项目。 该项目称为上海国际发展评价培训 ( SHIPDET) , 每年举办两次, 一次面向中 国国内学员, 一次面向亚洲地区学员。 SHIPDET 的创立有助于提升发展中国家和地区的 能力建设。 新的评价体系 基 建设评价体系以促进资源的优化配置和改善实际结果等努力可能会遭遇政治阻力和反 本 原 对意见。 在许多发展中国家政府的独特情况下, 建立评价体系甚至会重塑政治关系。 创建 理 成熟的评价体系需要各级政府之间既相互独立又相互合作和协调, 而要做到这点却非常困 难。 在许多发展中国家, 不仅各级政府之间的联系非常松散, 而且政府的行政管理文化和 财政体系的透明度也亟待加强。 因此, 一些政府往往缺乏可用资源的数量及其分配情况的 信息。 他们可能需要获得更多的信息才能了解资源是否用于预期目标。 在这种情况下, 政 府绩效衡量就不可能非常准确。 许多发达国家和发展中国家仍在努力将绩效与公共支出的框架和战略相联系。 如果不 能建立这种联系, 就无法知道得到预算拨款支持的项目是否获得成功。 摇 43 一些发展中国家已经在这方面取得了进步。 例如, 20 世纪 90 年代, 印度尼西亚开始 将评价与年度预算分配过程相结合。 “ 通过在国家发展规划和资源配置流程之间建立更直 接的联系, 评价是完善政策和公共支出项目的必要工具冶 ( OECD 和 PUMA, 2002) 。 许多发展中国家仍然存在两套预算体系: 经常性支出预算和资本 / 投资支出预算。 不 久以前, 埃及还是由财政部负责监督经常性支出预算, 计划部则负责监督资本性预算。 为 确保达到国家使命和目标, 由一个部委专门负责两套预算体系显然对建立基础广泛的评价 体系大有裨益。 鉴于发展中国家建立评价体系特别困难, 采取局部法或部分法 ( 少数部门进行试点 采纳评价体系) 可能要比政府整体推进法更好, 因为后者可能太过激进。 比如, 在对吉 尔吉斯共和国的就绪度进行评价时, 世界银行认为应该支持该国卫生部 ( 已经拥有了一 定的评价能力) , 将其作为在政府部门全面建立评价体系时的一个模板。 中国、 马来西亚和乌干达也采用了局部法, 其采取的做法如下。 中国增长驱动的评价摇 在中国, 评价是比较新的领域。 事实上, 在 20 世纪 80 年代初期 以前, 人们对评价一无所知, 这点可由当时社会科学发展情况来证明———几乎没有中文的评 价方面的中文书籍, 并且中国人与世界其他地方开展评价的人员也没有经常性的交流。 但中国的确开展了一些与评价有关的活动, 包括政策分析、 经济和管理研究、 调查研 究、 项目完工报告和经验总结等。 一些经济政策研究机构已经拥有了社会科学研究和技术 分析能力。 1992 年, 中国主要的中央机构, 包括国家审计署、 财政部和国家计划委员会, 设计 提出了在国务院系统内建设绩效监测与评价能力的建议。 科技部评估中心和荷兰政策与执 行评价部开展了第一个科技项目的联合评价 ( 科技部评估中心和 IOB, 2004) 。 在过去 20 年内, 随着对华投资与发展援助项目的增多, 中国在很多方面的能力与知 通向结果之路: 有效发展评价的设计与实施 llll llllllll 识得到了大幅提升, 这些领域包括: 技术和工程分析、 财务分析、 经济分析和建模、 社会 影响分析、 环境影响分析、 可持续性分析和项目实施分析等。 中国能力的快速发展极其令 人瞩目。 随着国家进步和经济发展, 中国对评价的需求越来越强烈且持久。 2007 年之前, 中 国的 GDP 每年以超过 7郾 8% 的速度在增长。 对发展的关注引起了人们对评价的兴趣。 一些 基 中央机构, 如国有的中国国际工程咨询公司、 建设部以及国家开发银行等, 都在其组织内 本 部的最高层面建立了评价机制。 原 理 尽管多数评价只是事后评价, 但人们也越来越意识到评价必须贯穿于发展项目周期的 全过程。 当前, 将评价与项目的形成及实施阶段相联系正是一大热点问题。 中国也已开展 了一些评价工作, 但全面而深入的评价活动目前还不是很多。 一个典型的案例是 2006 年的一项评价活动, 中国的五年计划中首次引入了系统性的 监测与评价体系。 这个包括在 “ 十一五 冶 计划内的监测与评价体系正是按照 Kusek, Rist 和 White (2004) 提出的十步法来设计的。 自 2007 年 4 月起, 中国政府开始每年举办两期 SHIPDET, 对全国及亚洲地区的评价 人员进行培训。 该项目由中国财政部国际司、 世界银行、 亚洲开发银行和亚太财经与发展 摇 44 中心四方合办。 尽管目前评价活动还没有非常普及, 但中国正在积极为此奠定坚实基础。 鉴于中国政府的架构和行政管理体制, 评价活动的推广必须完成一些关键性的工 作, 如: 誗 在中央层面建立相关机构, 负责全面的评价管理和协调工作 誗 在各相关部委和银行成立评价部门, 制定相关政策和指南 誗 省级和地方政府可以各自开展评价工作 誗 在国家审计署的审计过程中引入评价理念, 从而对有关部委的评价活动以及中央 评价机构、 各省市及银行推出的评价政策与指南开展长期的督察与审计工作 誗 不断丰富部门和机构所用的评价方法 誗 强化投资机构的监测与管理职能 誗 为促进国家各部委、 各省市和银行评价活动的开展, 不断培养合格的评价专业 人才 中国已经明确了在提升评价需求方面所面对的主要问题, 其中之一的挑战是加强透明 度, 这也是许多其他国家共同面临的问题。 马来西亚结果导向的预算、 国家建设与全球竞争力———在所有发展中国家中, 马来西 亚是较早开展公共管理改革, 特别是预算和财政体制改革的国家之一。 作为政府战略性推 动国家发展的举措, 改革于 20 世纪 60 年代启动。 由于公共部门是推动国家发展的主要力 量, 因此, 通过行政改革来强化政府部门就成了当时的重点问题。 1969 年, 马来西亚采用了项目绩效预算体系 ( PPBS) , 并且一直沿用至 90 年代。 该 体系用结果导向的预算体系替代原先的明细支出预算。 当机构采用 “ 项目———活动 冶 结 构时, 项目的实际实施过程仍然将明细支出预算和增量预算法结合使用。 预算制度改革越来越倾向于在各政府部门间强调问责制和财务纪律, 以执行马来西亚 第二章摇 推动发展评价的主要因素 llll llllllll 的社会经济发展规划。 政府还进行了其他一系列改革, 如提高财政合规性、 质量管理、 生 产力、 政府工作效率, 以及国家开发管理等。 马来西亚的预算体制改革与国家建设和提高全球竞争力密切相关。 根据 2020 年规划 愿景, 马来西亚将在 2020 年前建成全面发达的国家, 因此必须推动这些相关改革。 20 世纪 90 年代, 政府用修正预算制度 ( MBS) 代替了原来的 PPBS。 在 PPBS 制度 下, 投入和产出之间的关系不大。 因此, 尽管可能毫无结果, 但项目仍然会不断得到投 基 资。 而 MBS 则更多地关注项目的产出和影响, 并对政府的活动进行评价。 本 原 在 90 年代末期, 马来西亚又推出了结果导向的综合管理系统 ( IRBM) 。 该系统包括 理 结果导向的预算体系和结果导向的员工绩效体系。 马来西亚还开发了两套其他的制度——— 结果导向的管理信息系统 ( MIS) 和结果导向的监测与评价框架———来完善其行政管理体 系 ( Thomas, 2007) 。 IRBM 体系提供了组织绩效的计划、 实施、 监测和报告等框架, 同时, 也将组织绩效 和个人绩效相联系。 许多国家 ( 如阿富汗、 博茨瓦纳、 印度、 毛里求斯、 纳米比亚等 ) 将 IRBM 体系的建立分为若干阶段, 结果导向的预算和结果, 导向的监测与评价体系是率 先要开展的工作。 而马来西亚的预算体系则是推动 IRBM 体系发展的主要因素 ( Thomas, 摇 45 2007) 。 管理信息系统和监测与评价系统为战略规划的绩效提供了一个测量维度, 从而使得 IRBM 的发展更具有动态性。 管理信息系统和监测与评价系统的紧密结合则确保了系统以 正确的方式向正确的人提供正确的信息。 其指标也必须既具有可操作性, 又更能面向结 果。 马来西亚已经开发并使用了电子版的综合绩效管理框架 ( Thomas, 2007) 。 马来西亚政府从实践中得出以下经验教训: 誗 各级政府的能力建设工作必须是长期的 誗 监测与报告需要相当长的时间 誗 应当不断强化绩效规划过程, 使其更加全面 誗 奖励和惩罚不必总是相当的 誗 与其他措施的整合力度不强 ( Rasappan, 2007) 马来西亚政府提出了如下建议: 誗 加强纵向和横向的联系 誗 在政策和操作层面上, 都要理清概念 誗 评价并强化所有支持性的政策与体系 誗 继续向结果导向的综合管理系统推进, 关注政府的全面绩效 ( Rasappan, 2007) 尽管马来西亚已经走在了公共管理与预算改革的前列, 它的改革历程也并非一帆风顺 和一成不变。 毫无疑问, MBS 是政府的一项非常重要的举措, 显示了政府确保项目和政 策的资金物有价值的远见、 创新、 激情和决心 ( World Bank, 2001) 。 乌干达减贫推动的评价———为优先实现减贫目标, 乌干达政府致力于提升公共部门服 务的有效性。 将提升公共服务有效性视为国家发展管理的重要推动力, 有力地证明了对结 果的高度重视。 一些正在开展的公共管理领域的优先项目和活动也说明了对结果的重视。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 在过去的十年里, 乌干达实施全面的经济改革, 稳定了宏观经济形势。 为实现全面发 展框架, 乌干达实施了消灭贫困行动计划 ( PEAP) , 该计划现在已经成为减贫战略规划 的一部分。 PEAP 要求将绝对贫困率从 90 年代末的 44% 降低到 2017 年的 10% 。 PEAP 和 千年发展目标的主要内容非常相似, 并且都有相同的目标, 即要求政府和发展合作者都要 对发展过程负责。 基 乌干达首次提出了减贫的明确目标, 并成为受益于重债穷国计划 ( HIPC) 的第一个 本 国家。 2000 年, 鉴于乌干达减贫战略比较有效, 公众的参与度很高, 以及其宏观经济的 原 理 不断稳定, HIPC 减免了乌干达更多的债务。 乌干达采取了许多新措施以保证预算过程向内部和外部利益相关者更加公开和透明。 政府改善其财政体系, 并在项目计划、 资源管理和服务提供等方面将权力下放给地方。 财 政、 计划与经济发展部 ( MFPED) 也引入了产出导向的预算体系。 此外, 不断强化政府 机构使其向公众更加负责。 在评价和 PEAP 实施过程中, 乌干达也遇到了协调和统一的问题。 “ 尽管有 MFPED 进 行协调, 但减贫监测与资源监测仍然是两套独立的系统, 这是 PEAP 监测与评价体系最主 要的特征。 这两套监测与评价体系的行动参与人、 报告和评价指标等均不相同。 财政资源 摇 46 监测关注投入和活动, 并开始越来越重视产出, 而减贫监测则注重分析整体的减贫成果 ( Hauge, 2001) 。冶 与评价协调有关的问题还包括创建新的国家计划机构 ( National Plan鄄 ning Authority) 和成立部门工作组等。 2007 年年末, 总理办公室 ( OPM) 提交了关于国家发展计划监测与评价的工作报告。 该报告主要是为了评价 PEAP 的优缺点, 并提出在新的国家计划中建设监测与评价体系的 路径 ( 乌干达 OPM 2007a) 。 工作报告提出了建立监测与评价体系的几大问题: 誗 “ 部门的成果和产出、 与基准数据和目标相关的可测量的指标、 有效的监测系统、 战略性运用评价以确定绩效和因果关系冶 ( 乌干达 OPM 2007b, p郾 4) 等信息并不 清晰 誗 只基于支出而不是大量的绩效指标进行问责 誗 数据搜集的数量与数据的需求和数据使用的能力不匹配 誗 可复制性差和协调性差的监测, 会带来烦琐而可怕的负担, 如监察行为、 指标数 据收集和报告格式。 因此, 虽然符合规章制度的数据很多, 但都不能为公共部门 服务的资金和成本效益评价提供有价值的信息。 由乌干达 OPM 开展的一项研究 (2007a, p郾 6) 表明, 各项措施的协调性和可复制性差的动因可能与政府机关的激 励机制有关, 进行监测活动的动因是享受出差补贴以增加收入。 誗 缺乏激励机制、 计划和监测与评价体系的多头管理问题使得在全国范围内难以成 立监测与评价工作组来应对现实挑战 誗 尽管每年都有许多评价活动, 但通常是在机构或部委内部进行, 缺乏统一的标准 誗 在地方政府层面, 民众还是没有参与决策制定过程 工作报告记录同时也提出了一些应对措施: 誗 将预算分配与结果的实现程度联系起来 第二章摇 推动发展评价的主要因素 llll llllllll 誗 考虑制定政府机构协议或绩效合同 誗 及时向政策制定者提供有用的信息 誗 保证提供的数据能满足信息和数据需求 誗 建立机制以控制和保证质量 誗 确保分析结果对政策制定者有意义 誗 将监测与评价职能分离 基 誗 政府内部需要明确角色与职责, 以便于开展计划、 监测、 评价和其他与质量控制 本 原 有关的活动 理 就未来的评价活动而言, 乌干达在推进 PEAP 和国家减贫战略实现减贫目标时, 发现 了许多挑战, 并从中学习了很多经验教训。 评价不能和决策制定过程脱离, 也不能与支撑 国家发展体系和过程的激励机制相脱离 ( Hauge, 2001) 。 新出现的发展问题的意义 詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪 摇 47 一些最新出现的发展问题使得评价活动更为复杂。 本节内容将对这些问题进行简要回 顾, 并着重分析其对评价的意义。 Patton (2006) 首先对评价的最新动态进行讨论, 并提出评价的本质是全球公共产 品。 他介绍了全球的职业评价机构和评价协会的发展, 以及由这些组织建立的评价准则和 指南。 他同时指出评价的新趋势———建立一百多种新的评价模型。 Patton 利用类比说明评价领域新出现的复杂性。 在过去, 评价人员通常可以遵循某种 菜谱来开展评价活动。 Patton 认为评价菜谱的优点如下: 誗 评价菜谱是可测量的, 也可复制的 誗 如果不需要特别的专业知识, 知道如何做菜可以提高成功率 誗 菜谱可以烹调出标准产品 菜谱对烹调非常有用; 然而在发展领域内, 尽管评价人员可以依赖模型对复杂问题做 出反应, 但同样的模型却不能得出标准化的结果。 Patton 将评价问题的发展趋势比喻成抚 养小孩的过程。 如菜谱做菜是一个按部就班的流程, 而抚养小孩则是非常复杂的过程, 监 护人需要帮助小孩做决策并解决不断出现的新问题。 Patton 介绍发展评价的另一个趋势是更加具有形成性。 这种形成性的趋势是指评价: 誗 拥有特定的期望成果, 但测量技术却需要加以试验 誗 得到成果的模型离不开假设条件、 测试和修正 誗 干预的实施并不能标准化, 但可以通过解决干预的相关问题 ( 一种反复的方法 ) 来对实施过程进行分析和提高质量 誗 还有一部分挑战来自归因是基于测试因果关系的可能性 另一个趋势是非个体评价研究成为主流 ( Rist 和 Stame, 2006) 。 Rist 和 Stame 称, 评 价领域的知识获取渠道现在越来越依靠评价知识体系, 而非单个评价人员或单个评价。 根 据他们的研究, 仅仅是评价报告数量的累积对评价知识体系的完善影响甚微, 只有将同类 通向结果之路: 有效发展评价的设计与实施 llll llllllll 的研究成果进行整合才能丰富评价知识体系。 发展领域的新变化也会影响评价。 发展的进程会随着时事变化而不断演变, 例如全球 化趋势、 全世界范围内冲突的增加、 恐怖主义和洗钱活动、 全球贫富差距的扩大、 发展领 域的更多参与者、 逐步减轻重债穷国的负债以及更加关注政府治理改革等。 这些新的趋势 增加了对评价人员的新需求。 基 发展评价领域的新挑战还来自全球范围内的全面、 协调和参与式的发展方式, 以及人 本 们对发展结果的关注。 发展已经从局部发展转向全面发展、 从个体评价法转向协调评价法 原 理 ( 联合评价) 、 从促进发展转向减贫、 从关注项目实施转向关注结果。 针对越来越复杂的 发展问题, 一些双边和多边援助者 “ 必须将每个项目都放在更广泛的背景之下, 评价其 可持续性, 以及对社会、 政治和宏观经济的潜在影响 冶 ( Takamasa 和 Masanori, 2006 ) 。 正如他们所说: 发展理论家已经开始意识到, 推动经济发展的最主要因素不是资本, 而是合适的政策与制度。 这种转变缘自一些经济学家, 如诺斯、 斯蒂格里茨和森等对经济学科包括发展经济学的深远影响。 因此, 当今国际发展援助的主题也转变为关注更广泛领域的减贫, 包括更加关注发展中国家的人 权及政治和经济自由。 摇 48 千年发展目标是发展领域新思想的具体体现。 《2005 世界发展报告 》 ( 世界银行, 2005b) 关注政府应该采取哪些措施来改善投资环境, 并通过一系列指标来衡量营商环 境。 该报告建议制度上和行为上的提升: 制定更好的规则与税收政策、 加强防腐、 提高公 众信任度和法制化, 并逐步完善法律法规。 发展援助领域内的许多新问题都牵涉到双边和多边发展伙伴及其对发展中国家开展多 种评价的潜在压力。 因此, 这些援助国开始进行一些国际联合评价。 这类评价可以在项 目、 国家、 部门以及援助主题等层面进行。 联合评价可以为发展机构带来更好的成本效益 和规模效应, 同时使评价方法一致, 进而使研究结果具有可比性。 推动国际发展进程及评价的主要驱动因素如下: 誗 千年发展目标 誗 蒙特雷共识 誗 增强援助有效性的 《 巴黎宣言》 誗 重债穷国减债计划 誗 各种基金会的作用 誗 冲突预防和战后重建 誗 反洗钱和反恐融资 誗 公共治理 誗 劳工汇款 誗 性别平等 誗 私营部门发展和投资环境改善 誗 环境和社会的可持续性 誗 全球公共产品 笔者注意到上述驱动因素总是在不断演变。 当本书出版时, 全球金融危机可能将成为 第二章摇 推动发展评价的主要因素 llll llllllll 发展领域的新驱动因素之一。 千年发展目标 2000 年 9 月, 联合国 189 个国家和许多国际组织通过了 《 联合国千年宣言 》 , 千年发 展目标作为该宣言的一部分被提了出来。 千年发展目标 列出了 2015 年之前, 在发达国家 基 和发展中国家的共同努力下, 国际社会需要实现的一系列发展目标 ( 见专栏 2郾 1) 。 这些 本 原 宏伟的目标致力于减贫和人类发展, 以及建立实现这两个目标的全球伙伴关系。 以前发展 理 领域过多关注经济增长, 决策者们也寄希望于经济增长来帮助人们消灭贫困, 而千年发展 目标则反映了观念的转变。 千年发展目标还特别设立了一系列指标用以关注减贫和提高世 界贫困人口的生活水平。 专栏 2郾 1摇 千年发展目标 1郾 消灭绝对贫困与饥饿 摇 49 2郾 实现全面义务教育 3郾 促进性别平等和提高妇女权利 4郾 降低婴儿死亡率 5郾 提高产妇健康 6郾 抑制艾滋病、 疟疾及其他疾病 7郾 确保环境的可持续发展 8郾 开展国际合作, 促进全球发展 资料来源: http: / / www郾 un郾 org / millenniumgoals郾 千年发展目标的 8 个子目标还包括 18 个具体目标和用来评价目标实现程度的 48 个指 标。 ( 发展中国家根据国情可选择 18 个具体目标的不同组合, 以及目标的实现期限) 。 千 年发展目标都必须面向结果, 且要不断进行监测和评价。 这也给所有国家的评价体系带来 了巨大挑战。 许多发展中国家还缺乏进行监测与评价的能力。 为了弥补这个缺陷, 发展机构向发展 中国家帮助进行数据统计和监测与评价能力建设、 提供技术援助及支持。 千年发展目标正在驱动发展中国家进行监测与评价的能力和体系建设。 人们号召发展 机构提供技术援助和资金支持。 许多发展中国家的监测与评价体系刚刚起步, 在建立面向 结果的体系以衡量千年发展目标实现程度方面进展缓慢。 在评价千年目标实现程度时需要 评价体系的发展和有效利用。 千年发展目标也需要将评价体系纳入政策范围, 从而 “ 将 清晰地展示为何数据收集如此重要, 以及如何运用信息以引导政府和民众实现千年发展目 标冶 ( Kusek, Rist 和 White, 2004, pp郾 17 - 18) 。 每年世界银行和国际货币基金组织 ( IMF) 都会出版千年发展目标的 《 全球监测报 告》 。 该报告提供了全球发展策略领域问责的基本框架。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 《2004 年全球监测报告 》 主要关注世界如何实施实现千年发展目标的政策和措施。 《 报告》 还列举了一些加强监测活动的主要措施: 誗 加强发展领域的数据统计, 包括及时实施国际统计机构认可的行动方案 誗 开展关于实现千年发展目标的影响要素研究和援助有效性等关键问题的研究, 以 及加强重要政策领域 ( 公共治理和发达国家政策对发展中国家影响) 评价的研究 基 誗 所有参与机构需要深化合作, 建立比较优势, 确保各机构间进行监测评价的方法 本 保持一致 原 理 《2005 年全球监测报告》 指出了由许多发展中国家经济发展带来的新机遇。 该报告在 促进目标实现方面列出了 5 个步骤: 誗 确保国家主导发展努力。 通过国家所有和国家领导的减贫战略扩大发展的影响 誗 完善适合私营部门主导的经济增长环境。 加强财政管理和治理, 放松营商环境管 制, 加强基础设施建设 誗 扩大基础服务。 加快扩大卫生保健人员和教师队伍, 并为这些高成本的服务业提 供更多、 更灵活、 更可靠的资金, 同时提高相关机构的能力 誗 消除贸易障碍。 借助多哈回合谈判, 推动农产品贸易政策等重要改革, 消除贸易 摇 50 障碍, 提高 “ 贸易援助冶 誗 未来五年发展援助增加一倍。 与此同时, 更快地推进援助协调, 提高援助质量 ( 世界银行, 2005a) 《2006 年全球监测报告》 强调经济发展、 提高援助质量、 贸易改革和治理是达到千年 发展目标的基本要素 ( 世界银行, 2006a) 。 2007 年的报告则关注两大重要领域: 性别平 等和提高妇女权益 ( 第三个千年目标 ) , 以及绝对贫困问题越来越集中的弱小国家问题 ( 世界银行, 2007f) 。 蒙特雷共识 2002 年 3 月, 来自 170 多个国家的政府代表, 包括 50 位国家元首, 汇聚一堂共同讨 论 《 发展融资的蒙特雷共识 》 草案。 该草案反映了人们试图为全世界最贫困的人口筹集 更多资金的努力, 这些人每天的生活费用不到 1 美元。 对发展评价来说最重要的是, 蒙特雷共识强调双边责任以实现千年发展目标, 呼吁发 展中国家改进政策和公共治理, 同时呼吁发达国家开放市场, 并增加援助的数量, 提高援 助质量。 该共识认为, 为了提高绝对贫困国家的生活水平, 必须增加筹资, 但遗憾的是该 文件没有就提高援助、 减轻绝大多数债务负担以及消除贸易障碍设立明确目标 ( Qureshi, 2004) 。 在千年目标确定后, 朝向 2015 年目标进程达到一半的时候, 非洲经济委员会就非洲 国家实施蒙特雷共识的进展情况进行了评估并提交了相应报告。 该评价报告指出在外债减 免领域已经取得巨大成果, 但 《 共识》 中其他领域的进展则微乎其微。 报告写道: 人们已经认识到, 对非洲国家及其发展伙伴所做的努力进行监测对于蒙特雷共识的目标能否 实现是至关重要的。 非洲领导人亦已认识到这点, 并建立了对本国及援助伙伴实施 《 共识 》 程度 第二章摇 推动发展评价的主要因素 llll llllllll 进行监测的机制。 最近, 发展筹资的非洲部长级会议便是非洲领导人在机制建立方面所做的大胆 举措。 国际社会也开始对援助国绩效进行监测。 例如, 最近成立的非洲合作伙伴论坛 ( African Partnership Forum) 和非洲发展小组 ( African Progress Panel) , 都是为了监测发展融资方面关键措施 的实施程度。 最终, 这些监测机制的有效性则要看它们是否有助于将援助伙伴的承诺变成现实。 因 为只有通过贯彻实施非洲国家和国际社会的承诺, 才能有助于减少该地区的贫困, 并为非洲人民 光明的未来打好坚实基础 ( Katjomulse 等, 2007) 。 基 本 《援助有效性巴黎宣言》 原 理 《 援助有效性巴黎宣言》 是国际社会关于继续加强对发展中国家援助管理的共识性文 件。 2005 年 3 月 2 日, 100 多位部长、 机构领导人和其他政府高级官员在一起签署了这份 协议。 该宣言对评价领域的意义在于, 将监测行动与指标作为协议实施的一部分内容。 为了 保障更有效的援助, 共开发了 12 个指标来帮助监测及鼓励援助朝着更有效的方向前进。 这 12 个指标中有 11 个是针对 2010 年前必须实现的具体目标 ( OECD, 2005b) 巴黎会议通过的指标和目标是围绕 5 大关键原则提出的: 摇 51 誗 所有权: 伙伴国必须就发展政策和战略加以有效的领导, 并协调发展活动 誗 协同性: 发展机构的所有援助都要以伙伴国的国家发展战略、 机构和程序为基础 誗 和谐性: 发展机构的活动必须更加和谐、 透明和有效 誗 面向结果: 政府在管理资源方面和制定政策时需要更加关注结果 誗 共同责任: 发展机构和伙伴国均对发展结果负有责任 ( 《 迈向更高援助有效性的共 同进展》 , 2005) 2007 年, OECD 出版了一本标志性的报告, 该报告总结了 2005 年对各国情况进行基 准调查的结果。 报告 ( OECD, 2007b) 对全球以及发展机构的援助有效性进行了评价: 誗 有关改进援助方式和提高援助质量的必要性问题, 巴黎宣言在国家层面上增进了 认识, 促进了对话 誗 援助方在援助管理的态度和做法方面改变甚微, 而援助服务和管理的交易成本仍 然较高 誗 需要加强国家发展战略、 强化援助活动与国家优先发展战略的协同性、 提升预算 的公信度以保障政府公共管理和资源分配, 同时提高援助资金预算的准确度 誗 援助方和伙伴方都必须考虑到, 转变援助方式和管理方式需要增加新成本 誗 援助方和伙伴方需要使用绩效评价框架, 以更高的成本效率和以结果为导向的报 告方式。 援助方要加强伙伴方的能力建设援助, 并更大限度地利用伙伴方的国家 报告体系 誗 为确保共同责任, 必须开发出更可靠的监测体系 ( Katjomulse 等, 2007) 重债穷国减债计划 1996 年, 世界 银 行 和 国 际 货 币 基 金 组 织 倡 议 发 起 “ 重 债 穷 国 减 债 计 划 ( 简 称 通向结果之路: 有效发展评价的设计与实施 llll llllllll HIPC) 冶 , 这是全球首个减免世界上最贫困和负债最重国家外债的综合性计划。 大约 180 个国家签署了该计划。 HIPC 的宗旨在于减免寻求经济和社会政策改革的贫困国家的外债并使之降低至可持 续的水平。 当其他减债机制还不足以帮助这些国家摆脱债务重整危机时, 就可以使用 HIPC。 该计划旨在降低存量债务、 降低债务本息支付额以及促进社会开支。 基 HIPC 包括双边和多边的债务减免。 HIPC 国家的外债总额总计约能减免 500 亿美元。 本 2009 年 1 月, 34 个国家的债务减免包已经获得通过, 其中 28 个来自非洲国家; 另外有 7 原 理 个国家符合援助条件 ( IMF, 2009) 。 HIPC 还与国民全面减贫战略相联系。 1999 年, 国际发展社区达成共识, 即国家 《 减 贫战略文件》 ( 简称 PRSPs) 应当成为优惠贷款和债务减免的基础。 减贫战略包括: 共同 认可的三年发展目标、 相关政策、 一系列可测量的指标以及用于衡量进度的监测与评价系 统等。 如果申请国达成了这些目标, 则可获得债务减免以鼓励其不断深化系列改革和提高 国家所有权。 作为债务减免的一个附加条件, 受援国必须针对减贫的改革措施和进程进行 监测、 评价和报告。 这个附加条件增加了对监测与评价能力建设和技术援助的需求。 一些发展中国家 ( 如乌干达) 已经在评价方面取得了相当进展, 符合修改后的 HIPC 债 摇 52 务减免的相关条件。 缺乏评价能力已经成为其他参加 HIPC 计划国家的主要障碍, 包括阿尔 巴尼亚、 马达加斯加和坦桑尼亚等。 这些国家需要专门帮助提升其评价能力的技术援助。 对这些重债穷国进行债务优惠, 以及为规避其未来债务风险提供相关资金补助时, HIPC 提出了新的评价问题: 这些资金补助 ( 并非贷款) 的有效性应该如何评价? 按照何 种标准进行评价? 这些问题给发展评价人员提出了新的挑战。 2006 年 9 月是 HIPC 计划提出的第十年。 自从 1999 年起, HIPC 的减贫支出不断增加, 债务总额的减免程度不断加大 ( 世界银行, 2007e)。 这说明 HIPC 已经取得了相当进展。 基金会的作用 OECD 的一项研究估算了支持发展中国家的慈善基金总额。 该研究 对 2002 年 15 家大型慈善基金捐赠总额 ( 包括部分国际捐赠) 进行了认真的估计。 捐赠总额约 为 40 亿美元, 其中国际捐赠总额为 20 亿美元。 这就意味着发展援助总资金的 4% 来自于这些慈善 基金, 或者说相当于由官方的发展援助委员会提供给非政府组织 ( NGO, 包括这些基金会 ) 的援 助资金总额的一半。 ( Oxford Analytica, 2004a) 美国基金委员会对全美 56 000 家私人和团体的基金会进行统计, 这些基金会每年提 供 275 亿美元的慈善基金。 欧洲基金中心发现, 9 个欧盟成员国的 25 000 余家基金会每年 提供约 500 多亿美元的资金。 一些大型的基金会在全球范围内都占据重要地位。 包括比尔及梅琳达 · 盖茨基金会、 福特基金会、 苏珊·汤普森·巴菲特基金会和索罗斯基金会 / 开放社会研究院。 索罗斯基金会 / 开放社会研究院网络在国际发展领域内具有相当重要的影响力, 其项 目遍及 50 多个国家。 这些项目主要支持教育、 媒体、 公共卫生、 妇女权益、 人权、 艺术 和文化, 以及社会、 经济及法律改革 ( SOROS 基金网络, 2007) 。 第二章摇 推动发展评价的主要因素 llll llllllll 冲突预防和冲突后重建 1998 ~ 2001 年之间的后冷战时期, 在 44 个不同地区发生 56 次较大规模的武装冲突。 2003 年, 全球受冲突影响的平民估计超过了 10 亿, 并且大部分冲突都持续了 7 年以上。 每年全球的战争开支极其庞大: “ 这些武装冲突通过建立自己的领地以摆脱当前政府的管 基 辖, 从而引起了非法的毒品买卖、 恐怖主义和疾病蔓延冶 ( Collier 等, 2003) 。 本 原 贫穷既是战争的导火索也是战争造成的恶果。 全世界最穷的 20 个国家中有 16 个经历 理 过大规模的内战。 在战争中建立的国家在战后 5 年内解体的平均几率达 44% 。 战后重建需要许多双边和多边发展机构的共同协助。 例如, 60 个发展机构参与了波 斯尼亚—黑塞哥维那的战后重建, 50 个发展机构参与了约旦河西岸和加沙的战后重建, 82 个发展机构参与了阿富汗战后重建。 战后重建工作对援助协调性提出了很高的要求, 必须确保所有的援助活动不能脱离当地的实际需求, 也不能在内容上过于雷同。 战后重建不仅只是修复基础设施, 其援助范围还包括为机构设立、 民主和选举、 非政 府组织和民众、 警察队伍、 预算启动与经常性支出、 债务减免、 收支平衡、 性别问题、 排 摇 53 雷、 难民及流民安置、 军队的遣散和重组等提供支持。 出于对腐败的担忧, 以及各种官方发展援助的平衡, 战后重建工作往往需要建立新的 贷款工具和机制。 例如, 在约旦河西岸和加沙的战后重建过程中, 成立了多边发展机构信 托基金来为新当选的巴勒斯坦政府提供启动及经常性的预算支出。 如今, 在世界其他地方 的战后重建都会建立类似的贷款工具与机制。 战后重建计划———成本高达数十亿美元的多部门计划———将评价推到了新的难度和规 模 ( Kreimer 等, 1998) 。 评价人员需要认真研究这些前期任务繁重的发展方式对战后重 建与和解计划的影响。 对各种各样大型的双边、 多边和其他援助者的协调性活动进行评价 也是个巨大的挑战。 评价人员需要面对发展领域中不常见的新项目和新计划, 例如遣散和重组军队以及开 发土地等。 同时, 他们也需要评价新型的发展机构机制和贷款工具, 如多边发展机构信托 基金等。 越来越多的双边和多边发展机构开始寻找引起冲突的经济原因和后果, 以探索避免冲 突的方法。 人们越来越关注社会的、 道德的和宗教的团体与关系; 公共管理和政治机构; 人权; 安全; 经济结构和表现; 环境与自然资源; 以及其他外部因素。 这就意味着评价人 员还必须努力研究发展领域内采取的措施以及为预防冲突的爆发可以采取的措施。 公共治理 公共治理和腐败过去通常是小范围讨论的问题, 然而, 在 20 世纪 90 年代中期, 却成 为发展领域的前沿问题。 自那时起, 全世界签署了不少的反腐败国际公约。 联合国和 OECD 实施了反腐败国际公约, 包括腐败预防和定罪、 资产收回的国际合作, 以及反贿赂 措施等。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 多边发展银行也实施了许多反腐败计划。 包括向各国提供贷款帮助建立有效和负责任 的公共机构。 在国家援助战略中也包括公共治理和反腐败措施。 公共治理计划的宗旨是 促进: 誗 反腐败 誗 政府支出管理 基 誗 行政部门改革 本 誗 司法改革 原 理 誗 公共管理、 分权化、 电子政务和公共服务 透明国际 ( TI) 是成立于 90 年代初的非政府组织, 其宗旨是将 “ 反腐败提到全球日 程冶 上来。 如今它在 88 个国家有分支机构, 并与地方性、 全国性、 区域性和国际性伙伴 ( 政府或非政府) 合作开展反腐败工作 ( http: / / www郾 transparency郾 org / ) 。 “ 透明国际腐败感受指数冶 根据政府公务人员的腐败感受对约 140 个国家进行排名, 每年的 “ 行贿指数冶 则是根据行贿发生率对各出口国家和地区进行排名。 据一些报告估算, 每年腐败造成的资金浪费超过 1 万亿美元。 对国际社会而言, 测量 摇 54 腐败和腐败成本是个巨大的挑战, 但是, 各种机构开展了越来越多的研究和民意调查, 收集了公共治理不同方面的许多数据, 有助于 建立全球范围内的公共治理数据库。 利用不同机构打分和设置不同变量, 以及新型的统计工具, 这 个数据库现在已经覆盖了全球 200 个国家, 并在法律法规、 腐败、 监管质量、 政府有效性、 公民发 言权及问责和政治不稳定性等领域内形成了许多重要的指标。 ( 世界银行, 2007c, p郾 1) 发展机构和评价人员可以利用这些数据来衡量援助的有效性。 研究发现, 腐败程度越 高的地方, 援助资金浪费的可能性也越高。 面向结果的管理可以对一些脆弱的因素和国家行政机构进行度量和监测。 数据有助于 将以前模糊不清的公共治理问题更加明晰化和客观化, 同时也使得评价人员能够从量化的 评价结果中提炼出经验和教训。 同时, 评价投资环境和营商环境也涉及一些艰难棘手的概 念 ( 见 “ 私营部门发展和投资环境冶 章节) 。 公共治理新领域正在快速演变, 它需要评价人员能及时有效地说明发展进程与相关 数据。 反洗钱和反恐融资 反洗钱与反恐融资是更为宽泛的反腐败领域内的一部分。 “ 洗钱冶 是指为了掩盖存在问题资金的所有者身份、 来源和目的地而进行的金融交易活动。 过去, “ 洗钱冶 这个词仅仅是指与犯罪活动有关的金融交易, 但时至今日, 一些官方机构, 如证券 交易委员会等, 扩大了其内涵, 认为在法律上一切不公开的金钱交易都属于洗钱。 因此, 非法的洗 钱行为可能存在于普通民众、 大小企业、 腐败官员和犯罪团伙 ( 如毒贩和黑手党 ) 等。 ( Investor鄄 Dictionary郾 com, 2006) 根据 IMF 的研究, 每年的洗钱规模估计在 1 万亿美元左右 ( 占世界总产值的2% ~ 第二章摇 推动发展评价的主要因素 llll llllllll 5% ) , 洗钱已经成为威胁发展中国家和发达国家的越来越严重的国际问题 ( Camdessus, 1998) 。 全球化和贸易壁垒的解除使得跨境犯罪活动和非法资本流动越来越便利。 随着恐 怖主义的蔓延, 全球反洗钱倡议开始付诸实施。 洗钱活动对发展中国家的危害尤其大: 洗钱者们不断地寻找新地方、 新方法来躲避法律监管。 洗钱活动甚至可能摧毁正在发展的经 济体系, 新兴金融市场和发展中国家是洗钱的重要目标和受害者。 如果不加以监管, 洗钱者可能会 基 操控受害国的金融系统来从事其隐蔽的洗钱活动 …… 并能够迅速破坏现有金融机构的稳定性和发 本 原 展。 ( IFAC, 2004, p郾 5) 理 1989 年七国集团成立了 OECD “ 反洗钱金融行动特别工作组 冶 ( FATF) 。 现在 FATF 已经拥有 31 个成员和 2 个区域性机构。 这一政府间的决策机构旨在制定和推动实施国家 及国际层面的政策以打击洗钱活动和恐怖主义融资。 对实施过程的监测与评价也是 FATF 的职责之一。 监测与评价活动通过同行评论、 相 互评价等多边合作方式进行, 其基本流程如下: 每个成员国都要接受 FATF 的现场检查, 检查小组成员包括 3 ~ 4 名来自于其他成员国的法律、 金融和执法领域的专家。 现场检查的目的在于起草报告, 评价该国实施反洗钱活动体系有效性的 摇 55 程度, 并指明重点需要取得进展的领域。 ( FATF, 2007, p郾 1) FATF 亦已设立了一系列指标来防止成员国不遵守相关条款。 劳工汇款 全球每年由海外劳工向母国汇回的汇款总额已经超过了官方援助资金总额。 劳工汇款 已经从 1998 年的 600 亿美元增加到 2002 年的 800 亿美元, 2003 年达到 1 000 亿美元左 右。 2002 年, 官方援助总额每年只有 500 亿 ~ 600 亿美元, 私人资本流动高达 1 430 亿美 元, 而劳工 汇 款 似 乎 要 比 私 人 资 本 流 动 更 稳 定 ( 世 界 银 行, 2003; Oxford Analytica, 2004) 。 全球劳工汇款对减贫影响很大。 “ 平均而言, 一国国际劳工的比例每增加 10% , 就可 以减少 1郾 9% 的贫困人口 (1 美元 / 人 / 天) 冶 ( Adams 和 Page, 2003) 。 全球劳工汇款促进 了其母国的住房消费、 农业、 工业和中小企业创业。 发达国家和发展中国家及机构都意识到这种趋势, 并正在积极寻找将劳工汇款流变为 投资资本的方法。 2009 年, G8 国家峰会计划号召成员国和发展中国家政府: 将海外挣得的汇款用来帮助家庭和中小企业 ( 商业) , 包括鼓励降低汇款成本、 创建发展基金 用于生产型投资; 改善被汇款国金融服务的可及性; 以及增强协调性。 ( G - 8, 2004a, p郾 7) 由于监管更加严格以防止资金从非正式渠道流入恐怖组织, 非正式转账的限制逐步增 加; 同时, 由于行业内对国际劳工汇款市场的竞争加剧, 银行的相关费用不断降低, 因 此, 越来越多的国际劳工通过银行转账汇款。 目前还不能准确估算汇款对发展中国家的影响。 追踪国际汇款并将其作为新的投资资 本和基金也是评价人员面临的挑战。 由于发展领域的实践者们还没有找到利用劳工汇款用 通向结果之路: 有效发展评价的设计与实施 llll llllllll 于减贫的方法, 评价人员将会密切关注这一领域。 性别:从发展中的女性到性别与发展,再到性别主流化 性别是指男性和女性在社会中形成的角色。 性别分析考查男性和女性的资源获取和控 基 制能力。 它也是指用一种系统性的方法来辨别男性和女性在发展需求和偏好方面的差异, 本 以及发展对男性和女性的不同影响。 性别分析还包括如何考查阶层、 种族、 民族和其他相 原 理 关因素与性别共同影响所产生的差异。 由于男性和女性在接受教育、 就业和服务等方面的 受益程度不同, 因此, 性别分析通常只针对女性。 女性比例约占地球人口的二分之一, 对全球经济发展起着非常重要的作用。 然而, 她 们参与社会经济发展的潜力还没有完全挖掘出来。 事实上, 妇女和儿童仍然占据了地球上 贫困人口的大多数。 在发展中国家的某些地区, 妇女生产了半数以上的粮食, 承担了家庭食物安全的绝大多数责 任、 并占工业从业人员的 1 / 4, 以及服务业的 1 / 3…… 然而, 由于在接受教育和享受其他机会方面 受到限制, 妇女的劳动生产率相对于男性仍然比较低。 提高妇女劳动生产率有助于经济增长、 社会 摇 56 高效和减贫———这些在任何地方都是关键的发展目标。 ( 世界银行, 1994) 发展领域中的妇女角色已经从传统的 “ 发展中的妇女 冶 ( WID) 转变为 “ 性别与发 展冶 ( GAD) , 再转变为更加全面的 “ 性别主流化 冶 。 WID 将妇女列为项目、 计划和政策 的特定目标或者主要受益群体。 “ WID 认为妇女是发展过程中非常积极的 ( 即使人们通常 并不这么认为) 参与者, 并源源不断地为经济增长做出了重要贡献 …… 必须将妇女融入 到发展过程中来冶 ( Moser, 1995) 。 GAD 则关注社会、 经济和文化因素, 认为这些因素会影响男性和女性的参与方式和 受益大小, 以及项目资源和活动的控制程度。 它强调男性和女性之间在需求和偏好方面经 常存在差异。 这种方法的关注点不再只是作为特定群体的女性, 而是男性和女性之间的社 会关系。 性别平等、 增强妇女权益及测量和评价其进展情况的具体目标及指标是千年发展目标 的基本内容之一。 OECD 发展援助委员会 ( DAC) 也帮助管理人员设置了一些开展发展评 价活动的指导性问题。 这些问题包括: 誗 项目是否成功地为男性与女性提供平等的机会和权益? 誗 女性与男性通过项目是增强了还是减弱了男性和女性的性别优势? 誗 项目是否有效地将性别与发展活动相整合? ( Woroniuk 和 Schalkwyk, 1998) 性别预算用来实施和评价国家预算能给男性和女性带来多大的收益。 另一个测量与评 价援助的方法是通过度量发展援助带给部门 “ 聘用女性、 帮助女性、 给女性增权, 并为 女性带来成果 冶 收益的程度 ( Jalan, 2000) 。 鉴于当前越来越关注综合的方法和伙伴关 系, 必须在发展伙伴国、 机构和组织中实施、 整合和协调性别主流化的评价政策。 每个评 价都要评论项目、 计划或政策对男性和女性会带来何种不同影响。 第二章摇 推动发展评价的主要因素 llll llllllll 私营部门发展和投资环境 许多问题都属于私营部门发展和投资环境范畴。 这些问题包括减贫过程中私营部门的 角色和外国直接投资; 私有化; 私人参与基础设施服务和公私合营; 以及通过金融中介来 创建与支持微型、 小型和中型企业。 基 本 私营部门投资 原 理 人们已经越来越意识到私营部门投资对发展中国家减少贫困的重要意义。 1990 年, 发展中国家的私营部门投资大约有 300 亿美元, 而发展援助数额为 600 亿美元。 到了 1997 年, 这些国家的私营部门投资已经达到 3 000 亿美元, 而发展援助降到了 500 亿美元。 短 短 10 年不到的时间, 私营部门投资总额便从发展援助总额的一半规模一直发展到援助总 额的 6 倍规模。 官方发展援助 摇 57 官方发展援助 ( ODA) 是投资环境的一个重要指标, OECD 统计词汇表将它定义为: 官方援助将发展中国家经济和福利的增长作为主要目标, 其主要特征是至少包括 25% 的赠款 (10% 的固定贴现率) 。 按照惯例, ODA 资金包含援助国各级政府机关对发展中国家 ( 双边 ODA) 和多边机构的捐款。 ODA 的资金来自双边援助国和多边机构。 [ 引自官方发展援助网站] 1997 年援助水平先是增长, 然后一直停滞不前, 直到 2001 年才有所改变。 2001 年, DAC 成员国总的 ODA 增长了 7% , 2003 年增长了 5% 。 2005 年 DAC 成员国的官方援助总 额增长了 32% , 主要原因是 2004 年的海啸, 以及伊拉克与尼日利亚的债务减免 ( OECD 2005a) 。 2006 年, ODA 减少了 4郾 6% , 主要是 2004 年债务减免和人道主义援助金额过高 的原因 ( OECD 2006) 。 ODA 在过去 10 年里一直稳步增长, 由于援助方承诺不断大幅增加援助力度以实现千 年发展目标, ODA 的规模还会继续增长。 为了能使国家层面的大规模援助得到有效利用, 援助方和受援国需要认识到援助实施过程中将面临一系列挑战, 特别是下述挑战: 誗 实现国家、 区域和全球发展优先战略和项目的协同性; 誗 加强受援国有效利用规模不断扩大、 支出快速增加的 ODA ( 例如预算援助等 ) 的 能力 ( World Bank, 2007a) 。 外国直接投资 另一衡量投资环境的指标是 外国直接投资 ( FDI) , 它对全球经济的增长产生了巨大 的、 持续的影响。 FDI 是一种至少占公司权益资本 10% 的跨境投资方式, 境外投资者主要 是为了获得公司长期的财务收益, 并对公司营运有一定影响权。 通常, 人们认为 FDI 是促 通向结果之路: 有效发展评价的设计与实施 llll llllllll 进经济增长的首要因素, 并有利于国家经济体系的发展 ( InvestorDictionary郾 com, 2006) 。 20 世纪 70 年代 ~ 90 年代, 发展中国家的 FDI 规模增长极快, 从 70 年代的每年平均 不足 100 亿美元, 到 80 年代每年平均不足 200 亿美元, 再到 1998 年的 1 790 亿美元和 1999 年的 2 080 亿美元。 这些资本流动在全球 FDI 总量中占有相当大的比例 ( Graham 和 Spaulding, 2005) 。 基 联合国贸易与发展会议披露了 2007 年全球三种经济体 ( 发达国家、 发展中经济体, 本 以及东南欧洲和独联体 ) FDI 增长情况。 报告显示, 许多国家的跨国公司都有高增长倾 原 理 向, 经济表现强劲, 公司利润增长, 现金流充沛, 这些都增加了跨国兼并收购的价值。 1997 年, 尽管兼并收购价值在下半年有所下调, 但仍是当年全球 FDI 的主要组成部分。 2007 年是流往发达国家的 FDI 连续增长的第四个年头, 总额高达 1 万亿美元。 流往 发展中国家和东南欧及独联体转型经济体的 FDI 分别增长了 16% 和 41% , 都达到了历史 最高纪录。 私有化 摇 58 由于许多国家都从社会主义转向市场经济, 国有企业私有化成为 20 世纪 90 年代的一 大主流。 尽管许多地方仍是由国家拥有和营运许多经济资产, 但私有化仍然是主要潮流。 “ 遍布所有大洲的超过 100 个国家, 都私有化了部分或大部分国有企业, 遍及基础设 施、 制造业和服务业等任何可以想到的产业 …… 据估计, 全球约有共 75 000 家大中型企 业和几百 万 家 小 企 业 被 私 有 化 ……冶 , 私 有 化 总 额 预 计 已 超 过 7 350 亿 美 元 ( Melis, 1999) 。 私有化一直饱受争议, 争议的焦点一般包括是否要进行私有化, 何时进行私有 化, 以及私有化会带来何种利弊。 私有化不能解决所有经济问题, 但有证据表明它能够增 加净福利, 有利于经济增长与社会进步。 评价的意义 发展评价领域如何应对这些新趋势呢? 国际金融公司 ( IFC) 在项目层面对各种干预 的影响进行了评价, 其使用营商环境 ( BE) 快照来 “ 显示覆盖广泛领域营商环境问题的 可测量指标冶 ( IFC, 2007) 。 这种新方法包含反映一国营商环境的多种数据、 指标和项目 信息, 格式固定, 方便读者使用。 发展实践者和政策制定者可以使用 “ 营商环境快照 冶 来了解某个国家营商环境的多种信息。 “ 营商环境快照冶 也可以被用作监测或规划工具。 如何评价这些活动呢? 一般来说, 可以考察以下四个指标: 誗 经营绩效 誗 经济可持续性 誗 环境影响 誗 私营部门发展 为更好地了解政府如何改善适合各种类型企业的投资环境, 《 世界发展报告 2005》 对 投资环境、 商业环境和公司绩效进行了调查。 调查覆盖了 53 个发展中国家的 26 000 家企 第二章摇 推动发展评价的主要因素 llll llllllll 业以及 11 个国家的 3 000 家微型和非正式企业。 这些调查可以比较现实条件与基准条件之间的差异并进行持续监测。 调查包含一系列 核心问题和几大模块, 以反映与公司生产力密切相关的、 深层次的投资环境问题。 相关问题分类如下: 誗 能够产生商业概况信息的问题 誗 能够用来描述营商环境的问题 基 誗 能够反映公司绩效指标的问题 本 原 采用的指标包括: 理 誗 政策不确定性 ( 主要约束: 不可预测的法规解释) 誗 腐败 ( 主要约束: 贿赂) 誗 法院 ( 主要约束: 对法院保护财产所有权缺乏信心) 誗 犯罪 ( 主要约束: 犯罪所造成的损失) 其他获取投资环境指标的来源包括: 经商风险服务、 国家信用评级 ( 《 欧元机构投资 人杂志》 ) 、 国家风险指数 ( 世界市场研究中心) 、 国家风险服务 ( 《 经济学家》 杂志信息 部) , 以及 《 全球竞争力报告》 ( 世界经济论坛) 。 摇 59 调查的对象涉及多边发展银行、 国际金融机构、 发展机构和私营部门, 提供了许多有 价值的相关信息和政策建议。 全世界许多国家都对投资环境进行定期评价。 其中一个典型 的例子就是 “ 营商数据库冶 , 它对经商规则与商业行为提供客观的度量。 这些覆盖 145 个 经济体的同类指标可以用来对比经商的管理成本, 还可以用来分析特定的商业规则以判断 其对投资、 生产力和经济增长的利弊 ( 世界银行, 2007d) 。 然而, 《2008 年世界银行独立 评价局报告》 指出, 营商指标还需要进一步完善 ( IEG, 2008) 。 环境和社会可持续性 企业的社会责任 ( CSR) 是指积极重视经济、 环境和社会影响与商业活动所带来的后 果。 私营部门、 机构组织和政府部门正在寻求新的方式来避免商业活动和服务对所在国家 或行业的经济、 社会和环境产生危害。 例如, 英国政府采取了多种政策法规来鼓励企业承 担环境和社会可持续性方面的社会责任。 政府将 CSR 看作是对可持续发展目标的商业贡献。 从本质上说, CSR 是关于企业如何重视其 对经济、 社会和环境的影响———既要达到利益最大化也要将负面作用最小化 …… 政府的一般做法 是通过最佳实践案例指导、 科学的规章制度和财政激励措施来鼓励企业承担社会责任并报告有关 情况。 ( BEER, 2004, 第 1 节) 2003 年, 10 家西方金融机构通过了 “ 赤道原则冶 协议, 强调国际环境与社会的可持 续性。 本来, “ 赤道原则冶 是由私有银行建立的, 但现在已经成为私人部门项目融资领域 内用来确定、 评价和管理环境与社会风险的通用原则。 2006 年, 根据 IFC 的 “ 社会与环 境可持续性的绩效标准冶 修订并推出了新版本的 “ 赤道原则 冶 。 2006 年版的 “ 赤道原则 冶 适用于所有国家和行业, 以及所有资金成本超过 1 000 万美元的项目贷款。 IFC 和全世界 61 家主要商业银行 ( 分布在北美、 欧洲、 日本和澳大利亚 ) 在进行项 通向结果之路: 有效发展评价的设计与实施 llll llllllll 目贷款时都已经自愿地采用 “ 赤道原则冶 。 这些机构都希望能确保其贷款项目能对社会负 责, 并体现对环境管理的重视。 “ 赤道原则冶 将会成为全球所有行业部门项目融资活动的 通用基准与框架, 以体现独特的国内环境和社会秩序及标准。 在采用 “ 赤道原则 冶 过程 中, 机构需要仔细地评价其客户贷款项目的每项条款。 如果借款人不愿意也不能够遵守相 关环境和社会政策与规则, 金融机构必须保证不能将贷款直接发放给该项目。 这些标准涵 基 盖环境、 健康、 安 全、 原 住 民、 自 然 环 境 和 移 民 安 置 等 各 个 方 面 ( Equator Principles, 本 2007) 。 原 理 政府愿意遵守 “ 赤道原则冶 是一回事, 是否能够坚定不移地执行这个原则则是另外 一回事。 BankTrack (18 个从事专业金融服务的国际非政府组织网络) 在监测赤道原则的 实施情况方面扮演着重要的角色。 赤道原则的报告要求和对金融机构的监测方法对实施结 果非常关键 ( BankTrack, 2008) 。 全球公共产品 经济学家将 “ 私人产品冶 定义为在总量不变的前提下, 个人消费量的增加会使其他 摇 60 人消费减少的产品 ( Linux Information Project, 2006) 。 私人产品通常是有形的, 绝大多数 产品都属于私人产品范畴。 经济学家将 “ 公共产品冶 定义为不管个人消费量如何增加都不会影响其他人消费的 产品 ( Linux Information Project, 2006) 。 例如, 洁净空气就是一种公共产品, 个人呼吸空 气不会减少其他人呼吸空气的量。 公共产品通常是无形的, 通常存在于知识或信息范畴。 全球公共产品是指影响整个世界的公共产品, 包括产权、 安全、 金融稳定性和清洁环 境等。 事实上, 发展评价也可被视为一种全球公共产品, 它超越了任何单个组织范畴。 一 个好的评价研究能给发展领域带来积极的溢出效应。 ( Piccitto 和 Rist, 1995, p郾 23) 随着各国边境的日益开放和各国公共领域变得相互交错, 全球公共产品也变得越来越 重要。 一国的公共产品不仅依赖于国内政策和事件, 也依赖于其他国家或国际社会的政策 ( gpgNet, 2008) 。 任何人都离不开公共产品; 任何市场, 甚至任何最富有的人都离不开公 共产品。 就全球而言, 评价仍然极为缺乏: 旨在提供全球公共产品的合作项目并不实施独立评价, 因此, 经常缺乏清晰的目标和可量化 的绩效指标。 此外, 尽管发展中国家的援助、 债务、 外国投资、 污染、 迁移模式和知识产权等领域 深受发达国家政府决策影响, 但也从来没有对这种影响进行系统性的评价。 ( Piccitto, 2002b, p郾 520) 防止扩散并最终消灭 HIV / AIDS 是另一个全球公共产品案例, 已被列入最重要的国际 议程。 目前尚未就全球化对贫困人口的影响进行评价。 发展评价需要更加常态化、 更加全 球化和跨国界化 ( Chelimsky 和 Shadish, 1997) 。 2004 年, 世界银行独立评价局发布了世行全球项目的评价报告。 这份题为 “ 世界银 行全球项目评价: 强调全球化挑战 冶 的报告, 对 26 个受世行资助的全球项目进行调查, 获得了关于全球项目设计、 实施和评价的相关经验与教训 ( 世界银行, 2004a) 。 报告共 第二章摇 推动发展评价的主要因素 llll llllllll 18 条结论, 其中最重要的 5 条为: 誗 世界银行关于全球项目的战略很差 誗 全球项目对增加援助总额几乎没有作用 誗 没有充分表达发展中国家的话语权 誗 全球项目在投资与全球公共政策间仍有差距 誗 需要对独立的全球项目进行监察 基 报告提出了以下建议: 本 原 誗 建立战略框架指导世界银行参与全球项目 理 誗 贷款要符合优先发展战略 誗 加强全球项目组合的可选择性与监察 誗 提高单个项目的治理和管理水平 誗 开展额外的评价活动 小摇 摇 结 詪詪詪詪詪詪 摇 61 各国在建立评价体系时采用了不同的方法。 全面法要求在政府所有部门里建立广泛领 域的、 全面的评价体系。 局部法注重政府的某些部门。 在混合法的情况下, 政府的某些部 门开展全面评价, 而其他部门则进行不定期的评价。 发展中国家建立评价体系更为困难些, 这些国家通常缺乏民主的政治环境、 强大的实 证分析传统、 受过良好社会科学培训的公务人员以及高效率的行政体系和机构。 发展机构 正在帮助发展中国家提高创建和维持评价体系的相关能力。 发展领域的许多新问题也在影响评价。 推动发展的主要因素包括: 誗 千年发展目标 誗 蒙特雷共识 誗 援助有效性巴黎宣言 誗 重债穷国计划 誗 各种基金会的作用 誗 冲突预防和冲突后重建 誗 公共治理 誗 反洗钱和反恐融资 誗 劳工汇款 誗 性别问题 誗 私营部门发展和投资环境 誗 环境与社会可持续性 誗 全球公共产品 这些因素并非一成不变, 会随着新的全球问题的出现而发生变化。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 名词解释 全面法: 在各级政府多个领域内建立广泛的监控和评价体系 局部法: 一次只在政府的一个部门, 如某一部委, 建立监控和评价体系 混合法: 政府的某些部分建立全面的监控和评价体系, 对其余部分关注较少 基 千年发展目标: 国际社会 2015 年需要实现的一系列目标 本 洗钱: 为了掩盖问题资金的所有者身份、 来源和目的地而进行的金融交易活动 原 理 性别分析: 对男性和女性对资源获取和控制能力的考查 官方发展援助: 为促进发展中国家经济和福利发展、 以优惠贷款利率提供的官方资金 外国直接投资: 为了获得公司长期财务收益、 并对公司运营有一定影响权而进行的至 少占公司权益资本 10% 的跨境投资。 企业的社会责任: 私营企业承认其经营活动需要考虑经济、 环境和社会后果 赤道原则: 私营部门项目融资领域内用来确定、 评价和管理环境与社会风险的通用 原则 私人产品: 个人消费量的增加会使其他人消费量减少的产品 摇 62 公共产品: 个人消费量的增加不会使其他人消费量减少的产品 全球公共产品: 全世界范围内的, 而不是在一国范围内的, 非竞争性和非排他性的公 共产品 参考书目 1郾 Adams, Richard H郾 Jr郾 , and John Page郾 2003郾 “ International Migration, Remittances and Poverty in Developing Countries郾 冶 World Bank Policy Research Working Paper 3179 , Wash鄄 ington, DC郾 2郾 BankTrack郾 2008郾 The Equator Principles郾 http : / / www郾 b anktrack郾 org / 郾 3郾 Barslund, Mikkel, and Finn Tarp郾 2007郾 “ Formal and Informal Rural Credit in Four Provinces of Vietnam郾 冶 Discussion Paper 07 - 07 , Department of Economics, University of Co鄄 penhagen郾 4郾 BEER ( U郾 K郾 Department for Business Enterprise & Regulatory Reform) . 2004郾 “ What Is CSR?冶 London郾 http: / / www郾 csr郾 gov郾 uk / whatiscsr郾 shtml郾 5郾 Boyle, Richard郾 2002郾 “ A Two鄄Tiered Approach: Evaluation Practice in the Republic of Ireland郾 冶 In International Atlas of Evaluation, eds郾 Jan鄄Eric Furubo, Ray Rist, and Rolf San鄄 dahl, 261 - 72郾 New Brunswick, NJ: Transaction Publishers郾 ———郾 2005郾 Evaluation Capacity Development in the Republic of Ireland郾 ECD Work ing Pa鄄 per Series 14 , World Bank, Evaluation Capacity Development, Washington, DC郾 6郾 Camdessus, Michael郾 1998郾 “ Money Laundering: The Importance of International Coun鄄 termeasures郾 冶 Address by Managing Director of the International Monetary Fund, Washington, DC郾 7郾 CGAP ( Consultative Group to Assist the Poor ) . 2003郾 CGAP Publications on Assessment 第二章摇 推动发展评价的主要因素 llll llllllll and Evaluation郾 http: / / www郾 cgap郾 org / portal / site / CGAP / menuitem. 9fab704d4469eb016780801 0591010a0 / 郾 8郾 ChannahSorah, Vijaya Vinita郾 2003郾 “ Moving from Measuring Processes to Outcomes: Lessons Learned from GPRA in the United States郾 冶 Paper presented at the joint World Bank and Korea Development Institute conference on “ Performance Evaluation System and Guidelines with Application to Large鄄Scale Construction, R&D, and Job Training Investments,冶 Seoul, July 基 24 - 25郾 本 原 9郾 Chelimsky, Eleanor, and William R郾 Shadish, eds郾 1997郾 Evaluation for the 21 st Centu鄄 理 ry: A Handbook郾 Thousand Oaks, CA: Sage Publications郾 10郾 Chemin, Matthieu郾 2008郾 “ Special Section on Microfinance郾 The Benefits and Costs of Microfinance: Evidence from Bangladesh郾 冶 Journal of Development Studies 44 ( 4 ) : 463 - 84郾 。 11郾 Collier, Paul, V郾 , L郾 Elliott, Havard Hegre, Anke Hoeffler, Marta Reynal鄄Querol, and Nicholas Sambanis郾 2003郾 Breaking the Conflict Trap: Civil War and Development Policy郾 Washington, DC : Oxford University Press for the World Bank郾 12郾 Economic Commission for Europe郾 1998郾 Public鄄Private Partnerships: A New Concept for 摇 63 Infrastructure Development郾 BOT Expert Group, United Nations, New York郾 http: / / rru郾 worldbank郾 org / Documents / Toolkits / Highways / pdf / 42郾 pdf郾 13郾 Equator Principles郾 2004郾 http: / / www郾 fatf鄄gafi郾 org / dataoecd / l4 / 53 / 38336949郾 pdf郾 ———郾 2007郾 “ A Milestone or Just Good PR?冶 http: / / www郾 equator鄄principles郾 com / prin鄄 ciples郾 shtml郾 14郾 FATF ( Financial Action Task Force on Money Laundering) . 2007郾 Monitoring the Im鄄 plementation of the Forty Recommendations郾 http: / / www郾 fatf鄄gafi郾 org / document / 60 / 0 , 3343 , en_32250379_32236920_340392 28_1_1_1_1 , 00郾 html郾 15郾 Feuerstein, M郾 T郾 1986郾 Partners in Evaluation: Evaluating Development and Commu鄄 nity Programs with Participants郾 London: MacMillan, in association with Teaching Aids at Low Cost郾 16郾 Fitzpatrick, Jody L郾 , James R郾 Sanders, and Blaine R郾 Worthen郾 2004郾 Program Evaluation: Alternative Approaches and Practical Guidelines郾 New York: Pearson Education, Inc郾 17郾 Friis, H郾 1965郾 Development of Social Research in Ireland郾 Institute of Public Adminis鄄 tration, Dublin郾 18郾 Fukuda鄄Parr, Sakiko, Carlos Lopes, and Khalid Malik, eds郾 2002郾 Capacity for Devel鄄 opment: New Solutions to Old Problems郾 London: Earthscan Publications郾 19郾 Furubo, Jan鄄Eric, and Rolf Sandahl郾 2002郾 “ Coordinated Pluralism郾 冶 In International Atlas of Evaluation, eds郾 Jan鄄Eric Furubo, Ray Rist, and Rolf Sandahl, 115 - 28郾 New Bruns鄄 wick, NJ: Transaction Publishers郾 20郾 Furubo, Jan鄄Eric, Ray Rist, and Rolf Sandahl, eds郾 2002郾 International Atlas of Eval鄄 uation郾 New Brunswick, NJ: Transaction Publishers郾 21郾 G - 8郾 2004a郾 G - 8 Action Plan: Applying the Power ofEntrepreneur ship to the Eradica鄄 通向结果之路: 有效发展评价的设计与实施 llll llllllll tion of Poverty郾 Sea Island Summit, June郾 ———郾 2004b郾 G - 8 Plan of Support for Reform郾 Sea Island Summit, June郾 22郾 Gerrard, Christopher郾 2006郾 “ Global Partnership Programs: Addressing the Challenge ofEvaluation郾 冶 PowerPoint presentation郾 http: / / www郾 oecd郾 org / secure / pptDocument / 0 , 2835 , en_21571361_34047972_36368404_1_1_1_1 , 00郾 ppt郾 基 23郾 gpgNet郾 2008郾 The Global Network on Global Public Goods郾 http: / / www郾 sdnp. un鄄 本 dp郾 org / gpgn / #郾 原 理 24郾 Graham, Jeffrey P郾 , and R郾 Barry Spaulding郾 2005郾 Going Global: Understanding For鄄 eign Direct Investment郾 JPG Consulting郾 http: / / www郾 going鄄global郾 com / articles / understanding_ foreign_direct_investment郾 htm郾 25郾 Guerrero, R郾 Pablo 1999郾 “ Evaluation Capacity Development: Comparative Insights from Colombia, China, and Indonesia郾 冶 In Building Effective Evaluation Capacity: Lessons from Practice, eds郾 Richard Boyle and Donald Lemaire, 177 - 94郾 New Brunswick, NJ: Transaction Publishers郾 26郾 Hatry, Harry P郾 , Elaine Morely, Shelli B郾 Rossman, and Joseph P郾 Wholey郾 2003郾 摇 64 How Federal Programs Use Outcome Information: Opportunities for Federal Managers郾 IBM En鄄 dowment for the Business of Government, Washington, DC郾 27郾 Hauge, Arild郾 2001郾 “ Strengthening Capacity for Monitoring and Evaluation in Uganda: A Results鄄Based Perspective郾 冶 ECD Working Paper 8 , World Bank, Operations Evaluation De鄄 partment, Evaluation Capacity Development, Washington, DC郾 28郾 Hougi, Hong, and Ray C郾 Rist郾 2002郾 “ Evaluation Capacity Building in the People蒺s Republic of China郾 冶 In International Atlas ofEvaluation, eds郾 Jan鄄Eric Furubo, Ray Rist, and Rolf Sandahl, 249 - 60郾 New Brunswick, NJ: Transaction Publishers郾 29郾 IDA ( International Development Association ) , and IMF ( International Monetary Fund) 郾 2007郾 Heavily Indebted Poor Countries HIPC Initiative and Multilateral Debt Relief Initia鄄 tive MDRI: Status of Implementation郾 http: / / siteresources郾 worldbank郾 org / DEVCOMMINT / Doc鄄 umentation / 21510683 / DC2007 - 0021 E HIPC郾 pdf郾 30郾 IDS ( Institute of Development Studies) . 2008郾 “ Impact Evaluation: The Experience of Official Agencies郾 冶 IDS Bulletin 39 ( 1 ) . http: / / www郾 ntd郾 co郾 uk / idsbookshop / details郾 asp? id = 1030郾 31郾 IEG ( Independent Evaluation Group) . 2008郾 “ Doing Business: An Independent Evalu鄄 ation郾 Taking the Measure of the World Bank鄄IFC Doing Business Indicators郾 冶 32郾 IFAC ( International Federation of Accountants ) . 2004郾 Anti鄄Money Laundering, 2nd ed郾 New York郾 33郾 IFC ( International Finance Corporation ) . 2004郾 Strengthening the Foundations for Growth and Private Sector Development: Investment Climate and Infrastructure Development郾 Devel鄄 opment Committee, Washington, DC郾 http: / / siteresources郾 worldbank郾 org / IDA / Resources / PS鄄 DWBGEXT郾 pdf郾 第二章摇 推动发展评价的主要因素 llll llllllll ———郾 2007郾 Business Environment Snapshots郾 Washington, DC郾 http: / / rru郾 worldbank. org / documents / BES_Methodology_Note_External郾 pdf郾 34郾 IMF ( International Monetary Fund ) . 2009郾 “ A Fact Sheet: Debt Relief under the Heavily Indebted Poor Countries ( HIPC ) Initiative郾 冶 http: / / www郾 info郾 org / external / np / exr / facts / hipc郾 htm郾 35郾 Investor Dictionary郾 com郾 2006郾 “ Money Laundering郾 冶 http: / / www. investordic鄄 基 tionary. com / definition / money + laundering郾 aspx郾 本 原 36郾 Jalan, Bimal郾 2000郾 “ Reflections on Gender Policy郾 冶 In Evaluating Gender Impact of 理 Bank Assistance, 75 - 76郾 World Bank, Operations Evaluation Department, Washington, DC郾 37郾 Joint Progress toward Enhanced Aid Effectiveness, High鄄Level Forum郾 2005郾 Paris Decla鄄 ration on Aid Effectiveness: Ownership, Harmonization, Alignment, Results, and Mutual Accounta鄄 bility郾 http: / / www1郾 worldbank郾 org / harmonization / Paris / FINALPARISDECLARATION郾 pdf / 郾 38郾 Katjomulse, Kavazeua, Patrick N郾 Osakwe, Abebe Shimeles, and Sher Verick郾 2007郾 The Monterrey Consensus and Development in Africa: Progress, Challenges, and Way Forward郾 United Nations Economic Commission for Africa ( UNECA) , Addis Ababa郾 摇 65 39郾 Kreimer, Alcira, John Eriksson, Robert Muscat, Margaret Arnold, and Colin Scott郾 1998郾 The World Bank蒺s Experience with Post鄄Conflict Reconstruction郾 World Bank, Operations Evaluation Department, Washington, DC郾 http: / / lnweb90郾 worldbank郾 org / oed / oeddoclib郾 nsf / b57456d58aba40e585256ad400736404 / f753e43e728a27b38525681700503796 / $ FILE / Post鄄 Con郾 pdf郾 40郾 Kusek, Jody Zall, Ray C郾 Rist, and Elizabeth M郾 White郾 2004郾 “ How Will We Know Millennium Development Results When We See Them? Building a Results鄄Based Monitoring and Evaluation System to Give Us the Answer郾 冶 World Bank Africa Region Working Paper 66 , Wash鄄 ington, DC郾 41郾 Lawrence, J郾 1989郾 “ Engaging Recipients in Development Evaluation: The 蒺Stakeholder蒺 Approach郾 冶 Evaluation Review 13 ( 3 ) : 243 - 56郾 42郾 Lee, Yoon鄄Shik郾 1999郾 “ Evaluation Coverage郾 冶 In Building Effective Evaluation Ca鄄 pacity: Lessons from Practice, eds郾 Richard Boyle and Donald Lemaire, 75 - 91郾 New Bruns鄄 wick, NJ: Transaction Publications郾 43郾 Linux Information Project郾 2006郾 “ Public Goods: A Brief Introduction郾 冶 http: / / www郾 linfo郾 org / public_good郾 html郾 44郾 Mackay, Keith郾 2002郾 “ The Australian Government: Success with a Central, Directive Approach郾 冶 In International Atlas of Evaluation, eds郾 Jan鄄Eric Furubo, Ray C郾 Rist, and Rolf Sandahl, 157 - 74郾 New Brunswick, NJ: Transaction Publishers郾 ———郾 2007郾 “ Three Generations of National M&E Systems in Australia郾 冶 Power Point pres鄄 entation to the Third Latin America and Caribbean Regional Confer ence on Monitoring and Evalu鄄 ation, Lima, July 23 - 24郾 ———郾 2008郾 M&E Systems to Improve Government Performance: Lessons from Australia, 通向结果之路: 有效发展评价的设计与实施 llll llllllll Chile and Columbia郾 PowerPoint presentation to the High鄄Level Delegation from the People蒺s Re鄄 public of China, Washington, DC , March 6郾 45郾 Moser, Caroline O郾 N郾 1995郾 “ Evaluating Gender Impacts郾 冶 New Directions for Evalu鄄 ation 67 ( Fall) : 105 - 17郾 46郾 NCSTE ( China National Center for Evaluation of Science & Technology ) , and IOB 基 ( Netherland蒺s Policy and Operations Evaluation Department ) . 2004郾 A Country鄄Led Joint 本 Evaluation of the ORET / MILIEV Programme in China郾 http: / / www郾 euforic郾 org / iob / 原 理 docs / 200610201336433964郾 pdf郾 47郾 Nellis, John郾 1999郾 “ Time to Rethink Privatization in Transition Economies?冶 IFC Dis鄄 cussion Paper 38 , International Finance Corporation, Washington, DC郾 48郾 OECD ( Organisation for Economic Co鄄operation and Development ) . 2002a郾 OECD Glossary of Statistical Terms郾 http: / / stats郾 oecd郾 org / glossary / index郾 htm郾 ———郾 2002b郾 “ Public Management and Governance: Overview of Results鄄Focused Manage鄄 ment and Budgeting in OECD Member Countries郾 冶 Paper presented at the 23rd annual meeting of OECD senior budget officials, Washington, DC , June 3 - 4郾 摇 66 ———郾 2003郾 Joint OECD DAC / Development Centre Experts蒺 Seminar on Aid Effectiveness and Selectivity: Integrating Multiple Objectives into Aid Allocations郾 Development Assistance Commit鄄 tee郾 http: / / www郾 oecd郾 org / document / 51 / 0 , 2340 , en_2649 _34435 _2501555 _119808 _1 _1 _ 1郯 00郾 html郾 ———郾 2004a郾 Final ODA Data for 2003郾 http: / / www郾 oecd郾 org / dataoecd / 19 / 52 / 34352584郾 pdf郾 ———郾 2004b郾 The Istanbul Ministerial Declaration on Fostering Growth of Innovative and In鄄 ternationally Competitive SMEs郾 http: / / www郾 oecd郾 org / document / 16 / 0 , 3343 , en _ 2649 _ 201185_32020176_1_1_1_1郯 00郾 html郾 ———郾 2005a郾 “ Aid Rising Sharply, According to Latest OECD Figures郾 冶 http: / / www郾 oecd郾 org / dataoecd / 0 / 41 / 35842562郾 pdf郾 ———郾 2005b郾 The Paris Declaration郾 Development Co鄄operation Directorate郾 http: / / www郾 oecd郾 org / document / 18 / 0 , 2340 , en_2649_3236398_35401554_1_1_1_1郯 00郾 html郾 ———郾 2006郾 Final ODA Data for 2005郾 http: / / www郾 oecd郾 org / dataoecd / 52 / 18 / 37790990郾 pdf郾 ———郾 2007a郾 “ Development Aid from OECD Countries Fell 5郾 1 Percent in 2006郾 冶 http: / / www郾 oecd郾 org / document / 17 / 0 , 3343 , en _ 2649 _ 33721 _ 38341265 _ 1 _ 1 _ 1 _ 1郯 00. html郾 ———郾 2007b郾 Final ODA Flows in 2006郾 http: / / www郾 oecd郾 org / dataoecd / 7 / 20 / 39768315郾 pdf郾 ———郾 2007c郾 “ Monitoring the Paris Declaration郾 冶 http: / / www郾 oecd郾 org / department / 0 , 3355 , en_2649_15577209_1_1_1_1_1郯 00郾 html郾 49郾 OECD, and PUMA ( Public Management Committee) . 2002郾 “ Overview of Results鄄Fo鄄 第二章摇 推动发展评价的主要因素 llll llllllll cused Management and Budgeting in OECD Member Countries郾 冶 Twenty鄄third annual meeting of OECD Senior Budget Officials, Washington, DC , June 3 - 4郾 50郾 Oxford Analytica郾 2004a郾 “ Foundations Muscle into Aid Arena郾 冶 August 10 , Oxford郾 ———郾 2004b郾 “ Remittances Fund Investment Growth郾 冶 September 7 , Oxford郾 51郾 Patton, M郾 Q郾 1997郾 Utilization鄄Focused Evaluation郾 3rd ed郾 Thousand Oaks, CA: Sage Publications郾 基 ———郾 2006郾 “ Recent Trends in Evaluation郾 冶 Paper presented to the International Finance 本 原 Corporation, Washington, DC , May 8郾 理 52郾 Picciotto, Robert郾 2002a郾 “ Development Cooperation and Performance Evaluation: The Monterrey Challenge郾 冶 World Bank, Operations Development Department, Washington, DC郾 ———郾 2002b郾 “ Development Evaluation as a Discipline郾 冶 International Program for Devel鄄 opment Evaluation Training ( IPDET) presentation, Ottawa, June郾 ———郾 2003郾 “ International Trends and Development Evaluation: The Need for Ideas郾 冶 American Journal of Evaluation 24 : 227 - 34郾 53郾 Picciotto, Robert, and Ray C郾 Rist郾 1995郾 Evaluating Country Development Policies and 摇 67 Programs: New Approaches and a New Agenda郾 San鄄Francisco: Jossey鄄Bass Publishers郾 54郾 Pollin, Robert郾 2007郾 Microcredit: False Hopes and Real Possibilities郾 Foreign Policy in Focus郾 http: / / www郾 fpif郾 org / fpiftxt / 4323郾 55郾 Public Services Organisation Review Group郾 1969郾 Report of the Public Services Organi鄄 zation Review Group郾 Dublin: Stationary Office郾 56郾 Qureshi, Zia郾 2004郾 Millennium Development Goals and Monterrey Consensus: From Vi鄄 sion to Action郾 World Bank, Washington, DC郾 http: / / wbln0018郾 worldbank郾 org / eurvp / web郾 nsf / Pages / Paper + by + Qureshi / US $ File / MOHAMMED + QURESHI郾 PDF郾 57郾 Rasappan, Arunaselam郾 2007郾 “ Implementation Strategies and Lessons Learnt with Re鄄 sults鄄Based Budgeting Malaysia郾 冶 Training course on program and performance budgeting, ITP Pune , India, October 1 - 5郾 http: / / blog鄄pfm郾 imf郾 org / pfmblog / files / rasappan_implementation_ strategies_lessons_malaysia郾 pdf郾 58郾 Republic of France郾 2001郾 Ministry of the Economy, Finance, and Industry郾 “ Towards New Public Management郾 冶 Newsletter on the Public Finance Reform 1 ( September) , Paris郾 59郾 Rist, Ray C郾 , and Nicoletta Stame, eds郾 2006郾 From Studies to Streams: Managing Evaluative Systems郾 New Brunswick, NJ: Transaction Books郾 60郾 Schacter, Mark郾 2000郾 “ Sub鄄Saharan Africa: Lessons from Experience in Supporting Sound Governance郾 冶 ECD Working Paper 7 , World Bank, Evaluation Capacity Department, Washington, DC郾 61郾 Soros Foundations Network郾 2007郾 “ About OSI and the Soros Foundation Network郾 冶 http: / / www郾 soros郾 org / about / overview郾 62郾 Takamasa, Akiyama, and Kondo Masanori, eds郾 2003郾 “ Global ODA since the Monter鄄 rey Conference郾 冶 Foundation for Advanced Studies on International Development ( FASID ) , In鄄 通向结果之路: 有效发展评价的设计与实施 llll llllllll ternational Development Research Institute, Tokyo郾 http: / / www郾 fasid郾 or郾 jp / english / publica鄄 tion / research / pdf / global郾 pdf郾 63郾 Tavistock Institute, in association with GHK and IRS郾 2003郾 The Evaluation of Socio鄄 Economic Development: The GUIDE郾 http: / / coursenligne郾 sciences鄄po郾 fr / 2004_2005 / g_martin / guide2郾 pdf郾 基 64郾 Thomas, Koshy郾 2007郾 “ Integrated Results鄄Based Management in Malaysia郾 冶 In Results 本 Matter: Ideas and Experiences on Managing for Development Results郾 Asian Development Bank郾 原 理 http: / / www郾 adb郾 org / Documents / Periodicals / MfDR / dec - 2007郾 pdf郾 65郾 Trosa, Sylvie郾 2008郾 “ Towards a Postbureaucratic Management in France郾 冶 Politique et management public ( 2 ) . 66郾 Uganda Office of the Prime Minister ( OPM ) . 2007a郾 National Integrated Monitoring and Evaluation Strategy ( NIMES ) : 2006 - 2007 Bi鄄Annual Implementation Progress Report郾 Kampala郾 ———郾 2007b郾 “ Working Note: Monitoring and Evaluation of the National Development Plan郾 冶 October, Kampala郾 摇 68 67郾 UNCTAD ( United Nations Conference on Trade and Development) . 2008郾 “ Foreign Di鄄 rect Investment Reached New Record in 2007郾 冶 Press Release郾 http: / / www郾 unctad郾 org / Tem鄄 plates / Webflyer郾 asp? docID = 9439&intItemID = 2068&lang = 1郾 68郾 UNECA ( United Nations Economic Commission for Africa ) . 2007郾 “ Financing Devel鄄 opment Section, Trade, Finance, and Economic Commission for Africa, Addis Ababa郾 冶 ht鄄 tp: / / www郾 uneca郾 org / eca_ programmes / trade _ and _ regional _ integration / documents / Monterrey鄄 ConsensusMainReport郾 pdf郾 69郾 United Nations Office on Drugs and Crime郾 2006郾 The United Nations Convention against Transnational Organized Crime and Its Protocols郾 http: / / www郾 unodc郾 org / unodc / en / treaties / CTOC / index郾 html郾 70郾 U郾 S郾 Department of Labor郾 1993郾 Government Performance and Results Act郾 Employ鄄 ment & Training Administration, Washington, DC郾 http: / / www郾 doleta郾 gov / performance / goals / gpra郾 cfm郾 71郾 U郾 S郾 GAO ( Government Accountability Office) . 2003郾 Executive Guide: Effectively Im鄄 plementing the Government Performance and Results Act郾 http: / / www郾 gao郾 gov / special郾 pubs / gpra郾 htm郾 72郾 World Bank郾 n郾 d郾 “ About Private Participation in Infrastructure郾 冶 http: / / www郾 worldbank郾 org / infrastructure / ppi / 郾 ———郾 1994郾 Enhancing Women蒺s Participation in Economic Development郾 Washing ton, DC : World Bank郾 http: / / books郾 google郾 ca / books? id = CJBmEClPci8C&dq = World + Bank郾 + 1994郾 + Enhancing + Women% E2% 80% 99s + Participation + in + Economic + Development郾 + Washington, + DC : + World + Bank郾 &printsec = frontcover&source = bn&hl = en&ei = IPy2SdntFYueMoTU_NcK&sa = X&oi = book_result&resnum = 4&ct = result# PPA5 , M1郾 第二章摇 推动发展评价的主要因素 llll llllllll ———郾 1996b郾 World Bank Participation Sourcebook郾 http: / / www郾 worldbank郾 org / wbi / sour鄄 cebook / sbhome郾 htm郾 ———郾 1999郾 “ Monitoring and Evaluation Capacity Development in Africa郾 冶 Pr佴cis Spring ( 183 ) . http: / / wbln0018郾 worldbank郾 org / oed / oeddoclib郾 nsf / 7f2a291f9f1204c685256808006a0025 / 34b9bade34aca617852567fc00576017 / US $ FILE / 183precis郾 pdf郾 ———郾 2001郾 Strategic Directions for FY02 - FY04郾 Washington, DC郾 http: / / lnweb18. 基 worldbank郾 org / oed / oeddoclib郾 nsf / 24cc3bb1f94ae11c85256808006a0046 / 762997a38851fa06852 本 原 56f8200777e15 / US $ FILE / gppp_main_report_phase_2郾 pdf#page = 21郾 理 ———郾 2003郾 Global Development Finance 2003郾 Washington, DC: World Bank郾 http: / / sit鄄 eresources郾 worldbank郾 org / INTRGDF / Resources / GDF0slide0鄄show103010DC0press0launch. pdf郾 ———郾 2004a郾 “ Evaluating the World Bank蒺s Approach to Global Programs: Address ing the Challenges of Globalization郾 冶 Independent Evaluation Group, Washing ton, DC郾 http: / / www郾 worldbank郾 org / oed / gppp / 郾 ———郾 2004b郾 Global Monitoring Report 2004 : Policies and Actions for Achieving the Millenni鄄 um Development Goals郾 Washington, DC : World Bank郾 摇 69 ———郾 2005a郾 Global Monitoring Report 2005 : Education for All郾 Washington, DC : World Bank郾 ———郾 2005b郾 World Development Report 2005 : A Better Investment Climate for Everyone郾 Washington, DC : World Bank郾 ———郾 2006a郾 Global Monitoring Report 2006 : Equity and Development郾 Washington, DC : World Bank郾 ———郾 2007a郾 Aid Architecture: An Overview of the Main Trends in Official Development Assis鄄 tance Flows, Executive Summary郾 http: / / siteresources郾 worldbank郾 org / IDA / Resources / Aidar鄄 chitecture鄄exec summary郾 pdf郾 ———郾 2007b郾 Conflict Prevention and Reconstruction郾 http: / / lnwebl8郾 worldbank郾 org / ES鄄 SD / sdvext郾 nsf / 67ByDocName / ConfiictPreventionandReconstruction郾 ———郾 2007c郾 The Data Revolution: Measuring Governance and Corruption郾 http: / / web郾 worldbank郾 org / WBSITE / EXTERNAL / NEWS / 0 ,, contentMDK: 20190210 ~ menuPK: 34457 ~ pagePK: 34370 ~ piPK: 34424 ~ theSitePK: 4607 , 00郾 html郾 ———郾 2007d郾 Doing Business: Economy Profile Reports郾 Washington, DC : World Bank郾 http: / / rru郾 worldbank郾 org / DoingBusiness / 郾 ———郾 2007e郾 The Enhanced HIPC Initiative: Overview郾 http: / / web郾 worldbank郾 org / WB鄄 SITE / EXTERNAL / TOPICS / EXTDEBTDEPT / 0, contentMDK: 21254881 ~ menuPK: 64166739 ~ pagePK: 64166689 ~ piPK: 64166646 ~ theSitePK: 469043 , 00郾 html郾 ———郾 2007f郾 Global Monitoring Report 2007 : Development and the Next Generation郾 Wash鄄 ington, DC : World Bank郾 ———郾 2008郾 Online Atlas of the Millennium Development Goals: Building a Better World郾 http: / / devdata郾 worldbank郾 org / atlas鄄mdg / 郾 通向结果之路: 有效发展评价的设计与实施 llll llllllll 73郾 Woroniuk, B郾 , and J郾 Schalwyk郾 1998郾 “ DonorPractices: Evaluation and Preparation Tipsheet郾 冶 OECD, Paris郾 网址 财政 基 1郾 CGAP ( Consultative Group to Assist the Poor) . http: / / www郾 cgap郾 org / 郾 本 ———郾 Assessment and Evaluation郾 http: / / www郾 cgap郾 org / publications / assessment _ 原 理 evaluation郾 html郾 2郾 The Equator Principles郾 http: / / www郾 equator鄄principles郾 com / index郾 shtml郾 3郾 Tedeschi, Gwendolyn Alexander郾 2008郾 Overcoming Selection Bias in Microcredit Impact Assessments: A Case Study in Peru郾 http: / / www郾 informaworld郾 com / smpp / content ~ content = a792696580 ~ db = all ~ order = page郾 4郾 World Bank郾 Doing Business: Economy Profile Reports郾 http: / / rru郾 worldbank郾 org / Do鄄 ingBusiness / 郾 种类 摇 70 5郾 OECD ( Organisation for Economic Co鄄operation and Development) . “ Gender Tip鄄sheet, Evaluation郾 冶 Development Assistance Committee郾 http: / / www郾 oecd郾 org / dataoecd / 2 / 13 / 1896352郾 pdf郾 政府 6郾 Transparency International郾 http: / / www郾 transparency郾 org / 郾 7郾 World Bank郾 2007a郾 Governance Matters郾 http: / / info郾 worldbank郾 org / governance / wgi2007 / and http: / / info郾 worldbank郾 org / governance / wgi2007 / pdf / booklet_decade_of_measur鄄 ing_governance郾 pdf郾 ———郾 2007b郾 Untitled Video郾 http: / / web郾 worldbank郾 org / WBSITE / EXTERNAL / NEWS / 0 , contentMDK: 21400275 ~ menuPK: 51416191 ~ pagePK: 64257043 ~ piPK: 437376 ~ the鄄 SitePK: 4607郯 00郾 html郾 千年发展目标 8郾 United Nations郾 Millennium Development Goals郾 http: / / www郾 un郾 org / millennium goals / . 贫困 9郾 Poverty鄄Environment Web site郾 http: / / www郾 povertyenvironment郾 net郾 10郾 World Bank郾 AdePT software to make poverty analysis easier and faster郾 econ. world鄄 bank郾 org / programs / poverty / adept郾 ———郾 PovertyNet newsletter郾 http: / / www郾 worldbank郾 org / poverty郾 发展评价的准备与实施 我们的很多计划流产是因为它们没有目标。 当一个人不知道他要驶向哪个港口的时 候, 对他来说任何风向都不是正确的风向。 ———塞内加 第三章: 建立结果导向的监测与评价体系 誗 结果导向的监测与评价体系的重要性 誗 什么是结果导向的监测与评价体系? 誗 传统的监测与评价体系和结果导向的监测与评价体系 誗 建立结果导向的监测与评价体系的十个步骤 第四章: 评价背景与项目变革理论 誗 前期分析 誗 识别主要客户和关键利益相关者 誗 理解背景 誗 发掘已有知识 誗 变革理论的构建、 使用和评估 第五章: 考虑评价方法 誗 评价的一般方法 誗 评价的优势与挑战 第三章 摇 建立结果导向的 摇 摇 摇 摇 监测与评价体系 摇 摇 放眼全球, 各国政府都在努力应对公民改善生活的要求和压力。 来自内外部的压力和 需求促使各国政府和各发展组织寻找改善公共管理的新途径。 这些改善工作包括更大的责 任和透明度以及增强各种干预措施的有效性。 结果导向的监测与评价体系 ( M&E) 是一 种管理工具, 它被用于跟踪进展, 反映发展项目、 计划和政策的影响。 本章包括四个主要部分: 誗 结果导向的监测与评价体系的重要性 誗 什么是结果导向的监测与评价体系? 誗 传统的监测与评价体系和结果导向的监测与评价体系 誗 建立结果导向的监测与评价体系的十个步骤 结果导向的监测与评价体系的重要性 詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪 在发展中国家, 要求改善公共部门绩效的压力越来越大。 这些压力促使各国纷纷建立 绩效管理体系。 这种新的体系包括预算、 人力资源管理和组织文化方面的变革。 而且为了 评估公共部门的工作是否起作用, 也需要对其绩效进行考核。 监测和评价体系跟踪的是政 府和其他实体的工作所产生 ( 或没有产生) 的结果。 许多倡议活动都是为了促使政府采用能够显示出结果的公共管理体系。 千年发展目标 ( MDGs) 和重债穷国计划 ( HIPC) 就是这些倡议的两个例子。 本章所概述的策略基于发达国家———特别是经合组织 ( OECD) 国家———的经验, 但 也结合了许多发展中国家在努力建立绩效考核体系时所面临的挑战和困难。 这些国家遇到 的挑战从缺乏技能到治理结构欠缺以及不透明的体系等等不一而足。 虽然本章主要侧重于 通过使用合理的监测和评价体系 ( M&E) 提高政府的有效性和责任, 但是这些原则和策 略也同样适用于组织、 政策、 计划和项目。 结果导向的监测与评价体系反映了公共部门或组织在绩效方面的重要信息。 它能帮助 政策制定者、 决策者和其他利益相关者回答有关承诺是否兑现和 成效 是否显现的基本问 题。 M&E 是能够证明取得改善———或缺乏改善———的工具 ( 专栏 3郾 1) 。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 通过汇报各种干预措施的结果, 政府和其他组织能够提高其工作的可信度, 增强公众 信心。 向公众提供信息还有助于推进援助贷款问责制的发展进度。 一个出色的结果导向的监测和评价体系还可以成为非常有用的管理和激励工具。 它有 助于集中精力达成对组织和利益相关者都很重要的成效, 而且能促进制定有利于实现成效 的关键目标。 它还能为管理者提供关键信息, 帮助他们了解在实施干预谋求变革的过程 发 中, 战略引导是否恰当、 正确和充分。 展 评 价 专栏 3郾 1摇 结果衡量的效力 的 准 基于下述原因, 衡量结果是非常重要的: 备 誗 如果不衡量结果, 就无法区分成功与失败 与 誗 如果看不到成功, 就无法进行奖励 实 施 誗 不对成功进行奖励, 意味着有可能奖励失败 誗 如果看不到成功, 就无法从中汲取经验 誗 没有认识到失败, 就无法对其进行纠正 摇 74 誗 如果能够展示结果, 就能赢得公众支持 资料来源: Osborn 和 Gaebler, 1992 另外, 一个出色的 M&E 体系也是基本的信息来源, 根据它可以简化和改进干预措 施, 提高成功率。 它能帮助在早期阶段识别出有潜力的干预措施, 这些措施或许也因此而 可以在其他地方普及实施。 拥有了关于某个项目、 实践、 计划或政策运作情况好坏的数 据, 就为编制和审核预算请求提供了有用的信息。 它使稀缺资源能公平、 公正地分配给能 带来最大收益的干预措施。 一旦成效明确、 指标选好、 目标设定, 那么组织就能全力以赴地实现它们。 M&E 体 系能够及时为员工提供有关进展状况的信息, 有助于在早期识别需要改进的弱项。 监测数 据能够提供关于异常值 ( 绩效特别好或特别不好的监测点 ) 的信息。 而后, 评价能够解 释为什么会出现这些异常。 什么是结果导向的监测与评价体系 ? 詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪 结果导向的信息有两个相辅相成的来源: 监测体系和评价体系 ( 专栏 3郾 2) 。 这两个 体系是有效的绩效衡量的必要条件。 专栏 3郾 2摇 结果导向的监测与结果导向的评价的区别 结果导向的监测是持续地收集和分析与关键指标相关的信息的过程。 它对比分析实 际结果与期望结果, 以考核一个项目、 计划或政策是否得以良好的实施。 它使用 指标, 跟踪取得预定具体目标的进展 , 持续地考核取得具体的短期 、 中期和长期结果的进展 第三章摇 建立结果导向的监测与评价体系 llll llllllll 状况。 结果导向的监测为员工和决策制定者提供有关进展 ( 或缺乏进展 ) 的反馈, 他 们就能够以各种方式使用这些信息, 改善绩效。 结果导向的评价是对尚处于计划阶段的、 正在实施的或已经完成的干预措施的相关 性、 效率、 有效性、 影响和可持续性进行的评价。 其目的是提供可信和有用的信息, 以 便所吸取的教训可以融入信息接收者的决策过程。 评价从较高的层面看待干预措施, 考 发 察目标和结果实现过程中所取得的进展是来自某项干预措施, 还是监测体系中发现的其 展 评 他因素。 评价问题可以包括以下几方面: 价 誗 目标和成效是否相关? 的 誗 目标和成效是如何得以高效率的实现? 准 备 誗 干预措施产生了哪些预期之外的效应? 与 誗 该干预措施是否是为满足一系列特定需求所能采取的最具成本效率和可持续性 实 的战略? 施 摇 75 传统的监测与评价体系和结果导向的监测与评价体系 詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪 政府长期以来都从事传统的 M&E———比如, 跟踪其支出和收入、 员工层次和资源、 项目和计划活动、 参与人员的数量、 提供的商品和服务的多少。 但是, 有必要明确区分传 统的与结果导向的 M&E: 誗 传统的监测与评价侧重于监测和评价投入、 活动和产出 ( 即关注的是计划或项目 的实施情况) 。 誗 结果导向的监测与评价 既包括传统的监测, 又包括对成效、 影响, 或广义的结果 的评估。 正是这种将政府政策和项目的实施进程与理想目标或结果的实现进程的结合, 使得结 果导向的 M&E 成为有用的公共管理工具。 使用这种 M&E 体系, 使组织得以对变革理论 和实施过程进行修改和调整, 为实现期望的目标和成效提供更多的直接支持。 变革理论 一个区分传统的和结果导向的 M&E 的方法是变革理论 。 Kusek 和 Rist ( 2004 ) 认 为 , 变革理论 表示干预措施预计会如何实现期望结果 。 ( 关于变革理论的更多信息和定 义见第四章 。) 变革理论模型一般包括五个主要组成部分 : 投入 、 活动 、 产出 、 成效和 影响 ( 表 3郾 1 ) 。 一 些 变 革 理 论 模 型 还 包 括 其 他 组 成 部 分 , 如 目 标 群 体 、 内 外 部 因素 。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 摇 表 3郾 1 变革理论的主要组成部分 组成部分 描摇 摇 述 投入 投入项目、 计划或政策的资源 ( 财力、 人力、 设备、 课程教材等) 。 我们所做的。 活动可以使用动词来表述 ( “ 推销冶 、 “ 提供冶 、 “ 协助冶 、 活动 “ 交付冶 ) 。 发 展 我们所生产的。 产出是活动的结果, 是所生产出来的有形产品或服 评 产出 务。 它们通常使用名词来表述, 一般不会有修饰成分, 是有形的、 可 价 计算的。 的 准 我们为何做。 成效是项目产出所引起的行为变化 ( 戒烟、 烧开水、 使 成效 备 用蚊帐等) 。 成效能够被增加、 减少、 增强、 改善或维持。 与 实 影响 成效的累积导致的长远变化。 类似于战略目标。 施 摇 摇 资料来源: Kusek 和 Rist 2004 摇 76 影响 …… 社会中长期、广泛的改善 结果 行为的改变,包括有意识的和无意识的,积极 成效 …… 的和消极的 产出 …… 生产或交付的产品和服务 实施 活动 …… 为了将投入转化为产出而做的工作 投入 …… 财力、人力和物力 图 3郾 1摇 实现成效和影响的项目变革理论 ( 逻辑模型) 资料来源: 根据 Binnendijk 2000 整理 变革理论可以用图形来演绎 ( 见图 3郾 1) 。 这个模型可以用于设计结果导向的解决问 题的方法, 如使用口服补液疗法降低儿童死亡率 ( 见图 3郾 2) 。 绩效指标 监测包括对于成效或影响达成状况的考核。 然而, 成效很难直接考核; 它必须首先转 化为一系列通过定期测量能够提供有关成效或影响是否实现的信息的指标。 绩效指标是 “ 一个变量, 它可以确认发展干预措施的变化, 或显示相对于计划的结果 冶 ( OECD 2002, 第 29 页) 。 第三章摇 建立结果导向的监测与评价体系 llll llllllll 影响 …… 儿童死亡率的降低 结果 在儿童痢疾疾病治疗中增加口服补液疗法的使 成效 …… 用(行为的改变) 发 产出 …… 越来越多的母亲了解并接受口服补液疗法 展 评 价 实施 活动 …… 媒体教育母亲,医疗人员接受口服补液疗法的 的 培训,等等 准 备 投入 与 实 …… 资金、供给、培训师,等等 图 3郾 2摇 使用口服补液疗法降低儿童死亡率项目的 施 变革理论 ( 逻辑模型) 模板 资料来源: 根据 Binnendijk 2000 整理 摇 77 例如, 如果一个国家选择在今后五年时间内将传染疾病导致的儿童死亡率降低 30% , 从而改善儿童健康为目标, 那么它必须首先确定一系列指标, 这些指标能说明因传染疾病 导致的儿童死亡率的变化, 以进行更明确的考核。 能帮助评估儿童死亡率变化的指标可能 包括以下几种: 誗 感染疾病的发病率和患病率, 如肝炎 ( 直接的致病因素的发病率和流行状况) 誗 母亲健康状况 ( 间接的致病因素) 誗 儿童饮用洁净水的机会 管理人员正是通过查看有关指标体系的累积证据, 了解他们的计划是否取得进展。 没 有哪些成效或影响是仅仅靠一个指标就能考核的。 对一套分解的指标 ( 一套被分成若干要素部分的指标) 进行考核能够提供重要信息, 包括政府所实施的计划和政策是否取得了预期的成效或影响。 它们还可用于找出那些表现 较好或较差的领域 ( 项目异常值) , 以及成功或不成功的政策。 比如, 如果这套指标揭示 出一段时间以来得到洁净水的儿童越来越少, 那么政府就可以根据这个信息改进当前计划 以改善供水, 或加强某些计划, 如向家长宣传在把水给孩子们前有必要对水进行消毒。 监测体系的信息显示的只是正在被测量的项目、 计划或政策的绩效 ( 即使它可以与 过去的绩效和一些计划层面的目前或预期绩效 [ 目标] 作对比 ) 。 监测数据并不揭示为什 么会出现这样的绩效, 也不能解释各阶段或各监测点之间绩效产生变化的原因。 这些因果 信息则来自评价体系。 在结果导向的管理框架中, 评价体系具有独特且不可或缺的功能。 评价体系能够: 誗 对结果导向的成效和影响做更深入的研究 誗 运用被监测的指标之外的数据来源 誗 检查那些难以持续监测或持续监测成本很高的因素 通向结果之路: 有效发展评价的设计与实施 llll llllllll 誗 根据监测数据调研项目按照当前趋势变化的原因和方式 要重视有影响和因果归因的数据是不容忽视的。 它们对战略资源的分配能起到重要作用。 建立结果导向的监测与评价体系的十个步骤 詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪 发 展 建立面向结果的监测与评价体系包括以下十个步骤, 如图 3郾 3 所示。 评 价 1郾 实施就绪度评估 的 2郾 对要监测与评价的成效达成共识 准 3郾 选择成效监测的关键指标对成效实施监测 备 与 4郾 指标的基准数据———我们现在处于什么情况? 实 5郾 为改善绩效进行规划———选择切合实际的具体目标 施 6郾 结果导向的监测 7郾 使用评价信息 8郾 报告评价发现 摇 78 9郾 使用评价发现 10郾 在组织内部维持监测与评价体系 为改善绩效进 行规划——选 实施就绪度 选择成效监测 择切合实际的 使用评价 使用评价 评估 的关键指标 具体目标 信息 发现 1 2 3 4 5 6 7 8 9 0 1 对要监测与 收集指标的 结果导向 报告评价 在组织内部 评价的成效 基准数据  监测 发现 维持监测与 形成共识 评价体系 图 3郾 3摇 建立结果导向的监测与评价体系的十个步骤 资料来源: Kusek 和 Rist, 2004 第一步: 实施就绪度评估 实施就绪度评价指评价政府及其发展合作伙伴构建结果导向的监测与评价体系的能力 和意愿。 它评价的是是否有拥护者以及激励机制、 角色和责任、 组织能力和启动工作障碍 等问题。 激励机制 实施就绪度评估的第一步就是了解当前能够推动建立 M&E 体系的有利因素 ( 以及可 第三章摇 建立结果导向的监测与评价体系 llll llllllll 实施就绪度 评估 1 2 3 4 5 6 7 8 9 0 1 发 展 图 3郾 4摇 第一步: 实施就绪度评价 评 价 能阻碍进展的不利因素) 。 需要考虑的问题包括: 的 誗 是什么在推动建立监测与评价体系的需求? 准 备 誗 谁是建立和使用监测与评价体系的拥护者? 与 誗 是什么在激励那些拥护建立和使用监测与评价体系的人? 实 誗 谁将会从该体系受益? 施 誗 谁不会从该体系受益? 摇 79 角色和责任 接下来, 需要找出当前本组织和其他组织内哪些人负责提供数据、 哪些人使用数据。 需要考虑的问题包括: 誗 主要部委和相关部委在绩效评价中起到怎样的作用? 誗 立法机构的作用是什么? 誗 最高审计机构的作用是什么? 誗 政府部门和机构之间能否实现信息共享? 誗 所提交的数据背后是否有政策议程? 誗 谁负责提交数据? 誗 政府内的哪些部门会使用这些数据? 组织能力 这是组织能否建立结果导向的监测与评价体系的一个重要因素, 它包括组织是否具备 相应的技能、 资源和经验。 需要考虑的问题包括: 誗 组织中谁具备设计和实施 M&E 的技术和能力? 誗 谁具备管理 M&E 体系的能力? 誗 组织中现有哪些数据系统? 其质量如何? 誗 现有哪些技术可用于支持所需数据系统? 数据库容量、 数据分析的可得性、 报告 软件等, 也应属于评估的内容。 誗 有哪些财政资源可用于设计和实施 M&E? 誗 组织拥有哪些绩效报告系统方面的经验? 通向结果之路: 有效发展评价的设计与实施 llll llllllll 障碍 对于任何组织的变革, 都需要考虑有什么因素会阻碍有效实施。 需要考虑的问题包括: 誗 在 M&E 体系、 面向结果的战略和经验方面, 是否缺乏资金、 政治意愿和拥护者? 发 誗 如果缺乏, 那么应该如何消除这些障碍? 展 成功的实践表明, 成功建立有效的 M&E 体系可能依赖于一系列因素, 包括以下几点: 评 价 誗 国家层面对监测与评价体系的正式授权 的 誗 减贫战略文件 ( PRSP) 、 法律和法规 准 誗 在政府最高层中是否有强有力的领导和支持 备 与 誗 可以用于政策制定和管理决策的可靠信息 实 誗 作为政府建立和跟踪绩效信息的合作伙伴的社会团体 施 誗 可作为启动实践或试点计划的一系列创新 在就绪度评估工作的最后, 高层政府官员面对的是是否推进结果导向的 M&E 体系问 题。 本质上这个问题就是 “ 推进还是停止?冶 ( 现在, 很快, 或许以后) 摇 80 第二步: 对要监测与评价的结果达成共识 1 2 3 4 5 6 7 8 9 0 1 对要监测与评价的 结果达成共识 图 3郾 5摇 第二步: 对要监测与评价的结果达成共识 在评估某个组织或政府努力取得的成效和影响时, 激发兴趣远比简单地关注实施 ( 投入、 活动和产出) 重要得多。 毕竟, 结果 ( 如提高学前项目的覆盖率或增强小学生学 习能力) 能证实特定的利益是否得以实现。 战略成果和影响应该强调和激励资源的配置, 以及政府及其发展合作伙伴的资源配置及 有关活动。 这些影响应该来自国家的战略重点。 在列出结果清单时, 需要考虑以下几点问题: 誗 是否有国家或部门级别的书面目标 ( 如愿景 2016) ? 誗 是否作出在特定领域改善绩效的政治承诺? 誗 民调数据 ( 如公民积分卡) 有无显示特别重要的问题? 誗 援助机构借款是不是与某些具体的目标相关联? 誗 有没有出台权威的法律文件? 誗 政府对于实现千年发展目标 ( MDGs) 是不是做出了严肃的承诺? 在成果上达成共识是一个需要取得主要利益相关者的支持和认同的政治过程。 头脑风 暴、 面谈、 焦点小组和问卷调查都可以用来了解他们关心的问题。 第三章摇 建立结果导向的监测与评价体系 llll llllllll 结果明确了一项行动的预期效果 ( 比如, 在你出发之前知道你要去哪里) 。 它们代表 了客户希望实现的成效。 在实现之前, 结果必须转化为一系列指标。 清晰地确定结果——— 以及根据这些成果生成指标———对于设计和建立结果导向的 M&E 体系是必不可少的。 第三步: 选择成效监测的关键指标 发 选择成效监测的 展 评 关键指标 价 的 准 1 2 3 4 5 6 7 8 9 0 1 备 与 图 3郾 6摇 第三步: 选择成效监测的关键指标 实 施 只有能够衡量的事情才能较好地完成。 明确哪些是被衡量的, 以便保证成效的实现不 仅能够帮助跟踪进展, 在考核启动足够早的情况下, 还能成为强有力的激励工具, 增强人 摇 81 们对努力程度的重视, 并可以增强组织合作。 指标是用于系统地、 持续地跟踪目标的实现进度 ( 或缺乏进展 ) 的衡量工具。 它回 答的是 “ 当我们取得成功时我们如何知道冶 的问题。 在新的 M&E 体系里, 所有的指标都 应该是定量的; 当 M&E 体系成熟后, 再引入定性指标。 指标的开发是建立 M&E 体系的一项核心活动; 它能驱动接下来的所有数据收集、 分 析和汇报工作。 人们不应低估用以制定可信而又恰当的指标所需使用的方法和政治手段问 题。 Schiavo鄄Campo (1999) 提出, 指标应该符合 “ CREAM冶 要求, 即: 誗 清晰的 ( 准确而不含糊) 誗 相关的 ( 与当前目标相适应) 誗 经济的 ( 成本合适) 誗 充足的 ( 能够为绩效评估提供充分的依据) 誗 可监测的 ( 能够独立考核) 有时, 通过使用现有指标, 可能可以降低成本。 但是, 评价人员应该清楚使用现有指 标的风险。 在使用之前, 应该先考虑这些指标相关程度是不是大 ( 或预期有多大的相关 性) 。 一些指标可能需要调整, 有时则需使用与所评价的项目、 计划或政策更加相关的其 他指标做补充。 指标数量的多少取决于如何更好地回答 “ 成效已经实现了吗?冶 , 一般应该在两个到 七个之间。 一旦选定之后, 这些指标并不是一成不变的。 在监测体系不断提升和改进的过 程中, 也可以适当增减指标。 所选定的绩 效 指 标 和 用 于 收 集 与 指 标 相 关 的 信 息 的 数 据 收 集 策 略 要 立 足 于 现 实 ( Kusek 和 Risk 2004) 。 需要考虑的因素包括: 誗 现有哪些数据系统 誗 当前可以生成哪些数据 通向结果之路: 有效发展评价的设计与实施 llll llllllll 誗 现有的哪些能力可以增加数据收集和分析的广度和深度 填写表 3郾 2 的各栏, 可以帮助了解实际工作中采用各个指标的可行性。 指标的例子可 见表 3郾 3。 誗 评价人员需要开发他们自己的指标, 以满足他们所做的评价工作的需求 誗 开发好的指标需要不止一次地尝试 发 誗 所有的指标都应该中立地陈述, 不要出现 “ 增加冶 或 “ 减少冶 这样的词 展 誗 评价人员应该进行试点、 试点、 再试点! 评 价 的 摇 表 3郾 2 指标选择矩阵 准 谁负责分 备 数据收 谁负责收 谁将使 指标 数据来源 收集频率 收集成本 收集难度 析和报告 与 集方法 集数据 用数据 数据 实 施 1郾 2郾 3郾 摇 82 摇 摇 资料来源: Kusek 和 Rist, 2004 摇 表 3郾 3 绩效框架示例: 成效和指标 成效 指标 基准 具体目标 城市 适 龄 儿 童 接 受 学 前 教 育 的 使全 国 有 更 多 的 儿 童 加 比例 入学前教育计划 农村 适 龄 儿 童 接 受 学 前 教 育 的 比例 六年级学生在数学和自然科学标准化考 提高 儿 童 小 学 学 习 的 试中得到 70 分或以上成绩的人数比例 成效 六年级学生在数学和自然科学标准化考 试中成绩高于基准数据的人数比例 摇 摇 资料来源: Kusek 和 Rist, 2004 第四步: 收集指标的基准数据 对实现成效的进展 ( 或缺乏进展 ) 的衡量, 要从对初始状态的描述和衡量开始。 收 集基准数据一般是对指标的第一次衡量, 找出 “ 我们今天是什么样子的?冶 。 绩效基准数据提供了干预措施启动时 ( 或刚开始前 ) 的绩效指标的信息 ( 定性的或 定量的) 。 实际上, 选择指标时的一个考虑因素就是基准数据的可得性, 这决定了绩效是 否可依照基准数据进行跟踪。 基准数据的来源可以是一手的 ( 专门为该衡量体系收集 ) , 也可以是二手的 ( 因其他 原因而收集) 。 二手数据可以从组织、 政府或国际数据库中得到。 使用这样的数据可以节 省财力, 只要保证它们的确提供了所需要的信息。 如果后来发现二手数据来源不能满足评 第三章摇 建立结果导向的监测与评价体系 llll llllllll 1 2 3 4 5 6 7 8 9 0 1 收集指标的 基准数据  发 展 图 3郾 7摇 第四步: 收集指标的基准数据 评 价 价的需要, 那么再回过头来获取一手基准数据是相当有难度的。 的 准 基准数据的来源可能包括以下几个: 备 誗 书面记录 ( 纸质的或电子的) 与 誗 参与项目、 计划或政策的个人 实 施 誗 公众 誗 训练有素的观察员 誗 机械测量和测试 摇 83 誗 地理信息系统 一旦选定指标的基准数据来源, 那么评价人员就要决定由谁来收集数据以及如何收 集。 他们寻找和开发数据收集工具, 如从文件和档案中收集信息的表格、 访谈底稿、 调查 问卷和观察工具。 在开发收集工具时, 需要考虑以下实际问题: 誗 目前有好的数据 ( 或者容易取得) 吗? 誗 能够常规并及时地获得数据以便跟踪进展吗? 誗 计划的一手数据收集方案可行吗? 节约成本吗? 收集数据有很多方法 ( 如第九章所述) , 从最不严格的、 最不正式的、 成本最低廉的 方法, 到最严格的、 最正式的、 最耗费成本的方法 ( 见图 3郾 8) 。 与关键知情 者面谈 组群 与相关 普查 人员交谈 焦点组 一次性 社区 参与式 访谈 普查 访谈 查阅官方 观察   人口 ( 管理 数据  直接 普查 实地 信息系统 观察 调研 和行政管 理数据) 现场 问卷 试验 调查 低结构性的方法 非正式/ 正式的/   高结构性的方法 图 3郾 8摇 数据收集方法图谱 资料来源: Kusek 和 Rist, 2004 通向结果之路: 有效发展评价的设计与实施 llll llllllll 表 3郾 4 展示的是为某教育政策确定成效的第三步: 确定基准。 摇 表 3郾 4 绩效框架示例: 成效、 指标和基准 成效 指标 基准 具体目标 城市 适 龄 儿 童 接 受 学 前 1999 年 城 市 儿 童 接 受 学 发 使全 国 有 更 多 的 儿 童 加 教育的比例 前教育的比例为 75% 展 入学前教育计划 评 农村 适 龄 儿 童 接 受 学 前 2000 年 农 村 儿 童 接 受 学 价 教育的比例 前教育的比例为 40% 的 准 六年 级 学 生 在 数 学 和 自 2002 年 在 数 学 和 自 然 科 备 然科 学 标 准 化 考 试 中 得 学考试中取得 70 分或以 与 到 70 分或以上成绩的人 上成 绩 的 学 生 比 例 分 别 实 数比例 为 47% 和 50% 施 提高 儿 童 小 学 学 习 的 成效 六年 级 学 生 在 数 学 和 自 2002 年 六 年 级 学 生 数 学 然科 学 标 准 化 考 试 中 成 摇 84 绩高 于 基 准 数 据 的 人 数 和自 然 科 学 平 均 成 绩 分 别为 68 分和 53 分 比例 摇 摇 资料来源: Kusek 和 Rist, 2004 第五步: 为改善绩效进行规划———选择切合实际的具体目标 为改善绩效进行规 划——选择切合实 际的具体目标 1 2 3 4 5 6 7 8 9 0 1 图 3郾 9摇 第五步: 为改善绩效进行规划———选择切合实际的具体目标 下一 步———确 立 目 标———是 建 立 绩 效 框 架 的 最 后 一 个 步 骤。 根 据 Kusek 和 Rist (2004, 第 91 页) , “ 从本质上说, 目标是一个国家、 社会或组织在既定的时间内希望达 到的具体指标冶 。 国际发展项目中大多数成效和几乎所有的影响都是复杂的, 只有经过很长时期才会是 现。 因此, 需要确立中期的目标, 明确地展示与预期的成效距离多远、 时间节点如何, 以 及获得资源的状况。 衡量目标实现状况时, 可能使用直接和间接的指标, 也会使用定量和 定性的数据。 人们可以考虑将变革理论模型中的影响作为干预措施力争实现的长期终极目标。 成效 是人们期望在特定的、 现实的 ( 政治的和财务的 ) 时间框架内实现的一套连续可行的目 标 ( 相对于基准) 。 换一种说法, 如果一个组织能够随着时间的推移实现目标, 那么这个 第三章摇 建立结果导向的监测与评价体系 llll llllllll 组织就会取得成效 ( 前提是它有一个好的变革理论而且成功实施了这个变革理论) 。 在确定目标指标时, 清楚理解以下几点是非常重要的: 誗 初始状态的基准数据 ( 比如, 过去三年的平均值、 去年的数值、 平均趋势) 誗 变革理论和将其分解成一系列有时间限定的成果的方法 誗 实现目标的时间框架内的财力和人力水平 誗 预计能补充该项目现有资源的外部资源 发 誗 相关的政治考虑 展 评 誗 在某些领域实施项目和计划的组织 ( 特别是管理上的) 经验 价 图 3郾 10 展示了如何环环紧扣地确定要实现的目标的最终取得预期成效。 的 准 指标的基 预计的改善水平 具体的绩效目标 备 与 实 准水平 假设投入、活动 特定时期内所要 施 和产出的期望 达到的预定绩效                   水平是给定的 水平 图 3郾 10摇 识别期望的或理想的改善水平需要确定绩效目标 摇 85 资料来源: Kusek 和 Rist, 2004 对于每一项指标, 都应该只设定一个目标。 如果这个指标以前从未使用过, 那么评价 人员就不要设置一个具体的数值, 而是设置一个值域区间。 应该设定中期目标 ( 不超过 三年) , 并且有现实可行的实现目标的时间表。 大多数目标是年度目标, 也有一些为季度 目标或较长时期目标。 表 3郾 10 展示了为某教育政策确定成效的最后一个步骤: 确定绩效目标。 这个完整的 矩阵现在成为绩效框架。 它定义了成效, 并为评判项目的成效是否得以成功实现提供了一 个架构。 这个框架决定了结果导向的 M&E 体系的设计, 而 M&E 体系将会提供在实现长 期成效的过程中中期目标是否达成的信息。 这个框架帮助评价人员设计评价方案。 它还可以协助管理人员做预算、 分配资源、 配 备人力和其他工作。 管理人员应该经常检查这个框架, 确保项目、 计划或政策向着期望的 成效迈进。 绩效目标对于确保政策取得成效尤为重要。 在确定基准和理想的改善水平时, 使用参 与性的共同合作的流程, 是结果导向的 M&E 的关键。 摇 表 3郾 5 绩效框架样本: 成效、 指标、 基准和目标 成效 指标 基准 具体目标 城市 适 龄 儿 童 接 受 学 前 1999 年 城 市 儿 童 接 受 学 2006 年 城 市 儿 童 接 受 学 使全国有更多的 教育的比例 前教育的比例为 75% 前 教 育 的 比 例 要 达 儿童加入学前教 到 85% 育计划 农村 适 龄 儿 童 接 受 学 前 2000 年 农 村 儿 童 接 受 学 2006 年 农 村 儿 童 接 受 学 教育的比例 前教育的比例为 40% 前 教 育 的 比 例 要 达 到 60% 通向结果之路: 有效发展评价的设计与实施 llll llllllll 续表 成效 指标 基准 具体目标 六年 级 学 生 在 数 学 和 自 2002 年 在 数 学 和 自 然 科 2006 年 之 前 在 数 学 和 自 然科 学 标 准 化 考 试 中 得 学考试中取得 70 分或以 然科学 考 试 取 得 70 分 或 到 70 分或以上成绩的人 上成 绩 的 学 生 比 例 分 别 以上成绩的学生比例要分 发 提高儿童小学学 数比例 为 47% 和 50% 别达到 80% 和 67% 展 习的成效 六年 级 学 生 在 数 学 和 自 2002 年 六 年 级 学 生 数 学 2006 年 数 学 和 自 然 科 学 评 然科 学 标 准 化 考 试 中 成 和自 然 科 学 平 均 成 绩 分 平均 成 绩 分 别 要 达 到 78 价 绩高 于 基 准 数 据 的 人 数 别为 68 分和 53 分 分和 65 分 的 比例 准 备 摇 摇 资料来源: Kusek 和 Rist, 2004 与 实 第六步: 结果导向的监测 施 摇 86 1 2 3 4 5 6 7 8 9 0 1 结果导向 的监测 图 3郾 11摇 第六步: 结果导向的监测 结果导向的 监 测 体 系 跟 踪 实 施 ( 投 入、 活 动、 产 出 ) 和 结 果 ( 成 效 和 影 响 ) 。 图 3郾 12 展示的是各种监测类型是如何与变革理论模型搭配的。 每项成效都由大量的指标组成, 每个指标都有一个具体目标。 为了实现这些目标, 需 要协调和管理一系列行动和战略 ( 见图 3郾 13) 将实施过程的监测与结果监测联系起来是很重要的。 图 3郾 14 提供了降低儿童死亡率 的例子。 与合作伙伴一起工作, 越来越成为发展工作的规范。 作为实现目标的战略的一部分, 许多处于图 3郾 15 中最底层的合作伙伴, 很有可能为投入、 活动和产出作出贡献。 有效的 M&E 体系必须有预算、 员工计划和活动计划支持。 建立一个有效的 M&E 体 系涉及以下管理工作, 包括以下几点: 誗 编制数据收集、 分析和汇报的指南 誗 指定相关评价活动的负责人 誗 建立质量控制的方式 誗 编制时间表和估算成本 誗 通过政府、 其他发展合作伙伴和民间团体开展工作 誗 制定关于信息和分析的透明度和散发的指南 为了确保成功, 所有的 M&E 体系都要考虑以下几点: 誗 所有权 第三章摇 建立结果导向的监测与评价体系 llll llllllll 影响 结果 结果监测 成效 发 展 产出 评 价 的 实施情况监测 准 实施情况 活动 (手段和策略) 备 与 实 投入 施 图 3郾 12摇 监测的主要类型 摇 87 资料来源: Kusek 和 Rist, 2004 成效 监测结果 具体目标1 具体目标2 具体目标3 方法和策略 方法和策略 方法和策略 (多年期和年度工作 (多年期和年度工作 (多年期和年度工作 监测实施 计划) 计划) 计划) 图 3郾 13摇 过程监测与结果监测间的联系 资料来源: Kusek 和 Rist, 2004 誗 管理 誗 维护 誗 可信度 第七步: 使用评价信息 在通过监测获取成效和影响实现进程的信息后, 下一项重要工作是评价。 监测揭示的 是我们所做的与指标、 目标和成效之间的对比, 评价揭示的是: 誗 我们在做正确的事情 ( 战略) 誗 我们以正确的方式做事情 ( 运作) 通向结果之路: 有效发展评价的设计与实施 llll llllllll   影响 降低儿童死亡率 成效 降低儿童死亡率 发 目标 在三年时间里,儿童胃肠道疾病患病率 展 0 比基准数据下降2%  评 价 l 改进霍乱预防计划 的 l 提供维生素A l 使用口服补液疗法 工具和战略 准 备 与 图 3郾 14摇 过程监测与结果监测相联系的例子 实 资料来源: Kusek 和 Rist, 2004 施 影响 摇 88 成效 成效 成效 具体目标1 具体目标2 方法与策略 方法与策略 方法与策略 合作伙伴1 合作伙伴1 合作伙伴1 合作伙伴2 合作伙伴2 合作伙伴2 合作伙伴3 合作伙伴3 合作伙伴3 图 3郾 15摇 通过合作取得结果 资料来源: Kusek 和 Rist, 2004 誗 还有更好的做事情的方式 ( 学习) 评价能够指出单纯的监测体系没有发现的许多重要问题。 例如, 有一些干预措施是在 相关问题或事项的因果假定前提下设计的。 运用基于变革理论的评价和逻辑模型 ( 如第 四章所讨论) , 评价能够肯定或质疑这些假定条件是否成立。 评价还能从监测体系中找出 有趣的或令人头痛的结果或趋势 ( 例如, 发现为什么在农村女孩比男孩更早辍学) 。 除监测外, 在以下情况出现时需要进行评价: 誗 任何出现非预期结果并且需要进一步调查研究时 第三章摇 建立结果导向的监测与评价体系 llll llllllll 使用评价 信息 1 2 3 4 5 6 7 8 9 0 1 发 图 3郾 16摇 第七步: 使用评价信息 展 评 誗 在不同项目、 计划或政策之间进行资源或预算分配时 价 的 誗 正在进行是否扩大试点范围决策时 准 誗 长期内未取得绩效改善, 并且原因不明时 备 誗 类似计划或政策报告的成效各不相同时, 或当有关相同成效的指标显示出不同的 与 实 趋势时 施 誗 试图了解干预措施的副作用时 誗 了解所做工作的好处、 价值和意义时 誗 进行成本收益分析时 摇 89 如果政府和组织依赖由 M&E 体系收集的信息, 那么必须保证这些信息的质量和可靠 性。 质量差、 不准确的和有偏差的信息对于任何人都是无用的。 第八步: 报告评价发现 1 2 3 4 5 6 7 8 9 0 1 报告评价 发现 图 3郾 17摇 第八步: 报告评价发现 作为 M&E 的一项重要工作, 需要确定评价结果的报告对象、 报告格式, 以及报告时 间等。 需要分析和报告的数据有: 誗 提供项目、 计划和政策现状的信息 誗 提供问题线索 誗 为考虑改进 ( 项目、 计划或政策) 实施策略创造机会 誗 提供有关趋势和方向方面的重要信息 誗 帮助证实或质疑项目、 计划或政策背后的变革理论 评价人员必须确保找出项目、 计划和政策的关键决策点, 这样很容易就知道监测与评 估的发现在哪些时间点对于决策者是最重要的。 如果很晚才提供数据和分析, 那么就无法 影响决策。 不管是正面的还是负面的, 所有重要的结果都应该汇报 ( 见表 3郾 6) 。 一个好的 M&E 通向结果之路: 有效发展评价的设计与实施 llll llllllll 体系除了证明干预措施的价值之外, 还应为所觉察的问题或矛盾提出早期预警。 绩效报告 应该包括差的或令人失望的结果, 应该记录所有已经开展的解决这些问题的步骤。 在分析和讲述数据时, 评价人员应该: 誗 将指标数据同基准数据和目标数据进行比较, 并以容易理解的图表形式呈现这些 信息 ( 见第十三章) 发 誗 对比当前信息与过去数据, 找出模式和趋势 展 誗 注意避免根据不充分的信息得出有失偏颇的结论 ( 收集的数据越多, 评价人员越 评 价 能够肯定趋势的真实性) 的 誗 保护信息提供者: 提供坏消息的人不应该受到惩罚 ( 不满意的评价发现能够提示 准 项目的新动向或在早期向管理者提示问题, 使他们有时间解决这些问题。) 备 与 摇 表 3郾 6 成效报告表样本 实 施 成效指标 基准 当前 目标 差额 ( 目标 - 当前) 肝炎率 ( N = 6 000) 30 35 20 - 15 摇 90 整体 健 康 状 况 改 善 的 儿 20 20 24 -4 童百分比 ( N = 9 000) 体检 中 得 4 分 ( 满 分 为 正 5 分) 的 儿 童 百 分 比 50 65 65 0 ( N = 3 500) 营养 状 况 改 善 的 儿 童 百 80 85 83 2 分比 ( N = 14 000) 摇 摇 资料来源: Kusek 和 Rist, 2004 第九步: 使用评价发现 使用评价 发现 1 2 3 4 5 6 7 8 9 0 1 图 3郾 18摇 第九步: 使用评价发现 M&E 体系的关键在于, 不要简单地生成结果导向的信息, 而是要将这些信息及时地 传递给恰当的使用者, 以便他们能够在管理项目、 计划或政策时考虑 ( 或选择忽略 ) 这 些信息。 发展合作伙伴和公民社会淤在使用这些信息增强责任、 提高透明度和改善资源分 淤 公民社会: 包括非政府组织、 宗教团体、 工会组织、 土著民族组织、 慈善机构、 社区团体和私人基金会等, 近年来, 社会治理和全球化的发展迅速扩大了全球公民社会的规模、 范围和能力。 ( 译者注) 第三章摇 建立结果导向的监测与评价体系 llll llllllll 配流程方面能起到重要作用。 以下是可在各级政府部门运用的用于分享信息的部分策略: 誗 授权媒体。 媒体可以帮助传播结果导向的 M&E 体系的发现。 它们还能帮助揭露腐 败, 号召更好的治理。 誗 立法保障信息自由。 信息的自由是指能与关键利益相关者分享信息。 誗 建立电子政府。 电子政府包括使用信息技术增加可达性、 扩大服务范围、 提供更 发 好的信息和服务。 电子政府使利益相关者能够与政府直接互动, 以获得信息, 甚 展 评 至进行网上交易。 价 誗 将信息添入内部和外部的互联网文件。 信息的分享可以通过在内部 ( 机构或政府) 的 和外部网站上张贴信息、 公开发布绩效结果来实现。 许多机构还开发了可搜索的 准 M&E 发现数据库。 备 与 誗 公开年度预算报告。 说明纳税人的钱如何被使用的最好方式就是公开预算。 这样 实 做可以使公民观察政府所提供的服务质量和水平, 以及政府对于特定服务或项目 施 的优先顺序。 誗 鼓励公民社会和公众群体参与。 公民社会和公众群体的参与能鼓励这些群体更加 摇 91 以行动为导向、 更加负责任, 也使他们更容易认同自己所需的信息。 誗 加强立法监督。 许多国家的立法机构, 无论是发达国家还是发展中国家, 作为监 督工作的一部分, 都要求提供有关绩效的信息。 他们需要确保预算是否有效使用。 誗 加强审计署的职能。 审计署是判断政府工作是否有效的一个重要的合作伙伴。 由 于审计机构需要了解更多的关于公共部门是否有效开展工作的信息, 因此促使项 目、 计划和政策能够更加有效的实施。 誗 与发展合作伙伴分享和比较评价发现。 作为国家减贫战略和类似战略和政策的结 果, 发展合作伙伴 ( 特别是双边和多边的援助机构 ) 正在分享和比较评价的结果 和发现。 理解绩效信息对于各种使用者的用途, 是当初建立 M&E 体系的一个重要原因。 社会上 有些关键的潜在使用者, 如公民、 非政府组织和私人部门, 常常被排除在信息流之外。 M&E 数据既有内部 ( 政府) 也有外部 ( 社会) 用途, 需要加强认识并立法 ( 见专栏 3郾 3)。 专栏 3郾 3摇 评价发现的十个用途 誗 应对官员和公众提出的针对问责机制的要求 誗 帮助编制和复核预算 誗 帮助作出项目资源分配决策 誗 引发对 ( 运用变革理论或实施过程中) 存在的绩效问题及改进进行深入研究 誗 有助于激励工作人员对计划进行持续性改进 誗 监测承包人和受让人的绩效 ( 他们说自己有多繁忙的借口就行不通了) 誗 为特殊而深入的项目评价提供数据 通向结果之路: 有效发展评价的设计与实施 llll llllllll 摇 摇 誗 帮助跟踪提供的服务是否与明确的成效目标一致 ( 我们做事情的方式正确吗?) 誗 支持战略性的和其他长期性的规划工作 ( 我们在做正确的事情吗?) 誗 更好地与公众进行沟通, 从而建立公众信任 资料来源: Hatry 1999 发 第十步摇 在组织内部维持监测与评价体系 展 评 价 的 准 1 2 3 4 5 6 7 8 9 0 1 备 与 实 在组织内部 施 维持监测与 评价体系 图 3郾 19摇 第十步: 在组织内部维持监测与评价体系 摇 92 确保结果导向的 M&E 体系的可持续性和效用是一个挑战。 对于可持续性而言, 以下 六个方面很重要: 誗 需求 誗 清晰的角色和责任 誗 可靠和可信的信息 誗 问责 誗 能力 誗 激励机制 每个方面都需要得到长期持续的关注, 以确保这个体系的生命力。 需求 以下几种方式有助于形成和保持对 M&E 的需求: 誗 以正式的组织结构建立 M&E 体系, 要求对绩效结果做定期的汇报 ( 例如要求各部 门做年度绩效汇报) 誗 通过媒体公布 M&E 的信息, 在政府机构、 公民团体、 援助机构和社会公众中产生 需求 誗 将战略转换为具体的目标和指标, 对组织的战略方向有兴趣的人就能够跟踪目标 的实现进程 清晰的角色和责任 将 M&E 体系机制化的一项最重要的措施就是清晰、 正式地明确规定各组部门收集、 分析和报告绩效信息的权力和责任。 这项工作要求: 誗 发布指南, 明确由谁负责 M&E 体系的哪个部分的工作, 并将这项工作与个人业绩 第三章摇 建立结果导向的监测与评价体系 llll llllllll 考核挂钩 誗 建立一个联系中央规划与财政及相关部门的体系, 鼓励将预算分配与 M&E 信息提 供挂钩, 即本质上建立一个绩效预算体系 誗 建立一个各个层次对信息都有需求的体系 ( 即这个体系里没有哪个部门会不认真 使用所得到的信息) 发 可靠和可信的信息 展 评 绩效信息体系必须既能生成好的消息又能生成坏的消息。 这个体系生成的信息应该是 价 透明的, 并接受过独立的核查 ( 例如, 由国家级的政府审计部门或大学教授组成的独立 的 小组评审过) 。 相应地, 信息的提供者需要得到保护, 以免受到政治报复。 准 备 问责 与 实 应该找到一些途径, 可以与对绩效感兴趣的外部利益相关者透明地分享信息。 需要考 施 虑的关键利益相关者群体包括民间组织、 媒体、 私人部门和政府。 能力 摇 93 进行就绪度评估、 重视组织能力, 这是建立 M&E 体系首先要考虑的问题。 这里需要 具备的关键能力包括: 合理的数据收集和分析能力、 战略目标设定和组织发展能力、 现有 数据收集和处理体系、 财力可持续的程度以及监测与评价的机构经验。 激励机制 需要引入激励机制以鼓励绩效数据的使用。 成功了就要得到表扬和奖励, 有问题就要 被指出。 不要惩罚信息提供者, 必须重视组织学习, 还要分享节约的预算。 不能指望腐败 或低效的体系提供高质量的信息和分析。 结论 在建立 M&E 体系时, 并非必须完全按照这十个步骤, 也可以制定出多几个或少几个 步骤的策略。 问题是要确保识别关键的职责和活动, 并按照符合逻辑的方式进行组合, 然 后按照合适的顺序实施。 结果导向的 M&E 体系是强有力的管理工具。 这一体系能帮助推进政府和组织运作方 式的变革。 还能帮助建立关于有效做法和无效做法的知识库。 结果导向的 M&E 体系应该是循环的。 它必须得到持续的关注、 资源投入和政治承 诺。 从文化上转变为结果导向需要花时间, 但是为此而付出是值得的。 能力建设的需求永无止境, 一个组织驻足不前, 只会每况愈下。 以下步骤可以帮助建 立结果导向的 M&E 体系, 并确保其持续有效。 誗 争取拥护者并向其提供帮助 誗 使财政部和立法机构理解, 结果导向的 M&E 体系就跟预算体系一样需要持续的资 通向结果之路: 有效发展评价的设计与实施 llll llllllll 源投入 ( 分配给 M&E 体系的资源应该大致与分配给预算体系的一样多) 誗 抓住每一个机会, 将结果信息与预算和资源分配决策联系起来 誗 从试点工作开始, 展示有效的结果导向的 M&E 体系 誗 从试点开始, 逐步展示有效的面向结果的监测: 例如, 先从局部范围开始 ( 如局 部创新) , 而不是一下子就在整个政府范围内建立这样的系统 发 誗 对实施过程和取得的结果都要实施监测 展 誗 在绩效监测的同时进行评价, 确保更好地理解公共部门的结果 评 价 一旦评价的框架建立起来 ( 第七步) , 这个框架就可以被用于构建变革理论、 选择方 的 法、 开始设计问题, 以及选定评价设计。 这些问题都将在第四章至第七章论述。 准 备 与 小摇 摇 结 实 詪詪詪詪詪詪 施 结果导向的 M&E 体系是非常有价值的工具, 可以协助政策制定者和决策者跟踪项 目、 计划和政策的成效和影响。 与传统评价不同, 结果导向的 M&E 体系超越了对投入和 摇 94 产出的关注, 把重点放在成效和影响上。 对于任何绩效考核体系而言, 这都是很重要的结 构安排。 结果导向的 M&E 体系: 誗 在开始一项倡议前, 使用基础数据描述一个问题 誗 跟踪致力于实现的成效指标 誗 收集关于投入、 活动和产出及其对于成效实现贡献的数据 誗 评估所采用的变革理论的严谨度和合适度 誗 向利益相关者做系统的汇报 誗 与战略合作伙伴共同实施 誗 获取关于实现预期结果方面合作伙伴战略成败的信息 誗 作为管理工具, 不断地提供可信的和有用的信息。 在设计和建立结果导向 M&E 体系时, 可考虑以下十个步骤: 1郾 实施就绪度评估 2郾 对要监测与评价的成效达成统一意见 3郾 选择关键指标对成效实施监测 4郾 收集指标的基准数据 5郾 为改善绩效进行规划———选择切合实际的具体目标 6郾 结果导向的监测 7郾 使用评价信息 8郾 报告评价发现 9郾 使用评价发现 10郾 在组织内部维持监测与评价体系 建立和维护结果导向的 M&E 体系并不容易。 它需要持续不断的承诺、 带头人、 时 第三章摇 建立结果导向的监测与评价体系 llll llllllll 间、 努力和资源, 还牵涉到组织、 技术和政治上的变革。 最初的体系或许需要经过几次修 改才能适合组织的需要。 不过, 这件事情值得如此付出。 练习 3郾 1摇 理清逻辑关系 你的组织是否做好了设计和实施结果导向的 M&E 体系的准备? 从以下几个方面对你 发 的组织评级, 并解释你这样评级的理由。 与一位同事讨论实施障碍以及解决办法。 展 评 1郾 激励机制 ( 圈出恰当的评级) 价 ( A) 很多激励摇 摇 ( B ) 少量激励摇 摇 ( C ) 一些约束 的 评论: 准 备 改进策略: 与 2郾 角色和责任 ( 圈出恰当的评级) 实 ( A) 非常清晰摇 摇 ( B ) 有些清晰摇 摇 ( C ) 非常不清晰 施 评论: 改进策略: 摇 95 3郾 组织能力 ( 圈出恰当的评级) ( A) 很强摇 摇 ( B ) 足够摇 摇 ( C) 弱 评论: 改进策略: 4郾 障碍 ( 圈出恰当的评级) ( A) 没有障碍摇 摇 ( B ) 很少障碍摇 摇 ( C ) 很大的障碍 评论: 改进策略: 3郾 2摇 识别投入、 活动、 产出、 成效和影响 以下的陈述哪些是投入、 活动、 产出、 成效, 或是长期影响? 如果可能, 与一位同事 讨论, 解释你区分以下陈述的依据。 1郾 妇女拥有的小企业对减少其所在社区的贫困起到很重要的作用。 2郾 政府为小企业贷款提供资金支持。 3郾 政府批准了来自项目结业人员的 61 项申请。 4郾 教育部找到课程培训师。 5郾 七十二名妇女完成了培训。 6郾 完成培训后的第一年, 结业人员的收入提高了 25% 。 7郾 一百名妇女参加了小企业管理培训。 8郾 可以申请小企业贷款的消息向社区公布。 3郾 3摇 开发指标 1郾 找出一个你熟悉的计划或政策。 它努力取得的主要影响是什么? 如果该干预措施 没有偏离实现这个影响的轨道, 那么你预计会产生哪两个成效? 通向结果之路: 有效发展评价的设计与实施 llll llllllll 摇 摇 影响: 成效一: 成效二: 2郾 从这些成效着手, 找出两到三个你会用于跟踪这些成效和影响进展的指标。 成效一: 发 摇 指标 a: 展 摇 指标 b: 评 价 摇 指标 c: 的 成效二: 准 摇 指标 a: 备 与 摇 指标 b: 实 摇 指标 c: 施 影响: 摇 指标 a: 摇 指标 b: 摇 96 摇 指标 c: 名词解释 成效: 一个项目、 计划或者政策产生的好处 ( 包括行为或组织变革, 并且不能通过 购买获得) 结果导向的监测: 为考核项目进展而收集和分析与关键指标相关的信息的持续过程 目标: 在一定的时间期限内在某一指标上可实现的可以计量的变化 指标: 系统地跟踪、 揭示目标的实现进展情况的度量标准 结果导向的评价: 对一项计划中的、 正在实施的或已经完成的干预措施进行的评价, 从而判定其相关性、 效率、 有效性、 影响和可持续性 影响: 一系列结果达到时实现的长期效益 ( 结果) ( 千年发展目标就是影响的表述) 传统的监测与评价: 重点关注项目或计划实施的监测和评价 结果导向的监测与评价: 将结果的评估与传统的监测相结合的监测和评价 变革理论: 关于一项干预措施如何引至期望结果的理论 参考书目 1郾 Binnendijk, Annette郾 2000郾 “ Results鄄Based Management in the Development Coopera鄄 tion Agencies: A Review of Experience郾 冶 Paper prepared for the OECD / DAC Working Party on Aid Evaluation, Paris, February 10 - 11 ( revised October 2000 ) . 2郾 Boyle, R郾 , and D郾 Lemaire, eds郾 1999郾 Building Effective Evaluation Capacity郾 New Brunswick, NJ: Transaction Books郾 3郾 IFAD ( International Fund for Agriculture Development ) . 2002郾 A Guide for Project M&E: Managing for Impact in Rural Development郾 Rome郾 www郾 ifad郾 org / evaluation / guide / 郾 第三章摇 建立结果导向的监测与评价体系 llll llllllll 4郾 Furubo, Jan鄄Eric, Ray C郾 Rist, and Rolf Sandahl, eds郾 2002郾 International Atlas of Evaluation郾 New Brunswick, NJ: Transaction Books郾 5郾 Hatry, Harry P郾 1999郾 Performance Measurement: Getting Results郾 Washington, DC : Ur鄄 ban Institute Press郾 6郾 Khan, M郾 Adil郾 2001郾 A Guidebook on Results鄄Based Monitoring and Evaluation: Key Concepts, Issues and Applications郾 Government of Sri Lanka, Ministry of Plan Implementation, 发 Monitoring and Progress Review Division, Colombo郾 展 评 7郾 Kusek, Jody Zall, and Ray C郾 Rist郾 2001郾 “ Building a Performance鄄Based Monitoring 价 and Evaluation System: The Challenges Facing Developing Countries郾 冶 Evaluation Journal of 的 Australasia 1 ( 2 ) : 14 - 23郾 准 备 ———郾 2003郾 “ Readiness Assessment: Toward Performance Monitoring and Evaluation in the 与 Kyrgyz Republic郾 冶 Japanese Journal of Evaluation Studies 31 ( 1 ) : 17 - 31郾 实 ———郾 2004郾 Ten Steps to Building a Results鄄Based Monitoring and Evaluation System郾 施 Washington, DC : World Bank郾 8郾 Malik, Khalid, and Christine Roth, eds郾 1999郾 Evaluation Capacity Development in 摇 97 Asia. United Nations Development Programme Evaluation Office, New York郾 9郾 Osborn, David, and Ted Gaebler郾 1992郾 Reinventing Government郾 Boston: Addison鄄Wes鄄 ley Publishing郾 10郾 OECD ( Organisation for Economic Co鄄operation and Development ) . 2002郾 Glossary of Key Terms in Evaluation and Results鄄Based Management郾 Development Co鄄operation Directorate and Development Assistance Committee郾 Paris郾 11郾 Schiavo鄄Campo, Salvatore郾 1999郾 “ ‘ Performance爷 in the Public Sector郾 冶 Asian Jour鄄 nal of Political Science 7 ( 2 ) : 75 - 87郾 12郾 UNPF ( United Nations Population Fund) . 2002郾 Monitoring and Evaluation Toolkit for Program Managers郾 Office of Oversight and Evaluation郾 www郾 unfpa郾 org / monitoring / toolkit郾 htm郾 13郾 Valadez, Joseph, and Michael Bamberger郾 1994郾 Monitoring and Evaluation Social Programs in Developing Countries: A Handbook for Policymakers, Managers, and Researchers郾 Washington, DC : World Bank郾 14郾 Weiss, Carol郾 1972郾 Evaluation Research: Methods for Assessing Program Effectiveness郾 Englewood Cliffs, NJ: Prentice Hall郾 15郾 Wholey, Joseph S郾 , Harry Hatry, and Kathryn Newcomer郾 2001郾 “ Managing for Re鄄 sults : Roles for Evaluators in a New Management Era郾 冶 American Journal of Evaluation 22 ( 3 ) : 343 - 47郾 16郾 World Bank郾 1997郾 World Development Report: The State in a Changing World郾 Wash鄄 ington, DC郾 网址 1郾 IDRC ( International Development Research Centre ) . 2004郾 Evaluation Planning in Pro鄄 通向结果之路: 有效发展评价的设计与实施 llll llllllll gram Initiatives郾 Ottawa郾 http: / / web郾 idrc郾 ca / uploads / user鄄S / 108549984812guideline鄄web郾 pdf郾 2郾 IF AD ( International Fund for Agricultural Development) . Practical Guide on Monitoring and Evaluation of Rural Development Projects郾 http: / / www郾 ifad郾 org / evaluation / oe / process / guide / index郾 htm郾 3郾 Kellogg Foundation郾 1998郾 Evaluation Handbook郾 http: / / www郾 wkkf郾 org / Pubs / Tools / 发 Evaluation / Pub770郾 pdf郾 展 4郾 Specialist Monitoring and Evaluation Web Sites郾 http: / / www郾 mande郾 co郾 uk / special鄄 评 价 ist郾 htm郾 的 5郾 Uganda Communications Commission郾 2005郾 “ Monitoring and Evaluation郾 冶 In Funding 准 and Implementing Universal Access: Innovation and Experience from Uganda郾 International Devel鄄 备 与 opment Research Centre, Ottawa郾 http: / / www郾 idrc郾 ca / en / ev鄄88227 - 201 - 1 - DO _ 实 TOPIC郾 html郾 施 6郾 World Bank郾 Core Welfare Indicators Questionnaire郾 Washington, DC郾 http: / / www4. worldbank郾 org / afr / stats / cwiq郾 cfm郾 ———郾 2001郾 Tools: Capturing Experience Monitoring and Evaluation郾 Upgrading Urban 摇 98 Communities Resource Framework, Washington, DC郾 http: / / web郾 mit郾 edu / urbanupgrading / up鄄 grading / issues鄄tools / tools / monitoring鄄eval郾 html#Anchor鄄Monitoring - 56567郾 ———郾 2008郾 Online Atlas of the Millennium Development Goals: Building a Better World郾 Washington, DC郾 http: / / devdata郾 worldbank郾 org / atlas鄄mdg / 郾 第四章 摇 预期评价背景与项目变革理论 本章以及第五章将重点研究如何规划评价。 本章探讨评价的前期准备问题, 即评价工 作如何开始。 评价在设计上越是计划周全, 就越可能按照时间和预算完成, 越可能满足客 户和利益相关者的需求。 前期分析主要是梳理和总结过去的经验教训, 确认或者质疑项目 背后的变革理论, 明确影响项目的环境。 本章包括五个主要部分: 誗 前期分析 誗 确定主要客户和关键利益相关者 誗 理解评价背景 誗 发掘已有知识 誗 变革理论的构建、 使用和评估 前期分析 詪詪詪詪詪詪 从哪里开始呢? 如果你想要到达正确的目的地, 最好从寻找前进的方向和了解其他人 对通往目标之路的已知知识开始。 你需要收集关键信息, 决定时间、 成本、 风险和流程。 前期分析是对一个事件或问题进行调查, 确认已知信息, 研究如何制定评价方法, 是 评价人员为弄清应如何开展工作而进行的分析工作。 在前期分析中, 评价人员对下列问题进行调查: 誗 谁是评价的主要客户? 谁是其他重要利益相关者? 他们对评价提出哪些问题? 誗 项目、 计划或政策实施的评价时机选择会对评价产生什么影响? 誗 有多少时间可用来完成评价? 誗 已有资源的质量和程度如何? 誗 社会科学理论适用于评价吗? 誗 对类似计划的评价有何发现? 他们提出了哪些问题? 誗 项目、 计划或政策背后的变革理论是什么? 誗 哪些已有数据可用于本次评价? 很多评价人员都等不及完成评价规划就匆忙开始收集数据。 他们试图一边收集资料一 通向结果之路: 有效发展评价的设计与实施 llll llllllll 边进行摸索。 但是, 较好地完成前期分析对于了解干预措施至关重要。 它能节省花费在评 价上的时间和金钱, 确保评价符合客户需求, 并与客户和关键利益相关者建立联系。 更重 要的是, 一个好的前期分析能确保评价是在针对正确的问题收集信息, 而不是在收集永远 不会被使用的数据。 在评价工作开始时, 很多评价人员总喜欢做一些假定, 而有些假设可能是不正确的。 发 比如, 他们会假定有一个丰富的数据库, 而实际上数据却很匮乏; 他们会假定有经验丰富 展 的、 对国家情况很了解的顾问来帮助他们进行评价, 却发现他们打算依靠的人正为其他项 评 价 目忙得不可开交。 因此, 需要有一个探索期来了解数据和其他资源是否存在。 的 前期分析还要确定联合评价是否适当和可行。 如果进行联合评价是有益且合适的, 就 准 需要进一步确定每个合作伙伴需要承担什么样的角色, 以及评价的时间等问题。 备 与 实 平衡评价的预期成本和效益 施 在进行前期规划时还需要测算并平衡评价的预期成本和效益。 一项评价活动可能带来 摇100 的效益包括: 誗 基于论据的决策: 可以帮助妥善决定那些需要扩大或复制的、 进一步完善的、 终 结或缩减的事项 誗 对知识库的贡献: 判定哪些知识在哪些情况下有用, 哪些没有用 誗 提升地方组织机构的能力 评价的成本也是一个重要问题, 应该从以下几个方面加以考虑: 誗 项目的成本 ( 比如, 耗费 5 万美元的资金去评价一个 2郾 5 万美元的项目是不太合 乎情理的) 誗 评价给项目受益人以及其他花费时间为评价提供信息或者以其他方式协助评价人 员的人带来的负担 誗 如果是因为对极具政治性和争议的项目进行评价, 或者是因为缺乏足够的时间进 行全面评价, 而使评价结果备受争议的话, 评价人员和评价机构需要承担的信誉 成本 前期规划阶段的认识误区 有人认为, 任何事情都能在前期考虑周全; 或者说, 只要进行了前期规划, 评价必将 进展顺利。 这种看法是前期规划阶段的一个潜在陷阱。 其他陷阱还包括: 誗 拒绝对原计划进行修改 ( Leeuw 2003) 誗 社会的麦当劳化——— “ 快餐业的原理开始统领美国社会以及整个世界越来越多的 行业的过程冶 ( Ritzer 1993, p郾 1) ( 这种说法尤其适用于以记事清单、 待办事项清 单和框架来代替深思和反思的情况) 誗 进行前期规划时脑海里自动冒出来的固有观念 ( “ 自明之理冶 ) ( 例如, 进行 “ 随 机实验冶 ? 不可能! 因为太复杂了, 成本太高了, 而且在这个发展背景下实施难度 第四章摇 预期评价背景与项目变革理论 llll llllllll 过大) 誗 “ 群体思维冶 ( 尽管对群体的立场持有异议, 但是保留个人意见按群体立场行事) 誗 对权威人士的看法过度重视 ( 自动按照建议人的身份来衡量建议的价值) 确定主要客户和关键利益相关者 发 詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪 展 评 前期分析的一个重要内容就是确定项目、 计划或政策的主要客户和关键利益相关者, 价 其中对后者的确认过程并不一定总是直接进行的。 的 准 备 主要客户 与 实 一般而言, 某一关键利益相关者或利益相关者团体发起或委托进行评价, 是评价产出 施 的主要接受者, 也是评价的主要客户。 该客户的需求将对评价产生重要影响。 评价的主要客户可能扮演多种角色: 摇101 誗 对项目进行批准和资助 誗 对评价进行批准和资助 誗 面对大众, 对干预活动承担责任 誗 评价人员对其负责 评价活动一般只有一个主要客户。 评价人员需要尽早拜访主要客户 ( 或客户代表, 如某个客户集团的代表可能是董事会 ) , 从他们的角度来确定评价要解决的问题。 会见 时, 评价人员应征询客户的时间要求以及评价的预期用途。 评价人员应先聆听客户的想 法, 再来考察并确定评价背后涉及的问题, 并在之后某一时间再来向客户汇报开展评价工 作的几个备选方案, 或者提出某一特别推荐的评价方法。 利益相关者 利益相关者是除客户之外与干预活动的利益相关的个人或组织。 一般而言, 他们是在 干预实施期间或之后受到干预活动影响的人。 考虑那些通常不会受邀参与评价的相关者范 围是非常重要的。 利益相关者可能包括: 誗 参与者 誗 直接受益人 誗 间接受益人 誗 提供资金援助的发展组织 誗 利益相关的政府官员和政府工作人员, 如规划者、 公共卫生护士等 誗 项目主任、 员工、 董事会成员、 项目经理和志愿者 誗 政策制定者 通向结果之路: 有效发展评价的设计与实施 llll llllllll 誗 社区和利益群体或协会, 包括与项目官员有着不同安排的那些团体 利益相关者通常从不同角度来看待一项干预活动。 捐赠机构关心的可能是, 钱是否花 费恰当, 干预是否有效。 项目经理则关心干预的管理是否妥善, 以及是否能从中获得经验 教训。 项目参与者或许想获得更多更好的服务。 政策制定者也许最关心干预是否能产生预 期影响。 评价圈中的其他人或许想复制或者扩大干预效果, 或者限制干预的负面后果。 有 发 多种关注点是一件好事情, 或许在前期讨论中就可初见端倪。 展 必须明确界定每个个体或团体在评价活动中的角色及其潜在的作用 ( 见表 4郾 1) 。 评 价 摇 表 4郾 1 利益相关者在评价中的角色 的 准 制定操 为评价提 感兴趣 备 利益相关者 制定政策 做出反应 作决策 供投入 而已 与 实 项目的开发者 施 项目的资助者 摇102 授权的官员、 董事会或机构 其他资源的提供 者 ( 设 备、 供 给、 实 物支持) 实施机构的负责人和高级经理 负责实施的项目经理 项目员工 监测员工 项目的直接受益人 项目的间接受益人 项目的潜在采纳者 被排除在项目之外的人 ( 因准入标准等) 受到项目或评价负面影响的人 因项目而失去权力的人 因项目失去机会的人 社区成员或大众 其他 摇 摇 资料来源: 作者 第四章摇 预期评价背景与项目变革理论 llll llllllll 关键利益相关者的确定与参与 关键利益相关者可以通过查找阅读与干预相关的文件以及同主要评价客户、 项目赞助 者、 项目员工、 地方官员和项目参与者谈话来确认。 可以先对利益相关者进行访谈, 或者 让他们组成几个小组。 在就评价相关问题联系利益相关者时, 评价规划者应清楚谈话的目 的是什么 ( 让利益相关者知道即将开展的评价活动, 请他们提供评价应解决的问题) 。 发 扩大评价的用途应从会见主要客户以及鼓动关键利益相关者参与评价设计开始。 这并 展 评 不会在评价报告完成并开始传播时自然而然地发生。 某些评价活动还会定期召集关键利益 价 相关者会面, 或者成立更加正式的组织架构。 例如, 评价经理可能会设立一个咨询或指导 的 委员会。 准 备 尽早让关键利益相关者参与评价活动可以使评价人员更加了解干预, 知道干预活动预 与 期实现的目标, 以及评价过程中会面临哪些问题与挑战。 评价小组将更加了解评价涉及的 实 问题、 需要的具体信息、 什么时间需要这些信息以及谁能提供这些信息。 与关键利益相关 施 者会谈能确保评价不会漏掉重大的关键问题。 同时, 让利益相关者知道他们提出的问题会 得到妥善考虑, 也会增加他们对评价工作的支持和兴趣。 评价的用途就是这样不断扩 摇103 大的。 利益相关者参与评价设计和实施的积极程度取决于多个因素, 包括资源因素和关系因 素。 例如, 利益相关者可能没法从他们的日常工作中抽出时间来参与评价活动, 或者由于 政治原因评价需要尽可能独立地进行。 进行利益相关者分析 目前已经推出了多个关于利益相关者分析的指南。 健康管理科学和联合国儿童基金会 (1998) 的网站上发布了 《 质量管理指南 》 , 该指南指出了影响评价成功的关键个人、 团 体和机构的确定和评估流程。 他们还提出了需要进行利益相关者分析的其他几个原因: 誗 确认能对评价产生 ( 正面或负面) 影响的个人、 团体和机构 誗 预计这些团体会对评价产生的正面或负面影响 誗 制定战略以获得最有效的支持和减少评价成功实施的障碍 专栏 4郾 1 介绍了进行利益相关者分析的一个模板。 它与表 4郾 1 类似, 但是它更加强调 如何增加对评价工作的支持和减少障碍。 进行分析时应尽量全面, 但是也不能过于全面。 如果把不相关的人也牵涉进来只会惹 恼他们。 有时评价人员让一个或多个利益相关者直接参与评价的规划和实施 ( 第五章将介绍 参与式评价) 。 在这种情况下, 评价人员要协调利益相关者在如下方面的参与: 誗 制定任务大纲 誗 遴选评价小组 誗 分析数据 誗 确认结果并得出结论和建议 ( Mikkelsen, 2005) 通向结果之路: 有效发展评价的设计与实施 llll llllllll 专栏 4郾 1摇 如何进行利益相关者分析 1郾 和同事集思广益, 确定会影响干预或被干预影响的个人、 团体和机构。 在表格 的 “ 利益相关者冶 一栏中将他们列出。 发 2郾 确定每个利益相关者对评价的特定兴趣。 考虑下列问题, 如评价给利益相关者 展 带来的潜在利益、 评价要求利益相关者做出的改变、 给利益相关者造成危害和冲突的项 评 目活动等。 将这些兴趣列入 “ 利益相关者对项目、 计划或政策的兴趣冶 一栏中。 价 的 3郾 确定每个利益相关者的兴趣对评价成功的重要性。 考虑 ( 1 ) 为使评价获得成 准 功, 关键利益相关者必须扮演的角色及其可能性; ( 2 ) 利益相关者对评价作出负面回 备 应的可能性及其影响。 将你对每个利益相关者的评价列入 “ 对潜在影响的评估 冶 一栏 与 实 中, 并用 A 表示 “ 非常重要冶 , B 表示 “ 比较重要冶 , C 表示 “ 不那么重要冶 。 施 4郾 考虑你会采取哪些行动来获得利益相关者的支持, 或者减少反对声音。 思考你 打算如何接近每个利益相关者。 他们希望评价探讨哪些问题? 让他们参与评价的计划过 程有多重要? 有没有其他团体或个人会影响他们对你的评价的支持? 在表格的最后一栏 摇104 填入获得评价支持或减少评价障碍的策略。 专栏表格: 进行利益相关者分析的样本格式 评价对利益相关者的 利益相关者对项目、 获得支持或减 利益相关者 影响以及利益相关者 计划或政策的兴趣 少障碍的策略 对评价的影响评估 摇 摇 资料来源: 健康管理科学和联合国儿童基金会, 1998 理解评价背景 詪詪詪詪詪詪詪詪詪 前期分析还需研究项目的每个阶段和评价的广义意图之间的关系。 我们可以将项目、 计划或政策的生命周期理解为在不同的阶段考察不同的评价问题的一个序列。 例如, 在资 金拨付之后不久就来评价一个项目的目标是否实现是不合常理的。 在这个早期阶段, 更恰 当的问题应该是, 项目是否获得了实施评价所必要的投入? Pancer and Westhues (1999) 为每个项目阶段及其对应的评价问题提供了一个范本 ( 表 4郾 2) 。 他们提供的问题仅供参 考。 每个阶段还可以提出很多潜在问题。 前期分析的另一步骤就是确定政策背景。 通过研究可以找出类似项目的评价。 评价人 员可以找到以往的评价报告, 考察这些评价所针对的问题、 选择的评价方法、 使用的工具 第四章摇 预期评价背景与项目变革理论 llll llllllll 以及得到的发现。 如果是对一个新干预措施进行评价, 则需要进行全新的评价设计。 但是 这种情况很少发生。 摇 表 4郾 2 在评价的不同阶段考虑的评价问题 项目发展的阶段 评价问题 1郾 对社会问题和需求的评估 在何种程度上满足社区的需求? 发 2郾 确定目标 必须做哪些事情来满足这些需求? 展 评 3郾 设计项目的替代方案 可以用哪些服务来产生预期变化? 价 4郾 选择替代方案 哪种项目方法最可靠? 的 5郾 项目实施 项目该如何实施? 准 6郾 项目操作 项目是否在按照计划运行? 备 与 7郾 项目的成果 / 效果 / 影响 项目是否取得了想要的效果? 实 8郾 项目的效率 项目是否以合理的成本达到了预期效果? 施 摇 摇 资料来源: 改编自 Pancer and Westhues 1989 摇105 发掘已有知识 詪詪詪詪詪詪詪詪詪 前期分析还包括对项目、 计划或政策的已有理论知识和实证知识的考察。 这一过程也 被称作发掘知识积累。 从评价以及包括经济学研究在内的其他社科研究获得的知识与日俱增。 学术期刊包含 汇集了某个特定主题的解释性知识的文章, 如班级大小对学习的影响或者孕期妈妈的营养 食谱对婴儿出生体重的影响。 问题导向的组织行为研究还结合了多个学科的理论和研究, 如组织社会学、 认 知 心 理 学、 公 共 选 择 理 论、 法 学 与 经 济 学 等 ( Scott 2003; Swedberg 2003) 。 有 些 组 织 机 构, 比 如 Campbell Collaboration ( http: / / www郾 campbellcollaboration. org / ) , 还对某一特定主题的评价质量进行评审, 并将那些达到他们标准的评价进行综合。 有数据表明, 在刑事司法和犯罪预防、 社会福利项目、 卫生及教育项目领域, 共进行了 10 000 多个 “ 实验冶 ( Petrosino 等, 2003) 。 因此, 在组织评价活动和进行评价规划时, 对相关知识积累进行回顾是非常重要的 ( 专栏 4郾 2) 。 专栏 4郾 2摇 发掘犯罪预防方面的知识积累 有关预防犯罪的数据分析表明, 29 个项目已奏效, 25 个未奏效, 28 个有希望获得 成功 ( 另外 68 个项目的信息不是很清楚 ) 。 这些结果是在综合考察了 600 多个评价的 基础上得出的, 这些评价包括基于学校和家庭的犯罪预防、 减少入室盗窃项目、 涉毒被 捕、 警务 / 热点、 闭路电视倡议、 社区看守、 心理辅导项目、 监狱制裁与特殊计划 ( 减 少累犯、 劳教等的愤怒管理、 培训项目和认知计划) 等。 资料来源: Sherman 等, 2002 通向结果之路: 有效发展评价的设计与实施 llll llllllll 变革理论的构建 、 使用和评估 詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪 前期分析的最后一步是构建一个变革理论, 并学会如何使用和评估它。 不管是在研究 发 的事前阶段还是事后阶段, 评价的基本逻辑或变革理论都是一个重要话题。 本节内容主要 展 包括: 为什么要使用变革理论, 如何建立变革理论以及如何评估变革理论。 评 价 目前对变革理论还没有一个统一的定义 ( 详见第三章) , 有一种定义称它是 “ 一个设 的 计和评价社会变革倡议的创新工具冶 , 是实现社会变革倡议的长期目标所需的一种 “ 要素 准 蓝图冶 ( Actknowledge and Aspen Institute 2003) 。 变革理论也可以理解为是对如何实现一个 备 与 组织或一项倡议的预期结果的一种体现, 以及对做出的基本假设的确认。 实 变革理论必须: 施 誗 描述项目、 计划或政策将会用到的一系列投入; 投入所支持的活动; 活动期望得 到的产出; 以及预期的成效和影响 誗 确定可能对实现成效造成影响的事件或情形 摇106 誗 确定项目有关原因和结果所做出的假设 誗 在现有的政策环境以及文献综述的基础上, 确定评价需要考察的关键假设 由于发展项目的相互关联性和复杂性, 确认那些可能对干预措施实现预期成效构成影 响的事件或情形就显得尤其必要。 相对于项目贷款, 国际发展机构现在提供的计划投资能 比项目贷款给发展中国家更大的自主权。 正如 Pawson (2006) 所述: 近年来公共政策方面出现的一个重要变化就是出现了越来越多的复杂的、 有多个目标的、 在 多个地点实施的、 牵涉多个机构的、 包含多个对象的计划项目……原因一目了然。 社会问题的根源 盘根错节。 健康赤字的根源或许在于教育弊端、 劳工市场不平等、 环境不公平、 住房排他性、 犯罪 伤害模式差异等等。 相应地, 决策者也开始思考针对单一问题采用单一度量的干预措施能否解决 问题。 Pawson 认为, 在这些情况下, 评价人员应该: 誗 理解基本的项目理论 誗 通过研究综合考察已有的证据 誗 将复杂的项目视为干预链, 期望通过一组利益相关者向另一组利益相关者提供资 源 ( 物质、 社会、 认知或情感资源) 带来行为的改变 进行评价规划时, 应重点关注这样一个问题, 即如何构建和检验项目背后的变革理 论。 应使用视觉图像以方便浏览项目、 计划或政策的关键组成成分和相互影响。 在因果链 的每一个环节应揭示项目、 计划或政策之间的因果关系。 预期影响或目标通常是这个模型 的最后一环。 变革理论的价值在于它生动形象地表达了一个项目、 计划或政策为什么能成功地实现 目标。 变革理论也明确了一个计划的组成成分及其相互之间的关系。 为实现具体目标, 人 们提供了资源以便组织能从事相关活动。 这些资源、 活动、 产出、 预期成效和影响是相互 关联的。 第四章摇 预期评价背景与项目变革理论 llll llllllll 在某些情况下, 评价人员可能会发现某个干预措施背后已经有了变革理论。 如果是这 样, 那么他们就需要对其进行仔细审查。 在多数情况下, 需要对已有的变革理论进行提炼 或修改, 并和直接相关的人进行确认。 如果没有现成的变革理论, 评价人员就需要构建一 个, 并且可能的话, 和项目经理及员工进行确认。 有了变革理论之后, 还需要对假设进行确认。 根据现有的政治政策环境和文献综述, 评价应该检验的最重要的假设也需要确定。 变革理论为揭示一项干预如何将投入、 活动、 发 产出转化为结果打开了一个 “ 黑匣子冶 ( 见图 4郾 1) 。 展 评 结果  价 的   投入   活动   产出 黑匣子    成效 影响   准 备 与 实 施   环境 摇107 图 4郾 1摇 从投入到结果 资料来源: 作者 需要确认在广义背景下, 即计划运行的环境下, 发生了什么事情。 这种环境 ( 政治、 宏观经济、 政策等) 对这个体系的所有部分都有影响 ( 见图 4郾 2) 。 政策 政治 背景 环境 投入 活动 产出 宏观 公众 经济 黑匣子 态度 情况 成效 影响 援助 环境 图 4郾 2摇 环境对计划结果的潜在影响 资料来源: 作者 每个项目、 计划和政策背后都有一个变革理论等着被明确表达。 该理论可以通过多种 方式、 模式或模型形象地表达。 它们有时又被称作理论模型、 逻辑模型、 变革框架、 逻辑 框架、 结果链模型或成果模型, 这些都是对变革理论的不同称呼。 变革理论应该体现一个 因果链, 揭示相互之间的影响, 并确定关键假设。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 为什么要使用变革理论? 变革理论对评价人员和利益相关者都非常重要, 因为他们能通过它建立一个 “ 共同 认定的长期目标愿景, 共同认定如何实现愿景, 以及用什么来衡量这一过程中的进展 冶 发 ( ActKnowledge and Aspen Institute 2003) 。 展 变革理论还能用来汇报评价结果。 Kellogg 基金会 (2004) 的一份报告探讨了沟通在 评 价 汇报项目的成功和可持续性时的重要性。 它指出了三种主要通过对变革理论的描述来支持 的 战略营销的方式: 准 誗 用清楚明确和易懂的语言来描述项目 备 与 誗 将精力和资源都集中在重点项目运作和关键结果上, 了解项目的进展情况 实 誗 制定专门的沟通和营销策略 施 总之, 清楚指出一个项目、 计划或政策的变革理论有多个好处: 誗 有助于甄别对项目的成功至关重要的因素 誗 有助于以相同的语言让利益相关者对项目及其期望有同样的了解 摇108 誗 为开展评价工作打好了基础 誗 确定了衡量成效所依赖的干预变量进展的度量标准 誗 确定了所做出的假设, 为确定评价问题做好了准备 构建变革理论 评价人员往往在构思一个项目、 计划或政策时就制定变革理论。 在这一过程中, 可能 会将利益相关者包括进来。 但是, 并非在任何情况下都有明确的变革理论; 而且对于某一 特定干预, 其变革理论也并非从头到尾都是一致的。 其他有些干预的变革理论可能尚不存 在; 在此情况下, 评价人员就需要构建一个。 对变革理论进行考察应该成为开展每个评价 活动的基础。 在开始审查或构建变革理论之前, 评价人员必须对项目、 计划或政策的目的和目标有 清楚的了解。 三个主要问题应加以考虑: 誗 以前的研究和评价发现能用于该项目、 计划或政策吗? 誗 项目、 计划或政策的逻辑或结果链是什么? 誗 做出了哪些关键假设? 构建变革理论时, 首先, 应尽可能多地了解相关干预措施和评价。 在获得新信息后, 就要开始得出计划的逻辑和关键假设。 逻辑确定之后, 将其放入一个绘制的事件链中, 然 后再确定关键假设 ( 见图 4郾 3) 。 以前的研究和评价发现能用于该计划吗? 变革理论的构建要从查找和审查研究和评价文献开始。 例如, 前人的研究可能表明, 当其他因素不变时, 学生的学习成绩和父母对孩子的家庭作业的参与程度相关。 或者, 一 第四章摇 预期评价背景与项目变革理论 llll llllllll 以前的研究   逻辑 关键假设 和评价发现 发 展 评 图 4郾 3摇 变革理论的构建过程 价 资料来源: 作者 的 准 个关于某一发展中国家城市或某一地区早期教育计划的评价报告发现, 计划中教师对学生 备 进行家访这一子项目是比较成功的。 一旦完成文献搜索和相关成果述评, 我们就可以构建 与 实 变革理论并用它来预测在实施了类似的干预措施后会有什么情况发生。 也可能不参考以前 施 的研究或评价发现就构建变革理论, 但是在这种情况下构建的变革理论必然就会显得理据 稍弱一些。 进行评价文献综述应广泛发掘可能的研究和评价信息来源。 这些来源包括: 摇109 誗 评价人员所在的组织进行的评价研究 誗 经济合作与发展组织 / 发展援助委员会 ( OECD / DAC) 的出版物和文件信息库 誗 发展组织、 发展银行、 非政府组织及其他机构进行的评价研究 誗 评价期刊上的文章 誗 心理学、 社会学、 教育学以及其他领域的期刊上发表的应用研究 誗 发展理论的研究 查看报告的摘要、 结论和经验教训部分可以很好地确定评价报告的相关性。 研究文章 的摘要都可以快速阅读。 由于时间有限, 评价人员应该通过快速浏览来查找重要信息。 一 旦发现相关的研究和评价发现, 应对其进行仔细审查 ( 见专栏 4郾 3) 。 专栏 4郾 3摇 关于在非洲南部某国开展提高学生学习成绩项目的文献综述 某个发展组织的评价人员应邀对非洲的一个教育项目进行评价, 项目的目标是提高 学生的学习成绩。 评价人员得知其邻国的小学教师进行家访能使学生学习成绩提高。 他 们开始搜寻研究和评价文献, 首先查找了小学教育和学习成绩方面的研究, 看类似的干 预措施取得了哪些成果。 他们主要查看了 《 国际教育研究 》 、 《 美国教育研究 》 、 《 幼儿 教育研究与实践 》 、 《 教育研究 》 等期刊, 还查找了 “ 发展门户 冶 ( Development Gate鄄 way) 、 发展援助委员会评价资源中心和教育资源信息中心的评价活动。 通过这一过程, 评价人员找到了一些相关研究和类似项目。 评价小组阅读这些研究和评价文献, 尽可能 地了解其他国家的类似项目所探讨的问题和得出的结论。 资料来源: 作者 通向结果之路: 有效发展评价的设计与实施 llll llllllll 计划的逻辑是什么? 一个项目、 计划或政策的逻辑主要是考察一项干预措施的目的和目标, 认为 “ 如果 X 发生, 那么 Y 也应该发生冶 。 逻辑还明确说明了预期变化的性质, 包括针对的目标人群、 象征成功所需的变化量、 变化发生的时间期限。 有了一系列的 “ 如果 …… 那么 ……冶 表 发 述, 变革理论也就形成了 ( 可以用小纸片来记录活动链中的话语, 这样它们可以方便地 展 移动、 增加或者删减) 。 评 价 评价人员一般采用倒叙的手法, 即从长期目标开始确定活动链, 直至回到当前位置。 的 如果已经有了变革理论, 评价人员必须经过类似流程对变革理论进行重构。 准 以发展评价技巧培训这样一个干预活动为例 ( 图 4郾 4) 。 该干预活动的预期结果为促 备 与 进评价质量的提高, 以及决策者能更好地进行循证决策。 ( 最终目标将是促进发展, 但是 实 由于发展受到诸多因素的影响, 评价人员不会对这一最终成果进行衡量。) 该干预活动的 施 一个简单的结果链可能包含以下内容: 如果评价人员受到更好的培训, 那么他们就能开展 更高质量的评价, 就能得出对决策者有用的信息, 最后就能促成循证决策。 有用的信息应 摇110 能促进决策者更好地决策。 培训 更高质量的评价 更有用的信息 更好地决策 图 4郾 4摇 “ 培训评价人员, 提高综合决策冶 的简单变革理论 资料来源: 作者 目前我们提出的是一个线性模型。 一个好的变革理论并不只是简单的线性因果关系; 通过方框和箭头连接变革理论的前后部分, 变革理论揭示的是复杂的关系。 它们还详细说 明了模型背后的关键假设, 包括可能对干预活动产生影响的主要背景或环境因素和事件。 关键假设有哪些? 最初的逻辑链一般总是线性的。 若与项目、 计划和政策相互关联的多个因素都被纳入 评价人员的考虑范围时, 变革理论就变得更加复杂了。 在确定计划的逻辑时, 他们还需要 确定对变化过程做出哪些假设, 然后就可以对干预措施成功威胁最大的那些关键假设进行 考察验证。 假设通常属于以下四种类别之一: 誗 关于长期、 中期和近期成果之间的相互联系的论断 誗 取得成功的所有重要前提条件已被确定的证明话语 誗 关于项目活动和预期成果之间的联系的论证 誗 对可能支持或妨碍结果进展的背景或环境因素的或隐晦或明确的理解 评价人员对逻辑框架进行研究, 并对他们的假设进行调查。 可以问的问题包括: 第四章摇 预期评价背景与项目变革理论 llll llllllll 誗 这个变革理论可信吗? 这一系列事件能最终实现长期目标吗? 誗 这个变革理论可行吗? 用于实施战略的能力和资源可以产生成效吗? 誗 这个理论经得起验证吗? 对成功如何确定有明确的衡量吗? ( Anderson 2004) 还包括: 誗 在那个对干预措施有帮助或者有妨碍的环境里还有什么其他事情在发生? 将所有假设记录下来并包含在事件链中。 可以用小纸片进行记录, 这样当变革理论有 发 变化时可以重新组合。 展 评 不需要对所有的假设都进行确认。 如果这么做的话, 列表将会很长。 但是, 关键假 价 设———那些可能对计划的成功会带来很大风险的假设———必须加以确认。 的 以上面的培训项目为例, 关键假设可以包括以下几条: 准 备 誗 评价人员没有符合他们要求的、 可以方便获得的培训资源 与 誗 评价人员可以获得资金来参与培训 实 誗 培训贴合评价人员的需求 施 誗 评价人员重视培训, 有学习的动力 誗 评价人员能获得必要的支持以及其他资源, 能将培训所学用于实践 摇111 誗 评价人员具备必要的报告撰写技能, 能将信息有效传递给政府机构 誗 政府决策者将使用评价发现来更好地进行循证决策 要使这个链条行之有效, 必须要确定关键假设。 关键假设可以和变革理论图示一起列 示, 或者画入变革理论图中 ( 见图 4郾 5) 。 满足学员的 有足够的报告写作技 需求 能,能与政府沟通 培训  更高质量的评价 更有用的信息 更好地决策 有足够的时间 有资源将所学用于 来学习 实践 图 4郾 5摇 列出关键假设的简单变革理论图示 资料来源: 作者 变革理论模板 Kellogg 基金会 (2004) 建议评价人员使用模板来解释变革理论 ( 见图 4郾 6) 。 要使用变革理论模板, Kellogg 建议评价人员从模型的中间部位 ( 问题 ) 开始。 这是 模板的心脏, 也是变革理论的核心。 评价人员在此清楚地写出干预活动要针对的问题。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 在第二步 “ 社区需求 / 资产冶 中, 评价人员要将社区或组织的需求和资产具体化。 如 果已经进行了需求评估, 或者社区或组织的需求已按先后顺序确定了, 这些信息也应包含 在内。 在第三步 “ 理想结果冶 中, Kellogg 建议评价人员确定干预在近期和长期要达成什么 结果。 这可能是对未来的一个愿景。 在这个方框内填入的东西将是产出、 成效和影响。 发 在第四步 “ 影响因素冶 中, Kellogg 要求评价人员列出可能会对预期变化产生影响的 展 潜在障碍和支持因素。 它们包括风险因素、 现有的政策环境或者其他因素。 ( 它们可能来 评 价 自于对研究和评价文献的述评或其他来源。) 的 在第五步 “ 策略冶 中, 评价人员将列出通过研究发现的曾帮助类似社区或组织达到 准 项目、 计划或政策预期结果的成功策略 ( 最佳实践) 。 备 与 最后一步 “ 假设冶 , Kellogg 要求评价人员列出通过研究发现的关于变革策略能用于社 实 会或组织的方式及理由的假设。 它们可能是原理、 信条或观点。 变革理论模板能被用来以 施 图像的形式展现变革理论。 如果一组人都参与变革理论的构建, 可以给每个人 ( 或小组 ) 分发一张空白模板来 摇112 填写。 等所有模板都完成以后, 可以进行小组讨论, 并达成一致意见。 这只是模板的一个例子。 还可以对其进行修改或调整, 来满足特定的组织需求。 例 如, 有些评价人员或许不仅想指出成功的策略, 还想指出不成功的策略 ( 以免犯错) 。 5 6 策略 假设 4 1 3 问题 预期结果(产出、 影响因素 成果、影响) 2 资产 社区需求/ 图 4郾 6摇 变革理论模板 资料来源: Kellogg 基金会 2004 变革理论的构建举例 下面将以两个例子来说明如何构建变革理论。 第一个例子描述的是通过教师家访来提 高学生学习成绩的项目。 第二个例子描述的是利用参与式研讨会来减少政府腐败的计划。 通过教师家访来提高学生的学习成绩。 考虑以下情形: 有一个成熟的项目可以进行评 价, 但是它没有变革理论。 评价人员需要浏览和研究评价文献来构建 ( 如专栏 4郾 3 所述 ) 变革理论。 该项目期望实现的目标是提高学生的学习成绩。 干预活动是教师对学生进行家 访。 逻辑如下: 如果教师 ( 投入) 对学生 ( 投入) 进行家访 ( 活动 ) 并和他们的父母谈 第四章摇 预期评价背景与项目变革理论 llll llllllll 话 ( 产出) , 他们将更加体谅学生 ( 成果 ) 。 家长将更加了解学校对学生的要求———按时 完成家庭作业和不旷课 ( 产出) ; 因此, 他们就会保证这两条都能做到 ( 成果 ) 。 因为学 生按时完成家庭作业, 从不旷课, 还有善解人意的老师辅导, 那么学生的学习成绩就会进 步 ( 影响) 。 在这个例子中, 负责制定变革理论的评价人员从预期结果———取得 更 好 的 阅 读 成 绩———开始, 并放在图表的最下端 ( 见图 4郾 7) 。 接下来, 在顶端写上 “ 教师对学生进行 发 家访冶 , 明确干预活动。 然后, 评价人员确定三条家访可能带来的结果: 展 评 誗 教师对学生的家庭文化有所了解 价 誗 家长得知学校对学生的要求 的 誗 教师和家长都能正视学生在学校表现不好的问题 准 备 教师对学生进行家访 与 实 施 家长和教师交换意见 摇113 找出妨碍学生 教师了解学生 家长了解学校  成绩提高的具 的家庭文化 对学生的要求 体问题(健康、 情感或其他) 家长支持并鼓 教师更加理解 家长支持学 励学生完成家 家长了解学校 学生以及他们 生坚持上学 庭作业和学习 对学生的要求 的世界观 不旷课 任务 以更加体谅 学生学习更加 学生的出勤率 学生接受特别 学生的方式 用功 提高 帮助 来教学 学生的学习 热情提高 情况改善(健 康、情感) 阅读成绩提高 图 4郾 7摇 通过教师家访提高学生阅读成绩计划的变革理论 资料来源: Weiss 1972, 50 从这三条可能的结果出发, 评价人员还能推导出其他结果, 形成一个相互关联的结果 链。 例如, 从 “ 教师了解学生的家庭文化 冶 这一条结果出发, 评价人员还能得出一系列 通向结果之路: 有效发展评价的设计与实施 llll llllllll 如下结果: 誗 教师对学生及学生的世界观有更多的理解 誗 教师以更加体谅学生的方式来教学 誗 学生的学习热情提高了 誗 学生的阅读成绩提高了 发 评价人员从每条可能的结果出发, 推导出其他可能的结果, 最终都以阅读成绩的提高 展 结束。 一些结果链还会和其他可能的结果相互关联。 评 价 该变革理论还确定了几条假设。 在这个例子中, 它们没有被写进图示中而是被列示出 的 来。 评价人员确认的假设如下: 准 誗 孩子们来自双亲家庭 备 与 誗 教师进行家访时家长在家里等候 实 誗 教师愿意进行家访 施 誗 家长欢迎教师进行家访 誗 家长乐意和教师讨论如何教育他们的孩子 誗 教师会更加理解学生的家庭文化, 因而能更加理解学生 摇114 誗 教师会根据他们从家访中了解到的东西调整他们的教学以及教学风格 誗 家长想参与到学生的学习中来, 希望他们的孩子不旷课, 做家庭作业, 取得好 成绩 誗 家长不需要他们的孩子去工作 誗 学校或家庭环境没有采取其他能促进学生学习成绩提高的行动 在评价设计应重点强调那些研究文献或利益相关者认为比较关键的假设。 用参与式研讨会来打击腐败。 我们再来看一个不同的例子。 某个计划试图通过参与式 研讨会来减少政府腐败。 构建变革理论时, 评价人员在图示的最下端写上长期目标———减 少腐败, 在最上端写上干预活动的名称。 预计会发生的主要事项写在中间的事件链中 ( 见图 4郾 8) ( Haaruis 2005) 。 尽管上面已列出了很多假设, 但是评价人员需要在文献综述及与利益相关者及客户讨 论的基础上将评价要考察的假设限定为三条关键假设: 誗 参与式研讨会效果卓著, 满足了学习者和计划的需求 誗 学习者有能力、 态度和动机来参与研讨会 誗 学习者会产生 “ 地方主导冶 的感觉, 形成一种涓滴效应 变革理论术语及其图形说明 随着变革理论在评价中重要性的不断提升, 随此也出现了对一些术语理解上的混淆和 歧义, 包括诸如逻辑模型、 成效模型和理论模型等。 Patton (2002) 认为, 区分逻辑模型 和变革理论的唯一标准是, 逻辑模型有理有据地描述了从投入经过活动到产出、 成效和影 响的这一顺序。 相较之下, 变革理论还必须指出并说明假定的或要验证的因果联系。 不管 使用何种术语或形式, 变革理论必须有一个因果链, 揭示相互之间的影响, 并确定关键 第四章摇 预期评价背景与项目变革理论 llll llllllll 假设。 强调参与式研讨的反腐败计划 引 誗 会形成政策对话 誗 有助于建立一个能影响行为的 “ 最佳实践冶 和 “ 良好范例 冶 的 “ 分享与学习 冶 机制 ( 例如在诚 信书上签名以示诚信) 誗 包含的学习机制并非是临时性的或一次性的, 并有助于引导 “ 行为研究冶 发 誗 参与者将获得授权 展 誗 会在公民社会内的各个利益相关者之间建立合作关系和网络, 建立 ( 或加强 ) 合作伙伴之间的 评 价 社会资本 的 誗 会披露在反腐方面谁可以信赖或谁不能信赖的信息 准 引 备 誗 实现 “ 速战速决冶 会鼓励其他人参与反腐斗争 与 誗 反腐活跃分子也可帮助建立 “ 诚信之岛冶 , 起到模范带头作用 实 引 施 寅开展反腐活动时, 注意加强地方主导 寅 这些研讨会对社会其他部门产生涓滴效应 引 摇115 誗 公众对腐败的危害有了更深的认识 誗 公民社会内部对腐败的危害有了更深的认识 誗 通过建立或强化诚信的各个支柱来加强机构建设 引 誗 社会更透明, 国家更透明, 更能对大众负责 誗 世界银行的退出策略 引 有助于建立 ( 或强化) 国家的诚信制度 引 进而有助于建立良好的治理 引 进而会减少腐败 图 4郾 8摇 用参与式研讨会来减少政府腐败计划的变革理论 资料来源: Leeuw, Gils 和 Kreft 1999 摇 摇 变革理论模型可以流程图的形式呈现, 下文将对几种形式进行阐释说明。 标准流程图 流程图是一种最常用的阐释变革理论的模式, 说明了如何从活动和产出得出结果 ( 见图 4郾 9) 。 它是一个非常灵活的逻辑模型, 只要列出了核心成分———投入、 活动、 产出 和结果即可。 它可以呈现不同层次的结果 ( 短期、 中期、 终期结果) , 因此可以确保流程 图能揭示最终目标的实现。 使用这种模式时, 评价人员需要列出他们的假设, 包括对干预 措施实现预期结果有影响的外部环境因素。 人们可以使用 “ 如果 …… 那么 ……冶 话语来解释各个成分之间的因果联系。 例如, “ 如果实施了这个活动, 那么就会得出这些产出。 如果能实现这些产出, 那么就能得出第 通向结果之路: 有效发展评价的设计与实施 llll llllllll 一层次的短期结果。冶 投入 发 展 活动 评 价 的 准 产出 备 与 实 施 成果 摇116 影响 假设: . 1 . 2 . 3 图 4郾 9摇 标准流程 资料来源: 作者 强调假设的标准流程图 另一种变革理论设计如图 4郾 10 所示。 这种模型包含假设———评价设计背后的原理。 标准结果链 结果链, 又称作绩效链, 与流程图类似, 但是并不必须将特定的活动和特定的产出或 结果匹配起来。 由于它不像流程图那样详细地呈现 “ 投入———活动———产出———结果 冶 这个因果序列, 使用者需要注意 “ 简单冶 并不能代替 “ 标准冶 。 和其他直观描述一样, 结 果链也明显地考虑了外部因素的影响。 投入、 活动、 产出通常被用来衡量效率; 结果则用 于确定计划的有效性 ( 见图 4郾 11) 。 美国威斯康星大学 Extention 网站上有很多已完成的模型的范例, 网站链接详见本章 末的参考书目。 第四章摇 预期评价背景与项目变革理论 llll llllllll 假设 投入 活动 产出 成效 发 展 评 价 的 准 备 与 实 施 摇117 开始 计划开展的工作 预期结果  图 4郾 10摇 强调假设的流程 资料来源: 改编自 Kellogg 基金会, 2004 组织内部的 直接受益人获 组织外部的 控制领域 得的产出 影响领域   成果   成果   投入 活动 产出 影响 (短期) (中期)     外部因素 图 4郾 11摇 标准结果链 资料来源: 加拿大外交与国际贸易部, 2005 逻辑框架 变革理论模型的另一种变体就是逻辑框架, 通常称作 logframe。 逻辑框架分级列示活 动、 结果、 目的、 项目目标之间的联系。 对于每一个项目、 计划或政策的组成成分, 评价 人员要确定所需的绩效指标, 每个指标的信息来源及其假设。 逻辑框架清楚说明项目、 计 划或政策的目标, 确定投入、 流程、 产出、 成效和影响之间的因果联系。 很多发展组织要 求员工使用逻辑框架, 并对员工进行这方面的培训。 逻辑框架在本质上是一个 4 伊 4 的矩阵, 对一个项目、 计划或政策的关键要素进行总 结概括。 这一新法利用因果逻辑有条不紊地说明关键问题。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 逻辑框架的使用目的有多个: 誗 通过明确目标、 使用绩效指标和风险评估等提高项目、 计划或政策的设计质量 誗 对复杂活动的设计进行总结概括 誗 帮助员工准备详细的可操作的计划 誗 为活动的评审、 监测和评价提供客观基础 ( World Bank, 2004) 发 逻辑框架也受到了很多批评。 主要的批评包括: 展 誗 制定逻辑框架时, 评价人员会被细节弄得晕头转向而无法统揽全局。 评 价 誗 逻辑框架未强调基准数据。 的 誗 即便是对一个简单的项目设计而言, 逻辑框架通常也过于简单。 Gasper (1997) 准 指出: “ 不是所有重要事情都可以通过一两页纸上的四五个层次的图表就能解释清 备 与 楚的。冶 实 誗 很多逻辑框架使用者未能认识到框架仅列出了部分内容, 不代表全部。 框架仅仅 施 是评价的一个辅助工具, 而不是评价的替代品。 誗 逻辑框架并不寻找非预期成果; 其范围仅限于已明确说明的目标。 誗 逻辑框架一旦确定, 往往会固定下来, 不会进行更新, 因此逐渐成为一个 “ 僵死 摇118 的框架冶 ( Gasper 1997) 。 一个幼儿诊所在制定逻辑框架时, 可以将免疫作为其活动之一, 将目标结果设定为 “ 为某一地区 50% 的六岁以下儿童进行免疫冶 ( 见表 4郾 3) 。 如果这个目标实现的话, 可预 防的儿童疾病的发病率应该下降。 这种下降应该能实现 “ 降低六岁以下儿童的死亡率 冶 这个总体目标。 摇 表 4郾 3 降低儿童死亡率项目的逻辑框架 组成部分 绩效指标 检验 假设 家庭 收 入 的 提 高 伊 参 对所 有 家 庭 成 员 进 行 目标: 改 善 妇 女 及 其 家 人 的 经 与家 庭 数 的 百 分 比 在 经济、 社 会 和 健 康 状 济状况和社会福利 健康、 营 养 和 教 育 参 况调查 与程度方面的改善 调查 结 果: 妇 女 的 就 誗 家庭日托所起到作 业和 教 育 变 化, 以 及 其他家庭成员保 用, 可 以 为 妇 女 在 工 总目 标: 给 妇 女 提 供 工 作 和 学 他们 对 家 庭 日 托 服 务 持或改善他们的 作期 间 提 供 高 质 量 的 习 的 机 会, 孩 子 放 在 托 儿 所 的评价 就业收入 承受 得 起 的 小 孩 照 看 照看 在观 察 的 基 础 上 对 家 经济状况保持不 服务, 使 妇 女 能 够 参 庭日 托 服 务 的 质 量 进 变或者日渐好转 加工作和教育活动 行评价 产出 誗 对看护进行了培训 管理 信 息 系 统 提 供 的 誗 培训了看护、 主管和主任 誗 托儿 所 升 级, 进 入 学员、 日 托 所 和 材 料 有条件开设家庭 誗 托儿所升级, 进入运营 运营 的数据 日托所的妈妈们 誗 开发了材料 誗 制作并分发了材料 对学员的评价 同意继续提供小 誗 有相应的行政管理体制 誗 管理信息系统可供 初始 培 训 之 后, 以 及 孩照看服务 誗 有相应的管理信息系统 使用 后续培训之中 第四章摇 预期评价背景与项目变革理论 llll llllllll 续表 组成部分 绩效指标 检验 假设 活动 誗 挑选看护和主管, 提供初始 行 动 计 划、 预 算、 财 培训 发 资源 务记录 誗 托儿所升级 展 预算 研究 表 明 所 选 的 模 型 评 誗 开发材料 技术 和课程能奏效 价 誗 建立行政管理体制 的 人力资源 用评 价 来 确 定 活 动 实 誗 提供家庭日托服务 准 施良好 备 誗 提供持续不断的培训和监督 与 誗 开发管理信息系统 实 施 摇 摇 资料来源: 美洲开发银行 ( http: / / www郾 iadb郾 org / sds / soc / eccd / 6example郾 html#ex1) 表 4郾 3 的第二栏为检验每个目标实现程度的指标。 第三栏和第四栏确定了数据的收集 摇119 来源, 以参照这些指标和数据进行绩效评价, 同时还要说明针对数据的性质和可及性做了 哪些假设。 评估变革理论 变革理论一旦确定, 评价人员需要回过头来从各种角度对变革理论的质量进行评估。 这些评估角度或框架包括: 誗 对社会需求的评估 誗 对逻辑和可信度的评估 誗 与研究和实践相比较 誗 将变革理论和一个或多个相关的科学理论进行比较研究 誗 通过初步观察来评估 ( 改编自 Rossi, Freeman and Lipsey 1999) 变革理论应该能回答下列问题: 誗 模型对项目 / 计划的描述准确吗? 誗 所有要素是否定义准确? 誗 事件的逻辑链存在缺失吗? 誗 要素是否充分而且必要? 誗 关系是否可信而且一致? 誗 认为项目 / 计划会以有意义的方式实现既定目标, 这种想法现实吗? Kellogg 基金会 (2004) 制定了一个清单来评估逻辑模型的质量。 下列评估标准改编 自这个清单: 誗 列出了实施计划所需的主要活动 誗 活动与特定的计划理论明确相关 通向结果之路: 有效发展评价的设计与实施 llll llllllll 誗 列出了实施计划所需的主要资源 誗 资源与计划的类型相匹配 誗 所有活动都有充分且合适的资源 发 小摇 摇 结 詪詪詪詪詪詪 展 评 价 评价人员必须抑制不进行计划就匆忙开始评价的冲动。 前期分析是计划的一个重要部 的 分, 能帮助评价人员对整个项目、 计划或政策有所了解。 前期分析能对评价的重要问题进 准 行解答, 包括开始时间、 完成时间、 人员、 资源、 设计、 计划的理论和 逻 辑 以 及 已 有 备 与 知识。 实 前期分析的一个任务是确定干预措施的参与人或者团体。 利益相关者分析可以确定评 施 价的关键利益相关者, 确定他们已有哪些知识, 能做出哪些贡献, 对评价有什么期望。 前期分析的另一个任务是考察干预措施的背景。 评价人员必须查找并了解相关研究以 摇120 及对类似干预措施的评价。 评价人员在干预措施的生命周期的不同阶段考察不同的问题, 因此, 确定干预所处的阶段很重要。 构建干预背后的变革理论有助于评价人员和利益相关者对干预有直观的了解, 确定计 划背后的、 评价需要检验的假设。 尽管有多种不同的方式可对变革理论进行直观描述, 它 们都应建立在相关研究和评价的基础上, 描述逻辑链, 确定能对结果有影响的事件, 以及 揭示事件的因果链。 一般情况下, 变革理论对投入、 活动、 产出、 结果以及相互之间的联 系和所处的环境进行描述。 练习 4郾 1摇 变革理论的应用 假定一个小额贷款项目旨在通过帮助妇女尤其是农村的贫穷妇女进入劳动力市场、 培 养创业技能, 从而提高家庭收入, 以此推广新生活和改善家庭生活状况。 项目的长期目标 是促进私营部门的发展和提高经济增长。 每笔贷款平均为 225 美元, 最高为 500 美元, 一 次性拨付, 为微小型企业提供营运资金或投资。 贷款期限从 1 ~ 10 年不等, 平均期限为 2 ~ 3 年, 还提供一年的宽限期。 相关能力建设内容包括基本的账目管理和财务管理。 表 4郾 4 是描述这个小额贷款项目的简单逻辑模型。 表 4郾 5 用图示更加详细地描述了该项目的 变革理论。 其中, 圆形展示了可能对项目目标的实现有影响的环境因素。 请思考该项目背 后的假设, 并列出五条重要假设: 1郾 2郾 3郾 4郾 5郾 第四章摇 预期评价背景与项目变革理论 llll llllllll 摇 表 4郾 4 小额贷款项目的简单逻辑模型 小企业获得 给当地人带来收 生活条件改善了 创投基金 入和就业岗位 发 展 财务管理建议 企业经营和财务 家庭贫困状况 评 和支持 管理技能提高 减轻 价 的 准 摇 表 4郾 5 小额贷款项目更复杂的变革理论 备 与 实 由于缺乏信贷途径和其他 施 生产资源,妇女获得经济 劳工汇款 机会的途径有限 摇121 政府资助的 其他双边小额 相关项目 项目提供信贷、技术援助和 贷款项目 相关信息 基金会项目 妇女创业 宏观经济 环境 非政府组织 妇女获得利润 项目 家庭状况得到 利润再投资 短期改善 家庭条件得到 企业得以持续 持久改善 下去 对营养、健康和 住房条件 服饰产生影响 得到改善 女孩的教育得到改善 经济改善 通向结果之路: 有效发展评价的设计与实施 llll llllllll 4郾 2摇 分析计划 请考虑你目前正在从事的一个计划或项目, 或者你熟悉但是没有直接参与的计划或项 目。 用图展示该计划或项目的变革理论。 记住要确定背后的假设, 尤其是与外部环境因素 有关的假设。 名词解释 发 展 前期分析: 对一个事件或问题进行的调查, 目的是确认已知信息, 研究如何制定评价 评 价 方法 的 利益相关者: 除客户之外与干预活动的利益相关的个人或组织 准 知识积累: 有关项目、 计划或政策的已有理论知识和实证知识 备 与 变革理论: 实现社会变革所需的基本要素的蓝图 实 流程图: 用于说明活动和产出得到的结果序列的图 施 结果链: 表明发展干预必须遵守的从投入到活动, 再到成效的过程的简单序列 逻辑框架: 分级列示活动、 结果、 目的、 项目目标之间的联系的矩阵 摇122 参考书目 1郾 ActKnowledge and Aspen Institute郾 2003郾 Theory of Change郾 Roundtable on Community Change郾 http: / / www郾 theoryofchange郾 org / 郾 2郾 Anderson, Andrea, A郾 2004郾 “ The Community Builder蒺s Approach to Theory of Change: A Practical Guide to Theory Development郾 冶 Presentation at the Aspen Institute Roundtable on Community Change, New York郾 http: / / www郾 aspeninstitute郾 org / atf / cf / percent7BDEB6F227 - 659B - 4EC8 - 8F84 - 8DF23CA704F5percent7D / rcccommbuildersapproach郾 pdf郾 3郾 Bell, P郾 1997郾 “ Using Argument Representations to Make Thinking Visible for Individu鄄 als and Groups郾 冶 In Proceedings ofCSCL忆97 : The Second International Conference on Computer Support for Collaborative Learning, eds郾 R郾 Hall, N郾 Miyake, and N郾 Enyedy, 10 - 19郾 Toron鄄 to: University of Toronto Press郾 4郾 Bruning, R郾 H郾 , G郾 J郾 Schraw , M郾 M郾 Norby, and R郾 R郾 Ronning郾 2004郾 Cognitive Psychology and Instruction郾 4th ed郾 Upper Saddle River, NJ: Pearson Merrill Prentice鄄Hall郾 5郾 Canadian Department of Foreign Affairs and International Trade郾 2005郾 Six Easy Steps to Managing for Results: A Guide for Managers郾 April郾 Evaluation Division, Ottawa郾 6郾 CIDA ( Canadian International Development Agency ) . 2005郾 Case Study #1 : Jamaica Environmental Action Program ENACT郾 Caribbean Division, Americas Branch郾 http: / / www郾 acdi鄄cida郾 gc郾 ca / CIDAWEB / acdicida郾 nsf / En / EMA - 218131811 - PHY#1郾 7郾 Eggen, P郾 , and D郾 Kauchak郾 1999郾 Educational Psychology: Windows on Classrooms郾 4th ed郾 Upper Saddle River, NJ: Merrill: Prentice鄄Hall郾 8郾 Fitzpatrick, Jody L郾 , James R郾 Sanders, and Blaine R郾 Worthen郾 2004郾 Program Eval鄄 uation: Alternative Approaches and Practical Guidelines郾 New York: Person Education郾 9郾 Funnell, S郾 1997郾 “ Program Logic: An Adaptable Tool for Designing and Evaluating 第四章摇 预期评价背景与项目变革理论 llll llllllll Programs郾 冶 Evaluation News and Comment 6 ( 1 ) : 5 - 7郾 10郾 Gagne, R郾 M郾 , and W郾 D郾 Rohwer Jr郾 1969郾 “ Instructional Psychology郾 冶 Annual Re鄄 view of Psychology 20 : 381 - 418郾 11郾 Gasper, D郾 1997郾 “ Logical Frameworks: A Critical Assessment Managerial Theory郾 冶 Pluralistic Practice Working Paper 264 , Institute of Social Studies, The Hague郾 ———郾 2000郾 “ Evaluating the 蒺Logical Framework Approach蒺 towards Learning鄄Oriented De鄄 发 velopment Evaluation郾 冶 Public Administration Development 20 ( 1 ) : 17 - 28郾 展 评 12郾 Haarhuis, Carolien Klein郾 2005郾 “ Promoting Anticorruption Reforms: Evaluating the 价 Implementation of a World Bank Anticorruption Program in Seven African Countries郾 冶 http: / / 的 igitur鄄archive郾 library郾 uu郾 nl / dissertations / 2005 - 0714 - 200002 / full郾 pdf郾 准 备 13郾 Healy, A郾 F, and D郾 S郾 McNamara郾 1996郾 “ Verbal Learning Memory: Does the Mo鄄 与 dal Model Still Work?冶 Annual Review of Psychology 47 : 143 - 72郾 实 14郾 Heubner, T郾 A郾 2000郾 “ Theory鄄Based Evaluation: Gaining a Shared Understanding 施 Between School Staff and Evaluators郾 冶 In Program Theory in Evaluation: Challenges and Oppor鄄 tunities, eds郾 Patricia J郾 Rogers, T郾 A郾 Hacsi, A郾 Petrosino, and T郾 A郾 Huebner, 79 - 90郾 摇123 New Directions for Evaluation No郾 87郾 San Francisco, CA: Jossey鄄Bass郾 15郾 Kassinove, H郾 , and M郾 Summers郾 1968郾 “ The Developmental Attention Test: A Prelimi鄄 nary Report on an Objective Test of Attention郾 冶 Journal of Clinical Psychology 24 (1): 76 - 78郾 16郾 Kellogg Foundation郾 2004郾 Logic Model Development Guide郾 Battle Creek, MI郾 http: / / www郾 wkkf郾 org / Pubs / Tools / Evaluation / Pub3669郾 pdf郾 17郾 Leeuw , Frans, Ger Gils, and Cora Kreft郾 1999郾 “ Evaluating Anti鄄Corruption Initia鄄 tives: Underlying Logic and Mid鄄Term Impact of a World Bank Program郾 冶 Evaluation 5 ( 2 ) : 194 - 219郾 18郾 Leeuw , Frans L郾 1991郾 “ Policy Theories, Knowledge Utilization, and Evaluation郾 冶 Knowledge and Policy 4 : 73 - 92郾 ———郾 2003郾 “ Reconstructing Program Theories: Models Available and Problems to Be Solved郾 冶 American Journal of Evaluation 24 ( 1 ) : 5 - 20郾 19郾 Mikkelsen, B郾 2005郾 Methods for Development Work and Research: A New Guide for Practitioners郾 Thousand Oaks, CA: Sage Publications郾 20郾 MSH ( Management Sciences for Health ) , and UNICEF ( United Nations Children蒺s Fund) . 1998郾 “ Quality Guide: Stakeholder Analysis郾 冶 In Guide to Managing for Quality郾 http: / / ERC郾 MSH郾 org / quality郾 21郾 Newman, David Kent郾 2007郾 “ Theory: Write鄄up for Conceptual Framework郾 冶 http: / / deekayen郾 net / theory鄄write鄄conceptual鄄framework郾 22郾 Ormrod, J郾 E郾 2006郾 Essentials of Educational Psychology郾 Upper Saddle River, NJ: Pearson Merrill Prentice鄄Hall郾 23郾 Owen, J郾 M郾 , and P郾 J郾 Rogers郾 1999郾 Program Evaluation: Forms and Approaches郾 Thousand Oaks, CA: Sage Publications郾 通向结果之路: 有效发展评价的设计与实施 llll llllllll 24郾 Pancer, S郾 Mark, and Anne Westhues郾 1989郾 “ A Developmental Stage Approach to Program Planning and Evaluation郾 冶 Evaluation Review 13 ( 1 ) : 56 - 77郾 25郾 Patton, M郾 Q郾 2002郾 Qualitative Research and Evaluation Methods郾 3rd ed郾 Thousand Oaks, CA郾 : Sage Publications郾 26郾 Pawson, Ray郾 2006郾 Evidence鄄Based Policy: A Realistic Perspective郾 New Brunswick, 发 NJ: Sage Publications郾 展 27郾 Petrosino, Anthony, Robert A郾 Boruch, Cath Rounding, Steve McDonald, and Iain 评 价 Chalmers郾 2003郾 “ The Campbell Collaboration Social, Psychological, Educational, and Crimino鄄 的 logical Trials Register C20SPECTR郾 冶 http: / / www郾 campbellcollaboration郾 org / papers / unpub鄄 准 lished / petrosino郾 pdf郾 备 与 28郾 Porteous, Nancy L郾 , B郾 J郾 Sheldrick, and P郾 J郾 Stewart郾 1997郾 Program Evaluation 实 Tool Kit: A Blueprint for Public Health Management郾 Ottawa鄄Carleton Health Department, Otta鄄 施 wa郾 http: / / www郾 phac鄄aspc郾 gc郾 ca / php鄄psp / tookit郾 html郾 ———郾 2002郾 “ Introducing Program Teams to Logic Models: Facilitating the Learning 摇124 Process郾 冶 Canadian Journal of Program Evaluation 17 ( 3 ) : 113 - 41郾 29郾 Prensky, Marc郾 2001郾 “ Digital Natives, Digital Immigrants郾 冶 On the Horizon 9 ( 5 ) . http: / / www郾 marcprensky郾 com / writing / Prenskypercent20鄄percent20Digitalpercent20Natives, percent20Digital percent20Immigrants percent20鄄percent20Part1郾 pdf郾 30郾 Ritzer, George郾 1993郾 The McDonaldization of Society郾 Rev郾 ed郾 Thousand Oaks, CA: Pine Forge Press郾 31郾 Rogers, Patricia J郾 , T郾 A郾 Hacsi, A郾 Petrosino, and T郾 A郾 Huebner, eds郾 2000郾 Pro鄄 gram Theory in Evaluation: Challenges and Opportunities郾 New Directions in Evaluation No郾 87郾 San Francisco: Jossey鄄Bass Publishers郾 32郾 Rossi, P郾 , H郾 Freeman, and M郾 Lipsey郾 1999郾 Evaluation: A Systematic Approach郾 Thousand Oaks, CA: Sage Publications郾 33郾 Scott, M郾 2003郾 “ The Benefits and Consequences of Police Crackdowns郾 冶 Problem鄄Ori鄄 ented Guides for Police, Response Guide 1郾 U郾 S郾 Department of Justice, Office of Community鄄Ori鄄 ented Policing Services, Washington, DC郾 34郾 Scriven, Michael郾 2007郾 Key Evaluation Checklist郾 http: / / www郾 wmich郾 edu / evalctr / checklists / kec_feb07郾 pdf郾 35郾 Shadish, W郾 R郾 Jr郾 , T郾 D郾 Cook, and L郾 C郾 Leviton郾 1991郾 Foundations of Program Evaluation郾 Thousand Oaks, CA: Sage Publications郾 36郾 Sherman, L郾 W郾 , D郾 Farrington, B郾 C郾 Welsh, and D郾 L郾 MacKenzie, eds郾 2002郾 Evidence鄄Based Crime Prevention郾 London: Routledge郾 37郾 Stufflebeam, Daniel L郾 2001郾 Evaluation Models郾 New Directions for Evaluation No郾 89郾 San Francisco, C A: Jossey鄄Bass郾 38郾 Stufflebeam, D郾 L郾 , G郾 F Madaus, and T郾 Kellaghan, eds郾 2000郾 Evaluation Models郾 2nd ed郾 Boston: Kluwer Academic Publishers郾 第四章摇 预期评价背景与项目变革理论 llll llllllll 39郾 Suthers, D郾 D郾 , and A郾 Weiner郾 1995郾 Belv佴d侉re郾 http: / / lilt郾 ics郾 hawaii郾 edu / belve鄄 dere / index郾 html郾 40郾 Suthers, D郾 D郾 , E郾 E郾 Toth, and A郾 Weiner 1997郾 “ An Integrated Approach to Im鄄 plementing Collaborative Inquiry in the Classroom郾 冶 In Proceedings ofCSCL忆97 : The Second Inter鄄 national Conference on Computer Support for Collaborative Learning, eds郾 R郾 Hall, N郾 Miyake, and N郾 Enyedy, 272 - 79郾 Toronto: University of Toronto Press郾 发 41郾 Swedberg, Richard郾 2003郾 Principles of Economic Sociology郾 Princeton, NJ: Princeton 展 评 University Press郾 价 42郾 Taylor鄄Powell, Ellen郾 2005郾 Logic Models: A Framework for Program Planning and 的 Evaluation郾 University of Wisconsin Extension, Program Development and Evaluation郾 http: / / 准 备 www郾 uwex郾 edu / ces / pdande / evaluation / pdf / nutritionconf05郾 pdf郾 与 43郾 U郾 S郾 GAO ( General Accounting Office ) . 1991郾 Designing Evaluations郾 Washington, 实 DC郾 http: / / www郾 gao郾 gov / special郾 pubs / 10_1_4郾 pdf郾 施 44郾 Weiss, Carol H郾 1997郾 Evaluation: Methods for Studying Programs and Policies郾 Upper Saddle River, NJ: Prentice鄄Hall郾 摇125 45郾 World Bank郾 1996郾 World Bank Participation Sourcebook郾 Washington, DC : World Bank郾 http: / / www郾 worldbank郾 org / wbi / sourcebook / sbhome郾 htm郾 ———郾 2004郾 Monitoring and Evaluation: Some Tools, Methods and Approaches郾 Operations Evaluation Department / Evaluation Capacity Development, Washington, DC郾 http: / / lnweb18. worldbank郾 org / oed / oeddoclib郾 nsf / b57456d58aba40e585256ad400736404 / a5efbb5d776b67d285256ble0079c9a3 / $ FILE / MandE_tools_methods_approaches郾 pdf郾 46郾 Worthen, Blaine郾 R郾 , James R郾 Sanders, and Jody L郾 Fitzpatrick郾 1997郾 Program Evaluation郾 New York: Longman郾 网址 1郾 Campbell Collaboration郾 http: / / www郾 campbellcollaboration郾 org / 郾 2郾 Community Toolbox郾 A Framework for Program Evaluation: A Gateway to Tools郾 http: / / ctb郾 lsi郾 ukans郾 edu / tools / EN / sub_section_main_1338郾 htm郾 3郾 Evaluation Center, Western Michigan University郾 The Checklist Project郾 http: / / www郾 wmich郾 edu / evalctr / checklists / checklistmenu郾 htm#mgt郾 4郾 IDRC ( International Development Research Centre). 2004郾 Evaluation Planning in Pro鄄 gram Initiatives Ottawa, Ontario, Canada郾 http: / / web郾 idrc郾 ca / uploads / user鄄S / 108549984812 guideline鄄web郾 pdf郾 5郾 Suthers, D郾 , and A郾 Weiner郾 1995郾 Groupware for Developing Critical Discussion Skills郾 http: / / www鄄cscl95郾 indiana郾 edu / cscl95 / suthers郾 html郾 6郾 University of Wisconsin鄄Extension郾 Logic Model郾 http: / / www郾 uwex郾 edu / ces / pdande / evaluation / evallogicmodel郾 html郾 ———郾 Examples of Logic Models郾 http: / / www郾 uwex郾 edu / ces / pdande / evaluation / evallog鄄 通向结果之路: 有效发展评价的设计与实施 llll llllllll icmodelexamples郾 html郾 变革理论 7郾 Audience Dialogue郾 2007a郾 “Enhancing Program Performance with Logic Models郾 冶 http: / / www郾 uwex郾 edu / ces / lmcourse / , http: / / www郾 wkkf郾 org / pubs / tools / evaluation / pub3669. pdf郾 ———郾 2007b郾 “ Program Logic: An Introduction郾 冶 http: / / www郾 audiencedialogue郾 org / 发 proglog郾 htm郾 展 8郾 AusAid郾 2005郾 “ Section 3郾 3: The Logical Framework Approach and Section 2郾 2: Using 评 价 the Results Framework Approach郾 冶 http: / / www郾 ausaid郾 gov郾 au / ausguide / default郾 cfm郾 的 9郾 BOND郾 2001郾 Guidance Notes Series I: Beginner蒺s Guide to Logical Framework Analysis郾 准 http: / / www郾 ngosupport郾 net / graphics / NGO / documents / english / 273_BOND_ Series_1郾 doc郾 备 与 10郾 Davies, Rick郾 2003郾 “Network Perspective in the Evaluation of Development Interventions: 实 More than a Metaphor郾 冶 Paper presented at the EDAIS Conference “New Directions in Impact Assess鄄 施 ment for Development: Methods and Practice郾 冶 November 24 - 25郾 http: / / www郾 enterprise鄄im鄄 pact郾 org郾 uk / conference / Abstracts / Davies郾 shtml and http: / / www郾 mande郾 co郾 uk / docs / nape. doc郾 11郾 Department for International Development郾 2002郾 Tools for Development: A Handbook for 摇126 Those Engaged in Development Activity Performance and Effectiveness郾 http: / / www郾 dfid郾 gov郾 uk / pubs / files / toolsfordevelopment郾 pdf郾 12郾 den Heyer, Molly郾 2001a郾 A Bibliography for Program Logic Models / Logframe Analysis郾 Evaluation Unit, International Development Research Centre郾 http: / / www郾 idrc郾 ca / uploads / us鄄 er鄄S / 10553606170logframebib2郾 pdf and http: / / www郾 mande郾 co郾 uk / docs / Phillips郾 ppt郾 ———郾 2001b郾 “ The Temporal Logic Model TM : A Concept Paper郾 冶 http: / / www郾 idrc郾 ca / uploads / user鄄S / 10553603900tlmconceptpaper郾 pdf郾 13郾 Inter鄄American Development Bank郾 http: / / www郾 iadb郾 org / sds / soc / eccd / bexam鄄 ple郾 html#ex1郾 14郾 International Fund for Agricultural Development郾 2003郾 Annotated Example of a Project Logframe Matrix郾 http: / / www郾 ifad郾 org / evaluation / guide / 3 / 3郾 htm and http: / / www郾 ifad郾 org / evaluation / guide / annexb / index郾 htm郾 15郾 JISC infoNet郾 2001郾 Engendering the Logical Framework郾 http: / / www郾 jiscinfonet. ac郾 uk / InfoKits / project鄄management / InfoKits / infokit鄄related鄄files / logical鄄framework鄄information郾 ———郾 2004郾 Logical Framework ( LogFRAME ) Methodology郾 http: / / www郾 jiscinfonet. ac郾 uk / InfoKits / project鄄management / InfoKits / infokit鄄related鄄files / logical鄄framework鄄information郾 16郾 Kellogg Foundation郾 2004郾 Evaluation Logic Model Development Guide: Using Logic Models to Bring Together Planning, Evaluation, and Action郾 http: / / www郾 wkkf郾 org郾 / Pubs / Tools / Evaluation / Pub3669郾 pdf郾 17郾 Knowledge and Research Programme on Disability and Healthcare Technology郾 2004郾 Constructing a Logical Framework郾 http: / / www郾 kar鄄dht郾 org / logframe郾 html郾 18郾 McCawley, Paul F郾 1997郾 The Logic Model for Program Planning and Evaluation郾 Uni鄄 versity of Idaho Extension郾 http: / / www郾 uidaho郾 edu / extension / LogicModel郾 pdf郾 第四章摇 预期评价背景与项目变革理论 llll llllllll 19郾 NORAD ( Norwegian Agency for Development Cooperation) . 1999郾 The Logical Frame鄄 work Approach: Handbook for Objectives鄄Oriented Planning郾 4th ed郾 http: / / www郾 norad郾 no / de鄄 fault郾 asp? V_ITEM_ID = 1069郾 20郾 PPM&E Resource郾 2005郾 Logical Framework Approach郾 portals郾 wdi郾 wur郾 nl / ppme / in鄄 dex郾 php? Logical_Framework_Approach郾 21郾 Rugh, Jim郾 “ The Rosetta Stone of Logical Frameworks郾 冶 http: / / www郾 mande郾 co郾 uk / 发 docs / Rosettastone郾 doc郾 展 评 22郾 SIDA ( Swedish International Development Agency) . 2004郾 The Logical Framework Ap鄄 价 proach: A Summary of the Theory behind the LFA Method郾 http: / / www郾 sida郾 se / shared / jsp / 的 download郾 jsp? f = SID A1489en_web郾 pdf&a = 2379郾 准 备 23郾 Usable Knowledge, USA郾 2006郾 Online Logic Model Training: An Audiovisual Presentation郾 与 http: / / www郾 usablellc郾 net / Logicpercent20Modelpercent20percent28Onlinepercent29 / Presentation _ 实 Files / index郾 html郾 施 24郾 Weiss, Carol郾 1972郾 Evaluation Research: Methods for Assessing Program Effectiveness郾 Englewood Cliffs, New Jersey: Prentice Hall郾 摇127 25郾 Wikipedia郾 2006郾 “ Logical Framework Approach郾 冶 http: / / en郾 wikipedia郾 org / wiki / Logical_framework_approach郾 对逻辑框架的批评 26郾 Bakewell, Oliver, and Anne Garbutt郾 2006郾 The Use and Abuse of the Logical Frame鄄 work Approach A Review of International Development NGOs蒺 Experiences郾 Swedish International Development Agency郾 http: / / www郾 sida郾 se / shared / jsp / download郾 jsp? f = LFA鄄review郾 pdf&a = 21025郾 27郾 MISEREOR郾 2005郾 Methodological Critique and Indicator Systems郾 http: / / www. misereor郾 org / index郾 php? id = 4495郾 逻辑框架的不同版本 28郾 Broughton, Bernard郾 2005郾 A Modified Log frame for Use in Humanitarian Emergencies郾 http: / / www郾 mande郾 co郾 uk / docs / EmergencyLogframeBroughton郾 doc郾 29郾 Shaikh, Partha Hefaz郾 2005郾 Intertwining Participation, Rights鄄Based Approach and Log Frame: A Way Forward in Monitoring and Evaluation for Rights鄄Based Work郾 http: / / www郾 mande郾 co郾 uk / docs / PIFA_ Article _ PDF郾 pdf郾 SIDA Civil Society Centre郾 2006郾 Logical Framework Approach, with an Appreciative Approach郾 http: / / www郾 sida郾 se / shared / jsp / down鄄 load郾 jsp? f = SIDA28355en_LFA_web郾 pdf&a = 23355郾 第五章 摇 考虑评价方法 随着对可持续性的强调, 发展已经逐步从对项目的关注, 转移到对计划与政策的关注 上来。 目前, 评价人员采用了各种各样关于设计与开展评价的方法, 以解决更广泛、 更复 杂的问题。 本章主要介绍其中的一些方法。 本章包括两个主要部分 誗 评价的一般方法 誗 评价方法的优势与挑战 评价的一般方法 詪詪詪詪詪詪詪詪詪詪詪 自从 20 世纪 90 年代以来, 关于发展援助, 国际社会已逐步从关注项目转向关注建立合 作伙伴关系的计划 ( 见表 1郾 3)。 合作要求大量的利益相关者在更大程度上参与到更复杂的 运作中, 部门融资方法就是一例。 尽管联合评价尚未成为规范, 但大型计划的评价已自然而 然地更多采用了参与式和联合评价的方式。 再次呼吁增加对受援国政府无附加条件的拨 款———例如 2008 年来自加纳沙克拉的那些呼声, 则意味着未来面临的评价挑战将会更大。 目前, 人们已开发出一系列的方法来满足发展评价不断变化的要求。 选择评价方法一 定程度上取决于内容。 评价方法之间未必互相排斥, 评价过程中可以结合运用其中两种或 者更多的方法。 评价方法包括如下各种: 誗 前瞻性评价 誗 可评价性评估 誗 目标导向的评价 誗 非目标导向的评价 誗 多点评价 誗 集群评价 誗 社会评估 誗 环境与社会评估 誗 参与式评价 誗 成效规划评价 第五章摇 考虑评价方法 llll llllllll 誗 快速评估 誗 综合评价和广义评价 誗 其他方法 无论选择何种评价方法, 都必须采取同样的规划步骤, 那就是: 定义评价问题、 确定 测量方法、 收集和分析数据、 汇报和应用评价发现。 发 展 前瞻性评价 评 价 前瞻性评价是指在采取措施前展开的评价———也就是说, 在一个提议的项目启动前首 的 先进行评议, 旨在分析其成功可能性、 预见成本以及分析备选方案和计划。 立法机构内的 准 备 评价部门已经开展过前瞻性评价。 例子之一是美国政府责任办公室, 其负责向美国国会报 与 告。 有时, 美国政府责任办公室的评价人员通过提供与潜在计划有关的问题和备选方案方 实 面的分析信息, 为政府决策者提供支持 ( U郾 S郾 GAO 1990) 。 施 GAO 通常会被征询新提议计划成功的可能性。 该机构需要负责审查备选方案的信息、 分析正在运作或已完成的类似项目的结果。 表 5郾 1 列出了要求 GAO 调研的四种前瞻性问 摇129 题的类型。 摇 表 5郾 1 前瞻性问题类型和解决途径 问题目的 评论他人分析 开展自我分析 中央政府对未 来 需 求、 成 本 和 结 预见未来 未来的需求、 成本和结果是什么? 果的预测准确度如何? 政府或者国会的某项提议成功的 优化未来行动 什么行动最有可能成功? 可能性有多大? 大多数前瞻性评价包括了以下活动类型: 誗 对提议计划或者政策背景的分析 誗 评议对以往类似计划或政策的评价研究, 综合提炼过去的研究成果与教训 誗 预测可能的成功与失败, 如果未来情形与过去差别不大, 且决策者希望继续推进 提议的计划和政策, 则提出改进提议计划和政策的建议 ( GAO 1990) 。 ( 各种评估类型的资源和范例参见本章末的网址列表) 可评价性评估 可评价性评估是为确定评价是否实用和可行而开展的初步预研究。 这类预研究有助于 明确项目或计划的目标, 确定可获得的数据源, 找出差距并明确需要开发的数据, 明确重 要的利益相关者以及他们的信息需求。 这也可能会要求重新定义开展评价的目的和方法。 通过观察现场实施的干预活动, 理解评价的时间安排和设计, 一项可评价性评估能够节省 通向结果之路: 有效发展评价的设计与实施 llll llllllll 时间并有助于避免代价高昂的错误。 在 20 世纪 70 年代初, Wholey 与他的同事们开发出了可评价性评估的方法, 以表达 他们的信念主张: 许多评价的失败源自 “ 虚夸和现实 冶 之间的矛盾 ( Nay 和 Kay 1982, 第 225 页) 。 他们将可评价性评估视作一种在评价人员与利益相关者之间协调沟通的工 具。 他们提议将可评价性评估作为确定一项计划是否 “ 有价值 冶 和是否做重点评价的手 发 段 ( Fitzpatrick, Sanders 和 Worthen 2004) 。 最初, 可评价性评估是作为总结性评价的前导 展 进行开发的。 后来, 其作用扩展到包括明确形成性研究的目的和作为规划工具的功能 评 价 ( Smith 1989) 。 的 在可评价性评估过程中, 评价人员首先开展预期工作, 以确定一项评价是否能够开 准 展。 例如, 如果提议开展目标导向的评价, 利益相关者之间若缺乏清晰的计划目标或者协 备 与 议, 就可能会产生问题。 除非进行澄清和达成一致, 否则评价可能会操之过急。 有时, 可 实 能缺乏衡量指标或无法获得数据。 在这种情况下, 就要在对干预活动进行评价之前, 先制 施 定出衡量指标和方法。 因此, 可评价性评估注重评估一项评价的可行性。 如果基于可获得的信息来设计一项 摇130 评价不可行, 或者干预活动缺乏内在的变革理论逻辑, 就需要做更多前期工作。 开展可评 价性评估能够帮助明确干预活动的内容和理想结果。 它通常会促成干预活动的目标、 产 出、 目标总体和预期成效之间的对接, 从而帮助各方就期望实现的结果达成一致。 可评价性评估通常由一个小组来开展, 包括利益相关者, 诸如实施者、 行政管理者以 及评价人员。 为开展可评价性评估, 评价团队应该: 誗 评议定义和描述干预活动的材料 誗 确认对干预活动所做的修改 誗 访谈管理者和工作人员, 了解他们对干预活动目标的认知状况 誗 访谈利益相关者, 了解他们对干预活动目标的认知状况 誗 开发或者重新提炼变革模型 誗 确认数据源 誗 确认能实施任何可能的评价建议的人员与组织 可评价性评估的一个潜在好处就在于, 它能够产生更现实和恰如其分的评价。 Smith (1989) 和 Wholey (1987) 指出其还能提高以下能力: 誗 区分干预活动失败和评价失败的能力 誗 对长期成果的估计 誗 改进利益相关者在干预活动中的投资 誗 改进干预活动的绩效 誗 提升员工进行干预设计和评价的技能 誗 改进干预活动的透明度和责任 誗 改进行政部门对行政管理的理解 誗 优化政策选择 誗 为干预活动提供持续支持 第五章摇 考虑评价方法 llll llllllll 目标导向的评价 目标导向的评价用以衡量一项计划或者干预活动达到明确、 具体的目标的程度 ( Pa鄄 ton 1990) 。 这种评价注重项目、 计划或政策明确的成效 ( 目标 ) 。 这是一种被大众熟悉的 典型评价方法, 是大多数发展机构项目评价系统的基础。 发 对目标导向评价的一种批评, 就是它集中在经济和技术层面, 而非社会和人文层面 展 评 ( Hirschheim 和 Smithson 1988) ; 另一种批评, 则是这种评价只注重明确的目标, 达成其他 价 重要的目标———可能是不明确的, 或者可能在理事会或者部门会议上讨论过, 却没有包含 的 在明确的项目目标中———则没有被评价; 还有一种批评, 就是他们不去探询非预期的效果 准 备 ( 正面的或者负面的) 。 与 这些可能都是严重的疏忽。 例如, 评价一个新的水处理厂, 主要关注点可能在建设、 实 运营、 维护水处理设施这样明确的项目目标上, 这些指标的达成能确保每天定量产出净 施 水, 以满足一定量家庭或社区的需要。 但评价通常会忽略对那些生活在此地、 需要在该水 厂建设前搬迁的居民的影响。 不能设定一个与搬迁安置有关的指标, 从而确保搬迁居民的 摇131 生计得以改善并能持续, 就是一个严重的疏忽。 因为解决与搬迁有关的问题并非是正式、 明确的项目目标, 如果不询问这方面的问题, 那么评价就存在瑕疵。 这类评价应关注干预活动产生的非预期的积极或消极效果。 尽管可能未阐明特定目 标, 但是在使用自来水的社区中, 记录由不洁净水引发的各类疾病的减少率, 对评价是有 价值的。 本书倡导的结果导向的评价, 重在关注结果, 不论其是否被明确的设定为目标。 通过 开放地关注未预期的正面、 负面结果, 能够强化目标导向的评价方法。 非目标导向的评价 非目标导向的评价是相对于目标导向的评价而开发出来的。 Scriven (1972b) 首先提 出了非目标导向的评价, 他是该方法的主要倡导者。 在非目标导向的评价中, 评价人员刻意避免与计划目标有关的话语。 评价人员不与员 工讨论目标或者阅读计划宣传册或方案。 他们只评价与参与者需求相关的有关计划的可观 察到的结果和有据可查的成效 ( Patton 2002) 。 如 Scriven (1972b, 第 2 页) 提到: 简而言之, 对我而言, 对目标的考虑和评价是不必要的, 而且可能也是一个会产生误导的步 骤。 外部评价人员了解项目目标越少, 视野才不会越变越窄, 才会更多关注真实的效果 ( 而不是 主观推断的效果) 。 非目标导向的评价不受目标关注点的局限, 主要收集计划的效果和效力方面的数据。 这种评价能够获取计划参与者用他们自己的语言表达的真实体验。 这种方法要求评价人员 暂缓评价一个计划打算做什么, 以便注重实际真正发生的情况。 基于这些原因, 尽管评价 时可以采用定性和定量的两种方法, 但还是定性调查的方法更适合。 通向结果之路: 有效发展评价的设计与实施 llll llllllll Scriven (1997) 提出开展独立的目标导向和非目标导向的评价, 将每种方法的优点 最大化, 并使缺点最小化。 Wholey, Harty 和 Newcomer (1994) 描述了非目标导向评价的以下特征: 誗 评价人员避免知道计划的目标 誗 不允许预设目标来缩小评价研究的范围 发 誗 尽可能减少评价人员与计划管理人员和员工接触 展 誗 重点放在实际成效上, 而不是预期的计划成效上 评 价 通常, 在发展的环境中很难避免了解一项干预活动的目标。 使评价人员与计划的工作 的 人员之间的接触保持最低限度, 可能也是不可行或不必要的。 尽管如此, 在实施结果导向 准 的评价时, 评价人员还是可以运用非目标导向评价中的许多要素。 备 与 实 多点评价 施 在大规模的干预活动中, 了解在多处地点实施的干预活动的情况通常是很有必要的, 摇132 这就是 “ 多点评价冶 。 在所有地点实施干预活动的方式可能一样, 有时也可能不一样。 多 点评价能提供来自干预活动各方面经验的信息, 以及对发生的各种变化的深入理解。 这种 评价能够回答下列问题: 誗 在实施的干预活动中, 哪些特性对于所有地点是共性的? 誗 什么特性因地点不同而有差异, 为什么? 誗 那些差异会否引起成效的差异? 在多点评价中获取深入信息非常关键。 为此, 评价人员在多点评价中, 通常采用案例 研究方法。 一般来讲, 会精心挑选研究地点, 因为这些点代表了可能导致干预活动实施和 结果产生系统性差异的特定属性 ( 例如, 大小、 种族划分、 社会经济地位等) 。 当然, 要 确定结果差异是否源自干预活动中的差异可能是困难的。 在有些案例中, 由于独特的环 境, 例如较强的领导力或积极的公民参与, 干预活动会产生影响。 另外一些情形下, 变化 则可能是由系统差异引起的, 例如区域差异。 这些差异对干预活动的进一步实施可能具有 一定的参考价值。 开展多点评价必须捕捉干预活动开展过程中的氛围, 以及文化、 地理、 经济、 规模或 者其他可能会导致经验和成效差异的系统性差异。 由于利益相关者能够帮助评价人员更好 地了解当地情况, 因此他们的参与非常重要。 开展多点评价, 比在单一地点开展的单一干预活动的评价要更强大、 有效。 因为评价 活动包括了更大的样本, 涉猎到更加多样化的干预活动状况, 因此能作出可信度更高的结 论。 评价时, 可作 “ 点内 冶 分析, 也可作 “ 点际 冶 分析。 和单点评价相比, 更大样本调 查的发现和不同地点干预活动评价发现的一致性, 能为干预活动有效性提供了更强有力的 证据。 对不同地点的干预情况进行比较, 能为应对各种情况提供一系列的教训和策略。 在多 点评价中也能发现一些好的做法。 但是, 要牢记的是, 根据评价人员自己的判断所选择的 地点, 即便代表了某些特性, 也可能在统计上不能代表总体, 且未必能揭示出所有好的 第五章摇 考虑评价方法 llll llllllll 做法。 在开展多点评价时, 评价人员必须确保数据收集尽可能标准化。 同类数据必须按照相 同方式进行收集, 否则就无法进行比较。 开展这种数据收集的前提条件是拥有训练有素的 员工、 确保每个地点能获得同样的数据、 确保提前有足够的信息以设计数据收集方法。 每个地点都是不同的。 有些指标可能是可比较的, 但是每个地点可能都有一些略微不 同的关注点。 政治、 社会、 经济和历史背景等因素可能都会影响到项目实施, 并进而影响 发 到评价工作 ( Johnston and Stout 1999) 。 展 评 价 集群评价 的 准 备 集群评价与多点评价相似, 但目的不同。 一般来说, 它是对一组相似或相关干预活动 与 进行的评价。 这种方法着眼于在一种或多种背景下研究这 “ 群 冶 干预活动。 像多点评价 实 一样, 集群评价注重评价具有共同的使命、 战略和目标人群的干预活动。 但不同的是, 集 施 群评价并非意在确定一项干预活动是否行之有效或是明确责任。 它不评价单个干预活动的 成败或者确定是否应终止干预活动。 它意在了解集群内的状况, 弄清楚共同的主题和获得 摇133 的教训。 如多点评价一样, 利益相关者的参与至为关键。 集群评价与多点评价不同的是, 其不考虑普遍性与可复制性。 差异被视为积极的, 因 为单个项目会根据所处环境而调整。 集群评价更注重学习, 而不是对计划质量或者价值下 整体结论。 集群评价没有特定的方法, 通常采用定性方法作为对定量数据分析的补充。 人们可以 将集群评价视为多个案例研究, 其重要特点之一是通过网络会议分享案例信息。 集群评价的一个不足之处就是它不能呈现单个地点的结果, 也无法考虑到预期或非预 期的差异。 评价数据只能呈现总体信息。 社会评估 社会评估已经成为许多评价的重要组成部分。 一项社会评估着眼于一个群体或者社区 内的社会结构、 流程和变革, 社会评估也可能会分析影响群体的趋势。 社会评估是确保考虑到发展项目、 计划和政策的社会影响的主要工具。 运用这一方 法, 可以理解关键的社会问题和风险, 以确定开展一项干预活动对不同利益相关者的社会 影响。 社会评估旨在确定一个项目是否有可能产生不利的社会影响 ( 例如, 为建造发电 厂而移民) 。 如果认识并确认存在某些不利影响, 就可设置一些策略来消减不利影响, 然 后, 就可对这些消减策略进行监测和评估。 《 世界银行参与工作手册 (1996) 》 明确了社会评估的下列宗旨: 誗 明确关键的利益相关者, 建立他们参与项目选择、 设计和实施的适当框架 誗 确保项目目标和变革动机对于目标受益群体是可接受的, 项目设计反映性别和其 他社会差异 誗 评估投资项目的社会影响; 不利影响出现在哪些方面, 确定如何能够克服或者至 通向结果之路: 有效发展评价的设计与实施 llll llllllll 少尽可能减弱这些影响 誗 开发适当的能力, 以便能够按要求参与、 解决冲突、 提供服务和采取消除不利影 响的措施。 《 世界银行参与工作手册》 明确了下列在社会评估中经常问及的问题: 誗 谁是利益相关者? 项目目标和需求、 利益及能力是否一致? 发 誗 哪些社会和文化因素会影响利益相关者参与或者从所提议活动中受益的能力? 展 誗 项目或计划对各种利益相关者, 尤其是女性或者弱势群体有什么影响? 哪些社会 评 价 风险 ( 缺乏承诺或者能力, 与现有条件不相容) 会影响项目或计划的成功? 的 誗 为了参与和实施项目, 需要什么样的制度安排? 开展相应能力建设的计划是否 准 充分? 备 社会评估工具和方法包括: 与 实 誗 利益相关者分析 施 誗 性别分析 誗 农村参与者鉴定 誗 考察、 访谈、 专题组 摇134 誗 规划、 任务分析、 财富排名 誗 聚焦于目标导向的项目规划的专题研讨会 以下是监测社会影响的一些关键指标示例: 誗 在自愿测试中, 社会群体的参与率 誗 在咨询活动中, 社会群体的参与率 誗 避孕套使用增加的报告 誗 社区成员参与关心艾滋病 ( HIV / AIDS) 患者及其家庭的比率 专栏 5郾 1 提供了将社会评估整合到项目之中的一个范例。 专栏 5郾 1摇 阿塞拜疆农业发展和信贷项目的社会评估 农场私有化项目提供更加灵活和适合当地情况的贷款, 其实施旨在将阿塞拜疆农业 区的生产力恢复到以前水平。 该项目注重地产登记、 土地市场开发, 为农村地区居民, 特别是低收入者提供信贷和信息。 社会评估旨在确保拟采取的干预活动是基于利益相关者的意愿, 且预期收益能够被 社会所接受。 从社会评估中获得的信息, 有助于计划管理人员设计一个参与性的监测和 评价流程。 社会评估第一阶段包括了下列内容: 誗 评议二手数据, 包括早期评估 誗 对六大区域中三个区域的家庭和妇女们进行调查, 接下来开展一个定性的快速 评估 誗 对个人 ( 农场主、 农场管理人员、 失业工人、 社区领导者、 妇女团体、 地方协 会、 技术人员、 政府官员等) 的半结构化访谈 第五章摇 考虑评价方法 llll llllllll 摇 摇 誗 工作人员的现场观察 ( 评估团队的一位成员与一个农场家庭一起生活, 现场观 察农场私有化的影响) 誗 五个由同质性的利益相关者组成的核心组 誗 向政策制定者、 行政管理者、 地方和国际非政府组织咨询 誗 与国有农场的前任管理人员和社区领导讨论 发 誗 一次利益相关者研讨会 展 评估围绕四大支柱展开: 评 誗 社会发展: 主要考虑减贫、 性别和社会排斥 价 的 誗 制度: 农村区域的权力基础正在变革, 这使得确定关键利益相关者有些困难。 准 对社会组织的研究很有限, 缺乏对于农民工迁移影响的分析。 备 誗 参与: 报告称土地改革流程是模棱两可、 模糊不清的。 土地分配减少了贫困、 与 实 削弱了前任农场管理人员的影响, 帮助赋予农村人口权利。 获得信贷的机会增 施 加, 但是利率仍然很高 ( 15% ~ 18% ) 。 誗 监测 / 评价: 采用绩效指标来监测实施情况。 指标将项目的投入、 活动与期望产 出和影响的量化衡量联系起来。 摇135 评估也注重影响, 形式包括生产率增长、 收入增加、 减贫和参与者满意度。 资料来源: Kudat 和 Ozbilgin, 1999 环境与社会评估 发展机构越来越意识到, 项目和计划关注解决环境和社会热点问题, 需要评价环境和 社会目标的实现状况。 大多数发展机构坚持一系列核心的环境与社会标准, 明确将潜在的 环境和社会影响看作一个项目或者计划审批流程的一部分。 如果批准了某项目或者计划, 那么在实施期间就能监测到这些潜在影响, 并能在完成后被评估。 环境和社会评估被看做 是不可分割的部分。 目前, 发展机构意识到, 当地居民必须在设计、 实施和监测那些会影响环境和自然资 源的干预活动中发挥自身的作用。 当地居民和其他利益相关者是保护和管理自然资源的合 作伙伴。 环境和社会评价可能是一项评价的唯一目的, 也可能是整个评价的一个组成部分。 环 境和社会评估不仅应该在有明显环境效果的项目中开展 ( 如造纸厂、 输油管道 ) , 而且应 该在诸如新学校建设和信贷拨款等干预活动中开展。 如果一个组织缺乏环境和社会标准, 评价人员可以借鉴该组织开展工作所在国家的标 准, 以及 《 赤道原则》 、 ISO 14031 和 《 可持续发展战略: 参考手册》 ( Dalal鄄Clayton 和 Ba 2002) 。 赤道原则 赤道原则是帮助金融机构在对总资本成本不低于 1 000 万美元 (2006 年修订, 之前为 通向结果之路: 有效发展评价的设计与实施 llll llllllll 5 000 万美元) 的项目进行融资时决定、 评估和管理环境与社会风险的一系列原则。 这些 原则旨在为发展项目环境及社会方面的程序和标准的实施提供一个共同的基准和框架。 ISO 14031 ISO 14031 是国际标准化组织 ( The International Organization for Standardization, ISO) 发 制定和维护的环境管理国际标准。 这项标准在 1999 年首次发布, 实际上是一套内部管理 展 流程和工具, 用以持续不断地为管理层提供可信、 可证实的信息。 它有助于确定一个组织 评 价 的环境绩效是否达到了管理层所设定的标准。 环境绩效评价和环境审计有助于管理层评估 的 环境绩效状况, 确认需改进的地方 ( ISO 1999) 。 准 建立下列流程有助于环境绩效评估: 备 与 誗 选择指标 实 誗 收集和分析数据 施 誗 根据环境绩效标准 ( 目标) 评价信息 誗 汇报和交流 誗 定期评议和改进流程 摇136 可持续发展战略: 参考手册 该参考手册由经济合作与发展组织与联合国发展计划署联合发行, 为如何开发、 评估 和实施国家战略提供了灵活、 非强制性的指南, 以符合在可持续发展战略指导方针中所提 出的基本原则 ( Dalal鄄Clayton 和 Ba 2002) 。 手册包含了与战略实施过程中主要任务有关的 各种观点和案例研究。 手册旨在为那些在国家或者地方层面关心可持续发展的国家、 组织 和个人以及关心支持可持续发展的国际机构提供指南。 参与式评价 参与式评价把利益相关者的概念引入到新的层次。 其中包括通过利益相关者参与确定 评价问题、 收集和分析 数 据、 起 草 和 评 审 报 告 等, 共 同 承 担 评 价 规 划、 实 施 和 汇 报 的 责任。 Paulmer (2005, 第 19 页) 将参与式评价描述为: 由利益相关者和受益人联合对计划开展的评估。 他们是行动导向的, 能够提升利益相 关者的能力、 促进合作、 共同决策, 从而提高评价结果的利用率。 在评价中受益人能够不 同程度的参与。 参与和参与式评价方法有两个主要目标: 誗 参与作为产品, 在此, 参与的行为就是目标之一, 也是成功的一项指标; 誗 参与作为过程, 以帮助达到一个明确目标。 Patton (1997) 认为, 参与式评价有如下基本原则: 誗 评价过程中运用了参与者在设定目标、 确定优先排序、 筛选问题、 分析数据、 对 数据决策等方面的技能 第五章摇 考虑评价方法 llll llllllll 誗 参与者是评价的主人, 参与者作出决策并得出结论 誗 参与者确保评价关注他们认为重要的方法和结果 誗 人们一起工作、 协助和促进群体团结 誗 对参与者来讲, 评价的各个方面都是可以理解和有意义的 誗 高度重视自我问责 誗 协调人发挥学习资源的作用; 参与者发挥决策和评价者的作用 发 展 有关研究开发了专门的技术指南, 以提升数据的可靠性和有效性。 参与式评价并非是 评 以专家们告诉数据收集者明白无误的规则的方式展开的。 相反, 数据收集指南是双方通过 价 共识、 反思、 对话和经验制定出来的 ( Narayan 1996) 。 的 在发展环境中, 参与式评价方法越来越得到关注。 它被越来越多地用于发展项目, 尤 准 备 其是基于社区的项目。 参与式评价是独立评价或评价人员作为专家之外迈出的一步。 与 参与式评价方法明确有利益关系的人、 机构和组织并邀请他们参与。 参与群体包括社 实 区孩子、 妇女和男士, 尤其是那些边缘化群体。 他们也包括机构人员、 决策者和所有那些 施 受参与式研究过程影响的群体 ( Narayan 1996) 。 在参与式评价中, 利益相关者可能会被要求保留他们与干预活动经验相关的日记或日 摇137 志等。 他们也可能会帮助访谈社区内的其他人, 参与分析数据、 解释研究成果, 并帮助提 出建议。 在参与式评价中, 评价规划决策, 例如明确问题、 测量方法和数据搜集策略等, 都是 与参与者一起作出的。 这是一个联合的过程, 而不是传统的自上而下的过程 ( 见表 5郾 2) 。 参与式方法通常会增加评价结果在计划工作人员眼中的可信度, 并能增加利用评价结 果的可能性。 参与式评价的倡导者将其视为赋予参与者权利并提升当地参加开发过程能力 的一种手段。 摇 表 5郾 2 参与式评价和传统评价技术的特性 参与式评价 传统式评价 关注参与者及其自主权 关注捐赠者及其自主权 注重学习 注重责任与判断 灵活设计 预定设计 更多非正式方法 正式方法 外部人员作为协调者 外部人员作为评价者 参与式评价面临相当大的挑战。 由于举办会议、 确保每人能够理解期望目标耗时甚多 且要求相当的技能, 所以, 与传统评价相比, 其实施成本更高。 在关注完成当前任务之 前, 群体倾向于开展一个磨合差异、 形成群体规范的过程。 这种群体动态过程有时被描述 为: “ 形成、 冲突、 规范和执行冶 。 在形成之后, 有一个阶段的冲突 ( 碰撞 ) 是很自然的。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 如果一个群体克服了这些冲突, 就会建立起如何在一起共同工作的更多特定共识。 一旦建 立起这些规范, 他们将会进入执行任务阶段。 在不同成员具有不同地位的文化中, 营造一个平等团队可能也会面临一些挑战。 想要 开展参与式评价的评价人员必须具备协调、 合作和冲突管理的技能 ( 或者由具有这些技 能的人作为领导者) , 同时也需要具有及时提供与评价和群体参与流程有关的基础技能和 发 技术培训的能力。 展 受训于传统评价方式和开展传统评价的人, 可能会担心参与式评价不够客观。 他们认 评 价 为, 可能存在这样一种风险, 即对与干预活动关系最密切的人来说, 如果实际发生的情况 的 并非如其所愿, 他们可能就会无法看清实际情况。 评价可能真正变成了 “ 人为捕捉到的 准 现象冶 而失去了客观性。 参与者可能害怕负面观点, 因为他们担心团队其他成员可能会 备 与 排斥他们或者干预活动被终止, 导致社区财产损失, 或者他们将不能再次为发展机构工作 实 等。 从学习的视角来开展参与式评价, 可能有助于减少这些恐惧。 评价人员应该考虑: 在 施 局外人眼中, 选择参与式评价而不是独立评价可能牺牲多少可信度。 Gariba 也 (1998) 描述了 “ 评价 冶 这个词是如何在援助方和实施者中产生混合反应 摇138 的。 援助方可能担心评价将会对计划产生怎样的影响 ( 即导致其被延续或者终止 ) , 而计 划实施者则可能害怕评价会否定其项目管理的方法。 Gariba 描述了参与式评价何以能成为一种成功、 系统的从经验中学习的方法。 通过参 与式评价, 发展干预活动中的合作方能够从互动中获取教训, 并采取纠偏行动以提高他们 持续进行的未来活动的有效性和效率。 Gariba (1998) 还提出了参与式评价的三个关键要素: 誗 评价作为学习工具: 这一原则构成了主要的选择范例。 评价的目的不是调查, 而 是为包括援助方在内的所有利益相关者创造机会, 帮助他们从所扮演的发展干预 实践角色中学习。 誗 作为发展过程的一部分: 评价活动不是抽象的, 也不是游离于发展过程之外的。 评价的结果和相应工具是推进变革的手段, 而不是历史性报告。 誗 评价作为合作伙伴关系和责任的分担: 在参与式影响评估方法中, 所有的参与者 占有差不多相等的分量。 这与评价人员的 “ 我们———专业人员 冶 、 “ 他们———项目 工作者和受益人冶 认识倾向, 形成了鲜明对照。 评价人员从调查人员转变成推广 者和参与者。 根据 《 加拿大国际开发署指南》 ( CIDA 2004) , 如果利益相关者参与了结果开发, 他 们更可能对干预活动的实施做出贡献, CIDA 相信参与式评价也能够: 誗 在社区内建立问责制 誗 建立更加务实导向的评价 誗 增进合作 誗 通过让当地参与者参与评价过程, 赋予其权利 专栏 5郾 2 阐明了参与式评价中应用的一项技术。 第五章摇 考虑评价方法 llll llllllll 专栏 5郾 2摇 通过参与式评价建立信任 摩洛哥一名小组协助者通过要求几位妇女们围成一圈并手拉手来建立信任。 她要求 大家在不松开手的情况下打结。 接下来, 再由一个 “ 外部人员 冶 指导妇女们解开自己 所打的结。 这个练习需要 6 分钟时间来完成。 然后, 要求该组重复这项练习。 最后, 大 发 家只花了 10 秒钟就完成了全部动作。 展 针对 “ 外部人员冶 的作用, 协助者帮助小组成员得出结论: 外部人员通常发挥了 评 更好的协助者和催化剂的作用, 而不是领导作用。 当地居民更了解如何找到解决问题的 价 的 办法, 因为他们总是与问题打交道。 准 资料来源: 世界银行 1996 备 与 实 成效规划 施 加拿大国际发展研究中心 ( Canadian International Development Research Centre, IDRC) 摇139 开发出一种创新的评价方法。 这种被称为成效规划的评价方法并非是对传统评价形式的替 代, 而是通过关注相关的行为改变对传统评价进行补充。 成效规划是注重结果的一种特定类型: 行为改变。 它注重成效, 而非发展影响的实 现, 发展影响往往被视为是 “ 顺流而下 冶 的, 反映了许多努力和干预活动。 加拿大国际 发展研究中心指出, 尝试精准地评估任何一个机构对于影响的贡献, 都是无用的。 相反, 成效规划着眼于多种努力所产生的行为, 以帮助提高项目、 计划和政策的绩效。 在成效规划中, 明确了边界合作伙伴, 也就是与项目、 计划和政策交互的个人、 团体 和机构。 成效规划假定边界合作伙伴控制了变革。 同时, 成效规划法也假定, 正是由于边 界合作伙伴作为外部代理人的角色, 赋予他们以新的资源、 思想和机会。 在成效规划评价 的支持者看来, 最成功的项目或计划, 是那些将权利和责任赋予置身其中行事的人们的项 目或计划。 成效规划注重的是人。 它体现出一个转变: 从评估一个项目、 计划的发展影响, 转向 描述个人、 团队或组织的行为方式变化。 成效规划评价提供了对计划活动建模的方式。 与 大多数传统的逻辑模型不同, 这一模型认同不同的伙伴是按照不同的逻辑和责任系统来运 作的。 成效规划评价提供了一个监测合作伙伴和组织变化的方法。 它鼓励项目定期评估如何 提升绩效。 如果评价目的是将计划作为一个整体来研究, 则成效规划也可被用作最终计划 的评估工具。 成效规划的倡导者认为, 许多计划, 尤其是那些注重能力建设的计划, 可以围绕行为 作更好的规划并评估他们对发展的贡献。 例如, 某个计划的目标可能是通过安装净水器, 为社区提供更纯净的水。 传统的评价方法可能是通过计算安装净水器的数量, 测量在安装 前后水中污染物水平的变化, 来评价结果。 而成效规划评价方法则注重行为。 它开展工作 的假设前提是: 如果人们不能一直去维护水质, 水就无法保持洁净。 因此, 对项目成效的 通向结果之路: 有效发展评价的设计与实施 llll llllllll 评价就将焦点放在那些对水的洁净负有责任的人的行为上, 尤其是他们获得、 使用合适的 工具、 技能和知识的变化。 成效规划将评价人们如何监测水中污染物水平、 更换过滤器或 是有必要时引入专家的情况。 一首由国际发展研究中心前评价负责人泰瑞· 斯马特勤 ( Terry Smutylo) 所写的, 关 于成效规划评价的歌曲, 总结了成效规划寻求解决的一些问题。 ( Terry Smutylob 演唱 “ 产 发 出成效下游的影响蓝调冶 的录音的链接地址见本章末所提供的网址) 展 评 “ 产出成效下游的影响冶 布鲁斯 价 产出、 成效、 影响: 为谁? 由谁? 说得又是谁? 的 准 摇 摇 ( 尾声:) 备 与 不要根据归因去寻找影响 (4 伊 ) 实 一个烦人的小词被过多用到 施 在开发计划中它总是被滥用 它变成我们都在狂热的行动 生存取决于捉摸不透的影响。 摇140 ( 副歌 I) 正是影响, 在任何时间、 任何地点 你会发现它在拐角处, 甚至更远 如果它没有按照你选择的方式发生 你就得到了那些 “ 产出成效下游的影响冶 蓝调。 当援助方寻找他们真正想看到的影响 这是他们幻想的一幅如此渺小的画面 现在一个优秀的评价人员不会这样做 不会没想明白就来使用 “ 影响冶 这个词。 但是现在援助方总说这是个事实 从这离开并向我们展示你的影响 你不得不改变人们的生活, 帮助我们取得信用 否则下次你如果想要资金 - 哈哈 别再想得到。 ( 副歌玉) 正是影响, 在任何时间、 任何地点 你会发现它在拐角处, 甚至更远 如果它没有按照你选择的方式发生 你就得到了那些 “ 产出结果下游的影响冶 蓝调。 受助方总是渴望愉悦 第五章摇 考虑评价方法 llll llllllll 当我们将评价人员派到海外 去寻找可测量影响的指标 让援助方惊奇的是, 他们带回来了什么? 哈哈, 他们发现发生的影响 来自许多因素, 我们不确信 我们能够将什么, 归因于谁 发 因为影响是那么多人们共同的作品。 展 评 价 ( 副歌域) 的 正是影响, 在任何时间、 任何地点 准 备 你会发现它在拐角处, 甚至更远 与 但是如果你去寻找不愿失去的特性 实 那些产出成效下游的影响蓝调。 施 于是援助方从你那不可能的梦中醒来 你在遥远的上游投入了钱财 摇141 然后它们流入水中, 混合啊、 再混合 你如何保证最后能够产生了什么? ( 副歌域) 正是影响, 在任何时间、 任何地点 你会发现它在拐角处, 甚至更远 但是如果你寻找你不愿失去的属性 那些产出成效下游的影响蓝调。 尾声 (4 伊 然后 淡出) 快速评估 快速评估满足快速、 低成本评价的需求。 这种方法在发展中国家评价环境中尤其有 用。 在那里, 时间与其他资源都很有限, 如缺少基准数据, 文盲率高, 从而只能做有选择 的问卷调查, 加之评价预算也很有限等原因, 使得开展全面评价十分困难。 然而, 快速评估并没有一个确定的定义。 其通常被称为建立在正式和非正式数据收集 之间的桥梁, 一个 “ 相当快捷和纯粹冶 的方法, 而不是 “ 快捷而动机不良的 冶 。 它可被描 述为通常是由一组评价人员在现场管理的系统的、 半结构化的方法。 团队最好多元化, 以 更能反映各种各样的观点。 当观察过程而不是结果或影响时, 快速评估的效果最佳。 通常, 它运用定性和定量的 方法寻求收集最基本的信息, 也就是那些 “ 必须了解的冶 而不是 “ 了解也不错 冶 的信息。 其开展发展评价的基本导向是 “ 寻求理解 冶 , 因为一个非判断性的方法更可能产生开放、 诚实的对话。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 由于观察干预活动能够了解工作运作情况的线索, 所以要进行实地考察。 一个关键任 务就是确认那些有各种经验和观点的访谈对象, 尤其那些最有可能在评价中被忽视的群 体。 在掌握整体情况方面, 人数不多但高度多元化的重要被调查者组合是非常有效的。 此 外, 评价者的倾听技能也十分必要。 快速评估可以使用其他类型评价中运用的同样的数据收集和分析方法。 不同之处通常 发 在于范围。 典型地看, 快速评估的范围很小, 主要联系为数不多的几个不同地点的一些重 展 点对象。 评价时, 不能仅有一个信息来源, 多元信息源能够增加可信度, 减少偏见, 提供 评 价 全面视角。 除对重点调查对象访谈获得的数据外, 应该以以往的报告、 研究、 记录和文件 的 以及通过观察、 专题组、 小组访谈和调查所获得的信息作为补充。 从这些不同渠道搜集的 准 信息一致性越高, 研究结果的可信性就越强。 备 与 在使用定性方法时, 需要有良好的速记技能。 评价人员写日志来记录观察、 主题、 直 实 觉、 解释和其他任何在现场考察中发生的事件, 都是有帮助的。 记录应与其他团队成员分 施 享, 以帮助确定共同主题。 在进行快速评估的过程中, 评价人员应该注意以下事项: 誗 在实地考察前评议二手数据 摇142 誗 一旦在现场, 要观察、 倾听、 询问和记录 誗 在全过程中认真记录; 做好记录, 不仅对于汇报来讲是必要的, 也有助于印证不 同团队成员收集的信息 在开展快速评价中学到的策略和教训表明, 快速评估之前应该考虑如下事项: 誗 组建由男女共同构成的多元的、 多学科背景的团队 誗 如果可能, 既聘用内部人员 ( 熟悉干预活动和当地区域 ) , 也聘用外部人员 ( 以 崭新视角看问题) 誗 使用小规模而不是大团队以实现互动最大化 誗 分配好收集数据和分析数据的时间 誗 随时愿意到需要的地方去 ( 现场、 市场、 远离主干道的区域) , 而不是只到方便去 的地方 誗 保持灵活性和适应性, 因为新的信息可能会改变评价规划 ( FAO 1997) 综合评价 在对类似的干预活动结果已经开展了许多评价的时候, 综合评价方法就是一种有效的 方法。 它使评价人员能够考察聚焦于类似问题或主题的干预活动, 来确认共同点。 在当评 价寻求发现一种干预活动的整体有效性时, 综合评价是非常有效的。 Chelimsky 和 Morra (1984) 将综合评价技术应用到对干预活动最重要的定性和定量 评价中, 从而将其引入到更广泛的政策范畴。 在此之后, 综合评价才被运用于评价之中, 成为最重要的定量分析方法。 例如针对年轻妇女营养计划对婴儿出生体重和死亡率的影响 或者班级规模对学生教育成绩的影响等的评价。 综合评价背后隐含的概念是, 单个评价可能为一个特定干预活动提供有效信息。 但 第五章摇 考虑评价方法 llll llllllll 是, 由于每个评价都有独特的背景, 因而不能基于单个评价对干预活动的影响作出总体描 述。 但是, 当把许多研究的结果结合起来看时, 就可能对某种干预活动的影响 ( 甚至一 项政策的影响) 做总体描述。 综合评价的一个优势在于, 其利用可获得的各种研究成果, 成本比其他类型的评价低 廉。 另外一点则是, 它围绕对某一干预活动影响的评估建立了更为广泛的基础, 从而也增 强了人们对干预活动的影响作出总体描述的信心。 而挑战则在于: 要找出所有发表的或未 发 发表的相关研究; 鉴别以往每个评价的质量; 在研究成果可应用时, 要获得那些评价收集 展 评 的数据以供二次分析。 价 综合评价应该包括下列内容: 的 誗 明确鉴别评价的程序和范围 准 誗 形成将某一评价纳入或排除出综合评价的透明的质量标准 备 与 誗 应用质量标准的程序 ( 常由专家小组而非个人决定) 实 誗 评估所有评价引用的资料 施 誗 对纳入综合评价的每个评价做总结描述, 并总结围绕有关主题或相关变量的发现 誗 综合的差距或局限 摇143 有些综合评价只考虑用以上要素中的一部分。 例如, 在专栏 5郾 3 所描述的情况中, 报 告似乎未对以往评估的质量进行甄别, 从而留下了对综合评价结果的质疑。 在评价文献中, 术语 “ 综合评价 冶 和 “ 广义评价 冶 有时可交叉使用。 我们主张将两 者区分开来。 正如我们在这里所运用的, 综合评价是指对满足最低质量标准的评价结果的 分析汇总。 对照来看, 广义评价 是指按照专业质量标准对一个和多个评价进行的专家 评议。 专栏 5郾 3摇 应用综合评价衡量环境收益 2000 年, 英国国际发展署 ( U郾 K郾 Department for International Development, DFID ) 发布了一项环境综合评价研究成果。 DFID 在 90 年代曾成功管理了一系列环保项目。 但 是其感觉环境收益 “ 通常是被假定而未经严格分析冶 ( p郾 1 ) 。 环境的综合研究受托分析 了在 5 个国家内实施的 49 个由 DFID 支持的项目, 旨在评价 DFID 支持环境改善和保护 的双边项目的实施和影响。 这 49 个项目并非主要是环境项目, 但涉及一系列环境干预 活动 ( 能源效率、 工业、 林业、 生物多样性、 农业和城市改善等) 。 在翻阅了 49 项研究成果后, 评价人员总结到: “ DFID 对环境问题的高度政策优先 要求与环境影响方面的实际成果之间存在差距。冶 资料来源: DFID 2000, 1郾 其他方法 在发展评价中, 也采用其他方法、 原理和模型。 大多数都是根据参与式评价的主题演 变而来。 在这一部分, 读者会发现本书力推的某些结果导向的评价模型的要素, 例如明确 通向结果之路: 有效发展评价的设计与实施 llll llllllll 和测试某个变革理论, 一开始就强调应用, 以及在评价的全过程明确利益相关者并让他们 参与其中。 这一部分描述了下列方法: 誗 实用导向的评价 誗 授权评价 发 誗 现实主义评价 展 誗 包容性评价 评 价 誗 受益者评价 的 誗 横向评价 准 备 实用导向的评价 与 实 实用导 向 的 评 价 是 主 张 应 通 过 实 用 性 和 实 际 使 用 情 况 进 行 评 判 的 评 价。 Patton 施 (2002, p郾 173) 关于实用导向评价的主要著作目前已经出了第四版 (2008) , 他在该书的 开篇将实用导向的评价描述为以 “ 确认和组织将使用评价产生的信息的具体的、 相关的 摇144 决策者和信息使用者 ( 并非模糊的、 被动的受众) 冶 为起点。 该评价注重预期使用者的预 期应用。 预期使用者是指那些有责任去应用评价发现并实施其建议的人。 实用导向的评价 能帮助主要的预期使用者针对特定情况选择最合适的评价模型、 内容和方法。 授权评价 授权评价是指应用评价的概念、 技巧和发现来促进改善和自主决定 ( Fetterman, Kaf鄄 tarian 和 Wandersman 1996) 。 它尊重人们总结自己的经验并找到自身面临问题的解决方案 的能力。 通过帮助人们实现个人和社区成员的目标, 并改善生活, 授权评价能够产生一种 幸福感并带来积极的成长 ( Fetterman and Wandersman 2004) 。 Fetterman 和 Wandersman (2004) 将授权评价人员的角色描述为 “ 批判性朋友冶。 他们 主张社区成员应该对评价负责; 评价人员应该扮演协助者的角色, 影响而不是控制评价。 授权评价拥有实用导向的评价的一些特性。 这两种方法在设计上力求使评价的每个阶 段都有帮助、 有建设性和有实用性 ( Fetterman 和 Wandersman 2004 ) 。 但 Patton (1997 ) 指出, 授权评价在考虑所有权、 相关性和能力建设方面与参与式评价方法有重叠的同时, 其定义焦点却是鼓励自主决定。 评价人员———协助者同情没有权力的人, 并推动政治改革 议程, 所以授权评价超出了大多数参与性评价。 关于授权评价和参与式评价的区别, Alkin 和 Christie (2004, p郾 56) 指出: 参与式评价源自一个实用性框架, 其目标是通过 ( 设计、 实施、 分析和解释 ) 活动来提高实 用性。 这与赋予那些被压制的人权利截然不同, 授权在性质上是政治的或者是带有解放特征的。 现实主义评价 Pawson 和 Tilley (2004, p郾 1) 将现实主义评价描述为 “ 理论驱动的评价 冶 。 他们将其 与变革理论和计划理论关联起来。 为了构建理论, 人们必须理解干预活动发生的整体背 第五章摇 考虑评价方法 llll llllllll 景, 干预活动在特定环境中如何运转, 以及是否能起到作用等。 根据 Pawson 和 Tilley (2004, p郾 22) 的观点, 现实主义评价为评价的实施提供了一个 “ 连贯一致的框架冶 。 它认识到利益相关者对于计划开发和实施的重要性, 并在忽视利益 相关者 ( 因为他们的利己主义的倾向 ) 和认为他们无所不知、 一贯正确 ( 因为他们对情 况的了解) 之间开辟了中间道路。 利益相关者被看做是会犯错的专家, 他们的理解需要 正式化并被检测 ( Pawson 和 Tilley 2004) 。 发 现实主义评价起源于广泛的研究和评价方法。 它部分或全部吸收了其他方法的成果。 展 评 现实主义评价可以是定性或者定量的, 但通常结合运用两种方法。 现实主义评价不通过实 价 验确定干预活动和成效之间的因果关系。 因果关系是通过解释干预活动作用机制背后的理 的 论而发现的。 然后, 按照特定的逻辑顺序循序渐进地开展工作, 检验假设以确定对于谁、 准 备 在什么情况下、 何种干预措施可能是有效的。 Pawson 和 Tilley (2004) 指出, 现实主义评 与 价可能很具挑战性, 因为世上没有简单的公式能够为发现结论提供简易配方。 实 施 包容性评价 包容性评价将关注劣势地位成员的参与作为对一个项目、 计划或者政策价值的系统调 摇145 研的一部分。 包容性评价是基于数据的, 且数据源自最劣势利益相关者, 这个群体传统上 没有得到充分重视。 包容性评价不包括那些传统上已被包括在评价里的群体 ( Mertens 1999) 。 像授权评价一样, 包容性评价是一个转换性范例。 在进行包容性评价时可询问下列问题: 誗 在服务总体中, 有哪些重要的差异? 誗 如何向不同的子群体提供服务? 誗 服务分配潜在的价值观是什么? 受益者评估 受益者评估是 “ 通过获取目标受益人对计划中或者实施中的干预活动的看法, 来提 高发展活动影响的定性的研究工具冶 ( Salmen 1999, p郾 1) 。 就像包容性评价一样, 该方法 寻求包括那些常常被忽略的群体。 这种项目导向的评价由世界银行在 20 世纪 80 年代后期 开发出来, 作为对其十分强调的技术和财务评价的补充。 它通常被应用到包含服务提供内 容的项目中。 受益者评估涉及最终客户和项目受益人。 其基本原理是, 增加受益人在项目设计、 提 供监测反馈及对影响的看法等方面的参与, 能增强他们的主人翁意识, 使他们成为在自己 的发展进程中推动自己所需要和期望变革的关键人物。 受益者评估的目标, 就是如项目受益人感知的那样, 去评估一个活动的价值, 并将成 果整合到项目活动中。 受益人评估帮助在文化和决策制定之间搭建桥梁, 从而在社会评估 中发挥了中心作用。 横向评价 横向评价是一种相对较新的, 将内部评估流程和外部同行评审相结合的方法。 这种结 !"#$%&'()*  "#$%&'()( *+ ,-./0 施 实 与 备 准 的 价 评 展 发 llllllll 摇146 '( %&  +, )*  -. /0 456+,781!9 GHI% JKLMNO&PQRS pqr s t u R S v w =>€‚ƒ„DJK& :;< = > ? @ & A B C !9TUI%VWA&!"XYZ[ !"Ax !"…†‡ˆ D&123EF \]EF 478 1 > y z { | } ~ llll 6^A_ `a56+,bcdef EF mnJK ghiG9&56+,Gjklmn &o9 YŠ!"‹Œeq]= !9¡u]=¢@&£¤ >y7 µ ¶ { e ] · ¸ & `a7µ!"1ÊVËq 4!" Ž  ]  ‘ „ D M ¥¦hJK%§&¨©ª} !" ¶¹º»JI% iCJK =>ÌÍbºÎ ’“”•–— h56+,«ª ‘„DM]>y >y¼ @  ‘ „ D M & ½ Ï!" ˜™š K › œ  Y ž A efo9&Ž<¬­n®¯ ¾ ¿nh%§&ª} 3Ÿ &%&LB> 7z°±ª²³´ =XÀ Á 4   £ ¤ Ã Ä ÅÆ$ : ; i G E F & ! "Ç&ÈÉ ÒӋŒe{Ô%§ YZ%§ àáe â ã ä < § å > =>êëìíC˜™%&L ˜™Õ Ö £ × Ø I % ! " !‰56+,‹Œe{Ô%&]%§ yXæç&#$²èé %§Yî&ïbðñ 通向结果之路: 有效发展评价的设计与实施 ÙÚ&ÛÜÝÞ  šß!"  !" ÌóYî%§&ôõ úû!"Žüõ3 !"Ž=>êz{Ì ( ï ù3&£¤ JK & % & < % § ‹ ) *&  '( %&  +, )*  -. /0 234 5 * 6 7 8 9 : ; 6,mnopqrs ˜™LšE›œ&ž$ «¬9:[­®uv <=4 > ? 5 6 @ ; < A Ltab#$uvwxyz{&|} t2Ÿ   5 * & Ÿ   A B «¬•¯4°&± ² ³ ´ B+, & C D E F 2 G ~€5*X‚O)F)* ƒc +,& ! " L ¡ ¢ x 4 Lšµ¶·¸* ¹4 HIJ K > ? L M N ; O L„deAB; ­ ® u v %&=%9 jkg L¥¦*§‹*¨©ª #$ PQR S T U A B + , & ‰Š‹ t Œ  H A B + , Y a Ž  “¼½Ž¾¿)À €Á V W X Y Z [ 5 \ X ‘ ’ “ €  C D &  H ” • ‹ ÂÃj&¸*&7ÄÅO& ]^ _ ` = a b c L d –— ÆÇ efg&hijkl 7ÄÉ o Ê = o p A B + 6,mnopqrs ßà( á ⠀ ã ä “ > èO炅† âé·l¸ ,ËÌ & È ‚ b Í Î  €Ð6ÑҋcÓÔj ?åÇ=q"æžç‚ *…† ÂàhÏAB+, ÕfgÖ²×Ø& …¤ ©ª  Ë = q 1 Ë A B + ÙÚ1ÛÜÝ7Ä ©ÞÜÝ|} ,  vÈ  7Ä  · È ‚ = q ê ì § 67AB+,&%9smnopq& E›ý2€m&ê„õö É"# Ð6 $% &   & © Hê „ … í î ï X Y ÷¬ mnYL£‡ˆ& ej Xþÿ!’“–— cL „ “ ¼ ½ ' ( p ß f[ ø¤ê„‹Z[ù°“mnopqr €š ²ðñ « ± Á E ò ó ô w s=úAB+,ûünL£&õö ÅUAB+,&ê„õö 67AB+,“€mnopqȂ &€õö !"¼ ½ ‹ ê „ % 9 ; O pß34AB+,&ꄋ¼½# ) Ð6 - . / & A B + , & cL«¬01*2 &CD â€# ã * ß " ¼½=qꄀ +, ꄋ¼½#)&à«j '( 第五章摇 考虑评价方法 llll llllllll 施 实 与 备 准 的 价 评 展 发 摇147  '( %&  +, )*  -. /0 245 6 7 8 9 : ; < ! \12812]%P^Y _Y-` ƒ„> y z … † ‡ ˆ ! " š› ! " 8 œ m  ž & p " = > ? @ A B C & ab cdef ghijAk l m v‰& Š ‹ Œ  Ž ! " q tH A Ÿ   ¡ ¢ ‘ ™ DE 7ij&no v‰&Š‘’ £¤¥¦128!"§¨& 施 实 与 备 准 的 价 评 展 发 llllllll 摇148 F12 G H I J 1 2 K pqrstH rsuvAwxDE “”1 2 8 • 4  – — §‘ LMN O % P Q R M S F!"yz&{|}~LpyAU ˜&‘™ ©ª«L¬­®& TUPVN €8 12yzHLno8A!" F12 G H N O ? W X Y ‚€8 %P&Z[ °Z 7 ± 6 7 K L ² ~ °ZÃÄŜ §¨AÆÇ g h ál  I l S ¯ â ã & ¿ š›œm­®’AeD&¿ llll ³]´ µ ¶ ! " · 3 & ¸ ÈÉʙ€Ë&KL Ìq²ÍÎ% À ä  åæç À!" ¹H „>AÏo&Я º*ƒ » y A S ¯ Q ¼ _Ñ Ò Ó Ô Õ ! Ö × Ø ´ ~ Ù & M½¾¿À#Á&S ¿À ÚÛOÜ ÝÜÞsßàÁyØKL &~Ù êëè é A ì S í ! " & °©\ô¶& õvöÙ#$ ƒæ3 ¬ æ 3 i j & ' °©123r š› °©\ç÷gh øùAúûWü V()*+, Ãm4& 5 ÈiMÚÛ °© î B ï ð ñ í ‹ ò ýþ ƒý - Z [ A e f . /  ’&‹ò ÃЯ)ó ÿ!\NÉ£"&‹òÇ ð0 š›ž&#$‘™Aé%‘™ &' ! Ö 7 m 6 7 ! " &'7m&67AB \Š HI &!"A AB ƒ_Y7m67 AB A HI &89 : B ï ï v × Ø & *®_YAB89&PC JKSí ij#Á Š‘mOP v‰ îDEm89&AB L!Ö ¿ À L â M ˆ m ™ ƒc d  m 8 9  & ! " 通向结果之路: 有效发展评价的设计与实施 —m7 ; N < = + , > ? BïF Î AB &S‰ Þ´ F Î AB &ñN . Š‘ Q ] R å & ¿ À K@È!". Mm¯& &7GUP?K6tgh  \ST Š‘ U ì VWX Š2Y’Þ8Y9ijN³\ Y  '( %&  +, )*  -. /0 !56 7 + , & 1 2 8 9 ?@ABCD)E&FGHIJBK [\? 7 ] 2 ^ & 7 ] < `bcde^ :1;<2=> L<2J  MNOP& Q,&RS  2TU _`!"&a2 fg h i j k : V l m F TU VWX<2!"YZ&KL GJ <2! " p q r s B t €W‚ƒ}„…†‡ˆ‰Š ‹ ˜™Wš›”œ&ol X!"ž&Ÿ {¡¢£ uvw x y z { | B } ~ Z}„ŒŽH#‘&g’ “ 3J  !"fgQ¤¢¥¦ HE Z”•–—!" & §¨©&  ‹¬­ ® ¯ ° & ± ² X ¹ºƒ»¼tuB!"#$ ·¸½ ÂÃ6 7 + , Ä Å f g Æ ÔÕÖ×OØ&HEÙÚd lmF G J ¤ ¢ f g ³ ´ ¾¿JÀ§&:V#$ <2E8t Ç2 È É Ê = Ë Ì ¢ ՑÛÒ &µ¶M·¸:V!" u E¼tuÁ ÍÆÇ 2 Á Î Ï À Ð Ñ & #$ ÒÓ Ç¢Þ ß % Ö × ¿ J ¥ ?ۃãä.åæ&lmFGJçè Góä . l m F G J B ‹ X!"ž&Ÿ {¡¢£ I"à & á â b t & ¯ ½ éêë ¬ôõ#Œ&ö÷ 3J  !"fgQ¤¢§¨ ¾ ij k Û ƒ ã ä . å ìÜíîïðâñQÜÑÈ!"ò& ©&  æ&lmFGJ œ [\è é % ø R m  Þ Ö !ß%Rm•– " `VW&c a2g % " ` c  # $ Š X()Ž–: *+ Ïw¾ ×ç& ¿ J 1 ù ç & 6 7 #$Š Bg’ & & Ç # $ [ \ Tij +,& ú $ ¹ ‹ û ü ý + èéR m  & ú $ ‹ ' ! ,&þÿ ""à X- ½ ! . / 0 B 1 ½ 2 Q2x{z ; ۃTüç&tuBT 5& } ~ ! " B 1 ½ 2 3 23? & 3! 4 F 5 & 2 ¹ 6 7 ü#$ !4&-. 23!4 Èðâ & 1 ½ ! " ç 8 3 &ì9:&o’Gá 第五章摇 考虑评价方法 llll llllllll 施 实 与 备 准 的 价 评 展 发 摇149 通向结果之路: 有效发展评价的设计与实施 llll llllllll 合被设计用来调整 “ 在传统外部评价中盛行的不平衡的权力关系, 产生一个更好的学习 和改善项目的氛围冶 ( Thiele 等, 2006, p郾 1) 。 横向评价通常被用来了解和改进那些尚在实验中的研究和开发方法。 横向评估曾被用 于在安第斯区域计划中开发新的研究与发展方法, 并在乌干达被用于评估参与性市场链方 法 ( Thiele 等, 2006, p郾 1) 。 发 横向评价方法的关键是两组独立的利益相关者。 第一组是当地参与者, 它们提出和批 展 评调查研究的流程, 并提出如何改善的建议。 第二组则是来访者 ( 来自其他组织或项目 评 价 中从事相似主题工作的同行 ) , 他们评价流程、 确认优劣势、 提供改善建议 ( Thiele 等, 的 2006) 。 横向评价的一个组成部分是让两个小组一起碰面的研讨会。 准 备 与 小摇 摇 结 实 詪詪詪詪詪詪 施 评价方法是在总体上考虑或者概念化一个评价的方法。 它通常包含特定的哲学和一系 摇150 列价值观。 一些方法已使用多年, 另外一些相对而言是最近才被开发出来或者最近才应用 到发展评价中的。 表 5郾 3 总结了各种方法的关键特点。 上述方法已经在单一干预活动层面广泛使用。 第 11 章说明了复杂干预活动的复杂评 价, 那些方法正日渐成为规范。 练习 5郾 1摇 选择最合适的评价方法 选择一种评价方法, 分析如下描述的各项任务。 描述所选择的方法、 列出该方法的益 处及其面对的挑战, 并解释选择该方法的理由。 1郾 在由不同的发展机构完成的五项国家研究成果的基础上, 评估对一个国家技术援 助的战略重心。 2郾 确认在你所在组织的项目和计划中已经成功实施的教育干预活动, 以改善地区的 教育系统。 3郾 评价某个国家的自然资源和环境部门最重大的问题。 4郾 评估某个国家的稻米行业的发展, 包括在当前文化、 社会和经济环境中稻米的重 要性; 稻米的生产系统; 生产稻米的农民面临的制约; 已开展的研究和已开发出的技术; 未来进一步发展稻米生产要解决的问题; 5郾 某发展机构在过去 30 年中已获得数百万美元的国际农业研究资助, 请评价该机构 所完成的评价。 名词解释 前瞻性评价: 对某个提议的项目、 计划或政策的可能成效进行的评价 可评价性评估: 确定评价是否实用、 可行而开展的初步预研究 目标导向的评价: 衡量一项计划或干预活动在何种程度上达到明确而具体的目标的 第五章摇 考虑评价方法 llll llllllll 评价 非目标导向的评价: 评价者刻意避免提及计划目标, 仅根据参与者需求满足的程度进 行的评价 多点评价: 对在多个地点实施的干预活动的评价 集群评价: 对一组相似或相关干预活动的评价 社会评估: 对一个团体或社区内的社会结构、 流程和变革的评估 发 赤道原则: 私营部门项目融资领域内用来确定、 评价和管理环境与社会风险的通用 展 评 原则 价 ISO 14031 : 一套由国际标准化组织制定的管理环境的国际标准 的 参与式评价: 由利益相关者共同承担评价的规划、 实施和汇报等职责, 帮助确定评价 准 备 问题、 收集和分析数据、 评审报告等的评价 与 成效规划: 对行为改变的规划 实 快速评估: 通常由一组评价人员在现场进行的系统的半结构化的评价方式 施 综合评价: 由一个评价人员考察问题或主题类似的干预活动来确定共同点的评价方式 广义评价: 按照专业质量标准对一个和多个评价进行的专家评议 摇151 实用导向的评价: 根据实用性和实际使用情况进行评判的评价 授权评价: 用评价的概念、 技巧及结论来促进改善和自主决策的评价 现实主义评价: 一种由理论驱动的评价方法, 它为评价的实施提供连贯一致的框架, 将利益相关者视为会犯错误的专家, 并借鉴其他评价方法 包容性评价: 包括总体中处于最劣势地位的成员的评价 受益者评估: 通过获取目标受益人对计划中或者实施中的干预活动的看法, 来提高发 展活动影响的定性的研究工具 横向评价: 将内部评估流程和外部同行评审相结合的评价 参考书目 1郾 Alkin, Marvin, and Christina Christie郾 2004郾 “ An Evaluation Theory Tree郾 冶 In Evalua鄄 tion Roots: Tracing Theorist Views and Influences, ed郾 M郾 Alkin郾 12 - 65 , Thousand Oaks, CA: Sage Publications郾 2郾 Chambers, R郾 1991郾 “ Shortcut and Participatory Methods for Gaining Social Information for Projects郾 冶 In Putting People First: Sociological Variables in Rural Development, 2nd ed郾 , ed郾 M郾 M郾 Cernea, 515 - 37郾 Washington, DC : World Bank郾 3郾 Chelimsky, E郾 , and L郾 G郾 Morra郾 1984郾 “ Evaluation Synthesis for the Legislative User郾 冶 In Issues in Data Synthesis, ed郾 W郾 H郾 Yeaton and P郾 M郾 Wortman, 75 - 89郾 New Di鄄 rections for Program Evaluation No郾 24郾 San Francisco: Jossey鄄Bass郾 4郾 Christie, Christina, and Marvin Alkin郾 2004郾 “ Objectives鄄Based Evaluation郾 冶 In Ency鄄 clopedia of Evaluation, ed郾 Sandra Mathison郾 281 - 85郾 Thousand Oaks, CA: Sage Publications郾 5郾 CIDA ( Canadian International Development Agency ) . 2004郾 CIDA Evaluation Guide 2004郾 Ottawa郾 通向结果之路: 有效发展评价的设计与实施 llll llllllll 6郾 Cousins, J郾 B郾 , and L郾 M郾 Earl, eds郾 1995郾 Participatory Evaluation in Education郾 Bristol, PA: Falmer Press郾 7郾 Dalal鄄Clayton, Barry, and Stephen Ba郾 2002郾 Sustainable Development Strategies: A Re鄄 source Book郾 Sterling, VA: Earthscan Publications郾 http: / / www郾 nssd郾 net / res_book郾 html#con鄄 tents郾 发 8郾 DFID ( Department for International Development ) . 2000郾 Environment: Main鄄streamed 展 or Sidelined? Environmental Evaluation Synthesis Study EV626 , January, London郾 http: / / 评 价 www郾 dfid郾 gov郾 uk / aboutdfid / performance / files / ev626s郾 pdf郾 的 9郾 Duignan, Paul郾 2007郾 Introduction to Strategic Evaluation: Section on Evaluation Approa鄄 准 ches, Purposes, Methods, and Designs郾 http: / / www郾 strategicevaluation郾 info / se / documents / 备 与 104f郾 html郾 实 10郾 Earl, Sarah, Fred Carden, and Terry Smutylo郾 2001郾 Outcome Mapping: Building 施 Learning and Reflection into Development Programs郾 International Development Research Centre, Ottawa郾 http: / / www郾 dgroups郾 org / groups / pelican / docs / Mapping_M&E_capacity_080606郾 pdf郾 11郾 ECDPM ( European Centre for Development Policy Management ) . 2006郾 Study on Ca鄄 摇152 pacity, Change and Performance: Mapping of Approaches Towards M&E of Capacity and Capacity Development郾 Maastricht郾 12郾 Eerikainen, Jouni, and Roland Michelevitsh郾 2005郾 “ Environmental and Social Sus鄄 tainability郾 Methodology and Toolkit: Various Approaches郾 冶 International Program for Develop鄄 ment Evaluation Training ( IPDET) presentation, Ottawa, July郾 13郾 FAO ( Food and Agriculture Organization of the United Nations) . 1997郾 “ Rapid Rural Appraisal郾 冶 In Marketing Research and Information Systems Marketing and Agribusiness郾 Rome郾 http: / / www郾 fao郾 org / docrep / W3241E / w3241e09郾 htm郾 14郾 Fetterman, David M郾 2001郾 Foundations of Empowerment Evaluation郾 Thousand Oaks, CA: Sage Publications郾 15郾 Fetterman, David M郾 , S郾 Kaftarian, and A郾 Wandersman, eds郾 1996郾 Empowerment Evaluation: Knowledge and Tools for Self鄄Assessment and Accountability郾 Thousand Oaks, CA: Sage Publications郾 16郾 Fetterman, David M郾 , and Abraham Wandersman郾 2004郾 Empowerment Evaluation Principles in Practice郾 New York: Guilford Publications郾 ———郾 2007郾 “ Empowerment Evaluation: Yesterday, Today, and Tomorrow郾 冶 American Journal of Evaluation 28 ( 2 ) : 179 - 98郾 http: / / homepage郾 mac郾 com / profdavidf / documents / EEyesterday郾 pdf郾 17郾 Fitzpatrick, Jody L郾 , James R郾 Sanders, and Blaine R郾 Worthen郾 2004郾 Program Evaluation: Alternative Approaches and Practical Guidelines郾 New York: Pearson郾 18郾 Gariba, Sulley郾 1998郾 “ Participatory Impact Assessment: Lessons From Poverty Allevi鄄 ation Projects in Africa郾 冶 in Knowledge Shared: Participatory Evaluation in Development Coopera鄄 tion, ed郾 Edward T郾 Jackson and Yussuf Kassam, 64 - 81郾 Bloomfield, CT: Kumarian Press郾 第五章摇 考虑评价方法 llll llllllll 19郾 Gill, M郾 , and A郾 Spriggs郾 2002郾 The Development of Realistic Evaluation Theory through the Evaluation of National Crime Prevention Programmes郾 http: / / www. evaluationcana鄄 da / distribution / 20021010_gill_martin_spriggs_angela郾 pdf郾 20郾 Glass, Gene V郾 , and Mary Lee Smith郾 1979郾 “ Meta鄄Analysis of Research on Class Size and Achievement郾 冶 Educational Evaluation and Policy Analysis 1 ( 1 ) : 2 - 16郾 21郾 Hirschheim, R郾 , and S郾 Smithson郾 1988郾 “ A Critical Analysis of Information Systems 发 Evaluation郾 冶 In IS Assessment: Issues and Changes, eds郾 N郾 Bjorn鄄Andersen and G郾 B郾 Davis郾 展 评 Amsterdam: North鄄Holland郾 价 22郾 ISO ( International Organization for Standardization ) . 1999郾 Environmental Manage鄄 的 ment: Performance Evaluation Guidelines郾 ISO 14301 , Geneva郾 准 备 23郾 Johnston, Timothy, and Susan Stout郾 1999郾 Investing in Health: Development in Health, 与 Nutrition, and Population Sector郾 World Bank, Operations Evaluation Department, Washington, 实 DC. http: / / wbln0018郾 worldbank郾 org / oed / oeddoclib郾 nsf / 6e14e487e87320f785256808006a001a / 施 daf8d4188308862f852568420062f332 / US $ FILE / HNP郾 pdf郾 24郾 Khon Kaen University郾 1987郾 Proceedings of the 1985 International Conference on Rapid 摇153 Rural Appraisal郾 Rural Systems Research and Farming Systems Research Projects, Khon Kaen, Thailand郾 25郾 Kretzmann, John P郾 , John L郾 McKnight, and Deborah Puntenney郾 1996郾 A Guide to Massing Local Business Assets and Modulizing Local Business Capabilities郾 Skokie, IL: ACTA Publications郾 26郾 Kudat, Ayse, and Bykebt Ozbilgin郾 1999郾 Azerbaijan Agricultural Development and Credit Program郾 http: / / lnweb18郾 worldbank郾 org / ESSD / sdvext郾 nsf / 61ByDocName / Azerbaijan Agricul鄄 tural Developmentand Credit Project / US $ FILE / Azerbaijan Agricultural DevelopmentandCredit Project424KbPDF郾 pdf郾 27郾 Kumar, Krishna, ed郾 1993郾 Rapid Appraisal Methods郾 Washington, DC : World Bank郾 28郾 Light, R郾 J郾 , and D郾 B郾 Pillemer郾 1984郾 Summing Up: The Science of Reviewing Re鄄 search郾 Cambridge, MA: Harvard University Press郾 29郾 Mertens, D郾 1999郾 “ Inclusive Evaluation: Implications of Transformative Theory for Evaluation郾 冶 American Journal of Evaluation 20 ( 1 ) : 1 - 14郾 30郾 Narayan, Deepa郾 1996郾 Toward Participatory Research郾 World Bank Technical Paper 307, World Bank, Washington, DC郾 http: / / www鄄wds郾 worldbank郾 org / external / default / WDSContent鄄 Server / WDSP / IB / 1996 / 04 / 01 / 000009265_3980625172923 / Rendered / PDF / multi0page郾 pdf郾 31郾 Nay, J郾 , and P郾 Kay郾 1982郾 Government Oversight and Evaluability Assessment郾 Lexing鄄 ton, MA: Heath郾 32郾 OECD ( Organisation for Economic Co鄄operation and Development ) . 1997郾 Searching for Impact and Methods: NGO Evaluation Synthesis Study郾 Development Assistance Committee, Paris郾 http: / / www郾 eldis郾 org / static / DOC5421郾 htm郾 33郾 Patton, Michael Q郾 1990郾 Qualitative Evaluation and Research Methods郾 2nd ed郾 Thou鄄 通向结果之路: 有效发展评价的设计与实施 llll llllllll sand Oaks, CA: Sage Publications郾 ———郾 1997郾 Utilization鄄Focused Evaluation: The New Century Text郾 Thousand Oaks: CA: Sage Publications郾 ———郾 1997郾 “ Toward Distinguishing Empowerment Evaluation and Placing It in a Larger Context郾 冶 Evaluation Practice 18 ( 2 ) : 147 - 63郾 发 ———郾 2002郾 Qualitative Evaluation and Research Methods, 3rd ed郾 Thousand Oaks, CA: 展 Sage Publications郾 评 价 ———郾 2008郾 Utilization鄄Focused Evaluation郾 4th ed郾 Thousand Oaks, CA: Sage Publica鄄 的 tions郾 准 34郾 Paulmer, Hubert E郾 2005郾 “ Evaluation Guidelines of International Development Aid 备 与 Agencies: A Comparative Study郾 冶 International Rural Planning and Development, School of En鄄 实 vironmental Design and Rural Development, University of Guelph, Ontario郾 施 35郾 Pawson, Ray, and Nick Tilley郾 2004郾 “ Realistic Evaluation郾 冶 In Encyclopaedia of Evaluation, ed郾 Sandra Matthieson, 359 - 67郾 Thousand Oaks, CA: Sage Publications郾 36郾 Picciotto, Robert郾 2007郾 “ The New Environment for Development Evaluation郾 冶 Ameri鄄 摇154 can Journal of Evaluation 28 : 509 - 21郾 37郾 Preskill, Hallie, and Darlene Russ鄄Eft郾 2005郾 Building Evaluation Capacity: 72 Activi鄄 ties for Teaching and Training郾 Thousand Oaks, CA: Sage Publications郾 38郾 Salmen, Lawrence F郾 1999郾 Beneficiary Assessment Manual for Social Funds郾 World Bank, Social Protection Team Human Development Network, Washington, DC郾 http: / / lnwebl8. worldbank郾 org / ESSD / sdvext郾 nsf / 07ByDocName / Beneficiary AssessmentManualforSocialFunds / US $ FILE / percent5BEnglishpercent5D + Beneficiary + Assessment + Manual郾 pdf郾 39郾 Sanders, J郾 R郾 1997郾 “ Cluster Evaluation郾 冶 In Evaluation for the 21 st Century: A Handbook, eds郾 E郾 Chelimsky and W郾 R郾 Shadish Jr郾 , 396 - 401郾 Thousand Oaks, CA: Sage Publications郾 40郾 Scrimshaw , N郾 , and G郾 R郾 Gleason郾 1992郾 Rapid Assessment Procedures: Qualitative Methodologies for Planning and Evaluation of Health Related Programs郾 Boston: International Nu鄄 trition Foundation for Developing Countries郾 41郾 Scriven, Michael郾 1972a郾 “ Objectivity and Subjectivity in Educational Research郾 冶 In Philosophical Redirection Educational Research: The Seventy鄄First Yearbook of the National Society for the Study ofEducation, ed郾 L郾 G郾 Thomas郾 Chicago: University of Chicago Press郾 ———郾 1972b郾 “ Pros and Cons about Goal鄄Free Evaluation郾 冶 Evaluation Comment 3 : 1 - 7郾 ———郾 1991郾 Evaluation Thesaurus郾 4th郾 ed郾 Thousand Oaks, CA: Sage Publications郾 42郾 Smith, M郾 F郾 1989郾 Evaluability Assessment: A Practical Approach郾 Boston: Kluwer Academic Press郾 43郾 Smith, Mary Lee, and Gene V郾 Glass郾 1980郾 “ Meta鄄Analysis of Research on Class Size and Its Relationship to Attitudes and Instruction郾 冶 American Educational Research Journal 17 : 419 - 33郾 第五章摇 考虑评价方法 llll llllllll 44郾 Smith, Nick L郾 , and Paul R郾 Brandon, eds郾 2007郾 Fundamental Issues in Evaluation郾 New York: Guilford Press郾 Smutylo, Terry郾 “ The Output Outcome Downstream Impact Blues郾 冶 http: / / www郾 idrc郾 ca / en / ev鄄65284 - 201 - 1 - DO_TOPIC郾 html郾 45郾 Thiele, G郾 , A郾 Devaux, C郾 Velasco, and D郾 Horton郾 2007郾 “ Horizontal Evaluation: Fostering Knowledge Sharing and Program Improvement within a Network郾 冶 American Journal of Evaluation 28 ( 4 ) : 493 - 508郾 发 46郾 Thiele, G郾 , A郾 Devaux, C郾 Velasco, and K郾 Manrique郾 2006郾 “ Horizontal Evalua鄄 展 评 tion: Stimulating Social Learning among Peers郾 冶 International Potato Center, Papa Andina Pro鄄 价 gram, Lima, Peru郾 Draft of May 18郾 http: / / www郾 dgroups郾 org / groups / pelican / docs / Hor _ 的 Evaln_18_05郾 doc? ois = no郾 准 备 47郾 Tilley, Nick郾 2000郾 Realistic Evaluation: An Overview郾 Paper presented at the Founding 与 Conference of the Danish Evaluation Society, Nottingham Trent University, September郾 http: / / 实 www郾 danskevalueringsselskab郾 dk / pdf / Nickpercent20Tilley郾 pdf郾 施 48郾 Turpin, R郾 S郾 , and J郾 M郾 Sinacore, eds郾 1991郾 Multisite Evaluations郾 New Directions for Program Evaluation No郾 50郾 San Francisco, CA: Jossey鄄Bass郾 摇155 49郾 U郾 S郾 GAO ( General Accounting Office ) 1990郾 Prospective Evaluation Methods: The Prospective Evaluation Synthesis郾 Washington, DC郾 http: / / www郾 gao郾 gov / special郾 pubs / 10 _ 1_10郾 PDF郾 ———郾 1992郾 The Evaluation Synthesis郾 Washington, DC郾 http: / / www郾 gao郾 gov / special. pubs / pemd1012郾 pdf郾 50郾 Wandersman, A郾 , J郾 Snell鄄Johns, B郾 E郾 Lentz, D郾 M郾 Fetterman, D郾 C郾 Keener, M郾 Livet, P郾 S郾 Imm, and P郾 Flaspoler郾 2005郾 “ The Principles of Empowerment Evaluation郾 冶 In Empowerment Evaluation Principles in Practice, eds郾 D郾 M郾 Fetterman and A郾 Wandersman, 27 - 41郾 New York: Guilford郾 51郾 Wholey, J郾 S郾 1987郾 “ Evaluability Assessment: Developing Program Theory郾 冶 In Using Program Theory in Evaluation, ed郾 L郾 Bickman, 77 - 92郾 New Directions for Program EvaluationNo郾 33郾 San Francisco: Jossey鄄Bass郾 52郾 Wholey, J郾 S郾 , H郾 P郾 Hatry, and K郾 E郾 Newcomer, eds郾 1994郾 Handbook of Practi鄄 cal Program Evaluation郾 San Francisco: Jossey鄄Bass郾 53郾 World Bank郾 1996郾 World Bank Participation Sourcebook郾 Washington, DC郾 http: / / www郾 worldbank郾 org / wbi / sourcebook / sba108郾 htm#D郾 ———郾 2004郾 “ Social Assessment郾 冶 In Turning Bureaucrats into Warriors郾 135 - 38郾 Washing鄄 ton, DC郾 http: / / www郾 worldbank郾 org / afr / aids / gom / manual / GOM鄄Chapterpercent2024郾 pdf郾 网址 1郾 Equator Principles郾 http: / / www郾 equator鄄principles郾 com / , http: / / www郾 ifc郾 org / if鄄 cext / equatorprinciples郾 nsf / Content / ThePrinciples郾 2郾 Frechtling, Joy, and Laure Sharp Westat, eds郾 1997郾 User鄄Friendly Handbook for Mixed鄄 通向结果之路: 有效发展评价的设计与实施 llll llllllll Method Evaluations郾 Washington, DC: National Science Foundation郾 http: / / www郾 nsf郾 gov / pubs / 1997 / nsf97153 / start郾 htm郾 3郾 IFC ( International Finance Corporation) . Environmental and Social Policies and Guide鄄 lines郾 http: / / www郾 ifc郾 org / ifcext / enviro郾 nsf / Content / PoliciesandGuidelines郾 4郾 ISO ( International Organization for Standardization) . ISO 14031郾 http: / / www郾 iso郾 org / 发 iso / catalogue_detail? csnumber = 23149, http: / / www郾 iso鄄14001郾 org郾 uk / iso鄄14031郾 htm, and 展 http: / / www郾 altech鄄group郾 com / ftp / EPEarticle郾 pdf郾 评 价 5郾 IUCN ( World Conservation Union) . Sustainability Assessment郾 http: / / www郾 iucn郾 org / 的 themes / eval / search / iucn / sustassess郾 htm郾 准 6郾 World Bank郾 2009郾 Social Analysis郾 http: / / web郾 worldbank郾 org / WBSITE / EXTER鄄 备 与 NAL / TOPICS / EXTSOCIALDEVELOPMENT / EXTSOCIALANALYSIS / 0, menuPK: 281319 ~ 实 pagePK: 149018 ~ piPK: 149093 ~ theSitePK: 281314, 00郾 html郾 施 集群评价 7郾 AusAid郾 2004郾 Governance in PNG : A Cluster Evaluation of Three Public Sector Reform 摇156 Activities郾 Evaluation and Review Series 35, Sydney郾 http: / / www郾 ausaid郾 gov郾 au / publications / pdf / governance_in_png_qc35郾 pdf郾 授权评价 8郾 Empowerment Evaluation Blog郾 http: / / www郾 eevaluation郾 blogspot郾 com / 郾 环境与社会评估 9郾 Lanco Amarkantak Thermal Power郾 Environmental & Social Review郾 Report prepared for the IFC Board of Directors郾 http: / / www郾 ifc郾 org / ifcext / spiwebsite1郾 nsf / lca07340e47a35cd85256efb 00700ceeC126975A64D3306E852572A00048 07BD郾 可评价性评估 10郾 Lewin Group郾 1997郾 An Evaluability Assessment of Responsible Fatherhood Programs郾 http: / / fatherhood郾 hhs郾 gov / evaluaby / intro郾 htm郾 评价分析 11郾 Kruse, S郾 E郾 , T郾 Kyll觟nen, S郾 Ojanper觟, R郾 C郾 Riddell, and J郾 Vielaj郾 Searching for Impact and Methods: NGO Evaluation Synthesis Study郾 Institute of Development Studies, Univer鄄 sity of Helsinki郾 http: / / www郾 eldis郾 org / static / DOC5421郾 htm郾 目标导向的评价 12郾 IFAD ( International Fund for Agricultural Development) . Country Program Evaluation of the People蒺s Republic of Bangladesh郾 http: / / www郾 ifad郾 org / evaluation / public _ html / eksyst / doc / country / pi / bangladesh / bangladesh郾 htm郾 非目标导向的评价 13郾 Evaluation Center, Western Michigan University郾 http: / / www郾 wmich郾 edu / evalctr / project鄄pub郾 html郾 广义评价 14郾 Campbell Collaboration Online Library郾 http: / / www郾 campbellcollaboration郾 org / fron鄄 第五章摇 考虑评价方法 llll llllllll tend郾 aspx郾 多点评价 15郾 Australian HIV Test Evaluation Group郾 1995郾 Multisite Evaluation of FourAnti鄄HIV鄄1 / HIV鄄2 Enzyme Immunoassays郾 http: / / www郾 ncbi郾 nlm郾 nih郾 gov / entrez / query郾 fcgi? cmd = Retrieve&db = PubMed&list_uids = 7882108&dopt = Abstract / 郾 16郾 SRI International郾 2001郾 A Multisite Evaluation of the Parents as Teachers ( PAT ) Pro鄄 发 ject郾 http: / / policyweb郾 sri郾 com / cehs / projects / displayProject郾 jsp? Nick = pat郾 展 评 成效规划评价 价 17郾 African Health Research Fellowship Program郾 Strengthening Leadership Capacity to Im鄄 的 prove the Production and Use of Health Knowledge in Africa郾 http: / / www郾 idrc郾 ca / fr / ev - 34425 - 准 备 201 - 1 - DO_TOPIC郾 html郾 与 参与式评价 实 18郾 Contra Costa Health Services郾 2009郾 Preventing Chronic Disease: A Participatory Evalu鄄 施 ation Approach郾 http: / / www郾 cchealth郾 org / groups / chronic_disease / guide / evaluation郾 php郾 19郾 Community Integrated Pest Management郾 2001郾 Picturing Impact: Participatory Evalua鄄 摇157 tion of Community IPM in Three West Java Villages郾 http: / / www郾 communityipm郾 org / docs / Pic鄄 turing percent20Impact / Picturing percent20Impact percent20top percent20page郾 html郾 前瞻性评价 20郾 Glewwe, Paul, Michael Kremer, and Sylvie Moulin郾 1998郾 Textbooks and Test Scores: Evidence from a Prospective Evaluation in Kenya郾 http: / / www郾 econ郾 yale郾 edu / ~ egcenter / info鄄 conf / kremer_paper郾 pdf郾 快速评估 21郾 UNICRI ( United Nations Interregional Crime and Justice Research Institute) , and ACI ( Australian Institute of Criminology) . Global Programme against Trafficking in Human Beings, Rapid Assessment: Human Smuggling and Trafficking from the Philippines郾 http: / / www. un鄄 odc郾 org / pdf / crime / trafficking / RA_UNICRI郾 pdf郾 社会评估 22郾 World Bank郾 1996郾 “Morocco: Fez Medina Rehabilitation Project郾 冶 In World Bank Par鄄 ticipation Sourcebook郾 Washington, DC: World Bank郾 http: / / www郾 worldbank郾 org / wbi / source鄄 book / sba108郾 htm#D郾 实用导向的评价 23郾 Evaluation Center, Western Michigan University郾 Utilization鄄Focused Evaluation Check鄄 list郾 http: / / www郾 wmich郾 edu / evalctr / checklists / ufechecklist郾 htm郾 设计与实施 “ 因为事情一环套一环, 所以可能会异常复杂。冶 ———E郾 B郾 怀特 第六章: 评价问题及设计矩阵的开发 * 问题来源 * 问题类型 * 问题的识别与选择 * 开发好的问题 * 评价的设计 第七章: 因果性问题、 描述性问题和规范性问题的设计选择 * 将问题与设计相关联 * 因果性问题设计 * 描述性问题设计 * 规范性问题设计 * 更加严格的设计需求 第八章: 选择和构建数据收集工具 * 数据收集策略 * 合理指标的特点 * 定性数据和定量数据 * 收集数据的工具 第九章: 抽样策略选择 * 抽样简介 * 样本类型: 随机和非随机 * 确定样本大小 第十章: 计划和实施数据分析 * 数据分析战略 * 分析定性数据 * 分析定量数据 * 定性数据与定量数据的关联 第六章 摇 评价问题及设计矩阵的开发 接下来的五个章节将讨论评价设计的具体步骤。 本章将探讨评价问题的类型以及每种 类型的适用情形。 此外, 也会涉及如何设计和构造好的评价问题。 本章包括六个主要部分: 誗 问题的来源 誗 问题的类型 誗 问题类型与变革理论的关系 誗 识别和选择问题 誗 开发合适的评价问题 誗 评价设计 问题的来源 詪詪詪詪詪詪詪詪 为何选择评价问题如此重要呢? 原因之一在于它为评价和评价设计的选择指明了方向 ( 我们将在本章对此作全面的讨论 ) 。 评价问题是帮助个体和群体改进措施、 制定决策和 向公众公开信息的关键要素。 需要仔细思考和研究用以完成甄别与定义评价所要回答问题 的关键步骤 ( Fitzpatrick, Sanders 和 Worthen, 2004) 。 评价人员询问评价问题是为了了解所要评价的项目、 计划或政策。 开发问题时的一个常 见问题是假定每个涉及其中的人都对干预的目标有相同的理解。 例如, 如果问题是 “ 计划是 否对参与者有所帮助?冶, 则不同的利益相关者可能对 “ 帮助冶 和 “ 参与者冶 这两个词有不 同的理解。 像上一章所说的那样对变革理论达成共识, 则有利于解决这个问题。 Fitzpatrick, Sanders 和 Worthen (2004) 认为为确保获得不同的观点, 评价人员可从 以下渠道获得信息: 誗 利益相关者的问题、 担忧和价值观 誗 评价模型 誗 框架和方法, 包括试错 ( 不断试验和消除误差) 法 誗 现有文献中的研究和评价成果及重要议题 誗 各地已开发和使用的职业准则、 问题清单、 指南、 工具和标准 誗 专业咨询员的观点和知识 通向结果之路: 有效发展评价的设计与实施 llll llllllll 誗 评价人员自己的职业判断 第四章讲述了如何识别利益相关者并与之合作, 了解他们认为对评价而言较为重要的 问题的看法。 同时, 第四章还强调, 对现有研究与评价成果进行回顾有助于识别关键问 题。 我们还强调了开发和使用变革理论模型来帮助识别评价所关注的领域。 从变革模型的 主要假设中可以提炼出有关问题。 设 图 6郾 1 列示了几种在因果链的不同结点上应该要问的评价问题。 该图下方的一般性问 计 题表明: 形成性问题可能来自于活动和产出, 而总结性问题通常来自于中期和长期结果。 与 实 与短期结果相关的问题可以是形成性也可以是总结性问题。 从逻辑模型的主要假设条件中 施 提炼出来的问题则关心计划是否有效, 以及会达到何种成效或收益。 如第四章所述, 问题 还可以来自于对已经完成评价的类似计划的研究成果的回顾, 以及利益相关者对计划、 项 目和政策的不同观点。 组织内部 达到直接收 组织外部的 控制范围 益的产出 影响范围 摇162 投入 活动 产出 短期结果 中期结果  长期 (资源)   (直接的)    (间接的) 结果 外部要素 形成性评价 或 和/ 总结性评价 社区发展项 哪些条件可 对该社区项 从在类似社区 目中的参与 能影响项目 目带来的结 开展的同样活 者能获得多 实施? 果有何评价? 动中可以学到 少培训机会? 什么? 图 6郾 1摇 利用逻辑模型设计评价问题 问题的类型 詪詪詪詪詪詪詪詪 在设计评价活动时, 会问及许多问题, 但所有问题都必须用可测量的方式来进行清晰 的描述。 问题可被分为三类: 描述性问题、 规范性问题和因果性问题。 这些问题———以及开展 评价可用的数据、 时间和资金等———都会影响评价设计类型的选择。 描述性问题 描述性问题是关于 “ 是什么冶 的问题。 它们可能描述一个过程、 一种环境、 一系列观 第六章摇 评价问题及设计矩阵的开发 llll llllllll 点, 或者是一系列组织关系或网络。 Patton (2002) 将描述性问题看成是评价的基础问题。 描述性问题: 誗 试图理解或描述一个计划或过程 誗 对 “ 是什么冶 进行即时描述 誗 非常直白 ( 何人、 何事、 何地、 何时、 如何、 多少) 誗 能用来描述投入、 活动和产出 设 誗 通常用来收集计划委托人的观点 计 与 描述性问题举例如下: 实 誗 在不同利益相关者眼里, 计划的目标是什么? 施 誗 计划的主要活动是什么? 誗 人们如何参与计划? 誗 计划在哪里实施? 誗 计划对男性提供了哪些服务? 对女性提供了哪些服务? 誗 计划对参与者产生了哪些影响? 誗 计划的设计在多大程度上反映了从以前类似计划中所获得的经验? 摇163 誗 在不同地方, 计划的实施方式有何不同? 誗 服务提供者的资格条件是什么? 誗 计划何时开始实施? 誗 有多少妇女参与了计划? 誗 该计划的成本与其他类似计划的成本相比如何? 誗 在组织内部有何非正式的沟通渠道? 誗 参与者觉得计划有多大用途? 关于决策制定的评价问题通常是描述性问题。 Rist (1994) 将 “ 决策周期 冶 过程分解 成三个阶段, 这其中包括以下不同类别的问题 ( 见表 6郾 1) 。 摇 表 6郾 1 “ 决策周期冶 不同阶段的定性问题 阶摇 摇 段 举摇 摇 例 誗 以前曾采取哪些措施应对这种环境或问题? 政策形成 誗 以前哪些措施可能会有助于决策制定者在当前情况下做出选择? 誗 哪些与问题或条件有关的信息激发了政策或计划反应? 誗 政策作出后组织或机构采取了哪些应对措施? 誗 负责实施计划的人需要什么资质? 誗 管理层和员工对此政策有多大兴趣? 政策实施 誗 现有哪些关于资源分配的管理政策? 誗 组织架构是否能充分地反映组织应对政策的需要? 誗 组织内现有哪些方法可以用来决定竞争性的不同需求? 誗 现有哪些反馈系统能够帮助管理人员? 誗 计划或政策与当前环境有何相关性? 政策问责 誗 对问责的关注度如何? 通向结果之路: 有效发展评价的设计与实施 llll llllllll 规范性问题 规范性问题比较实际情况与应该呈现的情况。 这类问题对现状与特定的具体目标或基 准进行比较。 这些问题与绩效审计中经常问及的合规性问题有些类似。 通常包括以下 设 问题: 计 誗 我们是在做应该做的事吗? 与 实 誗 我们是在朝着目标前进吗? 施 誗 我们实现了所作出的承诺了吗? 如果计划有一个结果导向的监测体系 ( 其中包括指标、 具体目标以及实现目标的时 间表) , 描述性问题则可以用来询问关于投入、 活动和产出等内容。 有时, 一个计划有目标但没有明确的准则来确定目标该如何测量或实现。 计划既没有 设立指标, 也没有设立具体目标。 在这种情况下, 评价者可以有几种选择, 这些选择各有 利弊 ( 专栏 6郾 1) 。 寻找标准或准则通常从计划授权文件中的准则开始, 例如法律法规或者董事会通过的 摇164 文件。 准则也可以根据结果导向的管理系统中的指标和特定目标来确定。 其他可设立标准 的来源包括认证体系、 陪审团、 行业组织及其他相关委员会。 以下是规范性问题的例子: 誗 支出是否和预算相符? 誗 是否实现了每年招收 5 000 名学生的目标? 誗 是否按要求给 80% 的儿童注射了疫苗? 誗 是否实现了浇灌 100 000 公顷土地的目标? 誗 选择计划参与者的过程是否公正和平等? 专栏 6郾 1摇 对缺乏标准的干预进行评价 假设一个跨部门项目的目标如下: 誗 提高在选定学区中儿童的阅读成绩 誗 提高某地区艾滋病的防范意识和方法 誗 增加某村庄微型企业的数目及其利润 评价人员需要准确地知道这些目标的内涵 ( 提高阅读成绩的儿童比例、 哪些人的 艾滋病意识增加以及如何知道他们的意识增强、 多少微型企业利润增加了以及增加了多 少) , 但这些项目并 没 有 用 这 种 方 式 来 描 述 目 标。 评 价 人 员 在 这 种 环 境 下 应 该 如 何 做呢? 一种方法是与项目 “ 所有者冶 冥冥对项目及其实施负有管理责任的官员 冥冥 合作。 官员能够说明项目可能达到的绩效水平。 对这种方法的担忧在于一些人可能不会接受其他人设立的标准。 例如, 负有监察责 任的员工往往不赞同项目实施者提出的标准, 通常认为这些标准设置得太低了。 第六章摇 评价问题及设计矩阵的开发 llll llllllll 摇 摇 另一种方法是召集一个或多个专家来确定可能使用的评价准则。 这种方法的潜在问 题在于, 设立的准则可能会体现专家的个人偏见。 该问题可以通过获取多个专家的观点 来解决。 在这种情况下, 专家组必须保持政治上的中立或平衡, 并且没有参与项目的前 期工作。 最薄弱最有风险的方法是评价者自己建立标准。 由于这种方法会使评价者陷入困 设 境, 因此应该尽可能避免。 参与项目的人员可能认为标准太高或太低, 或者认为不能在 计 事后设立标准来评判其绩效。 与 资料来源: 作者 实 施 因果性问题 因果性问题用来确定干预会带来何种差异。 通常是指成效、 影响或归因类的问题, 这 类问题旨在度量由干预所带来的变化, 用于回答 “ 结果怎样 冶 的问题。 因果性问题会询 问通过计划的实施是否实现期望的结果。 摇165 计划的变革理论模型描述了干预的预期成效和影响, 但与成效相关的问题则可以是也 可以不是因果性问题。 例如, 针对一项向农民介绍新型改良种子的计划, 一个成效问题可 以是粮食的产量是否提高。 如上所述, 这也可以用描述型问题来阐述 冥冥 产量增加了多 少? 如果评价的问题是农作物增产是否是实施计划的结果冥冥而不是因为非常理想的气候 条件所产生的结果冥冥那么很清楚它是一个因果性问题。 因果性问题意味着对一个或者多 个业绩的度量标准或指标不仅要比较干预实施前后的情况, 而且还要比较有干预和没有干 预的情况。 以下是因果性问题的例子: 誗 三国伙伴关系战略在维持受影响地区居民生计并保护生物多样性方面有效吗? 誗 作为就业培训计划的结果, 参加培训的人拿到的薪酬会比不参加培训的薪酬更 高吗? 誗 微型企业实施证明减少了所在乡镇的贫困率吗? 誗 政府提高罚金使得制衣厂减少非法雇佣童工了吗? 誗 干预在更广泛领域内带来了何种影响或负效应 ( 正面的或负面的) ? 评价人员需要以原因和结果的方式来表述这些问题。 由于可能同时进行许多活动, 因 此很难说某种成效完全或主要源自某个干预。 在设计回答因果性的问题时, 评价人员得非 常小心地排除引起衡量对象变化的所有其他可能的解释。 第七章将讨论可以用来回答因果性问题的设计, 并讨论一些用来归因的分析方法。 由 于回答因果性问题要比描述性和规范性问题更困难, 在运用这类问题时, 必须非常确信这 种方法既是我们想用的, 也是必须要用的。 许多评价, 特别是更关注干预实施情况的形成性评价, 一般只使用描述性或规范性问 题。 关注影响的评价会问一些因果性问题, 但更会问一些描述性或规范性问题。 专栏 6郾 2 列示了评价包括不同类型问题的情形。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 专栏 6郾 2摇 采用问答形式的问题来评价政策和干预活动 改善卫生防疫服务 政策: 确保每个儿童都能得到卫生防疫服务 目标: 减少婴儿和学龄前儿童死亡率 设 评价问题: 计 1郾 项目实施后, 有多大比例的儿童能得到卫生防疫服务? ( 描述性问题) 与 实 2郾 低收入家庭儿童作为目标受益人群是否得到了卫生防疫服务? ( 规范性问题) 施 3郾 项目的实施有没有使得儿童死亡率降低? ( 因果性问题) 为高中学生开展就业培训 政策: 确保高中阶段教授的知识和技能符合当地就业市场的需求; 目标: 确保毕业生能够获得报酬较高的技术性工作。 评价问题: 1郾 高中学校是如何为学生在当地市场就业进行准备的? ( 描述性问题) 摇166 2郾 一年以后, 毕业生拿到了比中途退出计划的学生更高的薪酬了吗? ( 描述性问 题) 3郾 高中学校在多大程度上按照要求制定了面向市场的培训范围? ( 规范性问题) 4郾 如果参与的学员中途退出, 其获得的薪酬是否比完成培训的要少? ( 因果性问 题) 提供免费的麻疹疫苗 干预: 在全国三个地方的家庭诊所为所有 5 岁以下儿童提供一年的免费麻疹疫苗。 评价问题: 1郾 诊所如何让父母了解为孩子们提供的免费麻疹疫苗措施? ( 描述性问题) 2郾 项目实现了三个地方的家庭诊所为所有 5 岁以下儿童提供一年的免费麻疹疫苗 这一目标吗? ( 规范性问题) 3郾 项目使用新的方法来使最容易患病的儿童接种疫苗了吗? ( 描述性问题) 4郾 项目的实施使儿童患上麻疹的比例减少了吗? ( 因果性问题) 5郾 项目实施后, 麻疹引起的儿童死亡率降低了吗? ( 因果性问题) 开展面向市场的课程 干预: 三所城市的三所中学实施面向市场的课程 评价问题: 1郾 这些面向市场的课程与其他没有参与计划的学校的课程有何不同? ( 描述性问 题) 2郾 课程是否按照预期以市场为导向? ( 规范性问题) 3郾 这些学校的毕业生在多大程度上获得了高薪工作? ( 描述性问题) 4郾 作为干预的结果, 采用面向市场的课程的学校的毕业生要比其他没有采用面向 市场课程的学校的毕业生拿到更高薪酬吗? ( 因果性问题) 资料来源: 作者 第六章摇 评价问题及设计矩阵的开发 llll llllllll 问题类型与变革理论的关系 詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪 问题的类型与前一章所讨论的变革理论有何关联呢? 关于是否获得计划所需的投入和 产出目标是否实现的问题通常是规范性问题, 如在特定时间内投入的资金产生了预期数量 设 的产品和服务了吗? 关于预期成效实现程度的问题也属于规范型问题。 关于阅读成绩在一 计 与 段时间内提高程度的问题是描述性问题; 阅读成绩是否达到了计划管理人员的预期目标则 实 是一个规范性问题。 旨在测试变革理论模型中提出的有干预情况下的成果和无干预情况下 施 的成果之间的相关性假设的问题则属于因果性问题。 关于这些成果能否带来中期的和长期 的成效或影响的问题也是因果性的。 通常, 关于成效变化的问题或者是描述性问题, 或者是措辞欠妥的因果性问题。 如果 想设计为因果性问题, 就必须重新组织问题结构来说明不仅是发生了何种变化, 而且要说 明这种变化是不是由干预所引起的 ( 也就是说, 干预产生的变化要比没有干预带来的变 化更为显著) 。 其他成效和影响也可能归于变革理论中干预措施的实施。 摇167 识别和选择问题 詪詪詪詪詪詪詪詪詪詪詪 评价人员应该如何决定选择哪些潜在的问题呢? Gronbach (1982) 建议分两阶段来识 别和选择问题: 发散阶段和趋同阶段。 发散阶段 在发散阶段, 评价人员开发出一套关于潜在的重要问题和关切的详细清单。 不要随意 剔除一些问题, 并且应多多咨询相关信息源。 Gronbach (1982) 对评价发散阶段的规则总 结如下: 第一步, 使人们对所思考的问题敞开思路, 至少简要罗列可能需要调查的方方面面。 这个阶段 本身也构成一次评价行动, 要求收集数据、 并进行符合推理的分析和判断。 这些信息和分析很少是 定量的。 数据通常来源于非正式的交谈、 不定期的观察、 现有记录的回顾等。 在该阶段特别适合采 用自然和定性的方法, 因为参与调查的人员和兴趣小组能够帮助评价人员了解政策尚未引起政策 关注的希望和担忧…… 评价人员应该努力从不同决策制定部门的视角来审视计划, 包括计划被采纳之后将要 运作该计划的专业人员和计划的受益者。 到了一定阶段就不会产生新的问题了。 这时, 评价人员应该停下来检查一下问题清单 并开始组织相关问题。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 趋同阶段 在趋同阶段, 评价人员缩小发散阶段产生的问题清单, 以确定最关键的问题。 评价人 员如何决定哪些问题是最重要的呢? Fitzpatrick, Sanders 和 Worthern (2004) 提出了下列 设 准则来决定提出的问题中哪些需要得到研究: 计 誗 谁会使用这些信息? 谁想了解这些信息? 如果舍弃这个评价问题谁会反对? 与 实 誗 这些问题的答案是否会减少当前的不确定性或者提供现在还没有的信息? 施 誗 问题的答案是否会产生重要信息? 是否对干预的过程产生影响? 誗 这个问题仅仅是想引起某人一时的兴趣, 还是关注于关键方面或者引起持续兴趣? 誗 如果舍弃这个问题, 评价的范围和全面性是否会受到严重的限制? 誗 在现有的财务资源、 人力资源、 时间、 方法和技术下, 问答这个问题是否可行? 这一系列准则可以放在一个矩阵里从而帮助评价人员及客户将原有的问题清单缩小至 合适的范围 ( 见表 6郾 2) 。 评价人员需要对客户和关键利益相关者提出的问题倍加注意。 如果就某些问题不能达 摇168 成共识, 那么在早期阶段解决这些问题就显得非常重要。 这个过程可以帮助评价人员和客 户, 以及关键利益相关者建立共同合作的关系, 这对以后各阶段的评价工作非常有意义。 摇 表 6郾 2 评价问题的选择与排列矩阵 评价问题 评价问题会 1 2 3 4 5 6 7 8 9 10 引起 关 键 读 者 的 兴 趣吗? 减少 当 前 的 不 确 定 性吗? 产生重要的信息吗? 是人 们 持 续 ( 而 不 是 短 期) 感 兴 趣 的吗? 对研 究 的 范 围 和 深 度有影响吗? 在财务和人力资源、 时 间、 方 法 和 技 术 条件 的 约 束 下 可 以 回答吗? 摇 摇 资料来源: Fitzpatrick, Sanders 和 Worthern (2004) 第六章摇 评价问题及设计矩阵的开发 llll llllllll 开发合适的评价问题 詪詪詪詪詪詪詪詪詪詪詪詪詪詪 为了开发合适的评价问题, 评价人员首先要识别项目、 计划和政策要应对的关键问 题。 关键问题一般通过对相关文献的检索获得, 包括类似计划的评价、 变革理论、 计划文 设 件, 以及与计划利益相关者和资助评价的客户方进行讨论。 计 与 对一个旨在降低婴儿死亡率的计划进行评价时, 需要列出的主要议题如下: 实 誗 影响婴儿死亡率的多种因素 施 誗 正在进行中的类似计划 誗 覆盖低收入产妇的方法的有效性 誗 出于预期之外的目的而使用补充食品的范围和种类 一旦明确了上述议题, 评价人员就可以提出问题来确定这些议题是否受了政策或干预 的影响。 以下是了解相关议题的问题示例: 誗 计划使用了什么拓展方法? 摇169 誗 哪种拓展方法是最有效的? 誗 在计划运作期间, 致命的婴儿疾病的发病情况如何? 誗 婴儿死亡率降低了多少? 誗 还有其他哪些措施有助于提高产妇健康? 同时 涉 及 多 个 议 题 的 问 题———例 如, “多少妇女接受了健康检查和营养补充 剂?冶 ———应该尽量避免。 事实上, 该问题应该分为两个问题 ( “ 多少妇女接受了健康检 查? 多少妇女接受了营养补充剂?冶 ) 通过调整措辞, 每个问题几乎都可以用三种问题类型来表达。 例如, 对旨在降低地雷 造成的伤亡率的计划进行评价, 可以询问以下问题: 誗 哪里的地雷排得最多? ( 描述性) 誗 在给定时间内, 计划实现了在该地区排雷 1 000 枚的目标吗? ( 规范性) 誗 作为实施干预的结果, 由地雷造成的平民伤亡人数减少了吗? ( 因果性) 下列建议可以帮助评价人员更好开发问题: 誗 每个评价问题与研究的目的之间应该有关联 誗 确保评价问题必须解决最受关注的议题 誗 保证所有问题都是可以回答的 誗 问题的数量要切合实际 誗 重点放在关键问题上———即必须要回答的问题而不是可答可不答的问题 誗 考虑评价相对于计划周期的时机选择: 例如, 有关影响的问题最好是在干预措施 全面实施几年后才回答 评价问题需要和项目、 计划、 宏观政策、 某特定政策, 或者实施某政策的干预措施等建 立联系。 例如, 如果整体目标 ( 宏观政策) 是减少贫困, 那么就会实施多个干预计划。 每 个政策都是通过旨在实现某一特定目标的行动来实施的。 最后, 政策和干预能够有效地执 通向结果之路: 有效发展评价的设计与实施 llll llllllll 行, 变革理论也完全正确, 那么就会实现整体成果。 如果政策、 干预和变革理论都出现问 题, 那么就需要重新评估干预措施和政策, 甚至需要重新修改干预和政策。 评价设计 詪詪詪詪詪詪 设 计 评价人员设计评价很大程度上就像建筑师设计一座大楼。 评价设计是对评价包含内容 与 的规划, 并非是评价的全面工作计划。 实 评价设计包括: 施 誗 主要的评价议题或问题 誗 大致采用的评价方法 誗 具体的评价问题和子问题 誗 可操作的内容 ( 标准或指标) 、 数据来源和收集数据的方法策略 誗 准备采取的分析方法 誗 成果推广策略 摇170 Patton (1997) 区分了两类设计问题: 概念性问题和技术性问题。 概念性问题是讨论 计划参与者对评价的看法, 包括确定评价的主要目的、 关键利益相关者, 以及需要考虑的 政治问题。 技术方面主要关注对数据收集和分析的规划。 这些技术性问题是所有评价都必须使用 的设计矩阵的核心。 对于每个问题或更多子问题, 设计矩阵需要: 誗 决定问题或子问题的类型 ( 描述性、 规范性, 以及因果性) 誗 明确将要回答的问题或子问题 ( 例如, 当地住宅增长率或接受疫苗的儿童数量 ) 的标准 ( 指标或变量) 誗 确定可以为回答描述性、 规范性以及因果性问题提供恰当信息的方法设计 誗 确定每个问题或子问题的数据来源 誗 确定是否需要抽样, 如果需要, 则需明确抽样方法 誗 明确用于每个问题或子问题的数据收集工具的类型 誗 明确数据分析和表述的方法 有时, 用以回答问题的度量工具是一个已经达成共识的指标, 并且目标和目标实现日 期都比较明确, 这是比较理想的情况。 这种情况大多数出现于以下情形: 干预的监测和评 价框架早已经开发好, 或者干预只是某个部门或政府部委大型监测体系的一小部分。 不管 有没有设立明确的目标, 都必须要指明是否有基准数据。 完成的评价矩阵就是评价设计, 但这并非是个完整的工作计划, 因为评价设计并没有 列出所有的评价任务, 也没有确认何人何时来执行每项任务。 本书第十二章将讨论完整的 评价工作计划。 评价设计过程的阶段 在理想状态下, 在计划提出的时候就要进行事前评价, 随后将整个评价过程分为以下 第六章摇 评价问题及设计矩阵的开发 llll llllllll 几个不同的重要阶段。 阶段 1 : 评价的规划与范围界定 在初步规划与工作范围界定阶段需要阐述评价的性质和范围。 在这个阶段, 评价的主 要目的、 需要咨询的利益相关者、 开展评价工作的人员以及实现结果的进度表等, 均必须 予以明确。 阶段 1 是个探索性的阶段。 关键议题的来源包括主要客户和其他利益相关者的 设 想法、 文献回顾以及其他可能影响计划的相关干预措施等。 同时, 还需要开发或修正变革 计 与 理论及相关假设。 实 施 阶段 2 : 评价的设计 在完成早期规划和范围界定后, 要对评价的环境有足够了解从而能确定一种评价方 法。 评价规划的核心是评价设计阶段, 以完成评价设计矩阵告终。 如果评价设计不完善, 那就难以得出有关评价干预绩效的结论。 在最终确定评价设计之前与评价资助者 ( 委托人 ) 和其他关键利益相关者一起审阅 和讨论整个评价设计方案通常来说是很好的做法。 这样做的目的是不要让任何一方感到意 摇171 外, 尽可能赢得更多人投入并支持评价工作。 成立咨询小组和同行评论也是一个确保评价 设计更完善的好方法。 在一些非常知名的案例里, 评价设计草案还会在网上公布以供 评论。 设计矩阵是开发任务大纲的基本根据。 当评价在内部进行时, 任务大纲可以看做是评 价小组工作方案或指南的基础。 如果由外部咨询专家来设定评价范围和做背景调查, 最好 也要将设计矩阵写好备用。 随后, 在评价设计实施时, 要另编写一份任务大纲。 阶段 3 : 评价工作的开展 评价的 “ 执行阶段冶 需要收集和分析数据。 通常, 如果要收集不同类型的数据 ( 或 者从不同渠道获得同类数据) , 则要开发和测试不同的工具。 数据收集的同时通常也要进 行分析。 在数据收集到将近 2 / 3 时, 评价小组需要举行讨论会来检查目前为止已有的评价结 果, 并确认新出现的主题和重要信息。 叙论会 是就 3 ~ 5 个关键信息达成早期的共识的有 效途径。 举行叙论会的目的是确保能够在重要议题上达到早期的共识, 同时, 也有助于检 查影响评价的主要问题是否已经得到说明。 ( 当根据评价问题编写报告纲要时, 组织好最 终报告框架, 与决策制定者就关键信息和主题进行讨论可能使得评价更有效率, 因为并非 所有评价问题都能引起同样的兴趣。) 阶段 4 : 评价发现的报告 在编写报告阶段, 需要和计划 “ 所有人 冶 共享并讨论早期评价结果和事实说明, 以 便在报告起草和提出建议前及时修正错误, 采纳更多信息。 一旦完成数据分析、 列出所有 结果、 审阅报告草稿和整合建议意见等步骤后, 就可以将最终报告呈交给委托人和关键利 益相关者。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 报告通常要提供评价的相关背景和环境信息、 表明评价目的、 描述评价范围和方法, 并报告评价发现 ( 包括期望内和期望外的成效) , 一般还包括关于经验教训和建议方面的 内容。 了解哪些措施无效及为何无效和了解哪些措施有效及为何有效同样重要, 两者都要 在报告里面清晰地反映出来。 报告要根据受众的思维习惯撰写, 尽量避免晦涩难懂的词汇 以便于阅读。 ( 报告撰写将在第十三章讨论) 。 设 计 阶段 5 : 评价发现的推广和追踪 与 实 对评价进行规划意味着要规划贯穿整个评价过程的沟通, 不仅包括与委托人和关键利 施 益相关者的沟通, 也包括评价小组内部成员之间的沟通。 在完成评价发现的推广之前都不 能说评价已经完成: 因此, 评价成果的推广规划也是评价规划的一部分。 成果不一定非得 正式打印出来。 如果是在评价尚在进行之时对有关发现进行沟通, 特别是当有关发现超出 预料或特别重要时, 简报通常是特别有用的。 许多评价会引致下述行动: 誗 修正某项干预措施 誗 克服评价过程中发现的障碍 摇172 誗 为未来的政策或干预提供信息 ( 修正变革理论) 誗 向他人说明获取教训的方式 誗 重新思考问题的本质 许多组织都有专门的跟踪系统来追踪正式的建议并总结教训。 通过主题、 部门、 地点 和日期来搜寻数据库可以增强评价建议与经验的效用。 无论是否有这样的跟踪系统, 评价 人员都应考虑发送报告的只读电子版本给相关的评价知识库。 也可以在评价研讨会上交流 其评价发现, 或者在专业期刊上发表评价方面的论文。 各阶段之间的关系 专栏 6郾 3 总结了评价的各个阶段。 图 6郾 2 显示了不同阶段之间的关系。 图 6郾 2 说明整个评价过程的中心是促进评价的应用。 提高评价应用性是评价的核心内 容, 并指导着其他评价过程或阶段。 不应在评价结束时才去考虑如何使用发现的问题。 专栏 6郾 3摇 评价过程的五大阶段 阶段 1 : 评价的规划与范围设定 对计划、 项目和政策有详尽的理解 誗 与评价的主要委托人会面 誗 确认并会见其他关键利益相关者 誗 了解计划背景并搜集相关资料 誗 寻找相关评价信息 誗 阅读以前的评价报告以确认议题、 设计矩阵和数据收集策略 第六章摇 评价问题及设计矩阵的开发 llll llllllll 摇 摇 誗 与计划工作人员会面 誗 评估、 提炼或开发计划的变革理论 阶段 2 : 评价的设计 确定问题和议题 誗 与委托人见面, 确认评价的主要目的、 关心的问题和时间要求 设 誗 识别其他关键利益相关者并与之会面, 确认评价中可能要包含的议题和重要 计 问题 与 誗 确定开展评价时可用的资源, 如咨询人员费用和差旅费预算、 小组成员以及技 实 施 巧组合等 誗 评价利益相关者的需求, 包括时间上的要求 誗 准备任务大纲和评价矩阵 誗 确认评价的类型 誗 确认具体的评价问题和子问题 誗 为每个问题或子问题选择相应的标准 誗 确定回答每个问题或子问题的数据来源 摇173 誗 为每个问题或子问题进行合理设计 誗 制定数据收集策略, 包括回答每个问题或子问题时所需要的数据收集工具、 抽 样方法 誗 制定数据分析策略 誗 确定资源和时间要求 阶段 3 : 评价工作的开展 誗 向客户和关键利益相关者简要介绍评价设计 誗 制订工作计划, 包括检查及测试评价方法 ( 含测试工具) 、 培训数据收集人员和 制定评价草案 誗 收集数据 誗 开发表格准备数据分析 ( 如果在评价设计阶段没有做的话) 和清洗数据 誗 分析数据 誗 绘制图表 誗 形成结果 阶段 4 : 评价发现的报告 誗 召开叙论会 誗 确认主要结果和议题: 哪些产生效果, 哪些没有产生效果以及哪些需要改进等 誗 撰写报告 誗 向客户简要报告评价发现和陈述事实 誗 向计划官员和关键利益相关者简要汇报评价发现和陈述事实, 需要时予以修正 誗 请计划有关官员阅读报告草稿并提出建议 誗 提出清晰而明确的建议, 并指明何人应该在何时做何事 通向结果之路: 有效发展评价的设计与实施 llll llllllll 誗 检查这些建议是否和证据相联系 阶段 5 : 评价发现的推广和追踪 誗 确定分发研究成果的形式 ( 例如, 简报、 小结、 报告全文和深度研讨会 ) 及对 象, 并予以实施 誗 确认经验教训并予以分享或保留 设 计 誗 追踪正式建议以明确建议得到采纳 与 誗 将电子文档以只读方式存入评价知识库 实 誗 考虑通过专业组织和期刊来进一步推广评价发现 施 资料来源: 作者 l 使用评价问题   制定设计和选择方法   l 确认并会见利益相 关注评价  l 制定测量策略   l 决定数据收集设计   l 会见委托人并就评价 关者 l 决定数据收集策略   摇174 l 决定抽样策略   l 分析其他的研究和 目的达成一致 l 制定数据收集工具   l 制定沟通策略   l 制订分析计划   使用评价   l 创建变革理论  项目文件  l 向委托人简要介绍 l 向主要委托人和利益相关者作简 l 详细说明评价问题  l 创建任务大纲 l 让利益相关者参与其中   要报告  l 向委托人通报评价 评价设计   l 交流评价过程的 进展   l 征求并整合委托人 发现   l 撰写报告  报告发现  收集并分析数据  l l 审核报告和质量核 l 测试工具  l 做出决策   反馈   l 制定规程  l 提出建议  l 创建行动计划   查  l 根据需求进行培训  l 整合反馈意见和完 l 后续工作   l 根据规程收集数据  l 提出建议   l 准备分析用的数据  l 提交 l 追踪   善报告 l 分析数据  l 解释数据    l 召开信息交流会  草拟发现说明  图 6郾 2摇 发展评价的方法 资料来源: 作者 第六章摇 评价问题及设计矩阵的开发 llll llllllll 评价设计矩阵 在规划评价时, 我们强烈推荐使用评价设计矩阵作为重要的组织工具。 该矩阵可以很 好地组织评价问题并对用以回答这些问题的信息的收集进行规划。 矩阵还将描述性、 规范 性和因果性问题与评价设计和方法相关联起来。 除了可作为规划工具起到关联作用外, 设 设 计矩阵还可提高评价的用途, 加强评价人员和计划人员的合作。 计 与 评价人员需要一种工具来甄别评价的各个必要部分, 并保证这些部分在每个步骤都有 实 非常清晰的联系。 评价人员用以帮助其考量一项计划的工具, 包括分析相关环境, 确定可 施 度量的目标, 确定数据收集和分析方法, 以及所采用策略等都可能因计划不同而发生变 化。 评价人员甚至也可以自己创建合适的评价工具。 设计矩阵的目的在于组织好评价目的和问题, 并且保证评价的内容与合适的数据收集 工具相匹配。 一般来说, 设计矩阵包括以下相关要素: 誗 主要评价议题 誗 一般方法 摇175 誗 问题和子问题 誗 问题和子问题的类型 誗 度量或指标 誗 目标或标准 ( 如果是规范性问题) 誗 有无基准数据 誗 设计策略 誗 数据来源 誗 抽样还是普查 誗 数据收集工具 誗 数据分析和图表 誗 注释 此外, 还可以加上数据收集方案和评价工作任务及进度、 任务大纲以及沟通计划等相 关内容, 当然, 这部分内容也可以作为相关工具单独列出。 一种数据收集方法可以针对多个问题, 也可能多个方法只用来说明一个问题。 设计矩 阵还明确了已知的和计划的信息渠道。 当评价从规划转向实施时, 需要拓展并阐明信息 渠道。 评价矩阵也并非一成不变。 和其他规划工具一样, 它也必须随着评价工作的进展而不 断进行修正。 在评价过程中, 评价人员可以审查矩阵、 不断更新, 并用它作为实施评价的 指南。 尽管事前的规划应该尽可能排除评价中可能碰到的问题, 但即便是最好的规划也不 能阻止意外情况的发生。 设计矩阵模板如图 6郾 3 所示。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 摇 设计矩阵用途: 摇 主要评价议题: 摇 基本评价方法: 问题 度量或 目标和标 基准 数据 抽样还 数据收 数据 问题 子问题 设计 注释 类型 指标 准( 规范性) 数据 来源 是普查 集工具 分析 设 计 与 实 施 图 6郾 3摇 设计矩阵模板 摇176 设计矩阵时, 应将每个问题都尽可能根据需要分解成若干子问题。 每个子问题都需要 说明具体的类型 ( 描述性、 规范性或是因果性) ; 用来回答子问题的度量工具 ( 变量或指 标) ; 如果是规范性问题还得列出参考的具体目标和标准; 如果有基准数据也要列出; 数 据来源或者回答问题的信息来源; 实际用来回答子问题的设计策略; 是否需要取样以及如 何取样; 采用的数据收集工具; 数据分析方法以及任何需要说明的注释等。 注释包括检查 数据集、 说明评价的局限性以及从数据中提炼出图表等。 矩阵通常画在一张法定规格的纸上, 或者将两张纸靠边拼起来。 一些评价人员喜欢将 子问题竖直排列。 不管采用何种方法, 评价人员都必须认真填写回答子问题的所有空格。 完工的设计矩阵往往会有几页纸长。 这份文件可以使决策制定者理解该做什么, 以及 如何回答评价问题。 下一章节将详细讨论如何填写矩阵的每一页。 现在, 打算利用矩阵来设计计划、 项目和政策评价的人员可以识别问题和子问题, 并 能明确每个子问题的类型。 基准数据、 度量或指标, 以及具体目标 ( 如果子问题是规范 性的) 等可填在表中相应的栏内。 描述性问题的子问题可能是描述性的; 规范性问题的子问题也可以是描述性的, 但必 须至少有一个子问题是规范性的; 因果性问题可以至少有一个因果性的子问题, 但也可能 包括描述性问题或者规范性问题。 一份完整的设计矩阵可见附录 2。 小摇 摇 结 詪詪詪詪詪詪 评价人员需要和主要委托人及关键利益相关者一起合作来明确评价问题。 在完成背景 分析并与主要委托人及关键利益相关者会面、 开发计划的变革理论、 找到计划隐含的关键 假设条件等相关步骤之后, 评价人员就可开始提出评价问题, 并从较长的清单中选择合适 第六章摇 评价问题及设计矩阵的开发 llll llllllll 的问题。 可根据主要评价议题来检查评价问题是否与议题相符。 评价人员使用描述性、 规范性和因果性问题。 每个问题的措辞方式非常重要, 因为这 将影响到如何回答这些问题的方法。 在组织评价方面值得推荐的一个做法是利用设计矩阵, 这将有助于组织问题、 设计、 数据收集和分析策略等。 下一章将讨论如何按部就班地完成设计矩阵。 设 练习 计 与 6郾 1摇 问题类型 实 确定以下每个关于农村妇女卫生防疫倡议的问题是描述性、 规范性还是因果性的。 如 施 果一些问题需要进一步完善来确保其类型更加明确, 请重新组织该问题的表述方式 ( 这 在现实工作中经常会遇到) 。 1郾 在倡议实施的第一个月内, 该倡议是否按计划为 30 名农村妇女提供了必要的建 议、 支持和其他服务? 2郾 服务提供的地点和时间是否能让最大数量的妇女参与? 3郾 使计划覆盖到偏远地区妇女并使她们能够从计划受益的最佳方法是什么? 摇177 4郾 此妇女卫生防疫倡议让参与倡议的妇女更早地检查出存在的健康问题了吗? 5郾 自计划实施起, 多少妇女接受了何种服务? 6郾 该项妇女卫生防疫计划与其他提高农村妇女健康水平的计划相比有多高效率? 7郾 该卫生防疫倡议对参与的妇女及其家庭, 以及她们生活的更广泛的农村社区有何 影响? 8郾 参与人员对建议、 信息、 支持和所享受的服务的满意度如何? 9郾 该农村妇女卫生防疫倡议符合政府要求的效率标准吗? 10郾 参与人员认为计划对他们产生了什么影响? 11郾 妇女所接受的服务在多大程度上满足合格性要求? 12郾 计划实现了增强妇女卫生防疫技术知识的目标吗? 6郾 2摇 修改问题类型 对以下每个计划分别写出一个描述性、 规范性和因果性问题。 1郾 针对青年男性的职业培训计划 2郾 将三个社区与中心市场相联系的道路建设计划 名词解释 描述性问题: 用来确定 “ 是什么冶 的问题 规范性问题: 比较 “ 是什么冶 与 “ 应该是什么冶 的问题 因果性问题: 用来确定干预带来的差异的问题 发散阶段: 评价人员开发出一套关于潜在的重要问题和关键的详细清单的阶段 趋同阶段: 评价人员缩小发散阶段产生的问题清单, 以确定最关键的问题的阶段 叙论会: 评价小组讨论并对重要议题达成共识, 以及检查影响评价的主要问题是否已 经得到说明的会议 通向结果之路: 有效发展评价的设计与实施 llll llllllll 评价设计矩阵: 用以组织评价问题并对用以回答这些问题的信息进行收集的矩阵 参考书目 1郾 Cronbach, L郾 J郾 1982郾 Designing Evaluations of Educational and Social Programs郾 San Francisco: Jossey鄄Bass郾 设 2郾 Feuerstein, M郾 T郾 1986郾 Partners in Evaluation: Evaluating Development and Community 计 Programs with Participants郾 London: MacMillan, in association with Teaching Aids at Low Cost郾 与 实 3郾 Fitzpatrick, Jody L郾 , James R郾 Sanders, and Blaine R郾 Worthen郾 2004郾 Program Evalu鄄 施 ation: Alternative Approaches and Practical Guidelines郾 New York: Pearson Education Inc郾 4郾 Human Rights Resource Center郾 2000郾 “ Questions about Evaluation郾 冶 In The Human Rights Education Handbook: Effective Practices for Learning, Action, and Change郾 University of Minnesota, Minneapolis郾 http: / / www1郾 umn郾 edu / humanrts / edumat / hreduseries / hrhandbook / part6B郾 html郾 5郾 Lawrence, J郾 1989郾 “ Engaging Recipients in Development Evaluation: The ‘ Stakehold鄄 摇178 er爷 Approach郾 冶 Evaluation Review 13 ( 3 ) : 243 - 56郾 6郾 OECD ( Organisation for Economic Co鄄operation and Development ) 郾 2007郾 Criteria for Evaluating Development Assistance郾 Development Assistance Committee郾 http: / / www郾 oecd郾 org / document / 22 / 0 , 2340 , en_2649_201185_2086550_1_1_1_1 , 00郾 html郾 7郾 Patton, Michael Quinn郾 1997郾 Utilization鄄Focused Evaluation郾 3rd ed郾 Thousand Oaks, CA: Sage Publications郾 ———郾 2002郾 Qualitative Research and Evaluation Methods郾 3rd ed郾 Thousand Oaks, CA: Sage Publications郾 8郾 Rist, R郾 C郾 1994郾 “ Influencing the Policy Process with Qualitative Research郾 冶 In Handbook of Qualitative Research, ed郾 N郾 K郾 Denzin and Y郾 S郾 Lincoln, 545 - 57郾 Thousand Oaks, CA: Sage Publications郾 9郾 Shadish, William 1998郾 “ Some Evaluation Questions郾 冶 Practical Assessment, Research & Evaluation 63郾 http: / / PAREonline郾 net / getvn郾 asp? v = 6&n = 3郾 Also available from ERIC / AE Digest at http: / / www郾 ericdigests郾 org / 1999 - 2 / some郾 htm郾 网址 1郾 Kellogg Foundation郾 2004郾 Evaluation Logic Model Development Guide郾 http: / / www郾 wkkf郾 org / pubs / tools / evaluation / pub3669郾 pdf郾 2郾 World Bank郾 1996郾 Participation Sourcebook郾 http: / / www郾 worldbank郾 org / wbi / source鄄 book / sbhome郾 htm郾 第七章 摇 因果性问题 、 描述性问题 摇 摇 摇 摇 和规范性问题的设计选择 摇 摇 在选择了评价问题之后, 评价人员接下来需要对每个问题选择最恰当的评价设计方 法。 本章将为评价设计提供一些参考指南, 并讨论各种设计方案的优劣。 不过, 要注意, 每一种情形都是独特的。 因此, 没有所谓的完美设计, 对任何一个问题来说回答方式也不 是 “ 唯一的冶 。 本章包括五个主要部分: 誗 将问题与设计相关联 誗 因果性问题设计 誗 描述性问题设计 誗 规范性问题设计 誗 更严格的评价设计需求 将问题与设计相关联 詪詪詪詪詪詪詪詪詪詪詪詪詪詪 评价实际上是为问题寻找答案 。 我们在第六章指出评价问题可以分成三大类 : 描述 性问题 、 规范性问题和因果性问题 。 我们所选择的设计必须与我们所问的问题相适配 。 比如 , 当我们提 出 的 是 因 果 性 问 题 时 , 我 们 就 必 须 选 择 可 以 用 来 回 答 因 果 性 问 题 的 设计 。 正如村民们寻求给村庄遭遇的祸害给出一个解决之道一样, 发展组织致力于寻求发展 问题的解决方案 ( 专栏 7郾 1) 。 然而, 在寻找答案的过程中, 无论是评价人员还是村民采 取的步骤并非总是正确的。 第一个错误可能出现在选择数据收集策略的时候。 对于小女孩关于大象的问题, 村中 长者可能说, “ 让我们做一项调查吧, 看看村民们是怎么解释大象为什么离开的。冶 如果 以数据收集策略为主导, 几乎肯定无法获得所需的信息。 第二个可能的错误是认为每项评价对应的设计是单一的 。 通常的情况是 , 每项评价 都需要回答多个问题 , 而每一个问题都需要相应的恰当设计 。 一项评价活动通常需要 回答描述性问题和 规 范 性 问 题 , 有 些 时 候 还 需 要 回 答 因 果 性 问 题 。 评 价 人 员 需 要 避 通向结果之路: 有效发展评价的设计与实施 llll llllllll 免采用 “ 为方法寻找应用 冶 的 技 巧 ( 我 们 能 通 过 一 项 调 查 或 者 专 题 组 回 答 什 么 样 的 问题呢 ?) , 也不应认为在回答 因 果 性 问 题 的 时 候 就 不 需 要 回 答 描 述 性 问 题 和 规 范 性 问题 。 在大象的例子里, 我们有可能通过深入的案例研究来了解到, 大象离开村庄既不是因 为敲打瓦罐也不是因为踢起尘土。 相反地, 也许只是因为村庄正好处在大象的迁徙路 设 径上。 计 与 实 专栏 7郾 1摇 是什么原因让大象离开? 施 在非洲一个乡村里, 每年都会有一群大象两次从相反方向横冲村子而过。 所有的村 民都卷入到驱逐大象的过程中。 有人使劲敲打瓦罐和平底锅; 有人鸣哨, 大喊或尖叫; 其他人则跑来跑去并踢起尘土以试图维护自己领地的所有权。 当大象离开村庄后, 一位年轻的女孩问道: “ 大象为什么离开了呢?冶 村民们回答, “ 因为我们把它们赶跑了。冶 小女孩又问: “ 但是让大象离开的具体原因是什么呢? 是敲 打瓦罐的声音, 鸣哨, 还是其他噪音? 抑或是空中的尘土?冶 摇180 设计的分类 评价人员可以选择的设计分为三大类: 实验性设计、 准实验性设计和非实验性设计。 下面将分别阐述。 实验性设计 许多评价人员都会认为实验性设计———也叫做随机实验或真实实验———是最强和最稳 健的评价设计。 但也有许多人不同意。 正如我们在第六章所讨论的, 评价人员可以努力使 评价尽可能的严谨, 但只有最合适回答评价问题的设计才是正确的设计。 在一个真实实验 性评价中, 评价人员必须揭示如果干预没有发生, 就不会获得预期的结果。 用村子里的大 象的例子来说, 评价人员必须证实如果村民没有敲打瓦罐、 鸣哨和制造出其他的噪音, 大 象就不会离开村子。 为了揭示干预是某项成果的形成原因, 实验性设计必须比较两个小组的结果———其中 一个小组接受干预而另一个小组没有接受干预。 区分实验性设计和其他设计的主要标准是 各小组样本的随机分配。 通过随机分配, 分配到各小组的样本的背景、 性别、 环境和时间 点等必须是相似的。 让我们对大象案例的论证方法进行分解。 因为村民无法将大象随机分配成两到三个小 组然后对其进行不同的干预或不干预实验, 为了让围绕例子的讨论继续下去, 我们假设国 家政府部门获知在该省内有 30 个村庄面临着大象破坏房屋和庄稼的情形, 并希望大象和 村民能够和谐相处以解决面临的问题。 政府雇用了一位动物行为专家, 但专家同时只能照 顾到 20 个村庄。 政府决定随机抽取 20 个村庄来接受专家的帮助, 而另外未被随机抽中的 第七章摇 因果性问题、 描述性问题和规范性问题的设计选择 llll llllllll 10 个村庄则作为对照组。 30 个村庄的所有成年村民都参加了一项调查, 以便提供实验组 和对照组有关人们对大象态度的基准数据, 估算庄稼的损失和其他的损害。 在选择哪些村 庄进入干预组的时候, 所有 30 个村庄的名字都分别写在一张纸条上然后放入一个碗中。 年长的村民被召集在一起, 10 位最年长的村民被邀请依次从碗中 ( 蒙着眼睛 ) 抽取一张 折叠好的纸条。 当读到每张纸条上的村庄名字的时候, 村庄的名字就会被写在黑板上。 当 10 个村庄都被确定之后, 对照组也就确定了。 专家的行为干预目标是消除问题、 改进态 设 度和降低损害及相关的成本。 如果专家的干预是有效的, 而且其他的因素保持不变, 在预 计 与 定时间之后, 干预组和对照组之间所测得的数据应该是不同的。 在这个例子里, 专家对动 实 物行为的影响就是我们说的干预措施。 施 准实验性设计 准实验性设计类似于实验性设计, 但不是按照随机原则将样本分配到各小组。 这种设 计往往更具实用性, 因为真实的实验性设计很难操作, 而准实验性设计并不要求遵循随机 原则而更注重于建立比较组。 摇181 准实验性设计用于比较相似但并不相同的小组 。 不同组别可以是相似的村庄 , 也可 以是相同的村庄在不同的时间点 ( 前或后 ) 。 在大象的例子里 , 按照准实验性设计的要 求 , 我们可以在同一地区选择两个具有气候相似 、 地区内大象的数量相同 、 村民人数 相当且房屋数量相一致等条件的村庄 , 其中一个村庄实施干预 ( 敲打瓦罐 ) , 另一个则 没有干预 。 另一种方法是, 两个小组可以通过改变村民们驱赶大象的行为来组成。 大象第一次来 到村庄的时候, 村民们敲打瓦罐; 第二次大象到来的时候则不敲打瓦罐。 这样, 同一个村 庄就有两种情况, 我们因此可以比较大象的反应。 上述两个例子中, 两个小组都相似但不相同。 在第一个例子里, 两个小组存在着差 异, 环境也不同从而影响结果。 第二个例子中小组的差异体现在村民的行为。 准实验性设 计在一定程度上无法像真实的随机设计一样明确将干预与成果进行关联或者揭示因果之间 的关联, 但还是可以让我们知道很多并发现可能的因果关系。 非实验性设计 非实验性设计, 亦称描述性设计, 并不是将一个小组和另一个小组进行对比。 相反, 它对一项干预和它的影响之间的关系进行宽泛的描述。 比如, 在描述性设计中, 评价人员 需要说明何时抽样、 样本是谁以及抽样地点等。 在此, 不需要建立两个或者更多的相同或 相似的小组。 非实验性评价可以通过分析现有数据或信息、 调查和专题组等途径获取与评价问题相 关的合适数据。 非实验性设计主要考察特征、 频率和相关性 ( 项目 STAR 2006) 。 表 7郾 1 概述了三类设计的主要特征。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 摇 表 7郾 1 实验性、 准实验性和非实验性设计的两个主要特征 评价设计类型 随机分配对照组 非随机分配比较组 重复度量 实验性 是 否 是 准实验性 否 可能 可能 非实验性 否 否 否 设 计 摇 摇 资料来源: 作者 与 实 施 设计的表述 评价设计有时候会用 Xs 和 Os 来表示。 在这里, X 代表一项干预活动或者实验, O 代 表观察结果。 每次实验和观察都用一个序列号来识别。 比如, 一项设计如果有一次实验然 后跟着一次观察可以表示为: XO1 摇182 如果一项设计里首先是一次观察, 然后是实验以及随后的两次观察, 则表示为: O1 XO2 O3 设计中每个小组分别用一行来表示。 下面的例子表示一项评价设计中有两个小组, 其 中一个接受干预而另一个则没有接受干预。 两个小组在干预组接受干预之前都有一次观 察, 干预之后有两次观察。 O1 X O2 O3 O1 O2 O3 因果性问题设计 詪詪詪詪詪詪詪詪詪詪詪 回答因果性问题是一个很大的挑战, 只有深思熟虑的设计才可能很好地回答因果性问 题。 在含有因果性问题即关于影响和造成观察到的影响的原因的评价设计中, 评价设计试 图排除可能造成观察到的影响的、 除了干预以外的其他解释, 从而能够得出结论说是干预 措施造成了该观察结果。 简而言之, 因果性问题的挑战就是要说明是干预措施还是其他因 素造成了观察到的变化 ( 影响) 。 当我们关注的是因果性问题的时候, 评价设计问题也可以概括为 “ 如果没有干预活 动, 那么情形又会怎样?冶 我们不可能真正准确地度量出如果没有干预措施的假设情况, 但我们可以估算出干预没有发生的话会是怎样的情形。 实验性设计 实验模型源于医学研究, 经常用于测试新药和仪器。 当实验性设计运用到与健康相关 第七章摇 因果性问题、 描述性问题和规范性问题的设计选择 llll llllllll 的评价问题时, 比如发展组织在寻求降低疟疾在某一地区的影响时, 提出的问题可能是: “ 降低在该地区疟疾影响的最佳途径是什么?冶 而一个次级问题可以是 “ 蚊帐能够降低疟 疾在该地区的影响吗?冶 实验性设计提出一个问题并将其转变为一个假设。 在疟疾的例子里, 假设如下: 如果 该地区的人们使用了蚊帐, 疟疾在该地区的影响就会降低。 我们在第四章指出, 变革理论是为假设服务的。 随机性是实验性设计最重要的因素。 设 从一群具有病患相同、 处在同一阶段以及相同性别等特征的病人志愿者中随机选出一个小 计 与 组进行测试, 每个病人随后都被随机分配到多个药物治疗方案中的一个。 一个次级小组采 实 用现在的常规用药, 另一个次级小组则采用另一种很有希望的新药。 在双盲实验中, 医生 施 和病人都不知道哪个病人用了哪种药物。 发展评价采用实验性设计的趋势虽然不很强烈但在日渐增强。 尽管发展评价工作已经 开展多年, 这一趋势源自于人们对于在特定的发展环境下或者特定的条件下何种设计才是 合适的设计缺乏足够的认知而产生的挫折感。 典型的实验有六个步骤: 1郾 提出一个假设 摇183 2郾 确定基准数据 ( 即测算因变量) 3郾 将个体随机分配到干预组和非干预对照组 ( 对照组) 4郾 引入干预措施或干预中的自变量 5郾 再次测算因变量 ( 事后测试) 6郾 计算小组之间的差异和检验统计显著性 在疟疾的例子里, 评价问题是蚊帐是否可以降低该地区疟疾的影响。 具体六个步骤 如下: 1郾 提出假设: 使用蚊帐驱蚊的家庭降低了疟疾的影响。 2郾 获取基准数据: 两个月内该地区疟疾的新增发病人数 172 例。 3郾 将个体随机分配到干预组和对照组 ( 控制组) 。 4郾 引入干预措施: 将蚊帐给其中一个小组 ( 干预 组 ) , 另 一 个 小 组 ( 对 照 组 ) 则 不给。 5郾 再次度量因变量: 实施干预措施之后的两个月内, 测试组的疟疾发病人数为 65 例; 对照组发病人数为 118 例。 6郾 计算两个小组之间的差异: 测试组的新增发病人数比对照组发病人数少 53 人。 典型的包含一个干预措施和一个对照组的实验性设计可以表示为: O1 XO2 O1 O2 有时候评价人员会在表示每个小组的各行前面加上字母 R 用以表示随机分配样本。 比如, 上述的实验性设计 ( 随机选择一些参与者接受蚊帐) 可以表示为: RO1 XO2 RO1 O2 通向结果之路: 有效发展评价的设计与实施 llll llllllll 人类是很复杂的, 社会情况也很难分析。 实验性设计在测试药物对人体的影响时可以 取得很好的效果, 因为人体相对来说很接近。 在考察人类行为的时候, 我们必须注意到误 肯定和误否定两类错误。 误肯定是指研究表明干预是导致效果的原因而事实上则不是。 误 否定是指干预实际上导致了成功但研究结果却表明干预与成功没有关联。 当家庭数据采集是采用自主汇报方式时就可能出现误肯定。 该地区的人们可能知道该 设 项研究和哪些家庭接受了干预措施, 因此会倾向于少报疟疾病例以取悦政府官员。 计 误否定则更普遍。 由于干预活动之后的两个月正好是干旱季节, 疟疾的影响属于低 与 实 谷, 因此干预组和对照组之间可能无法发现差别。 出现误否定还可能是因为干预组家庭没 施 有每晚都使用蚊帐或者对照组家庭自己花钱购买了蚊帐。 如果该项研究没有增加其他问题, 尽管这只是一个简单的随机分配干预活动, 也很难 解释其结果。 对于评价人员来说, 如果他能够多问一些如下问题, 将会有助于解释研究 结果: 誗 关于蚊帐的用途各家庭收到了什么样的信息? 誗 选中的那些 “ 家庭冶 构成如何? 真正睡在蚊帐下面的人是谁? 誗 干预组和非干预组提出了什么样的实施问题? 摇184 誗 历史上在这两个特定的两个月里的疟疾影响是怎么样的? 誗 在干预期间是否有其他的疟疾防疫措施也在实施? 所有这些问题都是描述性问题, 只需要简单的设计就能够回答。 对照组 实验性设计试图排除或者控制实验结果的其他解释。 在采用实验性设计的时候, 评价 人员比较等效的小组。 对照组被置于正常情况下, 其组员不会受到干预。 处于实验状态的 小组则可称为实验组。 利用对照组使我们可以将接受干预措施的小组与没有接受干预措施 的小组进行比较。 对照组经常面临着在需要的情况下中途退出的问题。 有时候中途退出是必须的, 因为 我们没有足够的资源来满足所有的样本。 我们可能只能选取一部分的样本进行干预, 或者 把整个项目分阶段进行。 另一些情形是, 干预效果未能被证明, 因此也不能确定是否忽视 了部分价值。 如果干预显示是有效的, 可能很难解释为什么会有一些人无法获得干预 ( Patton 2008) 。 随机分配 实验性设计需要随机地将潜在的计划参与者分配到对照组与实验组, 从而在可能对计 划或实验结果产生影响的各种因素方面, 确保各小组最大限度地保持一致 ( 在小组分配 的时候没有偏差) 。 这些因素包括参与者的年龄、 性别、 教育程度、 态度、 历史以及其他 因素。 理想状态是, 我们可以随机决定谁接受干预而谁不接受干预。 而现实是, 评价需要我 们来选定一个可信的不接受干预的对照组。 其中一种方式是把该项目或计划的资源随机分 配。 这样该项目或计划的获益对于总体来说就是一个随机样本。 这一样本就可以用来与另 第七章摇 因果性问题、 描述性问题和规范性问题的设计选择 llll llllllll 一个随机抽取的没有从项目或计划获益的样本 ( 对照组) 进行比较 ( White 2007) 。 随机分配使我们可以采用更有效的设计来度量影响。 它也比其他方法赋予各小组更高 的一致性———由于随机原则, 对照组和实验组的分配也就不会存在偏差或倾向性。 尽管随机分配在发展干预活动中的运用比想象的还要经常, 但其并非总是合适的选 择。 在医药试验中, 有时候中止干预措施以便建立一个对照组是不道德的, 但很可能没有 足够的资源来支持所有的试验参与者, 因此就产生参与者需要中途退出的问题。 项目经理 设 可能会想把那些最有可能从干预措施获益的人员选入试验者队伍。 这种做法能够让有限的 计 与 计划资金获得最大利益。 然而, 从评价的角度来说, 如果总是最大受益者被选入计划, 结 实 果就会产生偏差, 因为样本没有按照无偏差的随机方式抽取。 施 当随机选择不可能的时候, 一个可选的方案就是收集两个小组之间可能对结果产生的 影响的不同因素的相关数据, 然后在数据分析过程中充分考虑到这些变量的影响。 在无法 采用随机分配方法的情况下, 使用控制变量能帮助评价人员排除其他因素对结果的影响。 在选择小组的时候, 评价人员还需要避免选择偏差。 选择偏差是指干预组和对照组之 间的差异是基于一些无法观察到的小组之间差异而非干预措施所造成的影响。 随机过程是为了保证在干预措施实施之前, 干预组和对照组的所有特征就平均水平来说在统 摇185 计上是相等的。 随机实验解决了在创建实验对照组时由于计划的入选者随机地拒绝接受该计划或 者干预措施而引起的选择偏差。 随机分配并没有排除选择偏差, 相反, 它只是平衡了参与者 ( 实 验组) 和非参与者 ( 对照组) 之间的偏差, 从而能够在计算影响期望值的过程中产生抵消作用。 这样, 干预之后两个小组的任何平均水平差异都可以归因于该项干预 ( 世界银行 2008) 。 有两种情形会出现选择偏差。 第一, 参与者是自己选择参加计划的。 第二, 计划的项 目经理选择更有可能获得成功的人员参加实验。 让我们来看看蚊帐这个例子。 如果我们把 那些用来实验的蚊帐以极低的价格投放市场, 那么就会出现选择偏差, 因为只有那些买得 起而且真的买了蚊帐的人才会进入到实验组; 而那些买不起或者那些根本不知道有用来实 验的蚊帐的人则进不了实验组。 而且, 干预组和对照组之间还很难比较, 因为很可能没有 关于谁使用了蚊帐和谁没有使用蚊帐的相关记录。 为了降低把不真实的误认为真实的可能性 ( 误肯定) , 评价人员借用了社会科学的方 法。 运用实验性评价设计, 评价人员就可以尽可能地控制计划、 政策和项目的执行过程及 其实施环境。 当评价人员能够控制除了干预活动之外的其他因素之后, 评价人员就可以相 当肯定地认定所观察到的差异是由干预措施造成的。 让我们来看一下通过使用化肥来提高庄稼产量的干预活动。 项目建设一间温室, 村民 们可以控制里面的温度、 水分和土壤状况。 作为评价设计的一部分, 在温室内辟出两块独 立的地块。 其中一块被随机选为施肥地块, 另外一块则作为控制地块。 两块地的温度、 日 照和水分, 以及种植庄稼的土壤结构都完全一样。 收获的时候测算产量。 如果施肥地块的 产量高于控制地块的产量, 则评价人员可以得出结论说化肥造成了产量的差异。 现在我们再来想一下, 如果化肥是用在田野里而不是在可以控制环境的温室里会是怎 样的情形。 如果两块地紧邻着而且化肥又流到了非实验地块会是什么情形? 非实验地块也 可以选在田野的其他地方, 但土壤、 日照、 温度或者降雨会有些不同。 两块地也可能会受 到不同程度的照顾。 尽管评价人员还是可以测算影响的大小, 但我们在得出结论说化肥是 通向结果之路: 有效发展评价的设计与实施 llll llllllll 造成高产的唯一原因时就不会那么自信。 在发展干预活动发生作用的复杂世界里, 要在诸多的因素中确定干预活动的贡献是非 常困难的。 在农业的例子中, 假设在一段天气状况绝佳且农作物市场需求强劲的时间里实 施了灌溉干预, 该地区的农民收入较往年增加了。 收入增加是实施灌溉造成的吗? 或者是 其他因素, 比如降雨、 良好的经济环境或一段特殊的政治稳定时期造成的? 理想的做法 设 是, 实验者在一个特定的区域选择一些可以进行灌溉实验的地块, 然后随机选择哪些作为 计 实验地块, 哪些作为控制地块。 但是, 如果随机分配无法进行, 无法使用实验性设计时该 与 实 怎么办呢? 施 在许多类似情况下都会采用准实验性设计。 准实验性设计有比较组, 但不是随机分配 各小组成员。 在关于现实世界中实验性设计的局限性问题上, Chatterji (2007 ) , Patton (2007) 和 Bamber 与 White (2007) 有许多非常出色的论著。 内部有效性 当我们讨论怎么排除其他可能的解释时, 我们其实是在讨论内部有效性。 内部有效性 摇186 是指一项设计能够在多大程度上排除其他因素对观察结果的解释。 具有很高的内部有效性 的评价设计能够让评价人员更有自信地确定干预措施是否是造成观察结果的原因。 一项内 部有效性很低的评价设计很难让人相信干预措施是造成观察结果的原因。 我们在此提出内 部有效性概念, 在缺乏随机性的情况下, 评价结果的有效性可能因多方面的影响而打 折扣。 对评价结果内部有效性的这些威胁可能只是负面的解释; 它们实际上可能并不存在。 内部有效性与环境相关。 准实验性设计必须处理好内部有效性的威胁。 英国评价协会 (2003) 对内部有效性作了如下定义: 关于干预措施实际造成影响的结论的置信度。 对内部有效性的一种威胁是否认评价设计允许 干预措施和观察结果之间的因果关系含有不确定性。 它可以被认为是具有如下特性的问题: 除了 干预措施之外是否还有其他因素造成干预组和对照组之间的差异? Cook 和 Campell (1979) 在一本经典教科书中列举了多种常见的内部有效性威胁: 誗 历史 誗 成熟 誗 重复测试 誗 选择偏差 誗 磨损 誗 均值回归 誗 测试工具 历史效应。 历史效应是指发生在干预过程中或者重复度量期间干预活动之外的事件对 结果造成影响的可能性。 历史效应对纵向研究来说是一个一直存在的威胁。 历史效应也许 是最难探测的威胁, 因为评价人员必须考察干预期间可能对结果造成影响的所有事件。 如 果是考察个体的结果, 我们就有可能知道历史效应对结果的影响。 个体的历史是连续的一 第七章摇 因果性问题、 描述性问题和规范性问题的设计选择 llll llllllll 系列事件, 其中一些可能改变了特征。 对于一群个体来说, 在面对度量内部有效性的历史 威胁时必须识别同时影响大多数的个体或者至少同时影响部分个体并足以改变这些个体的 特征的事件。 Brossart, Clay 和 Willson (2002) 指出: 如果所有个体都属于某小组的成员, 则可以通过访谈或者观察来寻找这类事件。 如果参与实 验者都是独立的个体, 则某一事件同时改变各个体特征的可能性很小, 除非事件发生在所有参加 者共同所处的环境中, 如在医院里。 设 计 比如说, 在一项针对高危青年的计划实施过程中, 一位少年犯了重罪。 这一情形导致 与 实 人们呼吁对高危青年施以更严厉的惩罚。 这一事件还可能改变该计划适用对象的类别并对 施 结果产生影响。 态度调查特别适合此类影响, 因为民众的观点很容易受近期发生的事件以 及媒体对社会热点话题的报道的影响 ( 少年犯罪与司法保护办公室, 1989) 。 我们再来看一下在某个省引入新种子或者对农民提供改进耕作培训的干预活动。 因变 量或产出是相对于往年农民种植农作物获得了更高的收入。 但是, 尽管农民的平均收入水 平提高了, 他们仍然可能沿用老的耕作方式并使用以前使用过且值得信赖的种子。 深度的 调查可能表明该年份的气候对农作物的生产特别适宜。 这样, 气候因素可能是产生该成果 的主要原因, 而不是干预措施。 干预措施之外的其他因素影响了结果。 事前与事后设计经 摇187 常受历史效应的影响。 成熟效应。 当年龄增长或成长会改变结果时, 就产生了 成熟效应。 随着年龄的增加, 人们日渐成熟。 随着日渐成熟, 人们对各种情况的反应和感觉也会不同。 随着时间的推 移, 人们变得更成熟、 越来越精明, 也积累了经验, 作为时间推移的结果, 变化自然发 生。 这种效应不论在个体还是群体中都会发生。 比如, 即使没有额外的培训, 经过两年时 间之后儿童的阅读能力也可能会变得更强。 组织也会发展和改变。 这些变革可能是自然增 长或发展周期中的一部分, 与干预活动无关。 成熟效应会削弱事前事后设计。 成熟效应有两种形式: 短期的和长期的。 疲劳与学习是短期成熟效应的很好阐释。 长 期成熟效应是指可能影响心理建构的心理发展、 文化变革和环境变化等。 如果度量时间间 隔有好几个月, 长期的成熟效应很有可能是极为重要的。 比如, 某评价项目是调查一项为期两年的阅读计划对小学生阅读成绩的影响。 两年之 后, 无论是否参与该阅读计划的小学生的认知能力都提高了。 评价人员怎样才能确定学生 的阅读成绩的提高反映的是阅读计划的影响而不是成熟效应呢? 重复测试效应。 当实验对象在干预前后接受同样的测试或多次进行同样的测试的时候 重复测试效应 ( 短期) 就会产生。 实验对象会知道如何对问题作出反应从而削弱结果的 有效性。 比如, 一项旨在改进农村地区老师的教学技巧的干预计划, 每个月底都对老师的表现 进行测试。 评价委员会的成员采用调查表的方式对老师进行评价并收集教师月度表现信 息。 老师教学技巧测试成绩的提高可能是因为在教学技巧的重复测试过程中采用了相同的 标准调查表。 选择偏差。 选择偏差发生在把一个由参与者自主选择参与计划的小组和另一个不是由 参与者自主选择参与计划的小组进行比较的时候。 这样的两个小组是不对等的, 因为即便 通向结果之路: 有效发展评价的设计与实施 llll llllllll 没有干预措施, 自主选择参加计划的小组成员比不是自主选择参与计划的小组成员改进其 技术或改变态度的可能性更大。 选择偏差还可能出现在那些完成了调查的人员和那些没有 回应的人员之间。 当参与人员或者公司是自己发现计划并主动登记参加计划的时候, 任何 这种计划都可能出现自主选择偏差。 准实验性设计会面临这种风险。 磨损效应: 磨损效应是指从一项干预活动中中途退出。 参与者的中途退出会造成看似 设 干预结果的虚假实验结果。 正如选择会带来偏差, 参与者之间不同的退出比率也会产生偏 计 差。 仅仅根据那些完成计划的参与者的表现来得出结论的诱惑力是很大的, 但这样做会使 与 实 小组之间产生偏差, 因为那些中途退出人员的表现往往要比完成计划的人差得多。 尽管让 施 参与者完成计划并获得完整的实验效果对于评价来说非常重要, 但不能对实验组和对照组 之间的表现进行模糊比较。 比如, 一个教师进修计划有 400 名参与者, 并以毕业率作为确定该计划是否成功的指 标。 三年之后, 有 25 名参与者死于艾滋病。 从表面上看, 这些人员损失降低了毕业率, 也带来该项目的成功程度比实际水平低的印象。 再看该教师进修计划的另一种情形。 如果教师进修所在的学院规定怀孕妇女不能听课 摇188 或参加考试, 那么怀孕妇女就会被排斥在毕业率之外。 均值回归效应。 回归现象指那些获得很高或很低分值的个体在重新测试的时候会向中 间值靠拢。 这种效应称之为均值回归。 如果度量不可靠, 在重复度量时就会出现差异。 度 量值会趋向于中间值而不是极端值。 因此, 如果一项计划是基于极端分值来选择个体或小 组, 可以预期的变化结果是这些 “ 极端冶 小组向均值回归, 无论他们是否从计划中获益。 例如, 在一个提高小额贷款出纳技能的计划中, 根据算术测试成绩来选择实验参与人 员, 即选取那些获得最高分的人参加实验。 如果干预活动结束后进行同样的算术测试, 他 们的成绩将会下降, 他们的成绩会更趋近于均值。 测试工具效应: 测试工具效应发生在测试工具的可靠性改变的时候。 变化可能源自于 度量工具的改变 ( 比如, 变化可能是标准误差的结果) 。 例如, 如果用来测量体重的尺度 没有校准, 或者在如何和何时校准问题上不能前后一致, 对一个旨在通过提供营养成分来 提高成年人体重的计划的评价结果很可能会显示计划并没有带来显著效果。 准实验性设计 准实验性设计用于无法采用随机原则分配实验组和对照组样本的评价工作。 准实验性 设计包括采用具有相近特征的比较组设计和那些没有比较组但进行多次度量的设计, 评价 人员在成立小组时要使各小组的重要特征 ( 性别、 收入、 社会经济背景等 ) 尽可能一致。 这些等效的小组我们有时候称之为比较组, 可对不同组的表现进行比较 ( 专栏 7郾 2) 。 有 时候评价人员可以通过关键特征匹配来建立比较组; 而有时候评价人员只是在保证足够近 似的情况下建立比较组, 而不是要求比较组和干预组完全一致。 并非一定要选择事前准实验性设计, 但最好采用这种做法。 如果能够确定一个比较组 而不是仅仅依靠同一小组在一段时间内的多次测试, 我们通常可以得到一个更完善的设 计。 最理想的情况是, 比较组的基准数据能够在干预措施实施之前与干预组同时获取。 在 事后准实验性设计里, 比较组是在计划开始之后甚至是在计划结束之后确定的。 这对于评 第七章摇 因果性问题、 描述性问题和规范性问题的设计选择 llll llllllll 价人员来说显然更具挑战性。 准实验性设计的表示方式和实验性设计一样。 差别仅在于准实验性设计中实验对象并 非按照等同原则分配到各小组。 有时候会在第一行加上字母 N 来表示非均等的小组。 因 此, 一个有着实验组和比较组的基本准实验性设计可以表述为: NO1 XO2 设 NO1 O2 计 与 专栏 7郾 2摇 社区管理学校是否有效? 实 施 对萨尔瓦多摇 EDUCO 计划的评价 摇 摇 萨尔瓦多社区管理学校计划 ( EDUCO) 旨在内战结束之后迅速扩大农村地区的教 育。 该计划的评价工作是要评估将教育职责下放到社区和学校对学生产生的影响。 评价问题是, 农村地区教育的快速扩张是否以学习成绩为代价。 评价内容是比较 EDUCO 计划的学校和传统学校三年级学生的测试成绩 ( 数学和语言的标准测试 ) , 并 通过统计手段控制学生的特征和选择偏差。 因为测试成绩很难在短期内得到体现, 评价 摇189 人员也考虑了因老师缺席而造成的缺课数量。 许多因素都可能影响到教育成果的差异。 评价人员必须确定教育成果的差异是因为 学校类别的差异, 还是因为其他的因素, 比如家庭特征 ( 教育水平、 家庭规模和收入 水平) , 学生特性 ( 性别、 年龄和兄弟姐妹数量 ) , 学校特征 ( 生源、 师资、 教学设备 和财力) 和教师特征 ( 教育背景和教学经验) 。 评价人员利用教育部组织的一项调查所收集到的数据构建了一个模型 , 用以在控 制其他因素的情况下测算学校类别因素的单独效果 。 利用复杂的统计模型控制了上 述的所有其他因素 , 评价人员得出结论说 EDCUCO 学校的学生成绩和传统学校的没 有两样 。 快速扩张没有给学习带来负面影响 。 换句话说 , 社区管理的学校与常规学 校同样有效 。 为了确定干预措施是否产生差异, 评价人员必须说明关键度量指标的变化是否归因于 干预措施。 准实验性设计有多种形式: 其中一些比另一些更加有效。 下面我们来讨论其中 八种准实验性设计: 誗 没有比较组的事前事后设计 誗 事前事后非等效小组比较设计 誗 仅事后非等效小组比较设计 誗 非连续型时间序列比较组设计 誗 纵向设计 誗 小组设计 誗 采用统计控制的相关性设计 誗 倾向评分匹配 通向结果之路: 有效发展评价的设计与实施 llll llllllll 没有比较组的事前事后设计 事前事后设计是一种度量变化的方法。 它通过比较关键指标度量值在干预开始之前和 干预开始之后的变化来达到目的。 事前测试和事后测试是常见的事前事后度量方法 ( “ 事 前冶 度量值经常被称为基准数据) 。 收集基准数据的过程有时候被称为基准研究。 设 简单的事前事后设计是一种缺乏说服力的准实验性设计, 它只有一次的事前和事后度 计 量, 仅靠这些数据并不能说明干预措施是造成变化的唯一原因。 在干预措施确实是引起我 与 实 们观察到的变化的原因的同时, 人们也可能因为被观察而改变自身的行为, 此外, 在同一 施 时间段内也可能有其他事情同时发生。 当绩效的度量值几乎没有变化时, 评价人员会犹豫下结论说干预措施没有奏效。 比如 一项关于减贫的干预措施。 目标区域非常贫穷, 以至于所有人都符合接受减贫干预的条 件, 因此没有对照组。 10 年之后, 贫穷人口的比例仍然没有变化。 评价人员并不能由此 得出结论说减贫干预措施没有奏效, 因为如果没有减贫干预 ( 在此问题仍是按照反事实 来构架的) , 也许贫穷人口的比例会更大。 摇190 由于没有控制其他因素对成果的影响, 通常并不认为事前事后度量可以为问题提供可 靠的答案; 它只是比较事前与事后的情况。 这种设计没有比较干预和非干预的情形, 因此 它只能结合其他形式的设计共同使用。 事前事后设计的表述方式为: O1 XO2 事前事后非等效比较设计 尽管准实验性设计中的实验对象不是被随机分配到各小组, 我们还是可以使用一个比 较组。 我们将这一比较组称为非等效小组。 小组之间仍然可以进行比较, 但评价人员需要 注意到我们前面谈到的那些对内部有效性的威胁。 要让各小组等效, 评价人员必须尽可能地让各小组之间相互匹配。 实现匹配可以有多 种手段, 比如人口统计信息、 技能测试、 绩效测试、 主观评分和其他手段。 评价人员可以 对实验对象进行事前测试然后根据测试结果进行分组。 比如, 某项干预活动是想进一步完 善学生对性别问题的认知, 可以事先对实验对象进行一次涵盖性别观念和原理的测试。 将 测试成绩由高到低排列。 首先选出两个最高分, 将其中的一个分配到一个小组, 另一个分 配到第二组。 沿用这种办法将所有学生分配到两个小组, 并对其中一个小组进行额外的培 训。 在一定时间之后, 对两个小组再次进行测试并比较两个小组的成绩是否有差异。 一个匹配的非对等比较可以表述为: NO1 XO2 NO1 O2 仅事后非等效比较设计 仅事后非等效设计比事前事后非等效设计还要缺乏说服力。 在事前事后非等效设计中 第七章摇 因果性问题、 描述性问题和规范性问题的设计选择 llll llllllll 我们有一个比较组。 因此, 可以获得干预后的数据。 当倾向于没有比较组的时候, 一个主 要的问题是实验组或者干预组和比较组很可能没有处在同一起点上。 因此, 尽管人们知道 两个小组何时结束, 却无法知道他们何时开始。 实验组和干预组之间的不同可能反映的只 是他们起点的差异而不是他们是否接受了干预。 不过, 它仍然是干预措施实施之后所允许 的最佳设计。 设 NO1 XO2 计 NO2 与 实 非连续型时间序列比较设计 施 非连续型时间序列比较设计是在干预活动之前对一个小组的绩效进行多次测试, 接着 实施干预活动, 然后在实施干预之后又对同一小组进行多次测试。 单一小组的非连续型时 间序列设计可以表述为: O1 O2 O3 XO4 O5 O6 我们使用非连续的概念是因为尽管在一段时间内连续度量一个或者更多的指标, 度量 摇191 还是被干预措施间隔开来。 干预前后的多次度量是这一设计与典型的事前事后设计的主要 区别。 它也可以用于一个或者多个比较组的情形。 纵向设计 纵向设计是时间序列的一种, 在较长时间里对实验对象进行多个时点的度量。 这一设 计的目的是为了考察事物随着时间的推移会发生怎样的变化。 比如, 在医疗领域可能有兴 趣考察那些携带艾滋病毒并接受药物治疗以防止病毒扩散的母亲所生育小孩的长期健康状 况。 纵向研究可以持续追踪这些小孩。 通过考察研究成果可以确定这些小孩的健康问题是 否类似。 纵向设计可以提供其他设计所无法发现的丰富信息。 不过, 它不仅费用高而且还很难 实施, 同时还面临着归因问题 ( 实验对象可能死亡或者评价人员无法联系到他们) 。 纵向设计可以表述为: XO1 O2 O3 …… 小组设计 小组设计是纵向设计的一种形式。 小组设计是持续追踪同一个群体的实验对象而不是 像纵向研究那样追踪个体。 比如, 某个计划可能是考察某一特定学校学生随着时间的推移 对性别的态度和行为模式的转变。 通过小组设计可以收集到某个班级每个学生从一年级到 六年级对性别的态度信息。 小组设计可以表述为: XO1 O2 O3 O4 O5 O6 …… 通向结果之路: 有效发展评价的设计与实施 llll llllllll 采用统计控制的相关性设计 有时候道德约束和实践上的困难会使评价无法采用实验性设计。 在最简单的层面上, 相关性设计考察的是两个或两个以上无法操控的变量之间的关系, 是非实验性设计的一 种。 与这种简单相关性设计联系在一起的术语是 “ 关联不等于因果 冶 。 但是, 牢记两个关 设 联变量之间必须有因果关系是很重要的。 当前, 形式繁多而且复杂的多元回归分析技术被 计 广泛应用。 人们经常使用基于统计学的相关关系分析技术来建立比较组从而使之可以进行 与 实 比较。 Johnson (2002) 指出, 这些比较组可以用来回答关于相关性、 关联度和因果关系 施 等的问题。 纵向设计和部分相关性设计的结合是一种将因果推论分离出来的非常有效的 方法。 比如, 如果目标总体中每个成员拥有同样的激励动因, 我们就可以考察家庭作业完成 量和考试成绩之间的相关性。 研究的目的是将家庭作业完成量中与激励无关的部分以及考 试成绩中与激励无关的部分进行相关分析。 如果能够用三个自变量来预测或者关联因变 量, 那么我们就可以断言它们之间存在因果关系 ( Carbin 2009; psychunl郾 edu / psycrs / 942 / 摇192 q2 / control郾 ppt) 。 再看另外一个例子, 某项评价的目的是要考察政府的诚信与行政办公室的女性雇员比 例有没有关联。 我们可以收集到一个国家各地区行政办公室的女性雇员比例以及报道的贪 污数量数据从而确定两者之间是否关联。 当然, 单纯靠相关性证据并不足以证明因果关系 成立; 即使那些有更高比例女性雇员的政府与更少的贪污存在相关关系, 我们仍然需要排 除可能造成这种相关性的其他解释。 由于相关性设计有多种设计方法, 其表达方式也有多种形式。 下面的 ( a) 表达式代 表有三个小组和一次观察的设计。 ( b) 表达式代表两个小组, 其中一个为实验组。 ( c) 表达式代表三个实验 ( X, Y 和 Z) , 每个实验分别有一次观察。 ( a) 摇 O1 摇 摇 摇 摇 ( b) 摇 O1 摇 摇 摇 摇 ( c) 摇 XO1 O2 XO2 YO2 O3 ZO3 倾向评分匹配 倾向评分匹配用于度量相对于那些具有类似特征的非参与者, 计划对参与者的影响 ( White 和 Masset 2005) 。 为了使用这一技术, 评价人员必须首先收集基准数据, 然后必须 甄别出那些最有可能与评价问题相关联的可观察特征 ( 比如, “ 住在学校附近的女生毕业 率是否比那些至少需要步行 5 公里以上才能到学校的女生更高?冶 ) 。 可观察的特征包括性 别、 年龄、 婚姻状况、 距离学校的距离、 房间和伙食安排、 兄弟姐妹从中学毕业的人数以 及家中排行等。 一旦观察变量确定, 实验组和比较组也就可以确定了: 即把一个样本分配 到实验组的同时, 将另一个观察特征最为相近的匹配样本分配到比较组。 其结果是, 除了 实验变量之外, 每一对个体或家庭的其他特征都尽可能相似 ( White 2007) 。 第七章摇 因果性问题、 描述性问题和规范性问题的设计选择 llll llllllll 电脑软件对倾向评分匹配有很大的帮助。 Stata 软件是其中最为常用的软件 ( Aliendo 和 Kopeinig 2005) 。 非实验性设计 简单横断面设计 设 计 简单横断面设计展示某一时点截图。 这种设计经常用于调查研究。 评价人员通常是对 与 实 样本总体中的一些子集的反应感兴趣。 这些子集可以按照组群特征如年龄、 性别、 收入、 施 教育程度、 民族或干预程度等进行分组。 这一设计的要点是评价人员需要将样本内的这些 子集进行系统的区分以便对其进行详细的考察。 横断面调查在某一时点选择一个由市民、 干预活动受益者或者干预活动的人组成的样 本, 并从这些研究对象收集数据和报告他们的言论 ( 专栏 7郾 3) 。 有时候想搞清楚的问题 之一是几年前参加干预活动的人们的现状。 摇193 专栏 7郾 3摇 利用横断面设计回答描述性问题 在评价一项关于提升妇女经济实力以帮助其创办自己的小企业的计划时, 评价人员 想要了解全程参与该计划的妇女对该计划的看法。 她们的观点可以分解为她们通过该经 济能力提升计划学到的知识是否对她们创办小企业有所帮助, 她们想进入什么样的业务 领域, 以及她们从该计划学到的知识是否对她们运营自己的企业有帮助。 由于资源有 限, 评价人员选择对该项目最近的毕业生进行一次短暂的调查访问 ( 单时点设计 ) 。 调 查中包含了参与者的人口统计特征方面问题, 因此反馈的信息可以用来比较具有不同的 教育水平、 年龄段和民族的人是否看法不同。 简单横断面设计可以回答以下问题: 誗 不同教育程度的参与者是否对培训的价值有不同的看法? 誗 女性和男性所接受的培训服务是否相同? 例如, 评价问题可侧重于某一公民群众或干预措施的受益人对其所获得的服务是否满 意? 他们为何不使用所获得的服务? 评价人员可运用这一设计弄清楚不同的群体对所接受 的服务、 服务的使用或者对某一时点服务的看法等。 简单横断面设计可以表述为: X摇 摇 O1 O2 O3 单时点设计 单时点设计考察实验组在实施干预之后某一时点的情况。 人们可以把单时点设计想象 通向结果之路: 有效发展评价的设计与实施 llll llllllll 为一张带有拍摄日期的照片。 这一设计可以用来回答诸如 “ 培训了多少妇女?冶 或者 “ 在 一个特定的日期里有多少参与者接受了就业咨询?冶 评价人员可以利用单时点设计来: ( a) 询问计划参与者对计划的喜欢程度, 或 ( b) 他们是如何发现该项服务的。 单时点设计可以表述为: XO1 设 计 因果追踪策略 与 实 许多用以确定观察结果是否由干预措施引起的策略都要求结构化和数量化的数据收集 施 策略。 如果评价人员是要快速评估或者评价一个非常小或者新的干预活动, 那么这种策略 既不具有实际可操作性, 也不建议采用。 尽管在可能的情况下选择一个强设计是最好的, 但在上述情况下, 一个采用因果追踪策略的弱设计可能是唯一选择。 当样本很小、 数据收集漫无边际, 或者没办法采用复杂的统计分析手段的情况下, 能 有什么样的选择呢? 可以用八种逻辑论证法中的一种或多种来排除相反的假设。 这些论证 必须能够揭示其中的因果关系, 我们将这些论证法称为因果追踪策略。 摇194 1郾 因果列举推论法: 我们知道某一特定的结果总是由 A、 B、 C 或 D 造成的。 在某一 情形下, 如果 B、 C 和 D 都没有发生, 我们就基本上能够肯定导致该结果的是 A。 在我们 不能采用随机方法时, 仍然能够从以往的研究中得出结论。 在专栏 7郾 1 的例子里, 村民们知道当人们鸣哨 ( A) 敲打瓦罐和平底锅 ( B) 大叫 (C) 和绕着跑动并踢起尘土 ( D) 的时候大象离开了村子。 如果村民们只是做了 A 而大 象就离开了村子, 那么他们就几乎可以肯定大象是因为村民鸣哨才离开了村子。 2郾 运作模式推论法: 当存在多个可能的原因时, 这种方法就非常有效。 如果我们知 道某项产出有 A、 B、 C 和 D 四种成因, 而此时 C 和 D 都没有发生, 那么就剩下了 A 和 B 两种可能性。 此外, 我们只观察到事件 A 的特征因果链 / 行为范式 / 显现模式等。 如果事 件 A 的行为范式与事件 B 的有很大不同, 这种推论方法就会更强。 如果村民知道其他的村庄采用了驱赶和跑动踢起尘土的方式都不能把大象赶跑, 那么 他们就基本能够肯定大象离开的原因是鸣哨。 由于鸣哨和踢起尘土有很大的差异, 结论因 此更加可靠。 3郾 时间优先法: 观察结果只发生在干预活动开始之后而不是之前。 如果大象到了之后村民才开始鸣哨, 然后大象离开村子, 那么村民们可以认为鸣哨和 大象的离开有某种联系。 如果村民们在大象到来之前就在鸣哨而大象仍然进入村子, 那么 鸣哨很可能不是造成大象离开的原因。 4郾 恒常会合: 观察结果存在于实施了干预措施的任何地方。 假设村民们会见了来自该地区内所有其他村庄的村民并分享了鸣哨能够让大象离开的 假设。 其他村庄的村民尝试了这一手段并成功让大象离开了村庄, 那么我们就几乎可以肯 定鸣哨是导致大象离开的原因。 5郾 关联性强度: 计划实施地区观察到的变化比其他原因发生作用的地区的变化更加 强烈。 第七章摇 因果性问题、 描述性问题和规范性问题的设计选择 llll llllllll 假设多个村庄采取了许多不同的方法来驱赶大象, 而采用鸣哨方式的村庄在赶跑大象 时最为成功, 那么我们就可以把大象的离开和鸣哨相关联。 6郾 生物梯度: 接受的干预越多, 可观察到的变化越大。 假设村民采用不止一种方法来驱赶大象离开村子。 当村民把多个哨子吹得很响时, 大 象离开了村子。 当村民只吹响一个哨子时, 大象没有离开村子。 于是我们可以把大象的离 开和把哨子吹得很响关联起来。 设 7郾 一致性: 干预措施与观察到的变化之间的关系与我们所知道的干预措施和成果之 计 与 间的其他情况具有逻辑上的一致性。 实 一些危险的动物如河马、 鳄鱼和鬣狗会在村民鸣响哨子的时候离开村子。 逻辑上人们 施 可以推论说鸣哨可以将危险动物驱赶出村子, 因而对付大象也可以应用这一策略。 8郾 类比: 干预活动和观察结果之间的范式与人们熟知的干预活动和它的影响之间的 某个范式非常类似。 村民们听说南非的一个村庄总是在看到大象的时候尖声鸣哨。 南非村民们相信这种噪 音可以赶走大象。 其他非洲地区的村民可以类比相似的问题, 并得出结论说很响的、 尖锐 的噪音可以把大象赶跑。 摇195 上述每个例子的基本原则都是一样的: 研究人员必须系统地将其他的可能性一个一个 地排除, 直到能够确定干预活动是造成变化的 ( 根本或者至少是主要的) 原因。 在决定数据收集策略的时候 , 评价人员必须清楚上述的哪些证据是可获得的和必需 的 , 并制定获得这些证据的计划 。 并不是所有证据都必须具备因果性归因 ; 一旦根据 评价任务做出了决定 , 评价人员只需要收集最有价值的证据并将它们整合在一起从而 保证研究发现具有足够的可信度 。 不过 , 建立不止一个因果追踪策略有助于强化因果 推论的基础 。 案例研究设计 案例研究是一种非实验性设计, 它不使用随机选择或者控制组和比较组。 案例研究经 常用于获取对一个过程、 事件或形势的深度理解, 以及解释为什么会发生某种结果。 如果 评价问题是关于某些事情是如何运作或者某些事情为什么发生, 案例研究就非常有用。 案 例研究特别适用于创新性的、 实验性的或者尚未很好领悟的干预措施。 案例研究的核心不 仅仅是描述, 它还包括由最了解相关知识的人对有关情况进行阐释。 案例研究经常用于发展干预的评价。 案例研究用来描述干预措施实施过程的基本情形 以及解释事件的原因特别有效。 描述性的案例研究既可以用来检验计划的极端情形, 也可 用来描述典型的干预活动。 案例研究可以用定性方法、 定量方法或两种方法同时使用来收集数据。 它可以是单一 案例, 也可由多个案例组成。 案例研究的意图和目标是深刻理解干预措施对组织、 社区、 计划、 城市或国家所带来的影响。 比如, 要评价一个国家的公共交通, 评价人员只需要简单地跟踪基准数据和目标的关 键指标。 如果关键指标是公交系统覆盖的英里数、 使用该系统的人数以及营业收入, 那么 就可以做一个全国性的研究。 然而, 如果有其他相关的问题需要深度的数据, 评价人员可 通向结果之路: 有效发展评价的设计与实施 llll llllllll 能会采用案例研究法。 如果要评价一项农村地区交通改善计划, 评价人员可以调查一下人们对公共交通的选 择意向。 研究可以限定直接从农村居民收集数据。 收集全国性数据需要更多的资源投入, 而从一个更狭小的特定区域内收集相关数据则容易得多 ( 单一案例) 。 如果选择了多个农村地区, 那么评价人员可选择采用多个案例研究。 案例可以根据一 设 些特别的标准 ( 最佳案例、 典型案例、 最差案例, 包括孤立的农村地区和靠近城市的农 计 村地区) , 来随机选择或有目的地选择。 与 实 案例研究在发展领域非常有意义, 因为发展计划的目标通常是理解某种特别的情况以 施 便制定、 调整或实施一项政策。 案例研究不仅比大型的全国性研究更具实践意义, 它所提 供的深度信息往往对政策制定者非常有帮助 ( 专栏 7郾 4) 。 例如, 一项关于免费免疫诊所 的比较案例研究就可以很好地解释为什么某种方法比另一种方法更有效。 案例研究设计可以表述为: O1 O2 摇196 O3 专栏 7郾 4摇 描述性问题案例研究设计实例 某项研究是调查印度的一个微型贷款计划以揭示妇女是如何构思和提出她们的营销 理念的。 具体的案例研究方法是选择五位妇女和她们的项目并在随后的三年里跟踪她们 的进展。 描述性问题设计 詪詪詪詪詪詪詪詪詪詪詪 描述性问题包括 “ 多少 冶 或 “ 多大程度 冶 之类的问题。 这些问题要寻求了解的可能 是人们的感受或观点。 描述性问题通常使用描述性或非实验性设计。 如果用于回答描述性 问题, 这些设计与没有接受干预的比较组无关, 而只是聚焦于那些接受了干预的对象。 有 些用于描述性问题的设计与用于因果性问题的设计是一样的。 回答描述性问题最常见的设计包括以下几种: 誗 简单横断面设计 誗 单时点设计 誗 事前事后设计 誗 非连续型时间序列设计 誗 纵向设计 誗 案例分析设计 第七章摇 因果性问题、 描述性问题和规范性问题的设计选择 llll llllllll 事前事后设计 在前面讨论因果性问题的时候我们就介绍了事前事后设计。 这种设计也可以用来回答 描述性的问题。 评价人员在事前事后设计 ( 通常也叫做事前设计和事后设计 ) 中会询问 在干预前和干预后与群体特征相关的问题, 但不会有比较组 ( 专栏 7郾 5) 。 比如, 评价问 设 题可以是计划参与者的养育技巧是否得到了提高, 然后在计划开始的时候和计划结束的时 计 与 候分别对这些参与者进行一次测试。 事前事后设计可以表述为: 实 施 O1 XO2 非连续型时间序列设计 在前面因果性问题的章节里我们已经介绍了非连续型时间序列设计, 这种设计同样可 以用来回答描述性问题 ( 专栏 7郾 6) 。 非连续型时间序列设计研究时间推移所带来的变化, 通常用以确定趋势。 当它用来回答描述性问题的时候, 其目的是发现和描述干预之前和干 摇197 预之后随着时间的推移所发生的变化。 因此, 非连续型时间序列设计可用来辨明趋势。 该 设计可以表述为: O1 O2 O3 XO4 O5 O6 … 专栏 7郾 5摇 应用事前事后设计回答描述性问题 一个事前事后设计可以考察一项职业培训计划的参加者在培训前和培训结束两年之 后的工资情况, 从而回答该计划使他们的平均工资增长了多少。 通过向不同子集的人们 询问问题以研究不同职业工资增长幅度与职业培训之间的关系, 此类设计很容易转变为 一个横断面事前事后设计。 专栏 7郾 6摇 描述性问题的非连续型时间序列设计实例 可以考察为母亲提供营养补给计划之前和之后, 随着时间的推移婴儿死亡率的变 化。 另一种情形是, 考察微型企业贷款计划推出之前和之后, 随着时间的推移, 参与者 对妇女创业态度的变化。 纵向设计 纵向设计是非连续型时间序列设计的一种, 它是指对相同实验对象的相同变量进行多 次的重复度量。 比如, 当纵向设计用于描述性问题的时候, 可以用来发现儿童参加提升计 通向结果之路: 有效发展评价的设计与实施 llll llllllll 划是否可以持续学到知识。 小组设计同样可以用于回答描述性问题。 小组设计是纵向设计的一种特殊形式, 它对 一小组具有相同特征的人在多个时点进行跟踪并尽可能详尽地记录他们的经验。 小组设计 几乎总是定性方法 ( 开放式调查问题、 深度访谈和观察 ) 和定量方法并用。 小组设计可 以提供人们对干预所带来变化的深层次看法。 纵向设计表述为: 设 XO1 O2 O3 … 计 与 实 施 规范性问题设计 詪詪詪詪詪詪詪詪詪詪詪 除了规范性问题总是针对一定的标准或尺度进行评估外, 规范性问题和描述性问题在 逻辑上基本相似。 可将研究发现与标准 ( 可能是指标也可能是目标 ) 进行比较。 一般来 说, 适用于描述性问题的设计同样适用于规范性问题。 绩效审计关注一个组织绩效的某些方面 ( Mayne 2005, 2006) 。 绩效审计与规范性评 摇198 价非常近似。 根据对经济合作与发展组织 ( OECD) 成员国的一项调查, Barzelay (1997) 将绩效审计分为七种类型。 表 7郾 2 列出了其中最相关的四种类型。 专栏 7郾 7 说明了之前提出的一个观点: 如果我们无法使用随机控制组来建立一个实验 性评价设计, 那么一个拥有比较组的准实验性设计也是可以接受的。 摇 表 7郾 2 绩效审计的四种类型 类型 分析单位 关摇 注摇 点 组织或 管 辖 范 围; 程 序 或 计 效率审计 找出降低计划产出的预算成本的机会 划组成要素 政 策、 计 划 或 主 要 的 计 划 效果审计 评估公共政策的影响; 评价政策或计划的效果 要素 组织 或 管 辖 范 围 公 共 管 理 评估某一区域、 组织或计划的系统与程序实现 绩效管理能力审计 问题 预期目标的能力 绩效信息审计 组织 检验组织所提供的绩效信息质量 专栏 7郾 7摇 失业工人就业培训计划的影响 许多发展中国家都面临着国有企业裁员时对工人的再培训问题。 由于经常需要面对 许多不同的情形, 这类评价往往非常具有挑战性。 他们需要服务于不同选区的选民并用 各种方式来度量成果 ( 就业、 自主创业、 月收入、 小时薪酬) 。 评价人员在评价就业培 训计划时通常会提出如下问题: 誗 参加培训的人在就业市场上会比没有参加培训的人更成功吗? 誗 每个培训计划的成本效益比如何? 第七章摇 因果性问题、 描述性问题和规范性问题的设计选择 llll llllllll 摇 摇 在一组参与者接受培训的同时, 另有一组特征相似的人没有接受培训。 应用政府数 据、 调查数据和统计技术对培训计划进行分析。 不同人之间可能存在某些差异从而引起 结果的差异。 比如, 相对于比较组的人, 参加培训的人可能更有积极性或者工作经验, 这些会使他们更容易找到新的工作。 为了强化这一设计, 我们必须将合乎条件的参与者 随机地分配到各小组, 由此来排除两个小组存在归因差异的可能性。 设 资料来源: 作者 计 与 实 因果性问题设计 施 实验性设计通常都用于回答因果性问题 ( 见 182 页) 。 更严格的评价设计需求 詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪 摇199 什么样的设计适用于因果性问题? 国际发展评价领域的领军人物一直在争议是否需要更严格的计划评价 (Davidson 2006; Scriven 2006; Bamberger 和 White 2007)。 他们注意到由官方发展机构实施的评价大多数都是过 程评价, 即主要关注计划的运作有多好。 日渐增加的参与式评价带来了更多受益者的观点, 但 它 “ 没有带来符合对影响进行定量分析的数据冶 (Bamberger 和 White 2007, p郾 58)。 结果导向评价法和千年发展目标 ( MDGs) 使进一步考证影响的呼声更高。 要求关注 项目、 计划或政策影响的呼吁主要来自以下几个方面: 誗 2002 年蒙特雷发展融资大会, 会议呼吁发展机构更多地使用结果导向的管理 誗 2005 年巴黎宣言, 鼓励多方捐赠机构共同合作以促进影响评价 誗 减贫行动实验室, 促进随机设计的使用并向发展中国家提供这些设计的培训课程 誗 全球发展中心 ( CGD) , 极力提倡更严格的评价设计, 特别是以 《 我们何时才学 会?》 的出版为标志 ( CGD 2006) 。 CGD 还呼吁独立评价机构行动起来, 以确保发展评价 更加独立和严格 ( Bamberger 和 White, 2007) 。 对当今国际发展和国际发展评价思维的反思促进了影响评价的应用。 西班牙政府的努力是 这种新思维和更严格的评价设计倾向的很好例子 ( 专栏 7郾 8)。 “ 严格冶 通常被定义为采用随机 对照组的实验。 世界银行研究局局长 Ravallion 注意到, 随机并非像其表面看起来那样总是问题 的解决之道 (Ravallion, 2009)。 比如, 人们只能对与发展相关的一部分干预活动采取随机处 理。 基础设施项目和相关的计划如何随机? Ravallion 指出, 随机实验通常只能在一定条件下在 很小范围和分散的干预活动条件下实施, 因此会带来严重的可推广性问题。 他还描述了 “ 溢 出冶 效应, 即那些选择随机化的设计通常都假设没有参加实验的人都不会受到干预活动的影 响, 但大家都很清楚在发展应用中溢出效应是很普遍的。 溢出效应源自于实验对象迁入或迁出 实验地区以及长期的模仿行为。 如果干预措施取得成效令当地政府介入并用发展机构提供的资 源对指定的控制组进行相同的干预的话, 就存在一个小组模仿另一个小组的情况。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 专栏 7郾 8摇 西班牙对严格评价设计的支持 西班牙期望通过在自己的发展机构和合作伙伴国中推广结果导向的管理来提升援助 的效益。 西班牙实施了一个新的计划, 以支持世界银行对提升人类发展成果的创新计划 的影响的评价。 该计划———西班牙 - 世界银行影响评价信用基金———是世界银行成立以 设 计 来专注于影响评价和结果的最大的信托基金 ( 世界银行, 2007 ) 。 与 实 评价设计必须符合具体的情况并与评价问题相匹配。 Patton (2007) 讨论了设计与不 施 同类型发展干预活动相匹配的问题, 指出 “ 不同的影响环境和不同的评价目的要采用不 同的方法冶 ( p郾 1) 。 评价人员首先需要从阐明环境开始, 之后相应的设计就会浮现出来。 正如 Patton 所说, “ 发展影响评价有多种情形, 相应地有不同的影响评价方法冶 ( p郾 2) 。 Bamberer 和 Patton (2007) 提出了下述强化评价设计的建议, 并强调了时间和预算的 约束: 1郾 在完善的计划理论模型基础上建立评价设计。 这么做可以帮助我们解释其中的因 摇200 果链并确定假设。 它还可以确定当地经济、 政治、 制度、 环境和社会文化的因素以解释绩 效和成果的差异。 2郾 采用好的混合设计和定性定量相结合的方法: 誗 用定性数据进行多角度分析为定量分析结果提供更多证据支持, 帮助构建研究框 架和阐释定量分析结果 誗 最大限度地利用二手数据, 包括项目监控数据 誗 一旦时间和预算允许就收集项目周期更多时点的数据 3郾 简化数据收集工具 4郾 创造性地使用数据, 将已完成的调查数据作为基准数据或控制变量数据或对照组 5郾 如果是主观样本, 那么就考虑缩小样本规模 6郾 利用更低成本的访谈者、 直接观察法而不是家庭调查、 依托另一个计划中的调查 同时收集数据, 从而达到降低数据收集成本的目的 评价人员必须考察每种设计的各种可能性以便获得最有说服力的结果 ( 表 7郾 3) 。 选 择合适的设计非常关键, 因为 “ 不同的方法可能带来不同的发现。 困难的是在既定条件 下如何确定哪个设计和方法是最合适、 最有效和最有用的冶 ( Patton 2002, p郾 255) 。 摇 表 7郾 3 常用实验性设计的优劣 设计类型 优摇 摇 势 劣摇 摇 势 摇 摇 实验性 比较 控制内部有效性的威胁 在公共领域很难实施 对小组之间的比较非常有效; 在比较 组非常匹配的情况下可以控制历史和 存在选择偏差和归因威胁 成熟效应 第七章摇 因果性问题、 描述性问题和规范性问题的设计选择 llll llllllll 续表 设计类型 优摇 摇 势 劣摇 摇 势 摇 摇 准实验性 存在测试、 度量工具、 均值回归、 归因、 事前事后 对提供度量变化的背景信息非常有用 历史和成熟效应等威胁 设 摇 摇 非实验性 计 与 对描述性和规范性问题很有效; 多个 实 单时点 对因果性问题的效用非常弱 单时点设计可以成为一个案例 施 评价工作既是一门艺术也是一门科学。 在制定设计策略的时候, 评价人员需要记住完 美的设计是不存在的; 所有的评价设计都需要在时间、 成本和实践性等方面进行平衡。 这 一平衡过程需要以事先评估这些因素可能对结果和结论造成的影响为基础。 Ravallion (2009) 暗示, 可以用评价问题来引导评价方法。 最重要的问题可能包括 “ 干预活动会让谁得益、 谁受损失? 干预活动的实施结果是否和书面上的计划一致? 实施 摇201 过程中有哪些变 化? 哪 些 变 化 是 可 靠 的? 对 哪 些 人 以 及 在 什 么 条 件 下 干 预 活 动 是 有 效的?冶 总之, 每个评价问题需要一个实验性的、 准实验性的或非实验性的设计。 实验性设计 旨在控制 “ 实验冶 中所有的变量以确定或预测可能发生的事情。 实验性设计将实验对象 随机分配到至少两个小组: 实验组和对照组。 准实验性设计在使用两个小组方面与实验性设计相似, 但它不是随机地将实验对象分 配到小组里。 建立比较组通常是为了在研究中对接受干预的小组和没有接受干预的小组进 行对比。 非实验性设计更具有描述性。 它们既不随机分配也没有比较组。 对于大多数发展干预来说, 由于情形过于复杂, 要建立一个能够回答因果性问题的设 计是非常困难的。 要 “ 证明冶 一项干预措施造成了观察结果很难。 评价设计能够帮助决 定计划的影响, 即让评价人员可以控制计划的实施和度量。 其意图是消除对观察结果的其 他可能的解释。 对于因果性问题, 评价人员需要考虑以下一种或多种评价设计: 誗 匹配的和不对等的比较设计 誗 非连续型时间序列设计 誗 使用统计控制的相关性设计 誗 纵向设计 誗 小组设计 誗 事前事后设计 誗 交叉横断面设计 誗 倾向性评分匹配 誗 因果追踪策略 描述性问题通常使用描述性或非实验性设计进行评价。 描述性问题设计只用来回答那 通向结果之路: 有效发展评价的设计与实施 llll llllllll 些不强调归因或者不对绩效和某些标准进行匹配的问题。 有些描述性问题的设计和因果性 问题的设计是一样的。 可以使用下述评价设计中的一种或者多种回答描述性问题: 誗 单时点设计 誗 交叉横断面设计 设 誗 事前事后设计 计 誗 非连续性时间序列设计 与 实 誗 纵向设计 施 誗 案例研究 除了规范性问题总是针对某一标准或尺度进行评估之外, 规范性问题的逻辑与描述性 问题类似。 许多国际发展评价的领军人物都呼吁评价设计要更为严格。 随着项目、 计划和政策转 向结果导向的管理, 我们有望看到更多的评价设计强调归因问题。 练习 摇202 7郾 1摇 选择一个评价设计 请你评价建立一家社区健康诊所的影响, 该诊所主要是教授父母如何处理常见的家庭 疾病和识别可能的严重问题。 该计划的目标是让更多的父母获得健康防护、 紧急救治和早 期治疗策略的基本知识, 从而防止儿童和老人的疾病恶化。 1郾 期望的成果是什么? 2郾 为该评价提出一个因果性问题、 一个规范性问题和一个描述性问题。 3郾 你会用什么样的设计来考察这些问题? 这些设计的好处和局限分别是什么? 你选 择的设计比其他可能的设计好在哪里? 7郾 2摇 选择一个评价设计和数据收集策略 请你为一个为期 6 个月的研究建立一个评价设计, 该研究是评估贵国的一次预防保健 信息宣传活动的效果。 该活动主要是在全国各个社区由保健专家举办为期两天的讲座。 评 价的目的是要确定该活动是否改善了健康状况。 你有一个适中的预算和 6 个研究助理帮助 你设计和执行该评价工作。 1郾 你的最基础的评价问题是描述性的、 规范性的还是因果关系的? 请解释。 2郾 你的数据收集策略应该是结构性的、 开放性的还是两者的结合? 为什么? 3郾 你该如何确定需要度量的最重要成果? 你如何度量它? 4郾 你应该用什么样的评价设计? 5郾 你的评价设计有什么优势和不足? 第七章摇 因果性问题、 描述性问题和规范性问题的设计选择 llll llllllll 摇 附表 不同设计类型的关键术语和特性概要 IPDET 术语 设计类型 直观表述 主要优势 主要不足 实验性 实验性设计的主要特征是随机分配对照组和实验组的成员 很强 的 内 部 有 效 性; 同 O1 X O2 成本高, 道德约束, 很难 随机的对照组 时分 析 有 干 预 及 无 干 预 O1 O2 普及 设 情况下的前后变化 计 很强 的 内 部 有 效 性; 稍 与 没有 事 前 测 试 O3 实 的仅 事 后 随 机 X摇 摇 摇 强的 实 践 性, 对 比 较 成 不能确定前后的变化 O4 施 对照组 果有用 在有效性方面, 所有准实验性设计都比实验性设计更弱, 或内部有效性更低。 准实验 准实验性 性设计有比较但没有随机分配 没有比较的 小组 内 部 的 事 测试效应、 测试工具效应 O1 X O2 实践性; 必须考虑环境 事前事后 前事后设计 和回归威胁 摇203 小组 之 间 的 事 排除历史效应, 很难控制 事前事后的 N O1 X O1 必须 考 虑 环 境。 比 小 组 前与事后 (非 所有变量从而使小组之间 非对等比较 N O2 摇 O4 内部比较更可靠 对等) 比较 非等效 只有事后的 只比 较 干 预 后 N O1 X O2 也许 是 比 较 事 后 情 况 的 不知道实验组或干预组开 非等效比较 的数据 N摇 O2 最好设计 始时的情形 实践性, 必须考虑环境, 非等 效 小 组 的 摇 O1 控制 测 试 效 应, 测 试 工 道德问题, 选择偏差, 有 事后比较 X摇 O2 具效 应, 回 归 效 应 和 历 效性 史效应 X摇 O1 不同 实 验 组 的 可以 比 较 干 预, 必 须 考 Y摇 O2 存在许多威胁 事后比较 虑环境影响 Z摇 O3 时间序列 (小 O1 O2 O3 部分 控 制 历 史 效 应, 控 非连续型时间 存在测试偏差 组内部) O4 O5 O6 制成熟效应 序列比较 ( 特 小组 之 间 时 间 别适合描述性 排除 历 史 效 应, 减 少 均 高成本, 耗时, 很难对人 问题) 序列 (非等效 值回归 群进行长期追踪 比较) 高成本, 很难对个体进行 纵向设计 没有基准数据 X O1 O2 O3 … 对个体进行长时间追踪 长期追踪 通向结果之路: 有效发展评价的设计与实施 llll llllllll 续表 IPDET 术语 设计类型 直观表述 主要优势 主要不足 对同 一 小 组 进 X O1 O2 O3 小组设计 深度信息 成本可能非常高 行长期跟踪 O4 O5 … 设 使用 统 计 方 法 确 定 不 同 计 O1 个体 之 间 的 相 关 性 从 而 采用统计控制的 要求大样本, 不能做出因 与 O2 排除 对 重 要 相 关 性 的 可 实 相关性设计 果判断, 不确定性 O3 能威 胁 及 可 能 的 干 扰 施 变量 干预 对 象 和 相 用以 评 价 自 愿 计 划, 评 要求大的数据集和计算机 倾向性评分匹配 似 的 非 干 预 对 估对 项 目 或 计 划 对 参 与 能力 象之间的对比 者的影响更为可靠 非实验性设计 是描述性问题的最佳设计, 所有非实验性设计都比实验性设计弱 X摇 O1 摇204 小组 内 部 和 小 摇 O2 无法知道随时间推移发生 横断面设计 某一时间点的清晰画面 组之间 摇 O3 的情况 存在很多有效性威胁, 弱 单时点设计 X O1 容易, 实用 设计 基于 变 革 理 论 因果追踪策略 模型 和 逻 辑 的 因果关系论断 O1 案例研究 O2 深度的背景信息 耗时, 缺乏内部有效性 O3 名词解释 实验性设计: 一种事先的评价设计, 它要求样本总体必须随机分成至少两个小组, 而 且总体中每个样本被分到干预组 ( 实验组) 和非干预组 ( 对照组) 的机会是均等的 准实验性设计: 一种干预组和非干预组或比较组事先或事后组建, 并且样本不是随机 分配的, 或者会在一段时间内重复的评价设计 非实验性 ( 描述性 ) 设计: 一种不建立干预组和非干预组的, 并着重描述的评价 设计 对照组: 实验中组员不受干预的小组 实验组: 实验中组员接受干预的小组 控制变量: 保持不变的外部变量, 以最小化其对干预结果所产生的影响 第七章摇 因果性问题、 描述性问题和规范性问题的设计选择 llll llllllll 选择偏差: 由于总体中接受干预的子集和没有接受干预的子集之间存在的系统性特征 差异而引起计划结果的证据或数据失真 内部有效性: 指能够排除干预措施之外的其他可能造成观察结果的因素或解释的设计 能力 历史效应: 与干预措施无关的事件对结果的影响 成熟效应: 年龄增长与成长对结果产生的效应 设 重复测试效应: 由于实验对象多次面对同样的测试而对结果产生的影响 计 与 选择偏差: 由于总体中接受干预的子集和没有接受干预的子集之间存在的系统性特征 实 差异而引起计划结果的证据或数据失真 施 磨损效应: 中途退出对干预结果度量的影响 均值回归: 指那些获得很高或很低分值的个体在重新测试的时候会向中间值靠拢的自 然趋势 测量工具效应: 测量工具未能标准化而对评价结果产生的影响 测试工具效应: 由于测量工具缺乏可靠性而对评价结果产生的影响 准实验性设计: 一种干预组和非干预组或比较组事先或事后组建, 并且样本不是随机 摇205 分配的, 或者会在一段时间内重复的评价设计 事前事后设计: 比较干预开始之前的度量值与干预开始之后的度量值的设计 纵向设计: 在长时间内对个体进行多个时点追踪的设计 小组设计: 长期多点追踪同一个小组的设计 相关性设计: 考察两个或两个以上的无法操控的变量之间的关系 倾向评分匹配: 该设计通过预测群体成员, 如实验组与控制组成员的倾向性, 来度量 相对于非参与者而言的一项干预措施对参与者的影响。 倾向性的预测基于从逻辑回归获取 以创建反事实小组的可观察预测值。 也用于匹配或作为协变量———单独或与其他匹配变量 或协变量一起 非实验性设计: 一种不建立干预组和非干预组的, 并着重描述的评价设计 简单横断面设计: 提供在固定时间或单一时点总体中一个子集的特征图景或截图的设 计, 有时候也叫做单时点设计 单时点设计: 考察实验组在实施干预之后某一时点的情况 因果追踪策略: 由变革理论模型的因果关系论据和逻辑上排除其他或相反的解释的论 据构成的非实验性设计 案例研究: 对干预活动进行总体上和背景性的深入而全面的描述和理解, 是一种非实 验性设计 纵向设计: 对相同的实验对象的相同变量进行多次的重复度量的一种非连续型时间序 列设计 参考书目 1郾 Aliendo, Marco, and Sabine Kopeinig郾 2005郾 Some Practical Guidance on the Implemen鄄 tation of Propensity Score Matching郾 Discussion Paper 1588 , IZA, Institute for the Study of La鄄 通向结果之路: 有效发展评价的设计与实施 llll llllllll bor, Bonn郾 http: / / ftp郾 iza郾 org / dp1588郾 pdf郾 2郾 Bamberger, Michael, and Howard White郾 2007郾 “ Using Strong Evaluation Designs in Developing Countries: Experience and Challenges郾 冶 Journal of Multidisciplinary Evaluation 4 ( 8 ) : 58 - 73郾 3郾 Barzelay, M郾 1997郾 “ Central Audit Institutions and Performance Auditing: A Compara鄄 设 tive Analysis of Organizational Strategies in the OECD郾 冶 Governance: An International Journal of 计 Policy and Administration 103 : 235 - 60郾 与 实 4郾 Boruch, Robert郾 2004郾 “ Ethics and Randomized Trials郾 冶 International Program for De鄄 施 velopment Evaluation Training ( IPDET) presentation, Ottawa郾 5郾 Brossart, Daniel F郾 , Daniel L郾 Clay, and Victor L郾 Willson郾 2002郾 “ Methodological and Statistical Considerations for Threats to Internal Validity in Pediatric Outcome Data: Re鄄 sponse Shift in Self鄄Report Outcomes郾 冶 Journal of Pediatric Psychology 27 ( 1 ) : 97 - 107郾 6郾 Brown, Randall S郾 , and Ellen Eliason Kisker郾 1997郾 “ Nonexperimental Designs and Program Evaluation郾 冶 Children and Youth Services Review 19 ( 7 ) : 541 - 66郾 http: / / 摇206 www郾 aei郾 org / publications / pubID郾 17770 / pub_detail郾 asp郾 7郾 Campbell, D郾 T郾 , and J郾 C郾 Stanley郾 1963郾 “ Experimental and Quasi鄄Experimental De鄄 signs for Research郾 冶 In Handbook of Research on Teaching, ed郾 N郾 L郾 Cage郾 Chicago: Rand鄄Mc鄄 Nally郾 8郾 CGD ( Center for Global Development ) 郾 2006郾 When Will We Ever Learn? Improving Lives through Impact Evaluation郾 Washington, DC郾 9郾 Chatterji, M郾 2007郾 “ Grades of Evidence: Variability in Quality of Findings in Effective鄄 ness Studies of Complex Field Interventions郾 冶 American Journal of Evaluation 283: 239 - 55郾 10郾 Cohen, M郾 2001郾 “ Evaluating Microfinance's Impact: Going Down Market郾 冶 In Eval鄄 uation and Poverty Reduction, eds郾 O郾 N郾 Feinstein and R郾 Picciotto, 193 - 203郾 New Brunswick, NJ: Transaction Publishers郾 11郾 Cook, T郾 D郾 , and D郾 T郾 Campbell郾 1979郾 Quasi鄄Experimentation: Design and Analysis for Field Settings郾 Boston: Houghton Mifflin郾 12郾 Davidson, E郾 J郾 2000郾 “ Ascertaining Causality in Theory鄄Based Evaluation郾 冶 New Di鄄 rections for Evaluation 87 : 17 - 26郾 ———郾 2006郾 “ The RCT蒺s Only Doctrine: Brakes on the Acquisition of Knowledge?冶 Jour鄄 nal ofMultidisciplinary Evaluation 6 : ii - v郾 13郾 Garbin, Cal郾 2009郾 Statistical Control郾 Lincoln, NE : University of Nebraska郾 psych. unl郾 edu / psycrs / 942 / q2 / control郾 ppt郾 14郾 Grembowski, D郾 2001郾 The Practice of Health Program Evaluation郾 Thousand Oaks, CA: Sage Publications郾 15郾 Homer鄄Dixon, Thomas郾 1995郾 Strategies for Studying Causation in Complex Ecological Political Systems郾 Occasional Paper; Project on Environment, Population, and Security. Ameri鄄 can Association for the Advancement of Science, Washington, DC , and the University of Toron鄄 第七章摇 因果性问题、 描述性问题和规范性问题的设计选择 llll llllllll to郾 http: / / www郾 library郾 utoronto郾 ca / pcs / eps / method / methods1郾 htm郾 16郾 Mayne, John郾 2005郾 “ Ensuring Quality for Evaluation: Lessons from Auditors郾 冶 Ca鄄 nadian Journal of Program Evaluation 20 ( 1 ) : 37 - 64郾 ———郾 2006郾 “ Audit and Evaluation in Public Management: Challenges, Reforms, and Different Roles郾 冶 Canadian Journal of Program Evaluation 21 ( 1 ) : 11 - 45郾 17郾 Miles, M郾 B郾 , and A郾 M郾 Huberman郾 1994郾 Qualitative Data Analysis: An Expanded 设 Sourcebook郾 2nd ed郾 Thousand Oaks, CA: Sage Publications郾 计 与 18郾 NIOSH ( National Institute for Occupational Safety and Health) 郾 1999郾 A Model for Re鄄 实 search on Training Effectiveness TIER郾 Centers for Disease Control, Atlanta郾 http: / / www郾 cdc. 施 gov / niosh / 99 - 142郾 html郾 19郾 Office of Juvenile Justice and Delinquency Prevention郾 1989郾 Evaluating Juvenile Justice Programs: A Design Monograph for State Planners郾 Report prepared for the U郾 S郾 Department of Justice, Office of Juvenile Justice and Delinquency Prevention by Community Research Associ鄄 ates, Inc郾 20郾 Patton, Michael Q郾 2002郾 Qualitative Research and Evaluation Methods郾 3rd ed. Thou鄄 摇207 sand Oaks, CA: Sage Publications郾 ———郾 2005郾 “ The Debate about Randomized Controls in Evaluation: the Gold Stan dard Question郾 冶 International Program for Development Evaluation Training ( IPDET ) presentation, Ottawa, July郾 ———郾 2007郾 Design Options and Matching the Type of Impact Evaluation and Attribution Issue to the Nature of the Intervention: Background Discussion on Impact Evaluation for International Development Efforts郾 November郾 ———郾 2008郾 “ The Logic of Experimental Designs and 10 Common Criticisms: The Gold Standard Debate郾 冶 In Utilization鄄Focused Evaluation郾 4th ed郾 Thousand Oaks, CA: Sage Publi鄄 cations郾 21郾 Powell, Keith D郾 2004郾 “ Research Methods on Psychological Science: Psychology 242郾 冶 Powerpoint presentation, November 8郾 Department of Psychology, University of Chicago, Chicago, IL郾 22郾 Prennushi, Giovanna, Gloria Rubio, and Kalanidhi Subbarao郾 2002郾 PRSP Source鄄book Core Techniques郾 Washington, DC : World Bank郾 http: / / go郾 worldbank郾 org / 3I8LYLXO80郾 23郾 Project STAR郾 2006郾 Study Designs for Program Evaluation郾 Aguirre Division, JBS Interna鄄 tional, Inc郾 Bethesda, MD郾 http: / / www郾 nationalserviceresources郾 org / filemanager / download / perfor鄄 manceMeasurement / Study_Designs_for_Evaluation郾 pdf郾 24郾 Ravallion, Martin郾 2009郾 “ Should the Randomistas Rule?冶 The Economists Voice 6 ( 2 ) : 1 - 5郾 25郾 Schweigert, F郾 J郾 2006郾 “ The Meaning of Effectiveness in Assessing Community Initia鄄 tives郾 冶 American Journal of Evaluation 27 : 416郾 http: / / aje郾 sagepub郾 com / cgi / content / ab鄄 stract / 27 / 4 / 416郾 通向结果之路: 有效发展评价的设计与实施 llll llllllll 26郾 Scriven, Michael郾 2006郾 “ Converting Perspective to Practice郾 冶 Journal of Multidisci鄄 plinary Evaluation 6 : 8 - 9郾 ———郾 2007郾 Key Evaluation Checklist郾 February郾 http: / / www郾 wmich郾 edu / evalctr / check鄄 lists / kec_feb07郾 pdf郾 27郾 Stake, R郾 E郾 1995郾 The Art of Case Study Research郾 Thousand Oaks, CA: Sage Publica鄄 设 tions郾 计 28郾 Stufflebeam, Daniel L郾 2004郾 Evaluation Design Checklist郾 Western Michigan University, E鄄 与 实 valuation Center, Kalamazoo, MI郾 http: / / www郾 wmich郾 edu / evalctr / checklists / evaldesign郾 pdf郾 施 29郾 Stufflebeam, D郾 L郾 , G郾 F郾 Mdaus, and T郾 Kellaghan, eds郾 2000郾 Evaluation Models: Viewpoints on Educational and Human Services Evaluation郾 Boston: Kluwer郾 30郾 Trochim, W郾 M郾 The Research Methods Knowledge Base郾 http: / / www郾 socialsre鄄 searchmethods郾 net / kb郾 31郾 Trochim, W郾 , and D郾 Land郾 1982郾 “ Designing Designs for Research郾 冶 Researcher 1 ( 1 ) : 1 - 16郾 http: / / www郾 socialresearchmethods郾 net / kb / desdes郾 htm郾 32郾 United Kingdom Evaluation Society郾 2003郾 Glossary of Evaluation Terms郾 http: / / 摇208 www郾 evaluation郾 org郾 uk / Pub_library / Glossary郾 htm郾 33郾 Wadsworth, Y郾 1997郾 Everyday Evaluation on the Run郾 St郾 Leonards, New South Wales, Australia: Allen and Unwin郾 34郾 White, Howard郾 2007郾 “ Challenges in Evaluating Development Effectiveness郾 冶 Work鄄 ing Paper, World Bank, Washington DC郾 35郾 White, Howard, and Edoardo Masset郾 2005郾 “ Quasi鄄Experimental Evaluation郾 冶 Pow鄄 erPoint presentation, February 16郾 36郾 World Bank郾 1998郾 Do Community鄄Managed Schools Work? An Evaluation of El Salvador蒺s EDUCO Program郾 Impact Evaluation of Education Reforms Paper 8 , Development Re鄄 search Group, Washington, DC郾 ———郾 2004郾 PovertyNet: Evaluation Designs郾 Washington, DC : World Bank郾 http: / / web. worldbank郾 org / WBSITE / EXTERNAL / TOPICS / EXTPOVERTY / EXTISPMA / 0 ,, contentMDK: 20188242 ~ menuPK: 412148 ~ pagePK: 148956 ~ piPK: 216618 ~ theSitePK: 384329 , 00郾 html郾 ———郾 2006a郾 Conducting Quality Impact Evaluations under Budget, Time, and Data Con鄄 straints郾 Independent Evaluation Group, Washington, DC郾 ———郾 2006b郾 Impact Evaluation: The Experience of the Independent Evaluation Group of the World Bank郾 Independent Evaluation Group, Washington, DC郾 ———郾 2007郾 PowerNet郾 Spanish Impact Evaluation Fund郾 http: / / web郾 worldbank郾 org / WB鄄 SITE / EXTERNAL / TOPICS / EXTPOVERTY / EXTISPMA / 0 ,, contentMDK: 21419502 ~ me鄄 nuPK: 384336 ~ pagePK: 148956 ~ piPK: 216618 ~ theSitePK: 384329 , 00郾 html郾 ———郾 2008郾 PovertyNet: Impact Evaluation, Methods and Techniques, Evaluation Designs. Washington, DC: World Bank郾 http: / / web郾 worldbank郾 org / WBSITE / EXTERNAL / TOPICS / EXT鄄 第七章摇 因果性问题、 描述性问题和规范性问题的设计选择 llll llllllll POVERTY / EXTISPMA / 0, contentMDK: 20188242 ~ menuPK: 415130 ~ pagePK: 148956 ~ piPK: 216618 ~ theSitePK: 384329, 00郾 html郾 37郾 Yin, R郾 K郾 1984郾 Case Study Research郾 Thousand Oaks, CA: Sage Publications郾 网址 1郾 Campbell Collaboration郾 设 http: / / www郾 campbellcollaboration郾 org / 郾 计 与 2郾 Schweigert, F郾 J郾 2006郾 “ The Meaning of Effectiveness in Assessing Community Initia鄄 实 tives郾 冶 American Journal ofEvaluation 27 : 416郾 施 http: / / aje郾 sagepub郾 com / cgi / content / abstract / 27 / 4 / 416郾 3郾 Scriven, Michael 2007郾 Key Evaluation Checklist郾 http: / / www郾 wmich郾 edu / evalctr / checklists / kec_feb07郾 pdf郾 4郾 Stufflebeam, Daniel L郾 2004郾 Evaluation Design checklist郾 Western Michigan University, Evaluation Center, Kalamazoo, MI郾 http: / / www郾 wmich郾 edu / evalctr / checklists / evaldesign郾 pdf郾 摇209 5郾 University of Northern Iowa, Department of Psychology郾 http: / / www郾 psych郾 uni郾 edu / psycrs / 457 / e2 / control郾 ppt郾 6郾 World Bank郾 Doing Impact Evaluation Series郾 http: / / web郾 worldbank郾 org / WBSITE / EXTERNAL / TOPICS / EXTPOVERTY / EXTISPMA / 0 , menuPK: 384336 ~ page PK: 149018 ~ piPK: 149093 ~ theSitePK: 384329 , 00郾 html#do鄄 ingIE郾 第八章 摇 选择和构建数据收集工具 第七章我们讨论了评价问题和与之相匹配的评价设计。 本章将探讨如何收集数据来回 答这些评价问题。 本章包括四个主要部分: 誗 数据收集策略 誗 合理指标的特点 誗 定量数据和定性数据 誗 收集数据的工具 数据收集策略 詪詪詪詪詪詪詪詪詪 数据的收集可以有许多来源, 例如现有记录、 机电测量、 观察、 调查、 专题小组以及 专家评判, 各种方法各有优势及适中性。 如表 8郾 1 所示, 具体决定使用哪一种方法, 取决 于以下几个方面: 誗 你需要了解什么 誗 哪里有数据 誗 可用的资源和时间 誗 将要收集数据的复杂性 誗 数据收集的频率 誗 数据分析想要采取的形式 数据收集方法的选择部分取决于将要回答的评价问题 , 部分取决于人们是否很好地 理解了所实施的干预活动 , 还取决于可用的时间和资源 。 通过案例研究 ( 密集型数据 收集 ) 深入地理解问题和通过调查 ( 广泛型数据收集 ) 获取的结果有效性之间需要有 一个权衡取舍 。 密集型的数据 收 集 通 常 采 用 半 结 构 化 的 方 法 以 便 为 回 答 提 供 灵 活 性 , 而广泛型的数据收集一般要求采用结构化的方法 , 以便在收集不同受访者的回答时有 更高的效率 。 第八章摇 选择和构建数据收集工具 llll llllllll 摇 表 8郾 1 数据收集方法的样本决策表 如果你需要知道 那么考虑 是否参与项目的文化程度低的村民比那些 誗 收集干预活动之前以及之后的书写样本 没有参与项目的文化程度低的村民书写水 平更高 誗 使用来自于干预活动之前以及之后的测试结果 参与者是否更积极地参与其子女的教育 誗 观察干预活动之前之后亲子之间的互动 设 计 誗 询问儿童、 父母以及教师干预活动之前以及之后父 与 母的参与情况 实 施 项目的参与者是否满意扫盲培训班的质量 誗 对参与者使用结构化的访谈 以及后续的服务 誗 通过调查来决定文化水平是否已经足够高 摇 摇 资料来源: 作者 为了确定收集哪一类的数据, 评价人员需要确定对于评价的主要客户来说什么是最重 要的。 客户是对全国学校状况的数字数据更该感兴趣呢, 还是想要对于最贫困的城市地区 的情况有一个深入的了解? 有时候这两类信息都很重要, 但是有限的资源要求评价人员必 摇211 须确定其中一个作为重点。 不论使用哪一种数据, 评价人员都应该遵循一定的规则 ( 专 栏 8郾 1) 。 专栏 8郾 1摇 收集数据的规则 评价人员在收集数据过程中应该遵循以下规则: 誗 尽可能地使用多种数据收集方法 誗 尽可能使用现有的数据 ( 这样比起收集新数据更快, 更经济, 更容易) 誗 如果使用现有数据, 则需要了解之前的评价人员是怎么获取这些数据, 如何定 义变量, 又是如何保证数据的准确性的。 检查数据缺失的程度 誗 如果一定要收集原始数据的话, 则要建立流程并遵照执行; 要保持对定义和编 码的准确记录; 事先测试、 测试、 再测试, 并且验证编码以及数据输入的准确性 资料来源: 作者 结构化的方式 结构化的数据收集方法要求所有的数据都必须用完全相同的方式来收集。 这对于多点 评价以及集群评价来说尤为重要。 在这些评价活动中, 评价人员需要在不同的地点比较调 查结果, 并据此来得出结论。 ( 专栏 8郾 2) 在对几种可选干预活动进行成本效益比较以便 确定哪一个最优的时候, 结构化也很重要。 在下列情形下, 评价人员使用结构化的数据收集方法来收集定量数据: 誗 需要回答程度性的问题 通向结果之路: 有效发展评价的设计与实施 llll llllllll 誗 样本或总体很大 誗 知道需要度量什么 誗 需要量化展示的结果 誗 需要比较不同地点以及不同干预活动之间的情况 设 专栏 8郾 2摇 使用结构化的方式来评价农业干预活动 计 与 我们来思考一个对于农业干预活动的评价实例。 为说明问题, 评价人员决定用土壤 实 施 湿度作为衡量土地排水项目是否成功的一个指标。 他们计划在同一时期内, 从该地区不 同的地点分别测量排水前和排水后的土壤湿度 ( 相同天气条件下) 。 为说明另一个问题, 评价人员运用结构化的访谈指南询问受影响的农民对于项目效 果的看法。 根据访谈的结果, 他们报告了提出不同观点的受访者的百分比 ( 这样的列 表结果被称为频率统计) 。 结构化访谈的问题应该非常有针对性, 措词准确, 并且提供 多项的选择。 访谈所有受访者的问题都必须一致, 而且提问的方式, 以及所提供的选项 也要相同。 摇212 为了调查第三个问题, 评价人员使用干预活动之前和之后排水地区和同一地区内未 实施土地排水的一块相似地域的农作物生产以及价格数据。 针对第四个问题, 评价人员 会询问参与项目的 2 600 人中的 100 人对于项目以及项目效果的看法。 在实施这些访谈 时, 评价人员打算使用半结构化的问题指导访谈。 他们会在必要的时候根据受访对象的 反应深入提问以便理解他们的观点。 半结构化的方法 半结构化的数据收集方法可以是系统的并遵循常规的程序, 但是每次收集数据的方式 可能有一定差异。 半结构化的访谈通常以一组事先确定的宽泛的问题为基础提问, 但是提 问的顺序根据情况而定。 而且针对一些回答可能还会另外提出一些问题。 这些方式比起结 构化的方式更为开放和多变。 它能使受访者以自己的方式回答评价人员的问题。 半结构化的数据收集方法通常都是定性的。 评价人员在以下情况下使用这一方法: 誗 在一个新的发展领域开展探索性工作 誗 力求理解主题或者其他问题 誗 希望得到参与者的叙述或者深层次的信息 誗 希望获取具有深度的丰富的信息以及 “ 幕后冶 信息 誗 力求理解那些用结构化数据方法收集获得的意料之外的, 了解不够充分的结果, 或者仅仅就是为了利用丰富的事例来补充结构化数据收集方法得到的结果 例如, 在评价一个社区推动的开发项目时, 评价人员可能会使用半结构化方法来收集 数据。 因为这样的项目将规划的决定权给了本地的团体, 评价人员使用半结构化的方法来 了解决定是如何做出的, 以及征询社区成员对于项目过程以及项目成果的看法就比较 恰当。 第八章摇 选择和构建数据收集工具 llll llllllll 合理指标的特点 詪詪詪詪詪詪詪詪詪詪詪 评价人员可以衡量信仰、 态度、 观点、 知识、 技能、 绩效以及习惯。 在决定如何测量 相关的变量以及收集有关数据时, 评价人员应该牢记以下四个关键问题: 设 誗 指标是否有相关性? 是测量了最关键的指标还是测量了最方便测量的指标? 计 与 誗 指标是否可信? 指标是否能够反映实际情况? 实 誗 指标是否是有效的? 指标是否反映了评价人员想要测量的东西? 施 誗 指标是否可靠? 如果遵守同样的决策规则, 使用相同的方式从同一个来源收集数 据, 每次能得到相同的结果吗? 相关性指的是指标的重要程度。 评价人员不仅需要避免测量那些容易测得但非实际所 需要的指标, 而且也需要避免指标过多。 评价的设计矩阵是一个保证数据收集相关性的 工具。 可信度用来表示收集到的数据对于评价报告的目标群体是否值得信赖。 比如, 教师的 摇213 观点可能并不能作为测量退学率高低的一个最可靠的指标。 辍学者自己或他们朋友的观点 可能才是最可信的。 有效性用来表明是否确实测量了应该衡量的计划对象。 所提的问题是否能够产生正确 的信息? 比如, 候补名单在衡量某些儿童早期教育需求方面的有效性是很差的。 因为这些 候补名单通常反映的都是过时信息, 而且好多儿童在不同的候补名单上都有登记。 当儿童 有了去向, 候补名单上的名字不一定会立即从其他名单中去掉。 有效性有两种, 一种是表面效度, 一种是内容效度。 誗 表面效度: 表示一个测试的内容或者程序从表面来看测量了应该衡量的对象的程 度。 比如, 一个评价活动需要测量身体健康程度, 测量一个人 100 米跑的速度看上去是身 体健康的一个有效指标。 誗 内容效度: 表示一个测试的内容或者程序充分地测量了相关变量的程度。 比如, 如果评价人员要建立一个健康状况的指标, 他们可能会咨询健康专家来保证选择的指标有 较高的内容效度。 举例来说, 测量一个人实际的体内脂肪的比例通常是比一份健康饮食习 惯的自我报告更为有效的指标。 对健康饮食习惯知识的测试比起自我报告的数据更有效。 但它的结果有效性可能不会很高, 因为受访者可能不会在日常的饮食中真正落实其所知的 健康饮食习惯。 调查反映的结果可能比实际情况要好。 可信度: 描述测量的稳定性———在重复的测试中用相同的方式测量同一对象的稳定程 度。 比如体育赛事的测量工具可靠度要求就很高。 测量跳远距离的皮尺每次测量距离的方 式都必须相同。 如果是这样, 说明是可信的指标, 若不是, 这个指标就存在问题, 而赛事 的结果也会受到质疑。 在刻度正确校准的情况下, 新生儿的体重是一个可信指标的范例, 而出勤率就是一个 可信度比较低的指标范例, 因为它与在一个学年的什么时候做统计有关。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 定量数据和定性数据 詪詪詪詪詪詪詪詪詪詪詪詪詪詪 我们可以把数据分为定量和定性数据。 定量数据是用数字形式表示的, 而定性数据则 设 用非数字的形式呈现。 计 定量数据可以被精确地测量, 比如年龄、 成本、 高度、 面积、 容量、 重量、 速度、 时 与 实 间和温度等。 施 定性数据则通常包含描述性的语句, 是由观测或自我报告所得出的数据, 通常不一定 是精确测量的, 比如有关关系和行为的数据就是定性数据。 我们来考虑一个对于小额信贷项目的评价任务。 这个项目的定量数据可以包括参与者 的人数, 如按照性别、 年龄来划分的人数, 以及儿童数量、 收入、 产品的库存、 产品成本 以及销售额。 该项目的定性数据可以包括对产品的描述、 家庭关系、 参与者的举止、 和社 区的关系以及掌控程度等。 Patton (2002) 明确了三类可以产生定性结果的数据收集方法: 摇214 誗 深入的开放式访谈 誗 直接观察 ( 使用叙述说明) 誗 对书面报告的分析 他描述了评价人员通过上述三类方法可获取信息的类型: 誗 开放式的访谈可以得出有关于经验、 看法、 感受以及知识的直接引述。 誗 直接观察可以提供有关活动、 举止、 行动的详细描述以及全景的人际间互动和组 织流程。 誗 文件分析可以获得摘要、 引述, 或者整段的记录、 备忘录, 以及信函、 官方刊物 和报告、 日记、 问卷和调查的开放式书面回答。 大多数定性数据的收集需要在某个环境下花时间研究。 评价人员对活动以及互动进行 第一手的观察, 有时候还会以参与性观察者身份参与活动。 数据收集过程中所做的大量记 录我们称为原始数据。 可以按主题、 类别和展示性实例将原始数据整理为易于识读的结构 性描述。 ( Patton 2002) 专栏 8郾 3摇 Patton 20 个问题清单 1郾 计划是否强调个人成果———也就是说是否期望以不同的定性方式来影响不同的 参与者? 是否想要或需要描述、 评价不同个体的成果? 2郾 决策者是否对阐述和理解项目的内部动态机制 ( 计划的优势、 劣势以及计划整 体的过程) 感兴趣? 3郾 是否会因为程序、 财务或者政治方面原因, 需要有关某些客户案例或者计划选 址 ( 比如特别成功的案例, 不同寻常的失败的例子, 或者极为重要的案例 ) 的详细、 深度的信息? 第八章摇 选择和构建数据收集工具 llll llllllll 摇 摇 4郾 是否有兴趣关注客户或计划的多样性 ( 而不是采用统一的、 标准化的尺度比较 所有客户或计划) ? 5郾 是否需要知道实施的细节? 参与计划的客户有什么经历? 给客户提供了什么服 务? 计划是怎么组织的? 员工做了什么? 决策者是否需要知道计划进行的情况以及计划 是如何开展的? 设 6郾 参与计划的工作人员以及其他的利益相关方是否对收集详细的计划信息感兴趣 计 ( 也就是说是否对形成性评价感兴趣) ? 与 7郾 是否需要有关计划质量细节的信息, 包括对计划活动和成果的定性描述而非水 实 施 平、 金额或计划活动和成果的数量? 8郾 计划是否需要一个特定的质量保证体系? 9郾 立法者以及决策者或者投资方是否对评价人员开展计划实地访问感兴趣? 决策 者通常无暇去进行实地考察, 并且他们的经验和技巧也不如评价人员丰富, 而评价人员 可以作为他们了解计划信息的眼睛和耳朵。 立法监督是否根据个案决定? 10郾 冒失是否是评价中的一个问题? 和通过自然观察以及开放式访谈收集数据方法 相比, 使用标准化的测量工具 ( 问卷调查和测试 ) 是否过于介入且引人注目? 与定量 摇215 数据的收集相比定性数据的收集是否会造成参与者的反应冷淡? 是否需要采用较隐蔽的 观察方法? 11郾 是否需要或期望强调采用个人、 面对面接触的研究方法, 强调运用那种由于不 给参与者贴上标签或符号, 参与者感觉自然、 随便且易于理解, 因而被视为 “ 人性化冶 的方法, 使评价过程个性化? 12郾 回应式评价方法是否合适? 考虑到与不同利益相关者直接的人际接触会得出不 同的观点, 使用这种方法收集描述性数据和报告信息时要特别慎重。 13郾 项目的目标是否含糊、 笼统, 并且暗示采用无目标的评价方法收集有关项目实 际产生效果的信息可能比度量目标更有优势? 14郾 项目有没有可能以意想不到的方式影响客户或参与者, 同时没有意料之外的副作 用, 从而昭示需要采用某种调查方法以揭示计划的效果, 也即表明需要采用无目标评价法? 15郾 是否缺乏行之有效的度量重要计划成果的定量工具? 测量科学是否还没有有 效、 可靠且可信的标准工具, 以有效地定量度量特定的计划成果? 16郾 评价活动是否是探索性的? 计划是否处于评价前的阶段, 即目标以及计划内容 仍处于开发阶段? 17郾 是否需要进行可评价性测试以决定总结性评价设计? 18郾 是否有需要给统计发现或者调查总结增加深度、 细节并丰富其含义? 19郾 收集定量数据是否已经流于形式以至于没有人关注结果, 从而表明有必要打破 旧的形式, 使用新的方法来获取有关计划的新的见解? 20郾 是否需要根据对计划活动、 影响以及干预活动和成效之间的关系的观察构建计 划理论? 资料来源: Patton 1987 通向结果之路: 有效发展评价的设计与实施 llll llllllll 摇 摇 Patton 表示收集来的定性数据的质量取决于评价人员自身: “ 要想获得系统严谨的描述, 评价人员仅到现场粗略看看是远远不够的。 好的访谈远不止单单 的提几个问题。 内容的分析绝非单纯的看看手头资料。 要想通过观察、 访谈以及内容分析来获取有 用且可信的定性结果, 就需要有纪律、 知识、 培训、 实践、 创造性以及辛苦的工作。冶 ( 2002, p郾 5) Patton (1987) 提出了一个包含 20 个问题的清单来帮助评价人员决定采取定性方法是 设 计 否是恰当的评价策略。 ( 表 8郾 2) 如果所有问题的答案都是 “ 是 冶 的话, 那么至少收集部 与 分定性数据应该是恰当的。 实 数据收集通常既包括定性也包括定量数据收集, 但是其中某一种可能是主导性的。 两 施 种方法的特点如下。 定量方法: 誗 更结构化 誗 强调可靠度 誗 更难设计 誗 更易分析 摇216 定性方法: 誗 结构化程度较差 誗 易于设计 誗 可以提供 “ 丰富冶 的数据 誗 需要更密集的劳力来收集以及分析数据 誗 强调有效性 具体使用什么方法取决于评价活动的目标 ( 表 8郾 2) 。 摇 表 8郾 2 什么时候使用定性和定量方法 如果你 那么使用这种方法 想要进行统计分析 想要比较精确 定量方法 知道你要测量什么 想要覆盖大片人群 想要叙述性或者深度信息 不确定你要测量什么 定性方法 不用量化结果 摇 摇 资料来源: 作者 在实际操作中 , 定量数据和定性数据是相关的 。 根据 Trochim ( 2006 ) , 所有的定 量数据都以定 性 判 断 为 基 础 , 所 有 的 定 性 数 据 都 是 可 以 用 数 字 的 形 式 来 表 述 以 及 控 制的 。 数据的收集方式可以是介入式的也可以是非介入式的。 介入性方法是在参与者知情的 情况下进行的观察。 这种方式可以通过访谈、 调查以及专题小组来衡量认知、 观点以及态 度。 被观察者知情的情况下进行的观察同样也是介入性的。 第八章摇 选择和构建数据收集工具 llll llllllll 专栏 8郾 4摇 使用介入性和非介入性方法来度量艺术展品的受欢迎程度 一个博物馆的主管想要了解博物馆的哪些展品是最受欢迎的。 为此, 他可以在博物 馆的出口访谈参观的人群, 询问他们看了什么展品。 这样的自我报告的结果可能是具有 误导性的, 因为受访者所说的最受欢迎的展品可能就是他们唯一能够记住名字的展品, 设 他们也可能为了迎合采访者而故意扭曲了答案。 为了避免这些问题, 有一个传奇性的度 计 量方法就是通过衡量展品前地砖的磨损程度来研究展品的受欢迎程度。 这种非介入性方 与 法可以避免由自我报告所带来的信息失真。 实 施 如果一个评价活动用问卷的方式来收集信息, 实验对象就知道自己在被研究, 因此可 能会给出虚假的结果。 根据 Patton (1987, p郾 33) 的说法, “ 由于干扰正常的计划运作和 客户的工作, 该工具引发调查对象的反应, 不能准确反映计划的成果。冶 被研究的对象可能会改变他们的行为或者回答。 比如, 有校方管理层听课和没有管理 层听课的情况下, 老师上课的方式可能是不一样的。 非介入性方法指的是在参与者不知情的情况下所进行的观察活动。 使用非介入性方法的 摇217 例子包括使用文件或者档案中的数据, 以及在参与者不知道的情况下去观察。 ( 专栏 8郾 4) 收集数据的工具 詪詪詪詪詪詪詪詪詪詪詪 要根据具体的情况选择相应的数据收集技术。 不管选择什么方法, 收集到的信息都有 可能有偏差。 偏差是指当被要求提供自己或他人信息的时候, 受访者有意或无意地可能不 会讲出全部实情。 他们可能会因为不能准确地回忆或者担心说真话的后果而扭曲事实。 他 们也可能觉得承认不被社会认可的事情而会比较尴尬或者不舒服。 所有的自我报告数据都 会有这方面的问题。 对于某些问题, 要受访者给出真实答案可能会让他们觉得尴尬, 比如做爱时是否采用 安全措施, 或者他们上一次去看医生的日期等问题。 他们可能会给出自认为评价人员想要 的答案而非实际情况。 选择偏差———也即选择加入计划的人群和那些选择不加入计划的人群可能存在不同。 ( 第五章也探讨过这个问题 ) 。 这是调查、 访谈以及专题小组等方式经常遇到的问题。 那 些自愿参加项目的人可能整体上就不同于那些不参加的人。 为了增加数据的准确性而使用不同方法来收集相同信息的做法称为三角验证法。 评价 人员使用三角验证法来增强研究发现的可靠性和准确性。 如果使用不同的方法能收集到更 多的信息来支持一个研究发现的话, 那么证据就更强大。 使用不同方法的三角验证法并不是唯一的一种三角验证法。 Denzin (1978) 提出了好 几种三角验证法, 包括资料来源三角验证法, 评价人员三角验证法也是一种, 指的是多名 评价人员参与同一个评价调查活动。 研究对象并非是影响评价结果的唯一人群。 评价人员本身以及评价的环境也可能会对 通向结果之路: 有效发展评价的设计与实施 llll llllllll 结果造成影响。 比如女性在面对同性访谈人和异性访谈人时所给出的答案可能是不同的。 他们单独接受访谈或和自己配偶一起受访时所给出的答案也可能会不同。 下面一节描述了九个数据收集工具。 誗 工具 1: 参与式数据收集 誗 工具 2: 记录分析和二手资料分析 设 誗 工具 3: 观察法 计 誗 工具 4: 调查和访谈 与 实 誗 工具 5: 专题小组 施 誗 工具 6: 日记、 日志以及自我报告清单 誗 工具 7: 专家评判 誗 工具 8: 德尔菲法 誗 工具 9: 其他度量工具 工具 1 :参与式数据收集 参与式数据收集方法在收集数据的过程中需要群体以及社区充分的参与。 参与式数据 摇218 收集方法包括社区会议、 地图绘制以及穿越法。 社区会议 参与式数据收集最常见的方法之一就是社区会议。 这些会议就是请社区的成员来提 问, 做评论, 以及讨论关系社区的重要问题。 如果要从会议中收集可用的数据, 就要事先把会议安排好。 评价人员和利益相关者要在会 议的目的上达成一致, 并且都要出席会议。 在会议开始前, 评价人员应该制定并宣布基本原 则。 需要考虑的事项包括确定发言人、 发言时间、 提问和回答的形式。 如果参加会议的人有足 够的文化水平的话, 那么应该采用书面形式明确基本原则, 以便晚到的人也能了解基本原则。 如果要举办社区会议, 那么有关消息就应该通过传单、 报纸广告、 电台通知等方式广 泛宣传。 社区成员同样也应该口口相传有关消息。 评价人员不应主要依赖当地的官员来邀 请群众, 因为他们的选择可能是带有偏向性的, 可能仅邀请和他们观点相符的人。 在保证 舒适、 可及性、 安全的前提下, 会议地点的选择应该便于更多人参与。 ( 明尼苏达州卫生 部, 2007) 召开社区会议有以下几个好处: 誗 社区会议可以通过提高透明度以及参与度来提升整个过程的可信度。 誗 召开社区会议的成本不高而且也相对容易安排。 誗 社区会议参与人员范围可以比较广。 誗 更轻松的氛围可以增加群众的参与度。 誗 社区会议可以提高群众对评价活动的认知度以及理解程度, 可以争取群众的支持。 誗 社区会议可以增加评价人员对于重要计划问题的了解程度。 誗 可以下发一些日后需要进一步调查的问题。 社区会议同样也有不太好的一面 ( 表 8郾 3) 。 比如, 选择参加的社区成员可能不能代 表整个社区。 一些有很好想法同时也清楚了解问题的人可能不愿意参加或者不愿意在这种 第八章摇 选择和构建数据收集工具 llll llllllll 场合公开谈论。 那些愿意参加的可能是对于项目态度最强烈的人 ( 非常支持或者反对 ) 。 而对大多数人来说即使参加了会议, 发言的人可能就是在社区中有比较重要职位的人。 根 据会议召开的时间, 性别问题可能也会影响出席率。 妇女的出席以及参与可能会和当地的 文化相关。 由于以上种种问题, 社区会议不应该是评价活动数据收集的主要方法。 摇 表 8郾 3 社区会议的优点以及挑战 设 可以使社区成员了解干预活动并且讨论问题 计 优点 可以提高认知度以及可信度 与 成本不高 实 施 挑战 由于性别以及权利问题, 可能不能准确地代表整个社区 摇 摇 资料来源: 作者 地图绘制 在收集数据时, 绘制或者使用现有地图的过程叫做地图绘制。 地图绘制可以用来引发 有关本地发展的优先项目以及完成程度的讨论, 也可以用来验证二手来源的信息。 地图绘 摇219 制还可以捕捉一段时间之内的变化 ( 比如在干预活动之前以及之后 ) 。 地图绘制经常用于 设计干预活动的规则, 也可以用于评价活动。 地图绘制可以用于个人或者群体。 作为一个群体工具, 对于那些需要利益相关方参加的 参与式评价活动是很有用的, 因为它提供了一个共同协作的机会。 与此同时, 地图绘制可以 增加每个人对社区的了解程度。 当人们由于身份和经历不同而对社区理解不一时, 这一点非 常重要。 当参与者的文化水平不高的时候, 地图绘制也是一个很有用的数据收集工具。 地图绘制的类型包括以下几种: 誗 资源地图绘制摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 誗 财富地图绘制 誗 历史地图绘制 誗 土地使用地图绘制 誗 社会地图绘制 誗 人口地图绘制 誗 卫生地图绘制 资源地图绘制通常用来收集、 研究社区内有关资源分配、 可及性以及使用的信息。 对 确定在干预活动前后所发生的变化非常有用。 绘制地图的方法很多。 比如针对一个供水和卫生项目, 评价人员可以画一个简单的 图, 标出水源、 厕所位置、 主要的生态特点以及环境布局。 评价人员然后可以让村民用其 他的一些材料, 比如线、 稻草、 蝴蝶结以及绳子来划分哪一家用哪一块水源作为饮用或者 生活用水。 可以用彩色铅笔、 水笔或者蜡笔的点表示特殊人群, 如贫穷的妇女、 富人或者 领导的分布情况。 参与式地图绘制的案例包括以下几个方面: 誗 请学校的儿童通过画出自己以及邻居的家来绘制社区图 誗 请一组男士与女士使用本地的材料———黏土、 草、 泥土、 石头以及木棍来制作一 个他们所在社区的模型, 并标出所有的水 ( 或其他) 资源 誗 在召开小组会议绘制社区图的时候要激发讨论, 使大家一起参与 ( Naryan 1996) 通向结果之路: 有效发展评价的设计与实施 llll llllllll 社区地图绘制指的是绘制一个包含组成社区元素的概念构图, 包括社区的资源资产, 以及不同元素之间的互动。 社区地图绘制可以用来呈现村落的分布、 基础设施、 人口分 布、 民族语言群体、 社区设施、 健康形态、 财富以及其他社区问题。 这个方法可以使社区 的成员聚集在一起, 更好地了解社区本身, 以及这个干预活动如何适合于该社区。 社区地 图绘制可以作为任何方法的一个组成部分, 只要适合评价的问题。 此外, 也可以用于对干 设 预活动前后的活动进行比较。 计 其他的地图绘制工具有: 航拍, 包括谷歌地球 ( 专栏 8郾 5) ; 土地调查; 专业绘制的 与 实 地图; 实地考察工作者绘制的地图。 用这种方法所获得的信息可以用在规划多个社区的活 施 动中 ( Narayan 1996) 。 专栏 8郾 5摇 使用谷歌地球来绘制地图 谷歌地球是一个免费的可下载的程序, 它可以通过从卫星、 航拍以及地理信息系统所 获取的过往的图片将整个地球以三维地图的形式表现出来。 许多大城市的影像非常清晰, 连个体的建筑物、 房屋, 甚至汽车都可以看见。 影像的清晰程度部分取决于目标点。 摇220 谷歌地球在收集基准数据和趋势数据方面很有帮助。 评价人员可以在谷歌地球上找 到一个地方, 保存并打印它的图像。 日后收集到的数据可以和基准图片来比较, 这样就 可以看出一段时间内的变化了, 比如农村社区的道路修建以及电力供应的变化。 穿越法 步行穿过被研究的地区和观看航拍图像是完全不同的。 走访者将使用其自身的观察技巧而 非照相机来形成对该地区的基本概念。 走一下社区成员必经的尘土飞扬的道路就可以明白为什 么在雨天妇女一天就出门取水一次或者改走别的路。 走访可以帮助了解一个社区内的社会分 化, 比如权利和等级的分化。 它还有助于确定空间架构、 建筑风格、 空间使用、 环境卫生、 设 施的过度使用或者使用不足, 以及围绕供水以及卫生设施周围的活动 (Narayan1996)。 穿越法指的是评价人员走访社区并有代表性地观察有关人群、 环境和资源。 穿越法是 一种收集空间数据的工具。 它所占用的时间可以短到一个小时, 也可以长达一天。 如果要规划一次穿行, 那就要在社区的地图上画一条样线。 这条样线应该穿过或者横 切社区的所有区域, 这样才能得出有关社区的代表性感受。 评价人员在社区成员的陪伴下, 穿越地图上样线所代表的地区。 评价人员可以在观察 周围情况、 人、 存在的问题和机会的同时, 与社区成员交谈 ( 教育培训发展学院 2002) 。 以下是在穿越法中可以观察社区的几个方面: 誗 住房情况 誗 街头儿童 誗 童工的状况 誗 街面小买卖以及卖淫 誗 公共交通的可获得性 誗 非政府组织以及教会组织的类型 第八章摇 选择和构建数据收集工具 llll llllllll 誗 商店的类型 誗 在露天市场所出售的食物种类 誗 卫生条件 誗 男性和女性之间互动的情况 誗 医疗机构的状况 誗 社区设施 设 ( 教育培训发展学院 2002) 计 与 穿越法可以帮助评价人员获得有关社区情况的更综合的感受, 也能帮助他们明确需要 实 进一步调查的问题。 施 工具 2 :记录和二手数据的分析 有时可用现有的数据来回答评价问题。 当使用别人收集来的数据时, 就很有必要知道 这些数据是如何收集到的, 变量是如何定义的, 数据是如何编码以及清理的, 包括丢失数 据、 无回答、 回收率低等问题是如何处理的。 二手数据来源不仅包括先前数据收集活动所 得的信息, 还包括报刊文章、 电视节目、 网页信息、 博客以及在线讨论群。 摇221 使用历史记录 政府机关、 诊所、 学校、 协会以及发展机构是为数不多的积累历史记录的组织。 这些 记录可能是评价活动重要的支持。 机构记录是评价信息的普遍来源。 大多数机构一直在收集整理来自客户以及社区的数 据, 并且已经以内部管理报告、 预算文件、 呈递公共机构或出资机构的报告、 评价或监测 报告的形式总结上报了这些信息。 McCaston (2005) 列出了通常和贫困分析相关的二手数据和信息的类型: 誗 人口统计信息 ( 人口、 人口增长率、 农村 / 城市、 性别、 少数民族、 移民趋势) 誗 歧视 ( 性别、 民族、 年龄) 誗 性别平等 ( 年龄、 种族) 誗 政策环境 誗 经济环境 ( 增长、 负债比率、 贸易条件) 誗 贫困水平 ( 绝对贫困和相对贫困) 誗 就业和工资 ( 正式和非正式的就业) 誗 谋生体系 ( 农村、 城市、 农业、 非农业、 非正式) 誗 农业变量和实践 ( 雨量、 农作物、 土地类型和利用、 灌溉) 誗 健康 ( 营养不良、 婴儿死亡率、 疫苗接种率、 生育率、 避孕普及率等) 誗 公共医疗保健服务 ( 数量、 水平、 设施对人口比率、 不同性别的机会、 种族特性) 誗 教育 ( 成人识字率、 学校招生率、 辍学率、 男女比率、 民族比例) 誗 学校 ( 数量与水平、 学校对人口比率、 不同性别的入学机会、 种族特性) 誗 基础设施 ( 道路、 电力、 电信、 供水和卫生设备) 誗 环境状况和问题 通向结果之路: 有效发展评价的设计与实施 llll llllllll 誗 有害的文化习惯 以上的信息可以在下列资料中找到: 誗 文档和记录 誗 电脑数据库 誗 行业报告 设 誗 政府报告 计 誗 其他报告, 包括先前的评价 与 实 誗 普查和家庭入户调查数据 施 誗 电子邮件列表和讨论群 誗 文件 ( 预算、 政策和程序、 组织结构图、 地图) 誗 报纸和电视报道 为了从文件中获取信息, 评价人员应设计开发一个数据收集工具, 明确确定从文件或 历史记录里面收集什么数据, 以及如何给数据编码。 这样做的目的是要设计开发一个简单 明晰的数据收集工具。 一旦开发了工具, 就需要对工具进行事先测试。 摇222 比如, 想象我们现在要评价参与过政府资助培训项目的重症监护护士是否比其他重症 监护护士的工作更有效。 我们可以使用数据收集工具系统地收集文档中 ( 图 8郾 1) 的相关 数据。 评价人员可以选择一些曾经在政府项目中受训的此类护士所在的重症诊所作为样 本, 并且审查所有护士的记录。 这些记录包括他们的教育背景、 从业时间以及绩效等级。 摇 样本数据收集工具 日期 员工工号: 1郾 最高学历 2郾 注册护士摇 摇 摇 摇 摇 摇 是 摇 摇 摇 否 3郾 完成政府培训 是 摇 摇 摇 否 4郾 如果是, 在哪一年完成培训的? 5郾 在这个诊所当护士有多少年? 6郾 在其他地方当护士有多少年? 7郾 过去五年的绩效等级: 年份: 摇 摇 等级: 年份: 摇 摇 等级: 年份: 摇 摇 等级: 年份: 摇 摇 等级: 年份: 摇 摇 等级: 8郾 在过去五年内获得良好表现奖励: 是 否 如果是的话, 那么在过去五年的获奖次数: 9郾 性别: 男性 女性 10郾 建议: 图 8郾 1 资料来源: 作者 第八章摇 选择和构建数据收集工具 llll llllllll 在审查有关当前活动或业务的文件时 , 评价人员应该核实文件是否准确反映业务情 况 。 观察 ( 如果项目还在进行中的话 ) 和访谈也有相同的作用 。 比如 , 当使用有关一 个培训项目的文件的时候 , 评价人员就要检查一下是否是一周上五天的课 , 上课的材 料是否准备好 , 参 与 者 是 否 如 文 件 所 说 的 那 样 多 元 化 。 可 以 通 过 采 访 对 项 目 的 历 史 、 实施过程都熟悉的人核实材料的准确性 。 根据不同的情况 , 寻找不同角色的人员 , 如 预算人员 、 客户等 , 也比较重要 。 因为他们可以给出不同的信息 , 包括那些在历史中 设 没有记录的信息 。 当观察或访谈都不可行的时候 , 评价人员可以通过审查其支持文件 计 与 来进行核实 。 实 除了文档 , 阅读和分析官方文件也是很有必要的 。 例如 , 如果要评价一个有关政府 施 官员接听群众电话响应率提高的计划 , 那么评价人员就应该查看官方文件来决定以下 几点 : 誗 计划是何时批准的? 誗 在批准文件中计划的目标和目的是什么? 誗 有多少政府工作人员参与了这个计划? 誗 有哪些政府机构或者部门参与了该计划? 摇223 誗 计划进行到哪个阶段了? 誗 采用了什么绩效指标? 誗 计划的预算有多少? 誗 具体实施了什么活动? 使用现有的数据集 一个机构所收集的电子数据集通常会被其他的机构用来重新分析以回答新的问题。 这 类分析叫做二手数据分析。 评价人员通常使用大型的电脑数据库, 比如有家庭入户调查的 数据, 或者某金融中介向中小企业发放贷款的数据库。 在进行二手数据分析的时候, 评价 人员应该关注评价的目的和设计。 在决定是否使用二手数据作分析的时候, 需要考虑以下关键问题: 誗 现有的数据是否有效? 誗 现有的数据是否可靠? 誗 现有的数据是否准确? 誗 反馈率以及数据缺失率是多少? McCaston (2005) 建议要检查以下几点: 誗 拥有数据库机构的资质 誗 清理数据的方法和决策规则 誗 在数据库中信息的年份 ( 当前的还是过时的) 誗 数据是否有意义, 和其他来源的数据是否一致 例如 , 一个评价小组考虑使用一个大型电子管理信息系统中有关从主要政府计划中 获取的大学贷款的数据 。 该计划要求学生的收入必须要低于一定的水平 。 考虑使用这 些数据的评价人员就必须要检查数据 , 保证不符合资质的学生没有获取贷款 。 如果发 通向结果之路: 有效发展评价的设计与实施 llll llllllll 现不符合规定的学生获得了贷款 , 评价人员就需要确定问题是错误输入 , 还 是 由 于 对 要求执行不当 。 评价人 员 还 必 须 要 检 查 符 合 规 定 的 学 生 是 否 确 实 获 得 了 贷 款 , 或 者 是否有学生获得了 多 笔 贷 款 。 评 价 人 员 可 以 先 通 查 一 下 数 据 , 确 定 数 据 库 问 题 的 性 质和范围 。 为了核实数 据 , 评 价 人 员 可 以 电 话 访 问 一 些 学 生 来 确 认 他 们 确 实 收 到 贷 款 , 并且也上了学 。 评价 人 员 还 可 以 和 校 方 核 实 他 们 的 记 录 中 是 否 有 在 校 和 收 到 贷 设 款的纪录 。 计 在使用二手数据的时候要遵守下列流程: 与 实 誗 弄清楚将数据导入你的电脑所需的条件。 有些时候拥有数据库的机构更愿意帮你 施 进行数据分析 ( 如果可能且现实, 并且可操作的话, 最好还是导入文档) 誗 在将数据导入到你的电脑之前, 先检查是否存在病毒 誗 获取数据库结构、 数据字典以及编码方案 誗 通过检验和交叉验证来核实数据的准确性 誗 导入数据的时候要避免产生新的错误 ( 不要重新输入) , 动手检查部分数据以确保 是按照计划导入的 誗 给所有的二手数据做好标记 ( 出版日期, 正确标明作者) 摇224 表 8郾 4 总结了使用现有数据的优点和挑战。 摇 表 8郾 4 使用现有数据的优点和挑战 优点 通常成本较低, 比收集原始数据要快 数据可能并非恰好是你所需要的 挑战 要长期获取数据有困难 需要验证数据的有效性和可信度, 纠正编码错误 摇 摇 资料来源: 作者 工具 3 :观察法 观察法可以成为一个非常强大的数据收集工具。 我们可以观察交通模式、 土地使用模 式、 城市布局、 农村环境、 住房质量、 道路情况或者去乡村诊所看病的人等。 当评价目的是收集基准数据和描述性数据或者是为了记录计划的活动 、 流程或产出 时 , 观察法就是一个很有用的数据收集工具 。 这个方法在很多情况下都是适用的 。 ( 表 8郾 5) 观察法可以是结构化的也可以是半结构化的: 誗 结构化的观察法在进行观察之前就会清楚地确定在什么时间段观察什么对象。 观 察者通常采用清单来给活动计数或者用秒表来给活动计时。 誗 非结构化观察法根据具体情况选择方法, 而且没有事先的计划来明确具体的观察 对象或者时限。 随着情况的逐步展现, 观察者进行观察并且记录。 誗 当评价人员有一个针对观察对象的基本概念的时候, 就可以进行半结构化的观察 第八章摇 选择和构建数据收集工具 llll llllllll 了。 评价人员会简单记录他认为有趣的、 典型的、 不寻常的或者重要的内容。 评价人员可 以持续记录发生的情况或持续关注特定的情况。 结构化观察 Stake (1995) 开发了一个使用结构化观察法的问题导向的观察表 ( 图 8郾 2) 。 许多用 于结构化观察的表格都会使用很多缩略语和符号, 这样表格中就有更多的空间可以收集数 设 据。 我们也可以修改表格来满足特定评价的需求。 计 与 表 8郾 5 是结构化观察中运用表格的又一实例。 该表格用于收集有关儿童沟通技巧的观 实 察数据。 施 摇 表 8郾 5 使用观察法的理由以及范例 使用理由 范摇 摇 例 随机走访学校、 家庭、 农村或者其他场所, 并且着重自己观察而非仅仅提问 观察办公室、 学校、 医院以及其他茶馆的运营和程序, 而非仅仅依赖于报告 为了获取直接信息 非介入性地记录出现的次数, 比如不同民族、 性别以及年龄的群体参与某个特 摇225 定项目的情况 为了 了 解 一 个 正 在 观察并且描述在项目或计划的每一个阶段都有什么活动 进 行 中 的 行 为、 流 观察在操场上儿童之间的互动情况, 家长如何和孩子接触, 老师如何和学生接 程、 出 现 的 局 面 或 触, 医务工作者如何和病人接触, 以及管理层如何和员工打交道 者事件 观察在官员培训计划前后管理者是如何组织业务会议的 观察在市场中所出售的食物以及其他产品 检 查 实 物 证 据、 产 定期地检查某个治污计划中湖泊的岸线 品以及产出 请一批专家来察看牧场的牧草和豆科作物的质量, 查看花园、 时讯、 项目书籍 等等 当书 面 或 者 其 他 数 请一些参与者自愿来观察并且报告计划的完成情况而非让所有的参与者填写调 据收 集 程 序 不 太 可 查问卷 行或 者 不 合 适 的 情 在为新移民开设的培训班中观察情况以及移民们所表达的担忧 况 下, 可 以 提 供 一 请培训老师观察其他老师的上课情况 、 课堂动态 、 学员问题和参与的程度 个其他选择 摇 摇 资料来源: 改编自威斯康星大学合作部 1996 观察时间: 观察者: 学校: 日期: 从摇 摇 到 老师: 男 / 女 年龄 25 35 50 65 年级: 报告书写时间: 直接教导 老师经验: 0—摇 月 学生: 科目: 低———高 通向结果之路: 有效发展评价的设计与实施 llll llllllll 续表 对于科学教育问题的评论: 1郾 对于预算削减的反应 上课概要, 活动 2郾 权威的控制 设 计 与 3郾 老师的准备 实 施 4郾 实践材料 房间的描述 教学法定位 教师目标 参考 写作场所 低—高 教科书 低—高 说教式的 低—高 科学方法摇 0—月 科学场所 低—高 标准测试 低—高 启发式的 低—高 技术摇 摇 摇 0—月 摇226 竞赛场所 低—高 解决问题 低—高 导师式的 低—高 道德, 宗教 0—月 图 8郾 2摇 问题导向的观察表格样本 资料来源: 改编自 Stake 1995 早期沟通 指标 ( ECI) 儿童姓名或 测试日期 ( 月 / 日 / 年) 测试持续时间 ( 分) ( 秒) 表格: 住房或者谷仓状况变化 ( 见以下列表) 主要编码者: 评估者: 地点 ( 画 圈 ) : 家 庭 中 心 其 他 ( 在 注 释 中 解 儿童早期成长与发 释) 育评估研究所 使用语言: 如 果 要 检 查 信 度, 填 写 信 度 编 码 员 的 姓名: 注释: 第八章摇 选择和构建数据收集工具 llll llllllll 续表 手势 发声 单个词语 多个词语 条件列表 开始 W (单个词 翻译 0: 00 G ( 手势) V ( 发声) M ( 多个词语) 语) 语言干预活动工 秒 具包 1: 00 设 G V W M 医疗干预活动 计 秒 精神卫生专家 与 2: 00 社会环境或事件 实 G V W M 秒 教学 施 3: 00 无 G V W M 秒 营养师 4: 00 其他 G V W M 理疗师 秒 主要照顾人 5: 00 G V W M 注册护士 秒 回应式互动 摇227 6 分钟 社工 结束 G V W M 言语 / 语言治疗师 总计 手势 发声 单个词语 多个词语 总分 首要编码员总 体百分比 信度编码员 一致性 一致性 / 一致性 不一致 平均 / 一致性 不一致 不一致性 百分比 决定信度: 1郾 在第一行记录首要编码员的分数 2郾 在第二行记录信度编码员的分数 3郾 在第三行记录他们意见一致的数目 4郾 在第四行记录他们意见不一致的数目 5郾 计算每一个关键元素类别的百分比一致性 6郾 使用全部分数计算总体的百分比一致性 7郾 在不同类别之间计算平均百分比一致性 摇 图 8郾 3摇 结构化观察表格样本 资料来源: 儿童早期成长与发育评估研究所 2008 通向结果之路: 有效发展评价的设计与实施 llll llllllll 半结构化观察法 半结构化观察法没有一个特定的观察计划, 而是仅明确需要观察什么类型的事物 ( 表 8郾 6) 。 设 摇 表 8郾 6 使用半结构化观察法 计 观察内容 举摇 摇 例 与 实 性别, 年龄, 职业, 衣着, 外表, 民族 施 参与者的特点 对主题、 他人、 自身的态度 ( 个体以及整体) 技能, 习惯和知识 参与程度, 兴趣, 权力关系, 决策制定, 学习和解决问题的整体环境支持 互动 程度、 合作与冲突 动作行为 面部表情, 手势, 姿势 摇228 沟通的清晰程度, 团队领导力技巧, 鼓励参与了解团队氛围, 灵活性, 适 计划领导人、 汇报人 应性对主题的知识, 辅助设施的使用, 其他教学 / 学习技巧, 活动的顺序 实体环境 房间 ( 空间, 舒适程度, 合适度) , 设施 ( 饮料等) , 座位安排 计划的产品 展示, 设施, 计划, 小册子, 手册, 时讯 记录观察内容 我们可以至少用三种方式来记录观察内容: 誗 观察指南: 可以记录观察内容的表格。 观察指南实例可参见 Stake (1995) , 威斯 康星大学合作进修部 (1996) 和 Yin (2003) 。 誗 记录单或核查清单: 用于记录观察的表格, 以是或否的形式, 或者有一个评分等 级。 当我们要观察特定的、 值得观察的事物、 人物或特性的时候, 需要使用记录单。 誗 现场记录: 最缺乏结构性的记录观察内容的一种方法。 当观察者注意或者听到重 要的事情时, 会以叙述性、 描述性的方式来记录观察内容。 现场记录包含 “ 收集到的正在进行中的数据, 包括对正在发生的体验和观察到的实 物的描述, 观察对象讲话的记录, 观察者的自身感受和对于被观察物体的反应, 在现场所 产生的见解和解释。冶 ( Patton 2002, p郾 305 页) 根据 Lofland (1971, p郾 102 页 ) 的说法 , “ 现场记录是完成定性分析最重要的决定 因素 。 现场记录是观 察 者 存 在 的 理 由 。 如 果 不 做 现 场 记 录 的 话 , 观 察 者 也 不 用 系 临 现场 。冶 Patton (2002) 探讨了做好现场观察笔记的技巧问题。 他阐述了现场记录所有观察者 认为重要的事项的重要性, 他认为日后的回忆是不可靠的。 观察者应该尽快地记录下有助 于理解当时情况、 环境以及事件的任何信息。 现场记录应该包含描述性信息, 这样在分析 第八章摇 选择和构建数据收集工具 llll llllllll 阶段就可以帮助评价人员回味观察时的情形。 Patton 建议记录基本的信息, 比如观察的地 点、 现场的人员、 实体环境如何、 发生的社交互动以及开展的活动。 Patton 提到了用词具体明确而非笼统的重要性 。 比如像贫穷 、 生气和不安等词就比 较笼统 , 不足以描述清楚 。 此类解释性词语掩盖了事实的真相 , 无法反映出具体细节 问题 。 设 为观察者提供培训和辅导 计 与 Patton (2002, p郾 260 页) 指出具有操作能力的人并一定就是很有技巧的观察者。 他 实 探讨了对观察者进行培训和辅导的重要性, 并且明确了培训观察者的六大部分: 施 誗 学会集中注意力, 观其所观, 闻其所闻 誗 练习描述性的书写能力 誗 掌握现场实地记录方面的规则 誗 知道如何区别细节和细枝末节, 不漏细节, 但不能充斥着细枝末节 誗 使用严格的方法来确认并且三角交叉验证观察内容 誗 报告自身观点的长处和局限性, 要有自知之明, 勇于表明不足之处 摇229 只要具备条件, 就应该使用一名以上的观察者。 所有的观察者都应该参加培训以保证 他们按照事先认同的程序开展观察。 运用观察法收集评价数据前应该先做试点测试。 至少应委派两名观察者前往同一地 点, 在编码表格和评分单上完成他们的现场记录。 在他们完成之后, 比较不同的表格。 如 果有很大出入的话, 就需要提供更多的培训并对有关问题进行解释澄清。 如果差别很小, 那么可以正式采用这种步骤。 表 8郾 7 总结了收集观察性数据的优点和挑战。 摇 表 8郾 7 观察性数据收集的优点和挑战 根据实际的行为而非自我报告或者自我认知来收集数据 优点 收集的数据是实时的, 而非过去的 挑战 抽样、 记录以及解释数据可能比较困难, 收集数据耗费大量人力 摇 摇 资料来源: 作者 工具 4 :调查和访谈 调查是一个收集有关人们认知、 看法、 想法的很好的工具。 在度量行为方面用处就比 较小, 因为人们时常言行并不一致。 调查可以是结构化的, 也可以是非结构化的, 可以当面调查, 通过电话调查, 也可以 请受访者回复邮件或者填写在线表格。 调查可以针对总体中的一个样本, 也可以针对整个 总体。 ( 抽样问题的讨论见第九章) 通向结果之路: 有效发展评价的设计与实施 llll llllllll 结构化调查和半结构化调查 结构化调查是指包括一系列答案选择的调查, 受访者可以从中选择一个或多个答案。 所有受访者需要回答以完全相同方式提出的相同的问题, 并且所给出的答案选择也完全 一致。 设 应该给出多少选项呢? 对于命题型答案, 比如一个国家的宗教、 主要职业、 年龄群 计 体, 选项的数量应该涵盖所有可能的答案。 当需要根据等级范围来做选择的时候, 选择的 与 数字一般是奇数, 受访者就很容易发现中性答案。 ( 有的时候也会使用偶数作为等级, 要 实 施 求受访者在满意和部分满意的等级中做出选择 ) 半结构化调查所问的问题与结构化调查 相似, 但对全部或大部分问题的回答可以是开放式的。 ( 专栏 8郾 6) 专栏 8郾 6摇 结构化和非结构化调查问题 结构化问题的范例如下: 1郾 这个培训对你学习如何评价计划是否有帮助? 摇230 誗 很少或者没有 誗 有一点 誗 还可以 誗 很大 誗 非常大 誗 无法置评 誗 不适用 2郾 所有的村民在离家 500 米之内都有干净的水源吗? 誗 是的 誗 不是 半结构化问题的范例如下: 1郾 你从这个计划评价培训班中学到了哪些你在工作中可以运用的内容? 2郾 村民的干净水源在哪里? 半结构化调查指的是大多数问题为开放式问题的调查。 当评价人员想要有更深的了 解, 或者要明白受访者为什么会持某种特定态度的时候, 半结构化的调查是非常有用的。 半结构化调查应该有一个非常明确的目的。 比起设计涵盖所有可能情形的书面调查, 采用 访谈方式了解某个流程的步骤、 某个社区或团队中不同成员的角色和责任, 或者是某个计 划如何运行的描述等, 通常要更为切实可行。 如果潜在受访者感觉关系融洽, 且提问也很 有趣, 那么他们可能愿意来接受一个小时或者更长的访谈。 相反, 很少有人愿意花上一个 小时来填一份问卷。 在理想的情况下, 每次访谈活动都应该有两名访谈者, 这样就可以互 相比较各自做的记录, 而且也能有助于解决有关访谈内容的分歧。 表 8郾 8 列出了结构化和半结构化调查各自的优点。 第八章摇 选择和构建数据收集工具 llll llllllll 摇 表 8郾 8 结构化与半结构化调查的优点 结构化调查 半结构化调查 更容易设计: 调查包括宽泛的开放式问题, 这样可以弥 更难设计: 调查需要涵盖所有可能的信息 补任何在结构化部分缺失的内容, 减少遗漏的风险 更容易完成: 做选择要比自己写一段叙述 更难完成: 人们要自行完成一份调查问卷是困难的 设 性的答案容易 计 更难分析, 但是提供了丰富的数据; 对于开放式问题的 与 更容易分析 诠释很容易造成偏差 实 当面对大量受访者的时候, 开展起来更有 施 效率 摇 摇 资料来源: 作者 调查的实施方式 最常用的开展调查的方式是: 摇231 誗 电话问卷 誗 通过邮件、 电子邮件和网络分发自助填表的问卷 誗 协助填表的问卷 ( 在发展中地区比较普遍) 电话调查对于了解经历、 看法或者个人对于过程的描述是非常有用的。 当面调查和电 话调查非常相似; 区别仅仅在于开展的方式上面。 自填问卷可以亲自给受访者送去, 或者通过邮件、 电子邮件以及网络寄送。 受访者在 表格上填写答案, 再把完成的表格还给访谈者。 自填问卷的调查应该简短, 完成的时间不 能超过 20 分钟 ( 越短越好) 。 研究表明人们对于非常敏感的问题, 在所有的方式中最有 可能给出真实答案的就是匿名的自填问卷调查。 使用邮件、 电子邮件或者网络比起亲自分发问卷成本要低很多。 调查可以覆盖到任何 有办法接触到这三种方式的地区。 如果一个地区没有正常的邮局服务, 而且电话和网络的 覆盖也有限, 那么调查的参与度就不会很高, 在这种情况下开展的调查, 就会造成比较大 的偏差。 在许多发展中地区, 较低的文化水平决定了这些方法都不是很合适。 协助填表的调查是很多发展中地区典型的一种调查方式, 调查可以是结构化的或半结 构化的, 也可以是混合的。 数据收集人会朗读这些书面调查问卷, 然后记录受访者的回 答。 通常来说, 使用封闭式的问题会更好, 但是也可以在结尾有一到两个开放式的问题。 这些开放式的问题通常会让受访者觉得更舒服, 因为他们可以补充他们认为调查中遗漏的 部分或者可以对调查本身进行评论。 开放式问题有一到两个就足够了, 如果太多就比较累 赘。 这些开放式问题的答案需要花费大量时间去分析, 但其可以提供某些阐述评价主题的 有用的见解和观点。 电脑辅助的电话访谈 ( CATI) 使用互动式的电脑系统在访谈者通过电话提问的时候 提供帮助。 当访谈者开始访谈的时候, 电脑程序就控制指向某个问题或者跳过某个问题。 问题的选择是基于其他问题的答案, 这样就比书面填写问卷更为人性化和精细化。 在访谈 通向结果之路: 有效发展评价的设计与实施 llll llllllll 的时候, 访谈者将数据和简单的编码直接输入电脑系统。 大多数的问题都有多个选项, 所 以访谈者只需要在正确的答案前打钩; 电脑系统将数据转化成编码, 并且储存在数据库 中。 ( UNESCAP 1999) 表 8郾 9 简要说明了调查的优点和挑战。 设 摇 表 8郾 9 调查的优点和挑战 计 优点 受访者可以提出他们的所思所想 与 实 人们可能不能准确地回忆他们的行为, 或者不愿意透露他们的行为, 特别当其 施 挑战 行为是非法或者是有污点时 人们常常言行不一致 摇 摇 资料来源: 作者 设计调查问题 摇232 设计调查问题涉及以下方面: 誗 选择问题 誗 斟酌问题和答案的措辞 誗 将问题排序 誗 调查的版面设计 誗 审核、 翻译及测试问题 选择问题摇 评价人员可以使用开放式或者封闭式问题。 开放式问题不能通过选择答案 或简单应对的方式来应答。 受访者通常不太愿意书写开放式问题的答案。 封闭式问题可以用简单的信息回答。 比如你生日是哪一天就是一个封闭式问题, 因为 答案就是一个, 没有任何细节。 第二类的封闭式问题是两分问题, 比如是 / 否, 对 / 错。 第 三类封闭式问题是多项选择题。 许多专家建议多数使用封闭式问题, 但是在调查结尾包含 一到两个开放式问题 ( Burgess 2001) , 或者在每个问题之后留足空间给受访者写评论。 使用许多种不同类型的问题会使受访者感到困惑。 Jackson 和 Agrawal (2007) 建议在 大多数的调查中问题的形式不要超过三种。 根据生活标准测量调查研究 ( LSMS) ( 世界银行, 1996) , 设计分层的调查问题是很 有帮助的。 ( 表 8郾 10) 采用这种方式, 可以设计出结构合理的问卷。 摇 表 8郾 10 决定问卷内容的过程中不同层次的提炼 程摇 摇 度 描摇 摇 述 确定总体目标 定义目标 ( 为了研究贫困, 为了了解政府政策对于家庭的影响) 确定什么问题是最重要的 ( 食品价格补贴的影响, 政府健康和教育服务可 把握 问 卷 不 同 部 分 之 间 及性或者成本改变的影响, 由于经济结构性调整或者从计划经济转向市场 的平衡 经济之后经济环境变化的影响) 第八章摇 选择和构建数据收集工具 llll llllllll 续表 程摇 摇 度 描摇 摇 述 以教育部门为例, 以下哪一方面是对当前条件下的国家是最重要的: 入学的 确定 问 卷 各 部 分 内 的 水平和决定因素, 出勤率低, 学习, 男性和女性指标的差异; 受教育年数对于 平衡 在正规部门和农业部门就业收入的影响及差异产生的原因; 孩子有教科书或 能够享受学校的午餐或者奖学金; 家长为子女上学必须要付多少费用 设 计 以研究有关教科书可及性的问题为例, 评价人员需要知道教科书涵盖多少 与 门学科; 教科书是能分发给所有学生还是需要共用; 教科书是能够带回家 实 写出 研 究 特 定 议 题 或 计 的还是只能在课堂使用; 教科书是仅仅使用一年还是好几年; 教科书是收 施 划的问题 费的还是免费的; 教科书应该什么时候可以拿到; 从书店购得的教科书比 学校提供的是更好还是更糟 摇 摇 资料来源: 世界银行 1996 区分问题的类型能促使评价人员明确到底要问什么, 并能帮助受访者恰当地回答问 题。 Patton (2002) 描述了六种问题: 誗 经历和行为问题: 为了引发行为、 经历、 行动或活动, 某人做了什么, 或者目标 摇233 要做什么 誗 观点和价值观问题: 目标是要理解人们认知和理解的过程 ( 而非行动和行为) 誗 感受问题: 目标是要引发人们表达自己的感情和看法, 这种问题寻求的是形容词 性的答案, 比如紧张、 快乐、 害怕、 畏惧、 自信等。 所提问题应提示受访者要问 的是他们的观点、 信仰和价值观 誗 知识问题: 询问受访者事实性信息的问题———受访者知道的内容 誗 感官问题: 有关于所见、 所听、 所触、 所尝、 所闻的问题 誗 背景 / 人口问题: 年龄 / 教育程度 / 职业 / 以及受访者的其他特征 斟酌问题和回答选项摇 Patton 的六类问题都可以以现在时、 过去时、 或者将来时的语 态表达。 比如, 一个评价人员可以问: 誗 五年前, 关于艾滋病的治疗你了解什么 ( 过去时) 誗 从今天关于艾滋病的演讲中你学到了什么 ( 现在时) 誗 你想了解有关艾滋病的什么信息呢 ( 将来时) ( Patton 2002) 专栏 8郾 7摇 有关调查问题措辞的建议 以下的建议可以帮助评价人员写好调查问题, 帮助受访者知道评价人员需要什么样 的信息 誗 使用简单的词语, 保证每个受访者都理解相同 誗 避免一题两问, 一题两答 ( 避免在问题或者答案中使用 “ 和冶 , “ 或冶 字样) 誗 问题要避免假设受访者知道某知识。 如果必要的话, 在题目的引子部分提供相 关信息 通向结果之路: 有效发展评价的设计与实施 llll llllllll 摇 摇 誗 要注意问题答案的双重否定 ( 比如, 避免在是否的问题中使用否定式) 誗 选项之间要互相排斥 誗 选项之间要平衡 誗 避免引起反感的, 干涉性的, 或者居高临下的问题 资料来源: TC 评价中心 1997 设 其他资料来源: Foddy (1993) , Flower (2002) , Sue 和 Ritter (2007) 计 与 实 评价问题必须要清晰明确 ( 专栏 8郾 7) 。 如果含糊不清, 受访者可能会觉得自己很无 施 知, 很疑惑, 还可能比较反感。 当谈论到项目、 计划或政策的时候, 评价人员必须要学会 使用受访者所使用的语言、 术语, 而且在设计调查的时候就应该使用这些词语。 评价人员必须要很谨慎, 不能引导受访者给出一个自己想要的答案。 比如, 考虑一下 以下的问题: “ 在接受培训之后, 你的利润增加了多少 ( 如果有的话) ?冶 “ 如果你的利润增加了一点、 较多、 很多或者非常多的话, 你觉得是培训带来的吗?冶 摇234 很显然, 评价者提这样的问题是在引导受访者给出自己想要的回答。 比起询问利润有 否增加, 或者说利润增加的原因, 询问在较长时间内利润的变化趋势更为妥当。 问题措辞上的细微差别可能对于受访者如何应答产生重大的影响。 一些研究人员调查了修饰性形容词和副词的效果。 像通常、 常常、 有时、 偶尔、 很少或者难得 都是在问卷中普遍使用的词语, 但是事实上我们知道每个人对这些词语的理解都是有差别的。 一 些形容词有很高的变化性, 而有些则变化性较低。 以下词组的词义变化性就很大, 在调查中应该避 免使用: 最、 很多、 大多数、 少数、 很大一部分、 大量的、 许多、 一些。 其他的一些词组的变化性 较小, 大家通常都有一致认可的含义, 比 如: 几 乎 所 有、 基 本 上 所 有、 几 乎 没 有、 基 本 上 没 有 ( Statpac 2007) 。 Frary (1996) 提出了几个有效地设计问卷的建议。 他对于答案选项的划分有如下 建议: 誗 从左到右, 将答案从低到高排列: (1) 从不 (2) 很少 (3) 偶尔 (4) 频繁 誗 如果受访者不太可能选择 “ 从不冶 , 而且如果 “ 很少 冶 与 “ 从不 冶 的含义就基本 上是相同程度的, 那么可以合并选项: (1) 从不或很少 (2) 偶尔 (3) 频繁 誗 让受访者从正负两个方向进行评分, 这样一来, 受访者就必须评价每一个选项, 而非统一地同意或者不同意所有选项 誗 如果可能的话, 减少可供选择答案的数量。 如果受访者的观点可能比较明确的话, 那么就使用简单的 (1) 同意 (2) 不同意。 当许多受访者的观点不是很鲜明的时候, 可以 使用更多选项 (1) 同意 (2) 倾向于同意 (3) 倾向于不同意 (4) 不同意 在拟好问题之后, 评价人员应该通读每一个问题和选项, 检查语言和逻辑性, 如语法 是否正确, 选项和问题之间是否有逻辑性等。 设计评价的问题是很难的, 因为需要让每一个人都理解这些问题, 而词语却有多重含 第八章摇 选择和构建数据收集工具 llll llllllll 义和隐含意义。 如果提问的方式让别人无法理解或者可以用很多种方式来理解, 那么受访 者等于在回答不同的问题。 同样, 我们还会遇到收集无用数据的风险。 比如一个机构领导 想要了解他的机构中员工参加了多长时间的计算机培训, 我们可以问以下几个问题: 誗 你在过去三个月中有没有参加任何培训? 誗 你在过去六个月中有没有参加任何培训? 誗 你在过去一年中有没有参加任何培训? 设 这一组问题的缺陷在于任何一个在过去三个月中参加过培训的人对于以上三个问题的 计 与 答案都是 “ 是冶 。 实 设计得更好的问题可以这样提问, “ 在以下的每一个阶段你参加了多少培训课程?冶 施 a郾 在过去 1 ~ 3 个月内: b郾 在过去 4 ~ 6 个月内: c郾 在过去 6 ~ 9 个月内: d郾 在过去 10 ~ 12 个月内: e郾 在过去 12 ~ 24 个月内: 措辞不当的问题可能会让受访者觉得无从下手, 致使他们随意猜测答案甚至放弃调 摇235 查。 由于设计不当的问题在分析阶段也无法挽回, 所以评价问题一定要设计恰当。 评价人 员应该留出足够的时间来审核调查, 以及做好事先测试工作。 在调查过程中, 一定要做好保密性和匿名性的工作。 保密性是一个保护信息的道德原 则, 以确保只有被授权的人员才能接触到信息。 匿名性意味着有关受访者的个人身份或者 个人信息不会被泄漏。 许多评价人员在调查中都会包含一个声明, 比如 “ 您的回答将会 被保密, 数据使用将保证您的身份不会和任何具体的公开数据相关冶 。 ( Burgess 2001) 将问题排序摇 将问题按照下列顺序排列可以增加受访者完成调查的几率: 誗 开头的问题应该和受访者相关 誗 问题的推进应该有逻辑性, 避免复杂的交叉 誗 将相似或者相关的问题放在一起, 努力建立问题之间的逻辑顺序 ( Burgess 2001) 誗 问题的顺序应该从容易有趣到复杂、 尖锐, 从一般到具体 ( Jackson and Agrawal 2007) 誗 问题应该按照时间先后排列 ( Jackson and Agrawal 2007) 誗 在调查进行到 2 / 3 的部分, 提出最重要的问题, 因为有些受访者可能不会完成全 部问卷 ( Jackson and Agrawal 2007) 誗 在调查结尾询问个人或者机密的问题———如果这些问题出现在开头, 那么受访者 可能就不会继续答题 ( Frary 1996) 誗 按优先顺序排列问题, 并且考虑去掉那些次要的问题 ( Jackson and Agrawal 2007) Jackson and Agrawal (2007) 建议大多数的自填型问卷不能超过一页。 对于有大学教 育背景的受访者, 可以延长到两页。 调查的版面设计摇 印刷出来的调查问卷的版面应该要考虑以下几个方面: 誗 调查表应该写明主题和版本的时间 誗 调查表版面整洁, 没有不必要的标题 通向结果之路: 有效发展评价的设计与实施 llll llllllll 誗 调查应该有一个简单的引言性说明 ( 以防简介函没有放到位) , 这样可以说明调查 的目的以及调查的用处 誗 问题和选项的格式和措词应该统一。 每一个问题都应该标号 誗 调查表应包括答题指南, 明确答案可以选多少 ( 只有一个, 还是所有合适的答案 都要选) , 并说明如何标记选项 ( 是在方框内打钩, 还是圈出答案, 或者书写一个简短的 设 答案) ( Burgess 2001) 计 Jackson and Agrawal (2007) 建议使用在方框内打钩的方式或者画线的方式来回答问 与 实 题, 问题之间要留足空间。 让调查版面设计看起来更加专业也是非常重要的。 施 调查问卷都应该配有简介函用以介绍资助方, 并且告知参与者有关问卷目的的信息。 Jackson and Agrawal (2007) 建议简介函包括如下内容: 誗 调查的目的 ( 及受访者基于何种利益考虑应完成调查) 誗 如何选择受访者 誗 将来会如何使用数据 誗 是否会保持调查的匿名性 誗 完成调查所需要的时间 摇236 誗 有无任何激励措施 誗 联系信息 ( 如需要更多信息或澄清的话) 如果调查问卷是通过邮局寄送, 则需要在信封中放好邮票和回寄地址齐全的新信封以 回收问卷, 也可以采取其他既定流程回收问卷。 审核、 翻译及测试问题摇 调查问卷设计是一个重复性的过程。 一旦起草好调查的最初 版本, 应请相关的各方仔细审阅初稿。 在审阅阶段, 相关方应做好批注, 并分享交流他们 的意见和建议, 然后吸收相关方的意见对调查作出修改。 这个过程可能在测试调查问卷前 需要重复好多次。 如果说收集数据需要用到一种以上的语言, 那么就必须要翻译调查问卷。 负责调查的 人员必须保证翻译是准确到位的。 翻译调查问卷的第一稿应找一位受过培训的既懂语言也 熟悉问卷主题的人来完成。 ( 见 Behling and Law 2000) 一旦调查问卷的翻译工作完成, 另 外一位人员应该将它翻译回初始语言。 这个过程可以检查在翻译的过程中是否有什么歧 义。 这也是唯一保证翻译准确无误的办法。 在开始对调查问卷的任何测试前, 问卷的所有 歧义都应该消除。 在大多数情况下, 调查问卷的印刷版都应该使用该国的官方语言。 数据收集的访谈团 队应该能够使用多种当地的语言来沟通。 在很多情况下, 访谈者会将一些关键的问题翻译 成当地语言, 并且在调查手册中列出。 在调查说其他语言的受访者时, 可能需要用到当地 的翻译。 调查的问题应始终保持措辞简洁 。 问题的设计不应该采用学术或者正式语体的语言 风格 。 在一些本土语言中 , 书面和口头语言之间的差别 , 以及力求语言简练和意思准 确之间平衡 的 难 度 可 能 都 是 比 较 大 的 。 对 于 一 些 书 面 不 常 用 的 语 言 , 这 个 问 题 尤 其 突出 。 一旦对调查问卷达成一致意见, 应该对其进行实地测试或者试点测试。 实地测试的结 第八章摇 选择和构建数据收集工具 llll llllllll 果可以帮助对问卷调查做进一步修改。 如果第一次实地测试后需要作很多改动, 那么就需 要作第二次实地测试, 测试内容可以是全部调查问卷, 也可以是其中有问题的部分, 尤其 是有翻译问题的地方。 在做调查和访谈之前 , 应尽早进行数据收集工具的实地测试或者试点测试 。 也就是 说 , 需要寻找一小批具有代表性的潜在受访者来参加调查并且指出什么地方还需要进 一步说明 。 有一种比较有用的 策 略 就 是 在 受 访 者 完 成 的 同 时 请 他 们 说 出 自 己 的 理 由 。 设 这个方法可以了解潜在的受访者是如何理解题目的 。 经常会发生的一种情况就是调查 计 与 设计者认为很清楚的题目会出乎意料地被受访者认为是很困惑或者模棱两可的 。 如果 实 受访者对问 题 有 误 解 的 话 , 评 价 人 员 就 需 要 修 改 问 题 , 并 且 在 实 施 调 查 前 对 其 重 新 施 测试 。 实地测试的目的是为了保证调查可以收集到评价人员需要的数据。 一个好的试点测试 会从三个层面来考察调查问卷: 誗 整体层面: 调查问卷的所有部分是否具有一致性? 有没有哪些题目其实是问了同 一个问题? 誗部分层面: 如果调查有好几个部分, 那么每部分所收集的信息是否就是需要的信 摇237 息? 调查是否涵盖了所有的主要活动? 有没有任何问题是不相关的? 誗 问题层面: 问题的措辞是否清晰? 问题是不是会引起含糊的答案? 有没有对问题 的其他诠释? 当进行实地或试点测试的时候, 参加测试的对象一定要是来自分散的地区, 涵盖所有 主要语言及社会经济群体。 这就意味着包括农村和城市居民, 正式就业人员和非正式就业 人员, 以及所有主要语种的人群。 如果试点测试是用一种语言来进行的, 通常大约需要一周时间完成。 如果最终的调查 问卷将以多种语言来进行, 那么就需要花费更长的时间来测试, 因为每一种语言版本的调 查问卷都需要进行实地测试。 在试点测试的最后阶段, 需要留有一到两个星期来分析测试结果。 进行实地测试的团 队应该要开碰头会, 并且对需要修改的部分达成一致。 对于一个典型的大规模的调查而 言, 通常需要做三轮试点测试。 专栏 8郾 8 和 8郾 9 提供了开展调查的指南。 专栏 8郾 8 侧重于实施的流程, 专栏 8郾 9 则主 要介绍如何写好问题。 专栏 8郾 8摇 开展调查的一般原则 以下是开展调查的一般原则: 誗 调查问卷要简单、 清楚、 明了、 简短 誗 找出其他开展过你所感兴趣评价的人员, 研究和你所要进行的类型相似的调查 誗 保证受访者知道为什么被邀请参加调查 ( 但是所选择的方式要尽量不会引起受 访者答案的偏差) 誗 问题要容易回答, 不要强求受访者给出很清晰的答案 通向结果之路: 有效发展评价的设计与实施 llll llllllll 摇 摇 誗 不要问受访者那些他们必须要去翻阅文件或者寻找其他途径才能获取的信息。 如果你一定要这样做的话, 应该要在调查前就事先告知他们让他们做好准备 誗 尊重受访者的隐私。 调查的内容要保密, 要有一整套程序来保证私密性。 如果 没有能力做到, 就不要承诺保密性 誗 珍惜受访者的时间, 尊重他们的智商 设 誗 告诉受访者是如何选中他们的, 为什么他们的参与很重要 计 与 誗 不要伤害受访者: 保持答案的保密性。 在你的报告中, 使用汇总的答案。 为所 实 有数据都编好识别号码, 除去能关联到受访者姓名的内容 施 誗 让受访者知道能否得到使用了问卷调查结果的最终报告 资料来源: 作者 专栏 8郾 9摇 写好调查问卷的建议 以下建议可以帮助评价人员设计好调查问卷: 摇238 1郾 如果可能的话, 可以参考现有的调查问卷, 对其进行修改来符合你的需求。 修 改比另起炉灶要容易得多。 2郾 遵循下列基本方针: 誗 使用适合于受访者的简单、 明了、 恰当的语言 誗 一次问一个问题, 比如, 资料清楚的程度? 而不是说资料是否清晰而有用? ( 如 果资料清晰但是没有用的话, 受访者就没法给出一个准确的答案了。) 誗 提问的形式要让受访者觉得可以接受, 问题的导入可以给出一个范围, 比如 “ 如果有的话, 是何种程度冶 或者 “ 多么重要或多么不重要冶 誗 提供互相排斥的合适的选项类别, 比如当问到年龄群体的时候, 选项类别可以 是 : 20 ~ 30 , 31 ~ 40 , 41 ~ 50 而非 20 ~ 30 , 30 ~ 40 , 40 ~ 50 誗 如果可能的话, 选项的排列从负面到正面: 从何种程度上……, 很没有用饮…寅很有用 誗 如果答案不是两分式的, 就要避免是 / 否的选项。 可以给出一个数值范围让受访 者选择, 这样可以获取更广泛的观点。 比如可以设定 1 ~ 5 个等级, 所代表的含 义可以从很小或几乎没有到很大程度上 誗 在数值范围的两端要避免绝对的答案 ( 很少有人在任何事情上都是非常绝对 的) 。 可以在一端表示 “ 总是或者基本上总是冶 , 在另外一端用 “ 从不或者基本 上从不冶 誗 询问有关当前状况的问题。 记忆总是随着时间的推移慢慢淡化 誗 留给受访者放弃回答的选项 ( 比如 “ 没有依据可以判断 冶 或者 “ 没有意见 冶 ) 。 如果你不提供此类选项, 那么受访者可能就会随便选择 誗 避免使用双重否定 第八章摇 选择和构建数据收集工具 llll llllllll 摇 摇 3郾 调查问卷要易于完成。 提供可以选择的方框, 以及充分的说明让受访者知道如 何完成; 要说明是只能选择一个还是选择所有合适的选项。 4郾 先问一般问题, 然后问特殊问题, 最后再问开放式问题, 比如有无评论或者任 何你觉得我们应该知道的问题? 5郾 如果要问有关个人的信息, 仅仅问你所需要的, 因为有时候可以根据个人信息 设 来判定问卷是某人所填。 将这类问题放在问卷最后。 计 6郾 请专家审阅问卷的初稿。 与 7郾 如果需要翻译问题, 先翻译, 然后再翻译回原始语言来检查翻译质量。 实 施 8郾 测试、 测试、 再测试! 请典型的受访者来做一下问卷, 而不是简单地读一遍。 每个问题是否清楚? 受访者是否明白问题在问什么? 有没有任何不知道的词语或者不清 晰的句子? 有没有更好的提问方式呢? 资料来源: 作者 公民报告卡 摇239 公民报告卡有时也叫做公民记分卡, 是度量公共服务绩效的一种调查方式。 目前其运 用也越来越广泛。 比如在印度的班加罗尔, 就有一群公民正在使用这种方法来解决公共服 务的问题 ( Paul and Thampi 2008) 。 公民报告卡在美国已经使用多年, 主要用于评定公共 机构的绩效等级。 使用公民报告卡的目的是: 誗 收集公民作为公共服务的实际使用者对于服务的反馈 誗 评估个人服务提供者的绩效或者比较不同服务提供者的绩效 誗 建立服务反馈数据库, 供公共使用 ( ADB and ADBI 2004) 表 8郾 11 是一份报告总体服务满意度的公民报告卡范例。 公民报告收集以下方面的反馈: 誗 服务的可得性 誗 服务的可及性 誗 服务的可靠性 誗 服务的总体质量 誗 服务的满意度 誗 服务提供者的响应性 誗 隐含成本 誗 腐败和支持体系 誗 支付意愿 ( 世界银行 2006) 公民报告卡可以用在很多方面 ( 表 8郾 12) 。 可以在政府的不同层级运用公民报告卡 制度。 表 8郾 13 总结了使用公民报告卡来收集数据的优点和挑战。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 摇 表 8郾 11 有关基础设施服务满意度的公民报告卡汇总结果 受访者 之 中 服 务 用 户 的 数 机构 满意用户的百分比 不满意用户的百分比 量 ( 以千计) 电力 1 024 43 15 供水 775 41 19 设 电话 203 87 12 计 警察 98 45 36 与 摇 摇 资料来源: 作者 实 施 摇 表 8郾 12 公民报告卡的使用 研究或项目类型 举摇 摇 例 对于城市服务满意度的研究 七个印度城市; 乌干达的坎帕拉 对于省级和国家级服务提供的满意度研究 印度, 菲律宾, 乌干达 部门研究 印度班加罗尔的公立医院 在泰米尔纳德邦的农村食品安全问题, 在马哈拉施特拉 项目评价 摇240 邦农村饮水和卫生设施问题 治理改革项目 孟加拉国, 秘鲁, 菲律宾, 斯里兰卡, 乌克兰和越南 摇 摇 资料来源: 世界银行 2006 摇 表 8郾 13 公民报告卡用于数据收集的优点和挑战 誗 提供有关绩效的总结性反馈 优点 誗 易于沟通 誗 有助于减少数据收集过程中的偏差 誗 需要理解此类评估的能力 誗 局限于服务之间的比较 挑战 誗 若总体中仅有一小部分人使用服务, 且总体具有异质性, 则需要大量样本 誗 难以预测政府官员会如何回应 摇 摇 资料来源: 作者 访谈 访谈是指一个有经验的访问者和受访者之间的对话, 其目的是为了获取能够回答评价 问题的信息 ( 专 栏 8郾 10 ) 。 所 获 信 息 的 质 量 很 大 程 度 上 取 决 于 受 访 者 的 技 巧 和 个 性 ( Lofland and Lofland 1995) 。 进行一次成功访谈的关键在于要做一个好的倾听者和提问者。 每一种文化都有自己的价值观和习俗: 某些问题或者手势可以为一种文化接受, 但却 可能会冒犯到另一种文化的受访者。 访谈者对文化的了解是一个必备的要素, 在访谈的过 程中应该时刻注意没有在无意间冒犯了受访者 ( 专栏 8郾 11) 。 在和不同文化背景的人打交道的时候, 访谈者必须要注意以下几点: 誗 每个人都希望得到尊重 誗 即使受访者所在的文化崇尚自我牺牲和社会利益, 他们同样也希望个人的自我价 值被认同 第八章摇 选择和构建数据收集工具 llll llllllll 誗 每个人都喜欢自己的意见被重视 专栏 8郾 10摇 开展访谈活动的建议 以下的建议可以帮助评价人员开展访谈活动: 1郾 让受访者知道 设 誗 访谈活动的目的和时间 计 与 誗 为什么选择他们作为访谈对象 实 誗 将如何使用数据 施 誗 访谈内容是否会保密 誗 访谈将耗时多久 誗 访谈的内容 ( 事先告知访谈的问题) 誗 是否还会再次与他们交谈 誗 受访者是否能得到一份最终的报告 誗 如果需要的话, 访谈者所做记录的摘要能否给受访者 摇241 2郾 尽量选择一个不被打扰的时间和安静的地点 3郾 最理想的情况是能够有另一个人帮助来做访谈记录 4郾 考虑将访谈过程录音。 如果要录音的话, 请事先得到受访者的许可 5郾 严格遵照访谈大纲。 如果问的是封闭式问题, 那么就一字不差地提问。 如果问 的是开放式问题, 那么就要 “ 顺流而下冶 而不应总是引导谈话 6郾 注意文化规范, 比如眼神交流, 直白程度以及性别问题 7郾 保持平衡。 比如, 如果问了受访者对项目的主要支持因素的看法, 接下去就应 问他们对主要障碍的看法 8郾 避免询问 “ 为什么冶 之类的问题, 这样的话, 会显得比较强势或者带批评的意味 9郾 要以感同身受的态度来回应受访者的回答, 而不是做出评判 10郾 做好笔记, 但是谈话的时候不要分神 誗 在记录的时候也要保持眼神交流 誗 如果觉得受访者的话值得记录的话, 可请受访者重复一遍或者在做完记录之后 再提出下一个问题 誗 如果受访者说的话值得引用的话, 则应询问受访者能否使用其原话 11郾 整理访谈记录 誗 记住每个词或者想法都有可能是有价值的 誗 花时间仔细深入地对访谈记录进行整理 誗 在访谈结束后, 至少要立即对记录的内容作简单整理 ( 留足访谈间隔的时间) 誗 在访谈的当天要整理全部记录 12郾 在敏感的情况下, 要考虑和受访者交流一下记录的内容, 确定记录是准确的 资料来源: 作者 通向结果之路: 有效发展评价的设计与实施 llll llllllll 专栏 8郾 11摇 开展跨文化访谈的建议 以下的建议可以帮助评价人员在发展中环境下开展访谈: 1郾 在开始访谈之前, 多了解受访者的文化背景 2郾 和熟悉文化背景的人讨论一下访谈技巧, 或者使用和受访者文化背景相同的访 设 计 问者 与 3郾 了解尽可能多的文化特点, 比如 实 誗 受访者和访问者之间应该保持多大距离 施 誗 在谈话过程中音调变化、 头部动作, 或者其他身体语言的重要性 誗 合适的着装方式 誗 合适的问候形式 誗 性别角色 性别问题特别重要。 在一些文化中, 让一位男性访问者单独访问一位女性受访者就 可能不是很合适。 在某些文化中, 当女性访谈者访问男性受访者时, 受访者可能保持缄 摇242 默。 在这种情况下, 使用同性的访谈者或者请一位异性来做观察员就是必要的。 表 8郾 14 总结了访谈的优点和挑战。 摇 表 8郾 14 访谈的优点和挑战 誗 可以是结构化的、 半结构化的、 松散的或者是混合的, 但是基本上是半结构化的 誗 可以深入挖掘复杂问题 誗 允许犯错: 不清晰的问题在访谈的时候可以澄清, 在接下来的访问中就可以纠正之 优点 前的错误 誗 可以持续 1 个小时或更长, 依赖于访谈的重要性和兴趣 誗 可以为评价人员提供有关具体情况的直观感受 誗 可能成本很高, 很费人力和时间 誗 可能不能说明为什么不同人有不同的观点 挑战 誗 由于访谈者可能听对自己有利的内容, 因此可能会遗漏某些并不符合访谈者原先所 持观点的信息 誗 需要有文化的敏感度, 特别是有关性别的问题 摇 摇 资料来源: 作者 响应率 响应率是实际参加的人数占要求参加活动的人数的百分比。 一项有质量的评价活动应 提供被调查人数 ( 或者机构) 、 响应的人数、 响应率以及对为了增加响应率而采取的努力 ( 后续电话、 信函) 的描述。 低响应率可能说明样本有偏差 ( 自选) 。 造成这个问题的原因在于选择参加的人群和 第八章摇 选择和构建数据收集工具 llll llllllll 选择不参加的人群可能在本质上是不同的。 比如一个机构在全体员工中开展了有关于员工 态度的调查, 只有 30% 的员工有反馈。 如果那些最不满的员工都倾向于参加调查, 而感 到满意的员工没有参加, 那么在没有收集参加和未参加人群信息的情况下, 单凭调查的结 果来做出决定就有可能是一个错误。 除非评价人员研究了响应偏差问题, 并且能说明调查 的有效性, 不然响应率低于 70% 的调查都不应被报告。 ( Jackson and Agrawal 2007) 评价人员要观察调查响应者的人口统计特征, 以便判断他们的年龄和性别等特征是否 设 与总体相一致。 如果是一致的, 则评价人员可继续推进评价工作。 有时评价者也可直接追 计 与 踪某些响应者以确定响应人群是否存在某些特征。 如果调查响应者和未响应者的人口统计 实 特征是不同的, 则对调查的结果就应做适当的限制。 评价人员应当汇报对未响应者的此类 施 分析, 并说明其可能对评价结果产生的影响。 如果说调查的响应率低, 那么报告调查结果的时候就应该说明参与调查的人数, 从而 使人们认识到调查结果不一定能准确地反映更大范围的群体。 也就是说数据的表达方式应 该为 “ 在所有的 87 名参与调查者中 冶 或者 “75% ( N = 60) 的受访者报告说 ……冶 。 如 果说参与调查的人数少于 50, 那么就不应该用百分比来表示。 因为调查参与者中 75% , 运用于总响应者为 45 人或 3 000 人时, 两种情形的差异是很大的。 摇243 工具 5 :专题小组 专题小组是一种定性的评价方法, 其形式是召集小组人员在主持人的指导下就专门问 题进行讨论。 专题小组的结构可能看起来不是很正式, 不过, 实际上它是依据一份含有一 套开放式问题的手册来进行的。 有经验的主持人能够引导讨论, 并且深入探究问题或者根 据情况需要提出额外的问题。 小组讨论的过程一般比起个人的访谈能够获取更多的信息, 因为人们会相互表达不同 的观点并且参与到对话中来。 但是专题小组不是简单的群体访谈。 主持人要协调参与者之 间的对话, 探究小组成员的理由和感受。 谈话的内容通常是非线性的, 参与者可以在任何 时候提供信息或者不同的观点。 专题小组用于收集以下方面的信息: 誗 小组互动 誗 复杂的资源问题 誗 “ 如何冶 和 “ 为什么冶 的问题而非 “ 是否冶 和 “ 多少冶 的问题 誗 有上下文联系的回答, 而非是 / 否的回答 誗 复杂的行为和动机问题 誗 观点的强烈程度 誗 有关敏感问题的观点 ( Billson and Lonson 2004) 专题小组可以用来三角验证其他方法, 或者如果受访者不太喜欢机械的答题模式, 专 题小组也是一个很有用的方法。 专题小组不是用来收集统计性数据的, 在下列情况下, 专题小组是不适用的: 誗 不能克服语言障碍 通向结果之路: 有效发展评价的设计与实施 llll llllllll 誗 评价人员不能控制小组的局面 誗 不能建立相互信任 誗 不能保证自由的发言 誗 保密性非常关键 ( Billson 2004) 专题小组人数通常为 6 ~ 12 人。 组员构成取决于开展专题小组的目的。 大多数专题小 设 组是同质性的, 参与者身份相似 ( 教师是一组, 学生是另一组; 管理者是一组, 雇员是 计 另一组) , 谁应该或者不应该在同一专题组取决于相关的情况和文化。 不能由于专题小组 与 实 成员的选择而导致评价结果的任何偏差。 如果预见到某些类别的参与者的反馈可能改变或 施 放大调查结果, 那么就不能忽视这些参与者。 要是存在这种情况, 就应该将这些潜在相关 的群体组成另外的专题小组。 专题小组应该提供: 誗 舒适、 安全的环境 ( 必须) 誗 茶歇 ( 必须) 誗 金钱激励 ( 可选) 誗 交通或者幼托安排 ( 可选) 摇244 誗 有经验的主持人 ( 必须) 誗 记录员 ( 可选) 专题小组会议可以录音, 最好能为每节会议准备好一份原始记录。 专题小组开头需要 明确地说明: 誗 专题小组的目的 誗 为什么参与者的观点很重要 誗 如何选择参与者 誗 专题小组是什么 誗 专题小组的规则, 其中包括核心规则, 即不会将谈话内容外传 主持人需要引导整个流程, 使小组注意力专注, 保证每位参与者都有机会发表自己的看 法而不是少部分人主导谈话。 主持人根据为每一节专门准备的指南提出一些问题。 所有的问 题都是开放式的。 谈话由简单、 交谈型的问题逐步进入更严肃的问题, 最后会对谈话进行总 结, 并且提出收尾问题, 以便小组成员能够更正某些看法或记录更多的评论和观点。 评价人员对于专题小组的所有方面都要负责, 包括: 誗 谁应该参与专题小组 誗 专题小组应该安排多少次会议 誗 在哪里进行会议 誗 什么时候举行会议 誗 问参与者什么问题 誗 如何分析和报告数据 一个典型的专题小组项目需要提前准备 6 ~ 8 周时间。 时间的长短取决于后勤因素、 项目的复杂性和紧急性, 以及决策者的可及性和招募参与者的难易程度。 如果按照以下方式开展专题小组, 效果最佳 ( Billson 2004) : 第八章摇 选择和构建数据收集工具 llll llllllll 誗 第一步: 澄清关键评价问题。 如果客户和评价人员不清楚专题小组应该要回答的 关键问题的话, 那么整个过程就可能很令人沮丧 誗 第二步: 设计评价方法。 概括评价目的和关键问题, 设计总体方法并围绕关键问 题涉及不同的话题 誗 第三步: 制定主持人指南, 包括评价中所需要的规则 ( 结构或者行为规范) , 主持 人不应对参与者的回答有倾向性, 但是要起到引导小组讨论关键问题的作用。 设 誗 第四步: 招募参与者 计 与 誗 第五步: 明确主持技巧。 在专题小组中使用好的主持技巧 实 誗 第六步: 向观察者、 评价人员以及客户简要报告, 记录额外的信息。 在每一个专 施 题小组之后, 马上和客户以及其他相关方交流专题小组讨论中所获取的见解看法。 记录没 有公开讨论的额外信息 ( 感受、 总结等等) 用于下一步的工作。 誗 第七步: 分析数据。 如果专题小组进行得顺利的话, 那么就会产生一大堆的记录。 这些定性的数据需要特殊的分析技巧, 特别是内容分析 ( 见第九章) 。 誗 第八步: 报告结果。 要以对他人, 特别是客户有意义、 有用的方式来报告结果。 使用口头、 书面或者录像的形式, 或者结合运用这几种方式。 摇245 专题小组会议通常需要一到两个小时。 对于大多数的项目而言, 100 分钟的时间可以 完成主要的问题, 并且参与者和主持人也不会觉得太疲劳。 ( Billson 2004) 。 专题小组不 能安排过多。 一个主持人一天最多主持两到三个专题小组会议。 专题小组应该在中立的环境下进行。 如果可能的话, 要选择比较方便的地点。 典型的 专题小组形式是参与者围坐在一张桌子前或者将座位围成一个圈, 这样可以帮助参与者互 相交流。 在专题小组进行的时候, 可以让一些观察员在场, 但是在开始的时候需要介绍这 些观察员, 并且说明他们在场的理由。 专栏 8郾 12摇 设计专题小组问题的小建议 以下的建议可以帮助评价人员从专题小组中获取最大的价值: 誗 先考虑将如何使用从专题小组中收集来的信息, 保证所有 规程漏斗 的问题都能直接或者间接地引向有用的信息 誗 避免含糊、 让人困惑的措辞 誗 每次提一个问题 大的概念 关键评价问题 誗 问开放式的问题 一般性问题 誗 避免有引导性和误导性的假设 特定问题 誗 避免会带来答案偏差的问题 彻底调查 誗 避免提供选择性答案 誗 让专题小组变得有趣。 机械的提问只能得出机械的回答 誗 使用 “ 规程漏斗冶 , 从比较大的概念性问题逐步转到探究 性问题 资料来源: Billson 2004 通向结果之路: 有效发展评价的设计与实施 llll llllllll 录音或者录像能帮助提供专题小组准确的记录稿。 大多数参与者很快就忘记了他们正 在被录像。 如果专题小组会议没有录像的话, 那么应该安排两个记录员来记录对话内容。 在电脑上记录可以加快原始数据的分析和报告的撰写。 主持人不应该做记录。 没有一个规定明确要开多少节专题小组会议。 通常的做法是持续出现同样的主题或者 说没有新的信息出现。 通常进行三到六节会议后出现上述情况。 每一个专题小组可以问一 设 组核心问题, 然后可以增加一些其他问题或者探究更广泛的问题。 评价人员应该在每节会 计 议之后互相交流信息, 这样就可以决定是否要在之后的专题小组中对流程做出调整。 与 实 评价人员应该要考虑参与者的日常活动: 必须注意参与者时间的投入, 包括往返时 施 间。 参与专题小组可能需要花去半天或者更多时间。 如果专题小组安排在下午那么就可能 要影响别人准备晚餐, 因此减少了本来愿意参加的人数。 采用专题小组方式需要大量的准备工作和提前期。 专栏 8郾 12 提供了如何写好专题小 组问题的建议。 专题小组会议可以被分成四个不同的阶段。 这些阶段以及每一个阶段的步骤都在表 8郾 15 中有所表示。 摇246 摇 表 8郾 15 专题小组的四个阶段以及主持人的相应任务 阶摇 摇 段 任摇 摇 务 主持人通过破冰问题让参与者感到轻松自在 主持人解释专题小组的目的 I郾 开场白 主持人讲述基本规则 每个在场人员做自我介绍 参与者联系自己的经历和角色思考主题 II郾 介绍和准备活动 主持人促进小组互动和对主题的思考 主持人从最不尖锐最简单的问题开始提问 主持人引入比较尖锐或者敏感复杂的问题 III郾 小组讨论的主要 主持人引导参与者给出更深层次的答案 部分 将逐步浮现的数据联系起来以便进行复杂的、 整合性的数据分析 主持人以收尾式的问题结束专题小组 主持人总结并且提炼关键主题 主持人为了获取参与者的回应, 肯定或者澄清、 纠正某些内容, 向小组成员介 IV郾 收尾 绍理论、 印象或者是直觉 主持人邀请参与者提供最后一轮的点评或者自己的见解 ( 所学到 的 关 键 经 验) , 以及任何遗漏的内容或者参与者喜欢让评价小组获悉的信息 主持人感谢大家, 如果事先承诺有酬劳的话, 当场分发 摇 摇 资料来源: 作者 专栏 8郾 13 专题小组问题示例说明了评价人员可以选择的问题类型。 第八章摇 选择和构建数据收集工具 llll llllllll 专栏 8郾 13摇 专题小组问题示例 以下的讲话稿对于专题小组会议期间的提问非常有帮助: 介绍: 我们现在开始, 请大家先做一个自我介绍。 请说明自己的头衔, 你所工作的 单位, 你来自哪里, 以及你对这个医疗诊所项目中所提供服务的评价, 包括你为何去这 设 些诊所。 计 有关于认识的问题: 免费医疗项目的批评者说这些诊所提供的医疗服务质量很差。 与 你在这些免费诊所就诊的经历是怎么样的呢? 实 施 有关于治理的问题: 最近的调查显示地区当前的预算并没有覆盖到本地诊所。 根据 你在这些诊所中就诊的经历, 你对这类问题的评估是怎么样的? 资料来源: 根据 Billson 2004 改编 表 8郾 16 总结了专题小组的优点和挑战。 摇 表 8郾 16 专题小组的优点和挑战 摇247 开展起来相对容易和快速; 比起深入的当面访谈, 所占用的人力时间可能更 优点 少; 在进行的过程和问题方面都可以有一定的灵活性, 可以进行调整; 可以探 究不同的角度; 对于参与者来说比较有趣 分析数据非常耗时; 参与者可能不能代表总体, 可能会造成数据的偏差; 小组 挑战 可能受主持人或者少数主导性成员的影响 摇 摇 资料来源: 作者 工具 6 :日记和自我核查清单 另一类数据收集的方法就是使用日记或者自我核查清单。 日记或日志 日记是由参与者所撰写的每日报告。 日记可以用来捕捉在人们日常生活中有关活动的 细节信息。 我们可以用日记来研究某些现象, 比如社交网络, 健康, 疾病以及相关的行 为, 日常饮食和营养, 农活, 学习习惯, 避孕措施的运用, 抚养孩子的习惯等。 除了在一 段时间之内捕捉相关的活动细节, 日记还可以包括活动的某些特征。 比如参与戒烟项目的 吸烟者可以用日记的形式记录下来他们何时、 何地会有强烈的想要吸烟的愿望, 以及那个 时候他们正在做什么。 这种做法的理念是如果我们能够观察到某一种模式的话, 那么参与 者就可以采取相应的行动。 如果说餐后是一个吸烟触发因素的话, 那么他们就可以通过吃 好之后马上离开餐桌来打破这个模式。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 摇 摇 日记这一数据收集的方法既被运用于全国范围的大项目 , 也被用于一些规模较小的 项目 ( Stafford 2006) 。 日记是一种 有 用 的 工 具 , 可 以 作 为 其 他 数 据 来 源 的 补 充 。 ( 表 8郾 20) 。 做好日记通常来说需要有一定的文化水平 , 还要愿意花这样的时间 。 在某些情 况下 , 日记可以使用核查清单的形式来降低对于文化水平的要求 。 比如 , 在坦桑尼亚 和冈比亚就使用过图示的日记来收集有关家庭消费和支出的数据 。 ( Wiseman, Conteh, 设 and Matovu 2005) 计 与 摇 表 8郾 17 日记日志使用指南 实 施 活摇 摇 动 细摇 摇 节 通过积极的、 有亲和力的面试官提高参与度; 倡导利他主义和助人为乐; 面谈招募人员 保证保密性; 为完成日记日志提供激励 开篇提供清晰的日志填写步骤; 包含填写好的日志样本; 包含简短的助记 向每 位 参 与 人 员 提 供 符; 解释所有的术语, 如事件、 阶段; 在最后一页, 询问日志时间长度是 手册 否合适, 以及他们的评论和备注; 包含一个日历以表明日志的时间 摇248 考虑 数 据 收 集 的 时 间 如果时间过长, 可能令参与者感到是负担或者无聊; 如果时间过短, 日志 长度 可能不能反映行为或事件 使用核查清单的最佳时间段是多久呢? 通常而言, 至少需要一个星期时间才能够获得 足够的行为样本, 但是如果超过一个月就太长了, 因为时间过长会使记日记的过程变得非 常乏味, 并导致记录减少。 一般来说, 参与者会获得一本提供清晰说明的手册, 其中还包括一份完整日记录入范 例。 任何不常见的数据都会有解释。 手册的最后一页会询问日记记录的时段是典型的还是 非典型的时段, 日记还可以给参与者提供一个发表任何评论的机会。 自我核查清单 自我核查清单是问卷和日记的交叉。 评价人员要求参与者记录特定的活动或事件, 那 些活动或事件都已列出, 参与者可以很方便地用打钩的方式作记录。 核查清单可以按天或 按周完成, 也可以是在任何活动发生的时候完成。 比如, 核查清单可以用于记录服用疟疾 药片的时间, 或者记录到达水源地的时间和次数。 在印度尼西亚 , 自我核查清单曾用于对助产师的研究 ( Abdallah 2002 ) 。 项目所依 据的理论是在培训之后还需要有不断的强化以便促成行为变化 。 项目的目的是为了提 高助产师在计划生育咨询方面的质量 。 参与项目的助产师要完成一个为期一周的针对 人际交流技巧的自我评估 , 目的是让他们了解自身的沟通模式 , 并且进行分析 , 采取 相应的行动 。 自我核查清单比起日记更容易完成, 也更便于分析。 然而, 制定一份核查清单要求评 价人员对于情况有非常具体的了解。 第八章摇 选择和构建数据收集工具 llll llllllll 表 8郾 18 总结了日记和自我核查清单的优点和挑战。 摇 表 8郾 18 日记和自我核查清单的优点和挑战 可以捕捉那些容易被遗漏的深度、 细节的数据 可以收集有关人们是如何使用他们时间的数据 优点 设 可以收集敏感信息 可以作为访谈的补充, 提供更丰富的信息 计 与 实 需要一定的文化水平 施 可能会改变行为, 因为人们知道他们的行为在被观察之中 需要自律和承诺, 准确和诚实的信息记录; 参与者可能不能准确地回忆有关行为 挑战 所记录的数据可能不完整, 或者说参与者可能不是第一时间记录数据, 而之后的记忆也 不一定准确 参与者的字迹可能很难辨认 日记中的句子可能很难理解 摇249 摇 摇 资料来源: 作者 工具 7 :专家评判 有的时候专家也能作为信息或者意见的来源, 就像书评家和影评家一样。 人们可以使 用他们的评判来做出决定或者选择。 政府的特别工作组就是专家评判的一种形式。 专家评判可以来自单个专家也可以来自于专家组。 比如, 专家组所进行的医院审核就 是医院资质认证流程的一部分, 专家组可以访问医院, 调查其项目、 设施和员工。 单个专 家 ( 比如学校督导) 可以访问学校, 对其办学、 行政管理和教师队伍进行评价。 专家评判可以依据现有的职业标准和操作规程进行, 也可以临时安排。 当专家评判使 用已有的标准, 标准通常是已出版的准则, 以便专家们提问和评价的一致性。 比如, 一个 出资机构想要评价一个培训项目的质量, 该培训项目已经建立了课程, 有明确的目标、 目 的和成果。 那么专家就要在对此非常熟悉的基础上, 进行对项目的审查, 将评价基于文件 资料的基础之上。 临时安排的审查通常都是出于某一专门目的根据具体情况不定期地开展。 这样的评审 一般没有现有的标准可供专家使用。 专家需要自己决定评判所用的标准。 比如一位项目主 管走访一处水处理项目的现场, 察看项目的进展情况, 就是临时性的评审。 专家的选择应该通过受理人测试: 受理人是否认为该专家或者专家组可靠? 专家应该 能代表广泛的观点、 经历和角色。 设立专家选择的标准不能仅仅依赖于专家的认可度, 还要根据以下选择标准: 誗 专业知识领域摇 摇 摇 摇 摇 摇 摇 摇 誗 多样的视角 誗 多元的政治观点 誗 多样的技术专长 通向结果之路: 有效发展评价的设计与实施 llll llllllll 选择所有专家的理由应该要在评价报告中有所说明。 国际安全与发展委员会 (2006) 使用一组专家来评审国际麻醉品管制委员会的有效性。 在这个案例中, 不仅仅要请知名 的、 被认可的专家, 还要保证专家是来自世界各地的, 特别是要有那些来自麻醉品问题突 出国家的专家。 虽然专家评判不是一个很有说服力的评价手段, 但是在某些情况下, 由于时间和资源 设 的限制, 专家评判可能是最好的一个选择了。 在项目设计以及执行的早期到中期阶段采用 计 专家评判比开展影响评价的时候使用要更合适。 专家评判在快速评估领域是非常有用的。 与 实 表 8郾 19 总结了专家评判的优点和挑战。 施 摇 表 8郾 19 专家评判的优点和挑战 优点 快速, 相对低成本 在影响评价方面缺少说服力 挑战 可能很大程度上是基于认识 所收集数据的价值取决于专家有多可靠 摇250 摇 摇 资料来源: 作者 工具 8 :德尔菲法 德尔菲法能够帮助生活在不同地区的专家参与对话并且通过反复的过程达成一致。 专 家们需要回答一些特定的问题; 他们的答案会被统一集中起来, 进行总结, 再将结果反馈 给专家。 专家可以对总结进行点评。 他们可以自由地对某个观点进行质疑, 并且增加新的 看法或者信息。 因为所有的过程都是匿名进行的, 因此可以避免产生矛盾。 德尔菲法能够让参与者在背靠背的情况下提供信息和判断, 帮助问题的解决, 规划和 决策的制定 ( Dunham 1996) 。 专家通过信函、 传真、 或者邮件来交换信息。 该方法可以 帮助大家就某些议题、 战略和优先问题上取得共识。 德尔菲法曾用于预测南非的旅游潜力 (Kaynak, Bloom 和 Leibold 1994) ; 用于就发展中国家的国家药物政策的重点问题达成一 致 ( Rainhorn, Brudon鄄Jakobowicz, 和 Reic 1994) ; 还曾在肯尼亚用于确立消除血吸虫病 工作的重点 ( Kirigia 1997) 。 德尔菲法的实施需要一位协调人来负责明确参与的专家, 组织信息的收集, 总结收到 的信息, 再将总结反馈给参与者。 协调人的工作需要花费大量的时间。 通过电子邮件和 20 位左右的参与者进行三轮问卷的协调需要花去协调人 30 ~ 40 个小时。 德尔菲法流程包含以下几个步骤: 1郾 明确和邀请专家参与。 确定在邀请专家方面所需的标准, 通常是邀请一组有不同 专业知识的专家。 2郾 明确问题和收集意见。 比如可以问 “ 可以采取什么措施在病人多次就诊之间的间 隙期, 对其咨询提供更快的应答?冶 准备好问卷, 并且分发第一份问卷, 要求参与者每个 第八章摇 选择和构建数据收集工具 llll llllllll 人先进行个人的头脑风暴, 找出尽可能多的解决问题的想法。 3郾 请参与者完成第一份问卷。 想法可能还不是很成熟, 事实上, 最好是用单句来表 达每个想法, 在这个阶段无需尝试评价或者证明这些想法的正确性。 参与者把这些想法反 馈给协调人。 4郾 建立并且分发第二份问卷。 协调人准备并分发第二份问卷, 第二份问卷中包含了 针对第一份问卷所提问题的回答 ( 只有协调人知道哪个人提了什么想法 ) 。 参与者可以在 设 空白处精炼每一个想法, 对其长处和短处作点评, 并且明确新的想法。 计 与 5郾 收集第二份问卷的答案。 参与者匿名地在第二份问卷上填写自己的答案, 并且再 实 反馈给协调人。 施 6郾 建立并且分发第三份问卷。 第三份问卷总结了回收的第二份问卷上的内容, 并且 要求参与者做出进一步的说明, 指出优缺点和新的想法。 7郾 继续这个流程。 如果需要的话, 协调人可以循环进行这个流程直到没有新的想法 出现, 并且明确了所有的优缺点和观点。 8郾 达成决议。 决议可以通过下列两种方式的任何一种达成: 誗 如果能够围绕已经评价过的主导想法达成一致的话, 那么这个练习就宣布结束。 摇251 最终的产品是一系列的想法, 并且指出每个想法的优缺点。 誗 如果没有达成一致的话, 协调人会对于大家的观点做一个正式的评估。 我们有好 多种方法可以开展一个正式的评价活动。 一个方法是请协调人准备一份列出所有想法的问 卷, 请参与者对这些想法进行打分, 可以使用一个从 0 ~ 7 的数值范围。 0 代表没有可能 用来解决这个问题, 而 7 代表很有可能用来解决这个问题。 如果使用这个方法的话, 评价 人员将打分表反馈给协调人, 协调人收集结果, 并且根据打分对这些想法进行排序。 第二 种方法是协调人请参与者明确 5 个最好的想法, 给最有希望的想法打 5 分, 依次类推。 协 调人收到结果之后, 进行记分并且准备报告。 报告根据每个想法所获得总分数对其进行排 序, 并且说明给每个想法投票的人数 ( Dunham 1996) 。 表 8郾 20 总结了德尔菲法的优点和挑战。 摇 表 8郾 20 德尔菲法的优点和挑战 允许参与者匿名参加 花费不高 优点 没有社会压力、 性格影响和个人主导的问题 有助于独立思考和逐渐形成一致 参与者之间可以分享信息和自己的推理 可能不具有代表性 有排除极端立场, 迫使达成中庸共识的倾向 挑战 需要具有熟练的书面沟通能力 需要时间和参与者的全力投入 通向结果之路: 有效发展评价的设计与实施 llll llllllll 工具 9 :其他测量工具 对于某些项目和计划, 评价者可能会使用其他的测量工具, 比如电子、 化学或者机械 仪器。 像书面测试以及技巧测试或评估等工具也可能会被用来收集项目和计划的数据。 以 设 下是一些用于数据收集的其他工具的范例。 计 许多项目和计划 ( 特别是在卫生领域 ) 需要进行生理状态的测量来保证干预活动的 与 实 效果。 我们会使用体重秤来收集有关研究对象体重的数据。 高度、 长度、 周长等可以用皮 施 尺、 测量杆或者其他仪器来测量。 有些情况下, 会使用特殊的工具来收集其他生理数据, 比如胆固醇、 血压、 血糖、 身体成分、 肺活量、 有氧耐力、 肌肉力量、 关节灵活度和其他 的变量。 我们会使用井水和土壤的化学测试来确定水质和土壤的质量。 其他的测试可以测量熔 点、 蒸汽压力和生物富集系数来确定每个特定化学物的物理和化学属性。 此类测试可以帮 助明确环境和健康危害 ( U郾 S郾 EPA 2007) 。 当使用测量仪器的时候, 一定要检查仪器的刻 摇252 度是否准确, 如果需要就要做必要的调整。 和营养有关的项目或者计划可能会使用食品化 学或营养成分的评估。 能力倾向测试和成绩测试可以用来评估所掌握的知识和事实, 它们在培训和教育项目 中非常常用, 但是在许多其他领域也同样适用。 在过去, 许多测试需要用到笔和纸, 现在也可以通过计算机进行测试, 包括在互联网 上进行测试。 在选择测试之前, 必须理解哪种类型的测试最能反映评价人员想要了解的内容。 成绩 测试可以分为以下四种: 誗 常模参照测试 誗 标准参照测试 誗 目标参照测试 誗 领域参照测试 ( Fitzpatrick, Sanders, and Worthen 2004) 常模参照测试主要通过参与同样的测试来比较学生之间的表现, 通常用于评估学习的 进步的现状。 许多学区使用该测试比较其学生和其他学区的学生在学习某些共同传授的知 识和技能上的表现。 常模参照测试的一个缺点在于要明确普遍传授的知识和技能。 不同的 文化、 社会 和 环 境 可 能 有 着 大 相 径 庭 的 教 学 目 标 ( Fitzpatrick, Sanders, and Worthen 2004) 。 标准参照测试根据一些绝对的标准对绩效进行测量。 一个国家会建议评判学校或者学 区绩效的标准, 并且使用这些标准对学校和学区 ( 而不是单个的学生 ) 进行比较。 通常 会使用标准来评估一项课程或者项目 ( Fitzpatrick, Sanders, and Worthen 2004) 。 目标参照测试是基于一个教育或培训项目所明确的目标或者成果之上的。 测试的项目 基于明确的目标或者成果。 目标参照测试用来提供形成性评价反馈以帮助教师和培训师检 查哪些领域达成了目标或者成果 ( Fitzpatrick, Sanders, and Worthen 2004) 。 领域参照测试和被测量的内容领域有关, 比如历史或者数学知识。 这些测试的开发非 第八章摇 选择和构建数据收集工具 llll llllllll 常昂贵但是可以提供非常有价值的信息, 比如 “ 我们的学生对于世界地理了解多少?冶 或 者 “ 我们的培训学员对于性别有多少了解?冶 ( Fitzpatrick, Sanders, and Worthen 2004) 。 常模参照测试和标准参照测试提供评判绩效的标准。 目标参照测试和领域参照测试并 不提供标准。 他们提供有关学生绩效的描述性数据, 但是不对学生或者学校作出评判 ( Fitzpatrick, Sanders, and Worthen 2004) 。 许多标准化测试都可以在网上找到 ( 见本章最后的链接 ) 。 这些测试可以帮助评估性 设 格、 职业兴趣、 能力倾向、 成绩、 发展、 智力、 阅读和学习技巧。 计 与 许多利益相关方可能想要了解更多有关干预活动的信息 , 而不仅仅是参与者的标准 实 化知识测试的分数 。 使用 模 拟 方 法 、 作 品 制 作 、 口 头 演 讲 和 辩 论 可 以 评 价 技 能 表 现 , 施 而确保所需的技能和测试之间的匹配是十分重要的 , 测试要能最好地展示技能表现 。 技能测试在评价任何引入新技能 ( 针对母亲的卫生习惯, 针对农民的农业操作, 针 对政府官员的记录操作) 的干预活动时可能是比较有用的。 发展评价通常会评估一项新 的实践是否得到了应用, 但是是否熟练地应用可能就不会评估了。 能够观察绩效表现的专 家也能够观察评价技能。 评价人员会设定标准, 根据达标的情况给研究对象打分, 在这个 过程中可以使用照相和摄像来记录绩效表现。 摇253 小摇 摇 结 詪詪詪詪詪詪 没有哪一种方法是唯一最佳的数据收集方法, 根据评价的需求和所需要解决的特定问 题, 可以选择性地使用本章中所介绍到的多种方法。 评价活动应该使用一种以上的数据收集工具。 具体使用哪一种取决于以下几方面的 因素: 誗 评价人员需要了解什么 誗 哪里有数据 誗 可用的资源和时间 誗 将要收集的数据有多复杂 誗 数据收集的频率 练习 8郾 1摇 从文档收集信息 请根据入学文档来确定参加园艺培训班的学生的资历和经验。 制定一份五个问题的简 短表格, 用来从文档中收集所需数据。 8郾 2摇 从访谈中收集信息 请根据你最近参加过的一次会议设计几个可以用于有关访谈活动的问题, 以便评价参 与者对于某个培训班质量的反馈。 设计的五个开放式问题需要涉及培训班的内容、 水平、 组织实施。 如果可能的话, 可以找一名参加过该培训班或者会议的搭档。 先访谈你的搭 档, 并请你的搭档用你所设计的问题来访谈你, 然后对此采访进行深入的书面总结。 最后 通向结果之路: 有效发展评价的设计与实施 llll llllllll 请你的搭档对准确性、 可读性以及覆盖度进行评判。 8郾 3摇 从专题小组中收集信息 请设计一个专题小组活动来评价旨在帮助妇女创立并经营小企业的一系列培训班和金 融援助计划的影响。 设计一组适合于已在六个月前完成项目的妇女回答的五个专题小组问 题。 请务必找出项目想要取得的效果以及项目是如何影响参与者的生活、 朋友和家庭的。 设 计 名词解释 与 实 结构化的数据收集方法: 所有数据使用完全相同的方式收集的数据收集方法 施 半结构化的数据收集方法: 数据收集的方式不是每次必须相同的数据收集方法 表面效度: 测试的内容或者程序从表面来看测量了应该衡量的对象的程度 内容效度: 测试的内容或者程序充分地测量了相关变量的程度 可信度: 重复测试中用相同的方式测量同一对象的程度 定量数据: 数字形式表示的数据 定性数据: 用非数据形式表示的数据 介入性方法: 在参与者知情的情况下进行观察的方法 摇254 非介入性方法: 在参与者不知情的情况下进行观察的方法 偏差: 在收集、 分析和报告过程中有意或无意导致的数据失真 三角验证法: 为了增加数据的准确性而使用不同方法来收集相同信息的做法 资料来源三角验证法: 为了增加数据的准确性而从不同数据来源收集相同信息的做法 评价人员三角验证法: 为了增加数据的准确性而从多位评价人员处收集相同信息的 做法 地图绘制: 作为数据收集的一部分绘制或者使用现有地图的过程 社会地图绘制: “ 绘制冶 一张包括社区的资源、 资产及其关系等的社区元素概念图的 过程 穿越法: 为观察社区的人群、 环境、 资源而进行的走访 二手数据分析: 对非评价人员收集的其他来源数据的分析 现场记录: 对现场的描述, 包括对正在发生的体验和观察到的实物的描述, 观察对象 讲话的记录, 观察者的自身感受和对于被观察物体的反应, 在现场所产生的见解和解释 结构化调查: 受访者以从多个选项中选取一个或多个作为答案的方式回答每个问题的 调查 半结构化调查: 以开放式问题为主的调查 电脑辅助的电话访谈: 使用计算机交互系统辅助受访者回答问题的电话采访 公民报告卡: 度量公共服务绩效的一种调查方式 响应率: 实际参加的人数占要求参加活动的人数的百分比 专题小组: 小组人员在主持人的指导下就专门问题在一起进行讨论的定性的评价方法 日记: 由参与者所撰写的每日报告 自我核查清单: 参与者可以在适用的条目上打钩的活动或事件清单 专家评判: 专家组或单个专家的观点 第八章摇 选择和构建数据收集工具 llll llllllll 德尔菲法: 从参与者处获取信息和判断, 从而帮助参与者在不见面的情况下解决问 题、 制订计划、 做出决定的技巧 参考书目 1郾 Abdallah, H郾 2002郾 Cost鄄Effectiveness of Self鄄Assessment and Peer Review in Improving Family Planning Provider鄄Client Communication in Indonesia郾 Quality Assurance Project Case 设 Study郾 Study conducted for the U郾 S郾 Agency for International Development by the Quality Assur鄄 计 与 ance Project, Bethesda, MD郾 实 2郾 Academy for Educational Development, Population Communication Services郾 2002郾 “ Ses鄄 施 sion 10 Transect Walks and Observation郾 冶 Empowering Communities: Participatory Techniques for Community鄄Based Programme Development, vol郾 2, Participant Handbook郾 Washington, DC: Academy for Educational Development郾 http: / / pcs郾 aed郾 org / manuals / cafs / handbook / sessions 10 - 12郾 pdf郾 3郾 ADB ( Asian Development Bank ) , and ADBI ( Asian Development Bank Institute ) . 2004郾 Improving Local Governance and Service Delivery: Citizen Report Card Learning Tool 摇255 Kit郾 http: / / www郾 citizenreportcard郾 com / index郾 html#郾 4郾 BBC ( British Broadcasting Corporation) . 2008郾 “ Data Validation and Verification郾 冶 GCSE Bitesize郾 http: / / www郾 bbc郾 co郾 uk / schools / gcsebitesize / ict / databases / 3datavalidationrev1郾 shtml郾 5郾 Behling, Orlando, and Kenneth S郾 Law郾 2000郾 Translating Questionnaires and Other Re鄄 search Instruments: Problems and Solutions郾 Quantitative Applications in the Social Sciences, Se鄄 ries 07 - 133郾 Thousand Oaks, CA: Sage Publications郾 6郾 Billson, Janet Mancini郾 2002郾 The Power of Focus Groups for Social and Policy Research郾 Barrington, RI: Skywood Press郾 ———郾 2004郾 The Power of Focus Groups: A Training Manual for Social, Policy, and Market Research: Focus on International Development郾 Barrington, RI: Skywood Press郾 7郾 Billson, Janet, and N郾 T郾 London郾 2004郾 “ The Power of Focus Groups郾 冶 International Program for Development Evaluation Training ( IPDET) presentation, Ontario, July郾 8郾 Burgess, Thomas F郾 2001郾 Guide to the Design of Questionnaires, ed郾 1郾 1郾 University of Leeds, United Kingdom郾 http: / / www郾 leeds郾 ac郾 uk / iss / documentation / top / top2 / top2 - 5郾 html郾 9郾 Cloutier, Dorothea, Bill Lilley, Devon Phillips, Bill Weber, and David Sander鄄 son郾 1987郾 A Guide to Program Evaluation and Reporting郾 University of Maine Cooperative Exten鄄 sion Service, Orono郾 10郾 CNCSTE ( Chinese National Centre for Science and Technology Evaluation ) , and IOB ( Policy and Operations Evaluation Department ) . 2006郾 Country鄄Led Joint Evaluation of the ORET / MILIEV Programme in China郾 Amsterdam: Aksant Academic Publishers郾 11郾 Cnossen, Christine郾 1997郾 Secondary Research郾 Learning Paper 7 , School of Public Ad鄄 ministration and Law , Robert Gordon University, Aberdeen, United Kingdom郾 12郾 Dawson, Susan, and Lenor Manderson郾 1993郾 Methods for Social Research in Disease: 通向结果之路: 有效发展评价的设计与实施 llll llllllll A Manual for the Use of Focus Groups郾 International Nutrition Foundation for Developing Coun鄄 tries, Boston郾 http: / / www郾 unu郾 edu / Unupress / food2 / UIN03E / uin03e00郾 htm郾 13郾 Denzin, K郾 1978郾 The Research Act郾 New York: McGraw鄄Hill郾 14郾 Dunham, Randall B郾 1996郾 The Delphi Technique郾 http: / / www郾 medsch郾 wisc郾 edu / ad鄄 minmed / 2002 / orgbehav / delphi郾 pdf郾 设 15郾 Early Childhood Research Institute on Measuring Growth and Development郾 2008郾 Early 计 Communication Indicator ( ECI) 郾 http: / / cehd郾 umn郾 edu / ceed / projects / ecri / 郾 与 实 16郾 EuropeAid Co鄄operation Office郾 2005郾 Evaluation Methods郾 ec郾 europa郾 eu / europeaid / e鄄 施 valuation / methodology / egeval / index_en郾 htm郾 17郾 Fitzpatrick, Jody L郾 , James R郾 Sanders, and Blaine R郾 Worthen郾 2004郾 Program Eval鄄 uation: Alternative Approaches and Practical Guidelines郾 New York: Pearson郾 18郾 Foddy, William郾 1993郾 Constructing Questions for Interviews and Questionnaires郾 New York: Cambridge University Press郾 19郾 Fowler, Floyd J郾 Jr郾 2002郾 Applied Social Research Methods Series, vol郾 1 Survey Research 摇256 Methods郾 3rd郾 ed郾 Thousand Oaks, CA: Sage Publications郾 20郾 Frary, Robert B郾 1996郾 “ Hints for Designing Effective Questionnaires郾 冶 Practical As鄄 sessment, Research & Evaluation 5 ( 3 ) . http: / / PAREonline郾 net / getvn郾 asp? v = 5&n = 3郾 21郾 Hofstede, G郾 2001郾 Culture蒺s Consequences郾 2nd ed郾 Thousand Oaks, CA: Sage Publica鄄 tions郾 22郾 Jackson, Gregg, and Rashmi Agrawal郾 2007郾 “ Guidelines for Developing Survey In鄄 struments as a Part of the Designing and Conducting Surveys Workshop郾 冶 International Program for Development Evaluation Training ( IPDET) presentation, Ottawa, Ontario郾 23郾 Kaynak, Erdener, Jonathan Bloom, and Marius Leibold郾 1994郾 “ Using the Delphi Tech鄄 nique to Predict Future Tourism Potential郾 冶 Marketing Intelligence and Planning 12 ( 7 ): 18 - 29郾 http: / / www郾 emeraldinsight郾 com / Insight / viewContentItem郾 do; jsessionid = 372EF38765D6F8133 CDF8DABFB2071B4? contentType = Article&hdAction = lnkpdf&contentId = 854271郾 24郾 Kirigia, J郾 M郾 1997郾 Economic Evaluation in Schistosomiasis Using the Delphi Technique to Assess Effectiveness郾 http: / / www郾 ncbi郾 nlm郾 nih郾 gov / entrez / query郾 fcgi? cmd = Retrieve&db = PubMed&list_uids = 9107365&dopt = Abstract郾 25郾 Krueger, R郾 A郾 , and M郾 A郾 Casey郾 2000郾 Focus Groups郾 3rd ed郾 Thousand Oaks, CA: Sage Publications郾 26郾 Kellogg Foundation郾 2008郾 “ Tips on Using Tests and Assessments郾 冶 Evaluation Toolkit郾 http: / / www郾 wkkf郾 org / Default郾 aspx? tabid = 90&CID = 281&ItemID = 2810034&NID = 2820034&LanguageID = 0郾 27郾 Lofland, John郾 1971郾 Analyzing Social Settings郾 Belmont, CA: Wadsworth郾 28郾 Lofland, John, and L郾 H郾 Lofland郾 1995郾 Analyzing Social Settings: A Guide to Qualita鄄 tive Observation and Analysis郾 3rd ed郾 Belmont, CA: Wadsworth Publication郾 29郾 McCaston, M郾 Katherine郾 2005郾 Tips for Collecting, Reviewing, and Analyzing Seconda鄄 第八章摇 选择和构建数据收集工具 llll llllllll ry Data郾 Partnership and Household Livelihood Security Unit郾 http: / / pqdl郾 care郾 org / pv _ obj _ cache / pv_obj_id_8F453F01C87B8BB24774628B95B42BBCBD020200郾 30郾 McNamara, Carter郾 2007郾 General Guidelines for Conducting Interviews郾 http: / / www郾 managementhelp郾 org / evaluatn / intrview郾 htm#anchor615874郾 31郾 Michigan State University Extension郾 1994郾 Delphi Technique郾 http: / / web1郾 msue郾 msu郾 edu / msue / imp / modii / iii00006郾 html郾 设 32郾 Miles, Matthew B郾 , and A郾 Michael Huberman郾 1994郾 Qualitative Data Analysis an Ex鄄 计 与 panded Sourcebook郾 Thousand Oaks, CA: Sage Publications郾 实 33郾 Minnesota Department of Health郾 2007郾 Community Engagement: Community Forums 施 and Public Hearings郾 http: / / www郾 health郾 state郾 mn郾 us / communityeng / needs / needs郾 html郾 34郾 Narayan, Deepa郾 1996郾 Toward Participatory Research郾 World Bank Technical Paper 307 , Washington, DC郾 http: / / www鄄wds郾 worldbank郾 org / external / default / WDSContentServer / WDSP / IB / 1996 / 04 / 01 / 000009265_3980625172923 / Rendered / PDF / multi0page郾 pdf郾 35郾 O蒺Brien, G郾 2001郾 Data Flow, Application of Data Quality Flags, and Data Validation Processes for CCAQS郾 Preliminary draft郾 http: / / www郾 arb郾 ca郾 gov / airways / Documents / reference鄄 摇257 percent20tables / March percent2006 , percent202001 / DataFlow_PrelimDraft郾 pdf郾 36郾 Patton, Michael Q郾 1987郾 How to Use Qualitative Methods in Evaluation郾 Thousand Oaks, CA: Sage Publications郾 ———郾 2002郾 Qualitative Evaluation and Research Methods郾 3rd ed郾 Thousand Oaks, CA郾 Sage Publications郾 37郾 Paul, Samuel, and Gopakumar K郾 Thampi郾 2008郾 “ Monitoring Public Service Deliver鄄 y : Citizen Report Cards Score in India郾 冶 Capacity郾 org郾 35 ( December) 郾 United Nations Devel鄄 opment Programme, New York郾 http: / / www郾 capacity郾 org / en / journal / tools_and_methods / citi鄄 zen_report_cards_score_in_india郾 38郾 Phuyal, Kamal郾 2006郾 “ Sharing Some Practical Experiences on Participatory Apprecia鄄 tive Planning Approach ( PAPA ) : An Appreciative Approach to Working in Partnership with Community People郾 冶 Paper presented at the international workshop on “ Action Learning: Les鄄 sons from the Field,冶 organized by the Faculty of Policy Studies, Chuo University, Tokyo, Oc鄄 tober郾 http: / / www郾 scn郾 org / cmp / modules / emp鄄papa郾 htm郾 39郾 Porteous, Nancy L郾 , B郾 J郾 Sheldrick, and P郾 J郾 Stewart郾 1997郾 Program Evaluation Tool Kit: A Blueprint for Public Health Management郾 Ottawa: Ottawa鄄Carleton Health Department郾 40郾 Rainhorn, J郾 鄄D郾 P郾 Brudon鄄Jakobowicz, and M郾 R郾 Reich郾 1994郾 “ Priorities for Phar鄄 maceutical Policies in Developing Countries: Results of a Delphi Survey郾 冶 Bulletin of the World Health Organization 72 ( 2 ) : 257 - 64郾 72 ( 2 ) : 257 - 64郾 http: / / 74郾 125郾 47郾 132 / search? q = cache: D1zbVUz7oG0J: whqlibdoc郾 who郾 int / bulletin / 1994 / Vol72 - No2 / bulletin _1994 _72 ( 2 ) _257 - 264郾 pdf + Use + of + the + delphi + technique + in + developing + countries&cd = 3&hl = en&ct = clnk&gl = us&client = firefox - a郾 41郾 Sanders, J郾 R郾 2000郾 Evaluating School Programs郾 2nd ed郾 Thousand Oaks, CA: Sage 通向结果之路: 有效发展评价的设计与实施 llll llllllll Publications郾 42郾 Stafford, Frank P郾 2006郾 Timeline Data Collection and Analysis: Time Diary and Event History Calendar Methods郾 Department of Economics, University of Michigan, Ann Arbor郾 http: / / www郾 atususers郾 umd郾 edu / wip2 / papers_i2007 / Stafford_Diaries郾 pdf郾 43郾 Stake, Robert E郾 1995郾 The Art of Case Study Research郾 Thousand Oaks, CA: Sage 设 Publications郾 计 44郾 StatPac郾 2007郾 Survey Software, Question Wording郾 http: / / www郾 statpac郾 com / surveys / 与 实 index郾 htm#toc郾 施 45郾 Sue, Valerie M郾 , and Lois A郾 Ritter郾 2007郾 Conducting Online Surveys郾 Thousand Oaks, CA: Sage Publications郾 46郾 TC Evaluation Center郾 2007郾 Wording Questions: Some General Guidelines郾 University of California, Davis郾 http: / / ucce郾 ucdavis郾 edu / files / filelibrary / 5715 / 27621郾 pdf郾 47郾 Trochim, William M郾 K郾 2006郾 Types of Data, Research Methods Knowledge Base. ht鄄 tp: / / www郾 socialresearchmethods郾 net / kb / datatype郾 php郾 48郾 UNESCAP ( United Nations Economic and Social Commission for Asia and the Pacific) . 摇258 1999郾 Guidelines on the Application of New Technology to Population Data Collection and Capture郾 http: / / www郾 unescap郾 org / stat / pop鄄it / pop鄄guide / capture_ch04郾 pdf郾 49郾 University of Wisconsin, Cooperative Extension郾 1996郾 Program Development and Evalu鄄 ation, Collecting Evaluation Data: Direct Observation郾 http: / / learningstore郾 uwex郾 edu / pdf / G3658 - 5郾 pdf郾 50郾 U郾 S郾 EPA ( U郾 S郾 Environmental Protection Agency ) . 2007郾 CTSA鄄Chapter 2 : Data Collection郾 http: / / www郾 epa郾 gov / dfe / pubs / lithography / ctsa / ch02 / ch02郾 html郾 51郾 Wadsworth, Y郾 1997a郾 Do It Yourself Social Research郾 2nd ed郾 St郾 Leonards, New South Wales, Australia: Allen and Unwin郾 ———郾 1997b郾 Everyday Evaluation on the Run郾 St郾 Leonards, New South Wales, Australia: Allen and Unwin郾 52郾 Wengraf, Tom郾 2001郾 Qualitative Research Interviewing: Biographic Narrative and Semi鄄 Structured Methods郾 Thousand Oaks, CA: Sage Publications郾 53郾 Wiseman, V郾 , L郾 Conteh, and F郾 Matovu郾 2005郾 “ Using Diaries to Collect Data in Resource鄄Poor Settings: Questions on Design and Implementation郾 冶 Health Policy and Planning 20 ( 6 ) : 394 - 404郾 http: / / heapol郾 oxfordjournals郾 org / cgi / reprint / 20 / 6 / 394郾 54郾 World Bank郾 1996郾 “ A Manual for Planning and Implementing the Living Standards Measurement Study Survey郾 冶 Working Paper 126 , Washington, DC郾 ———郾 2006郾 “ Citizen Report Cards: A Presentation on Methodology郾 冶 Participation and Civic Engagement Group, Social Development Department, Washington, DC郾 http: / / info郾 worldbank郾 org / etools / docs / library / 94360 / Tanz_0603 / Ta_0603 / CitizenReportCardPresenta鄄 tion郾 pdf郾 ———郾 2007郾 “ Community鄄Driven Development郾 冶 Washington, DC郾 http: / / web郾 worldbank郾 第八章摇 选择和构建数据收集工具 llll llllllll org / WBSITE / EXTERNAL / TOPICS / EXTSOCIALDEVELOPMENT / EXTCDD / 0 , menuPK: 43 0167 ~ pagePK: 149018 ~ piPK: 149093 ~ theSitePK: 430161 , 00郾 html郾 55郾 Yin, Robert K郾 2003郾 Case Study Research: Design and Methods郾 3rd ed郾 Thousand Oaks, CA: Sage Publications郾 网址 设 1郾 Alphabetical List of Aptitude or Achievement Tests郾 http: / / www郾 yorku郾 ca / psycentr / tests / 计 与 alpha郾 html郾 实 2郾 Evaluation Portal郾 http: / / www郾 evaluation郾 lars鄄balzer郾 name / 郾 施 3郾 International Council on Security and Development郾 2006郾 “ Think tank announces expert panel to review effectiveness of International Narcotics Control Board郾 冶 http: / / www郾 icosgroup郾 net / modules / press_releases / narcotics_control_board郾 4郾 Measurement Group郾 Evaluation / Research Tools郾 http: / / www郾 themeasurementgroup郾 com / evalbttn郾 htm郾 5郾 Nielsen, J郾 1997郾 The Use and Misuse of Focus Groups郾 摇259 http: / / www郾 useit郾 com / papers / focusgroups郾 html郾 6郾 Standardized Monitoring and Assessment of Relief and Transitions郾 Instruments and Tools郾 http: / / www郾 smartindicators郾 org / IT郾 php? page = 80郾 第九章 摇 抽样策略选择 本章讨论如何确定需要收集多少数据, 并讨论如何选择数据源使它们贴切地反映总体 并帮助回答评价问题。 本章包括三个主要部分: 1郾 抽样简介 2郾 样本类型: 随机和非随机 3郾 确定样本大小 抽样简介 詪詪詪詪詪詪 一旦评价人员决定从某一特定 总体 ( 人群、 诊所、 学校或其他机构 ) 收集数据, 他 们需要决定是从所有相关机构, 还是从这些机构的一个子集收集数据。 从所有机构收集数 据称为普查, 而从其子集收集数据则称为抽样。 如果总体较小且收集数据的成本较低时, 一般倾向于做普查。 如果总体很大或者收集数据的成本很高, 通常要从样本收集数据。 有 时也会使用抽样以减轻调查对象的负担。 人们一直在使用样本。 例如, 检查身体时会验血, 化验室只是抽取你的一个血样而不 是全身所有的血液。 各种化验都使用这个样本, 并且假定从样本中发现的东西能准确反映 从你全身所有血液中可以发现的东西。 抽样并非只能应用于大型的定量研究。 即便像为评价一个覆盖区域很广的计划而进行 的高度定性的一周实地考察这样的活动, 评价人员仍然需要仔细思考应去哪些区域调查。 如果是由急于展示最佳效果的计划负责人选择进行研究的区域和参与的人员, 则可能会出 现选择偏差。 这种偏差可以通过随机选择样本的方法避免。 理解抽样的基本概念可以提高 评价准确, 反映计划实际情况的程度。 样本类型 : 随机和非随机 詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪 当不能收集每一个国家、 每一个人或每一个农场的数据时, 评价人员就会选择一个子 第九章摇 抽样策略选择 llll llllllll 集或样本进行研究。 样本可以是随机的, 也可以是非随机的。 随机抽样 随机样本是指总体中每个单元被抽中的机会都相同的样本。 彩票就是一个随机样本的 例子, 因为每一个号码都有相同的机会被选中为获奖号码。 设 随机抽样的一个优点是它可以消除选择偏差, 即由数据收集方法引起的数据失真。 如 计 与 果不消除选择偏差的影响, 则可能导致根据这些数据得出的任何结论都是错误的。 由于每 实 个人或事物被选中的机会均等, 选择偏差也就得以消除。 选择偏差有几种不同的形式。 自 施 选择偏差是常见的一种, 它本身也有几种形式。 自选择偏差存在于任何人们自愿参加的计 划中, 甚至存在于自愿回应调查的人群当中。 偏差的根源是因为志愿者和回应者通常都具 有一些不主动参加或不回应的人群所没有的特性。 一个随机样本应当能够代表整个总体。 这种样本使评价人员能够把从该样本得出的结 论推广到总体。 选择随机样本需要抽样框, 它是一张完整列出总体包含的每一个单元的表。 总体中的 摇261 每一个单元都要被分配一个唯一的识别码。 然后使用某种随机方法, 如随机号码表从整个 总体中选取单元。 随机号码表是由 0、 1、 2、 3…9 这十个数字的组合随机排列而成的表。 本章的参考书目中列出了网络上的一些随机号码表资源。 许多人使用基于网络的随机数生 成器生成随机数。 Stattrek 等数据源会先询问需要的随机数的数量、 最大值、 最小值, 然 后生成随机数。 随机样本有六种: 誗 简单随机样本 誗 随机间隔样本 誗 随机启动固定间隔样本 誗 分层随机样本 誗 随机整群样本 誗 多阶段随机样本 ( 多级随机样本) 简单随机样本 简单随机样本是最常见也是最简单的一种随机样本。 它主要用在关于整个总体而不是 某一特定子集的推论。 简单随机样本适合于从均质总体抽取 50 ~ 500 个样本, 或者从异质总体抽取大样本的 情况 ( Jackson 2008) 。 抽取这种样本的方法很多。 比如, 通过观察课堂活动度量学生用在 动手学习活动上的时间的研究人员, 可以随机选择在哪个教室、 一天中的哪个时间和一周 中的哪几天进行观察。 需要观察一条从村庄到一个主要城镇道路的交通流量的评价人员, 可以随机选择在一天中的哪个时间、 一周的哪几天、 一年的哪段时期或者路上的哪些点进 行观察。 简单随机抽样的步骤如下 ( Jackson 2008) : 通向结果之路: 有效发展评价的设计与实施 llll llllllll 1郾 认真确定研究总体, 指出它应当包含和应当排除的对象。 2郾 找到或者生成一个包含总体中所有单元的抽样框, 并给每个单元分配唯一的编号。 这些编号并非一定要相邻 ( 使用连续数字 ) , 但如果编号之间间隔不大可 以 加 快 抽 样 速度。 3郾 确定样本大小。 设 4郾 确定最大编号的位数。 计 5郾 获取一张随机号码表。 与 实 6郾 确定读取数据的模式 ( 例如, 先从上到下然后再从右边一列第一个数字开始读 施 取) 。 7郾 在号码表中任意选择一个起始位置。 8郾 按照选定的模式读取数字, 始终读取与第 4 步确定的编号位数相同的数字。 9郾 每当读取到一个与抽样框中单元编号相同的数字时, 标记并选择该单元。 10郾 继续以上步骤, 直到选择的单元数达到所需数量。 11郾 如果选择过程中选择到的数字和已经选择的数字相同, 跳到下一个数字继续。 不 摇262 能重复选择相同的单元。 例如, 一个评价小组需要从有 500 个文件的总体中选出 100 个。 所有的文件从 001 到 500 连续编号, 并按编号大小排序。 该小组就可以使用一个随机数生成器, 选择 100 个数 字, 并且落在最小值为 001、 最大值为 500 范围内。 随机间隔和随机启动固定间隔样本 随机间隔抽样用于未编号、 难以编号或编号非常费时的序贯总体。 像简单随机样本一 样, 随机间隔样本也用到随机号码表。 不过该表是用来选择两个被选中的单元之间的间隔 ( 两个数字之间有多少个数) , 而不是用来选择作为样本的单元。 可以用以下步骤抽取随机间隔样本 ( Jackson 2008) : 1郾 估计总体中单元的数量。 2郾 确定需要的样本大小。 3郾 用估计的单元数除以需要的样本大小, 并将得到的商四舍五入到小数点后两位, 得到从整个总体抽取所需数量样本的随机间隔的平均长度。 4郾 将第 3 步得到的结果乘以五分之一, 结果保留到小数点后两位, 就得到了 “ 乘因 子冶 。 5郾 在总体中随机选择一个起始位置。 6郾 从随机号码表中选择一个随机个位数, 乘以乘因子并将结果取整到最接近的整数, 从起始点向后数相同数量的位置, 选择此位置的单元为一个样本, 并标记该位置。 7郾 选择下一个随机个位数, 乘以乘因子, 取整到最接近的整数, 数相同数量的位置。 8郾 在整个总体中重复上面的步骤, 直到回到起始点。 9郾 注意: 如果将单元放回它们原来的位置非常重要, 就必须在每一个抽取位置做个 标记, 以确保能够将相应的单元放回到正确的位置。 随机间隔样本也可以用计算机生成。 第九章摇 抽样策略选择 llll llllllll 有时候不可能进行真正的随机选择, 在这种情况下, 可以使用一种系统性抽样技巧, 从随机位置开始, 每 n 个位置抽取一个样本。 随机启动固定间隔样本有时被视为准随机样本, 因为它的起始点是随机的, 但间隔不 是。 虽然该抽样技巧在一定程度上比随机间隔抽样简单, 但是它在特定条件下有严重的缺 陷。 比如下面这种情况, 有个评价要求你抽取一个每天都营业的市场的每日记录, 总共大 约有 700 条记录, 你需要抽取 100 个样本。 本例中, 固定间隔被设定为七天, 这导致所有 设 记录都是从每周的同一天抽取的。 它很可能不能代表一周七天的情况。 为了避免这种情 计 与 况, 当固定间隔有可能产生有偏样本时, 应使用随机间隔抽样。 实 随机启动固定间隔样本使用如下方法得到: 施 1郾 估计总体中单元的数量。 2郾 确定需要的样本大小。 3郾 用步骤 (1) 的结果除以步骤 (2) 的结果得到间隔。 4郾 在总体中随机选择一个起始位置。 5郾 根据前面设定的间隔向后数, 抽取选定位置的单元为样本。 6郾 继续按相同的间隔向后数并选择对应的单元为样本, 直到回到起点。 摇263 分层随机样本 我们经常需要把简单随机样本中代表性不足的特定群体包含在样本中。 为了保证这样 的群组被抽样, 评价人员可以按照某种特征, 如性别、 年龄、 种族等对总体分层之后再抽 样。 这种样本被称为分层随机样本。 假设评价人员想了解一项干预活动对城市和农村居民的影响。 如果农村居民只占该地 区总人口的一小部分, 简单随机样本中他们的样本数可能不足, 从而不能进行有意义的 分析。 分层随机抽样是先把总体划分为互不重叠的组 ( 层 ) ( n1 ,n2 ,n3 ,… ,n i , 使得 n1 + n2 + n3 + … + n i = n) , 然后在各层中进行简单随机抽样。 从各层中抽取的样本数量应与该 层在总体中的比例相当。 随机整群样本 随机整群样本是从待分析单元中自然存在的整群中抽取的样本。 家庭是人的整群, 城 镇是家庭的整体。 整群必须相互独立、 总体完备。 整群样本经常用于以下情况: 誗 没有待研究总体中每一个个体的完全列表, 但有它们所属整群的完全列表。 誗 有总体中每个个体的完全列表, 但是个体过于分散使简单随机抽样的数据收集过 程极其费时费力。 随机整群抽样中, 整群是随机抽样得到的, 而数据是从所有目标单元收集的。 当目标 单元之间相距较远时, 这是一个非常有用的方法 ( 见专栏 9郾 1) 。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 专栏 9郾 1摇 使用整群抽样确定欲采访的艾滋病患者 一个评价小组想访谈住在某一区域的 200 名艾滋病患者 。 他们没有该区域艾滋病 患者的名单 。 评价小组不仅无法承受创建这样的名单的昂贵费用 , 而且有可能会带 来伦理或保密问题 。 该区域有 25 个诊所 , 并且评价人员知道 , 其中大多数诊所服务 设 计 的艾滋病患者数为每个诊所约 50 名 。 因此 , 他们决定随机选择几个诊所 , 并研究这 与 几个诊所的所有艾滋病患者 。 该区域 25 个诊所分布在路况并不好的一大片区域内 。 实 他们随机选择 25 个 诊 所 中 的 4 个 , 研 究 这 些 诊 所 中 的 所 有 艾 滋 病 患 者 , 就 有 了 约 施 200 名患者的样本 。 随机整群抽样的主要缺点是样本数量相同时 , 它对总体的参数 ( 特征 ) 估计很可 能不如简单随机抽样或随机分层抽样准确 。 专栏 9郾 1 中选择的诊所服务的病人和没有包 含在样本中的诊所服务的病人在经济水平或宗教信仰等方面就可能不同 。 如果事实确 实如此 , 那么从该样本得出的结论就是对该区域各诊所服务的所有艾滋病患者的有偏 摇264 估计 。 多阶段随机样本 多阶段随机样本整合了两种或两种以上随机抽样方法。 通常它从随机整群抽样开始, 然后进行简单随机抽样或分层随机抽样。 对专栏 9郾 1 的例子, 多阶段随机抽样可能是先抽 取八个诊所的样本, 然后用简单随机抽样从每个诊所中抽取 25 名患者。 这个方法和上面 的方法一样得出了一个 200 位病人的样本, 但样本来自更多的诊所。 多阶段抽样也可以由非随机和随机抽样组成。 例如专栏 9郾 1 中的诊所可以是非随机选 定的, 而患者是从每个诊所随机抽取的。 多阶段样本和整群样本的缺点在于它们的结果不如简单随机抽样准确。 例如, 在艾滋 诊所的例子中, 只是从总共 25 个诊所中抽取了 8 个, 它们可能不能完全代表这 25 个 诊所。 非随机抽样 当不能做随机抽样时, 必须使用一种不同的方法。 非随机样本通常分为三类: 目的抽 样、 雪球抽样和便利抽样。 非随机抽样使评价人员只能有限地将结论推广到总体。 尽管如此, 这些样本可以增加 评价结果的可靠性。 目的样本 在目的样本 ( 也称为判断样本 ) 中, 样本选择是为满足特定研究目的而进行的。 选 择是基于事先确定的、 根据评价人员的判断认为能够提供所需数据的条件进行的。 下面列出了广泛使用的几种目的抽样类型 ( Jackson 2008) : 誗 典型案例 ( 中值) 样本: 特意抽取总体中典型的或有最普遍特征 ( 位于高斯分布 第九章摇 抽样策略选择 llll llllllll 曲线中部) 的单元。 主要目的是研究典型而不是非典型案例。 誗 最大变量 ( 异质) 样本: 抽取能够代表某一待研究特性全部变化范围的单元。 这 些样本是从高斯分布曲线的各个位置抽取的。 誗 配额样本: 从每一层抽取的样本数量或比例相同。 例如, 评价人员从一个分布的 上 1 / 3 抽取 5 个单元, 中 1 / 3 抽取 5 个单元, 下 1 / 3 也抽取 5 个单元。 誗 极端情况样本: 样本从一个分布的极端情况抽取。 可能从高斯分布曲线的左端或 设 者右端选择单元。 极端情况抽样考察最不寻常的单元。 计 与 誗 证实或否定案例样本: 从已知能证实或否定普遍信念、 原理或理论的案例 ( 如精 实 心准备后成功了的项目和精心准备但失败了的项目) 中抽取样本。 施 雪球样本 雪球样本 ( 也称为链式推举样本 ) 用于评价人员不知道样本中应该包含何人或何物 的情况。 这种样本在不知道总体的边界且没有抽样框时使用。 采访时经常用到雪球样本。 评价人员使用这种立意抽样形式询问符合研究条件的人还 有谁符合条件。 摇265 便利样本 选择便利样本是基于便利评价人员的考虑。 发展评价中常见的便利样本的例子有: 誗 参观距离机场最近的项目地点 誗 在评价人员拜访的日子里, 访谈当时有空的项目管理人员 誗 考察项目官员选择展示的任何现场区域 誗 与遇到的任何非政府组织 ( NGO) 代表或市镇领导人交谈 ( Jackson 2008) 从便利样本推演出的任何形式的证据或范式都极不充分, 因为无法知道这些样本与对 应的整个总体有哪些不同。 非随机抽样的缺点 尽管非随机样本在发展评价中有其适用的地方, 但它们有几个缺点: 誗 政策制定者有时认为它们不如随机样本可信 誗 由于不满足推论统计学的假设, 所以统计显著性试验和置信区间的计算不能应用 到非随机样本上 誗 非随机样本受各种偏差的影响 不经过随机抽样, 就不能将结果推广到总体。 非随机抽样数据可能非常有用, 但最好 同时给出它的约束条件 组合抽样 随机和非随机抽样方法可以组合起来使用。 以收集一个学校的数据为例, 评价小组可 以从最贫穷的社区和最富裕的社区分别选取两所学校, 然后从这四所学校中随机选择学生 作为样本。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 确定样本大小 詪詪詪詪詪詪詪詪詪 即使使用随机样本, 也可能存在误差, 样本也可能和总体不同。 我们用统计学来估计 设 样本的结果能够代表整个总体的概率。 统计学家们发展了一套估计和确定合适的样本大小 计 的理论和方法。 本节主要讨论统计分析的基本概念和如何应用它们设计评价活动。 与 实 在选择样本大小时, 评价人员必须确定希望样本结果准确反映整个总体的可信程度。 施 置信水平通常为 95% 。 95% 的置信水平意味着 100 次里有 95 次, 样本结果能够准确反映 整个总体。 如果评价人员愿意接受 90% 可信, 样本数就可以更小一些。 如果要 99% 可信, 样本数就要大一些。 摇 表 9郾 1 95%置信水平和 5%误差界限所需的最小样本大小 总体大小 样本大小 总体大小 样本大小 摇266 10 10 550 226 20 19 600 234 40 36 700 248 50 44 800 260 75 63 900 269 100 80 1 000 278 150 108 1 200 291 200 132 1 300 297 250 152 1 500 306 300 169 3 000 341 350 184 6 000 361 400 207 9 000 368 450 207 50 000 381 500 217 100 000 + 285 摇 摇 资料来源: Krejcie 和 Morgan 1970 确定样本大小之后, 评价人员下一步要确定需要的估计精度。 和偏差不同, 抽样误差 是可以计算的。 它是所有样本的估计值与总体的实际值之差的平均, 被称为抽样误差或误 第九章摇 抽样策略选择 llll llllllll 差界限。 一个调查也许会说 48% 的人同意增加税收, 52% 的人反对增加税收, 抽样误差 是 + / - 3% 。 它的含义是如果所有的人都被调查 , 实际比例可能是 45% ~ 51% (48 + / - 3) 的人同意 、 而 49% ~ 55% ( 52 + / - 3 ) 的人反对 。 这个 依 3% 称为 置信区间 ( 不 要与置信水平混淆 ) 。 注意这两个区间有部分重叠 。 也就意味着在 95% 的置信水平 , 没 有人能够完全肯定反对增加税收的人比同意增加税收的人多 。 从样本得到的结果很难 分出胜负 。 设 样本大小是总体大小、 置信水平和精度的函数。 合适的样本大小可以用两种方法确 计 与 定。 第一种是使用公式, 第二种是使用一张表明给定置信水平需要的样本大小的表 ( 表 实 9郾 1) 。 施 总体越小, 样本大小相对于总体越大。 例如, 如果总体大小为 300, 95% 置信水平需 要的样本大小为 169, 比总体的一半稍多一些。 如果总体大小为 900, 需要的样本大小为 269, 不到总体的 1 / 3。 如果总体大小超过 100 000, 需要的样本大小为 385, 仅为总体 的 0郾 385% 。 当需要抽样单元 ( 如地区、 学校、 教师、 家长或公民 ) 自愿参与一个评价活动时, 不能保证所有被选中的对象能均能被找到 ( 即便使用最新的抽样框 ) , 也不能保证他们都 摇267 对参与评价的请求作出回应, 更不能保证他们对参与评价的请求都作出积极的回应。 由于 这种现象的存在, 许多评价人员使用了过抽样技巧, 即选择比实际需要更大的样本大小, 使最终的样本大小满足他们的需求。 当实际 响应率 比预计低 10% 或更多时, 出现反应偏 差的可能性很大, 需要进行分析。 表 9郾 2 给出了极大总体 (100 万或更大 ) 的样本大 小。 许 多 全 国 性 调 查 使 用 大 约 1 100 个样本, 其误差界限为 + / - 3% , 置信水平为 95% 。 摇 表 9郾 2 总体大小超过 100 万的样本大小 误差边界 置信水平 ( 百分比) 99% 95% 90% 依1 16 576 9 604 6 765 依2 4 144 2 401 1 691 依3 1 848 1 067 752 依5 666 384 271 摇 摇 资料来源: Jackson 2007 因特网上有一些工具给出了达到给定置信水平和误差界限需要的总体大小。 本章最后 有这些资源的链接。 总结而言: 誗 可以通过增加样本大小提高准确性和精度。 为了提高准确性、 减小误差界限, 需 要增加样本大小 通向结果之路: 有效发展评价的设计与实施 llll llllllll 誗 95% 的置信水平 ( 误差界限 + / - 5% ) 是目标标准 誗 误差界限越大, 结果准确度越低 誗 总体越小, 样本大小与总体大小的比值越大 如果一项评价需要使用复杂的多阶段抽样策略, 评价人员也许会考虑寻求帮助。 美国 统计学会 ( The American Statistical Association) 有一本统计顾问名录。 统计顾问联合会 设 ( The Alliance of Statistics Consultants) 提供数据管理、 数据分析、 论文咨询及统计学培训 计 和教学方面的帮助。 HyperStat Online 上有许多其他提供统计帮助的资源的链接。 本章最 与 实 后列出了这些网站的链接。 施 小摇 摇 结 詪詪詪詪詪詪 通常从每一个数据源收集数据是不可能的, 或是不切实际的。 因此评价人员从数据源 中选择一项的样本来收集数据。 有两种类型的抽样方法, 随机抽样和非随机抽样。 随机样本是以每个单元被抽中的机会相 摇268 同的方式从总体中抽取的样本。 随机抽样分析总体的一个子集并将结果推广到更大的群体。 随机样本有六种: 誗 简单随机样本 誗 随机间隔样本 誗 随机启动固定间隔样本 誗 分层随机样本 誗 随机整群样本 誗 多阶段随机样本 非随机样本有三种 誗 目的样本 誗 雪球样本 誗 便利样本 评价并非只能使用一种抽样方法, 而是可以将多种抽样技巧组合起来使用。 样本大小是总体大小、 置信水平和精度的函数。 即便使用随机样本, 也可能有误差。 评价人员使用各种统计方法来确定置信水平和置信区间。 练习 9郾 1摇 抽样 你正在研究的小镇有 300 人, 都登记在小镇的记录中, 并且每个人都有唯一的代码。 你有时间和资源抽取 50 名小镇居民作为样本, 并且想把结果推广到所有 300 人。 这是可 行的吗? 你需要选择哪种抽样类型? 看看你的决定是否正确。 9郾 2摇 随机号码表的使用 你正在研究一个有 90 户人家的村庄。 你有一张已经给每一户编了号的表, 并想从中 第九章摇 抽样策略选择 llll llllllll 选出 10 个简单随机样本。 你怎样使用下面的随机号码表来选择样本? 44 14 12 12 03 12 73 72 62 33 35 62 80 34 77 69 59 54 90 01 50 04 93 76 69 43 95 47 60 80 23 95 24 95 24 55 69 89 41 18 12 94 43 21 43 40 76 50 38 18 05 44 23 72 61 58 67 99 05 75 设 计 54 05 51 52 04 34 25 64 90 95 02 86 51 14 37 与 36 82 03 65 38 93 49 64 06 93 01 30 62 05 68 实 施 96 19 97 24 16 26 94 14 17 45 22 51 09 92 16 75 85 18 50 50 60 80 52 42 11 05 70 89 53 38 57 78 12 98 55 51 48 77 54 07 66 15 33 44 64 58 20 10 51 62 06 25 56 63 67 73 73 79 05 65 54 84 17 67 52 38 16 29 05 24 12 05 35 87 31 92 44 84 04 17 47 18 78 54 40 02 59 74 06 73 摇269 86 96 79 86 75 67 31 41 40 20 87 17 85 98 70 78 84 03 69 43 38 43 98 90 75 56 49 88 52 78 25 05 76 72 06 59 37 56 24 36 95 05 30 62 02 26 67 04 13 77 37 21 57 77 41 82 30 32 80 09 9郾 3摇 抽样策略 在可能的情况下, 以小组为单位展开工作, 为下面的每个评价问题确定适当的衡量指 标或统计数据。 针对这些情况说明你会选择什么样的抽样策略及其理由。 1郾 雨季刚结束时, 柬埔寨西北部村庄的道路质量会是什么样的? 2郾 在泰米尔纳德邦, 10 岁前至少感染过一次疟疾的儿童的比例有多少? 3郾 在斯里兰卡去乡村诊所就诊的人群有哪些人口统计学特征? 名词解释 总体: 评价人员希望得出结论的所有单元的集合 普查: 从整个总体收集数据 抽样: 从总体的一个子集收集数据 随机样本: 总体中每个单元被抽中的机会都相同的样本 选择偏差: 由数据收集方法引起的数据失真 抽样框: 要从中抽取样本的完整集合 随机间隔样本: 使用随机确定的号码间隔抽取的样本 随机启动固定间隔样本: 一种起始点随机但间隔固定的系统抽样技巧 分层随机样本: 从抽样框被划分为两层或更多层 ( 子体) 中随机选择得到的样本 通向结果之路: 有效发展评价的设计与实施 llll llllllll 随机整群样本: 从待分析单元中自然存在的整群中抽取的样本 多阶段随机样本: 两种或两种以上抽样方法依次抽样得到的样本 目的样本: 基于事先确定的条件选择的样本 典型案例 ( 中值) 样本: 从分布的中段抽取样本的目的抽样样本 最大变量 ( 异质) 样本: 从代表参数整个变化范围的单元中抽取的目的抽样样本 设 配额样本: 从不同类型单元抽取确定数目样本的目的抽样样本 计 极端情况样本: 从分布的左端或右端抽取样本的目的抽样样本 与 实 证实或否定案例样本: 从已知能证实或否定普遍信念、 原理或理论的案例中抽取样本 施 的目的抽样样本 雪球样本: 通过询问受访者其他可能的受访者得到的样本 便利样本: 基于便利评价人员的考虑选取的样本 样本大小: 考察的样本数 抽样误差 ( 误差界限) : 对只考察一个而不是全部样本带来的误差的估计值 置信区间: 总体的真实值以给定概率落在其上的区间范围 响应率: 实际收集到数据的样本数占视图从中收集数据的样本数的百分比 摇270 参考书目 1郾 Easton, V郾 J郾 , and J郾 H郾 McColl郾 2007郾 Statistics Glossary: Sampling郾 http: / / www郾 sta鄄 ts郾 gla郾 ac郾 uk / steps / glossary / sampling郾 html郾 2郾 Guba, E郾 , and Y郾 S郾 Lincoln郾 1989郾 Fourth Generation Evaluation郾 Thousand Oaks, CA: Sage Publications郾 3郾 Henry, G郾 T郾 1990郾 Practical Sampling郾 Thousand Oaks, CA: Sage Publications郾 4郾 Jackson, Gregg B郾 2007郾 Sampling for IEG Managers郾 Presentation at George Washington University, Washington, DC , December 18郾 ———郾 2008郾 Sampling in Development Evaluations郾 International Program for Development Evaluation Training ( IPDET) presentation, Ottawa, June 30 and July 1郾 5郾 Kish, L郾 1995郾 Survey Sampling郾 New York: John Wiley & Sons郾 6郾 Krejcie, R郾 V郾 , and D郾 W郾 Morgan郾 1970郾 “ Determining Sample Size for Research Ac鄄 tivities郾 冶 Educational and Psychological Measurement 30 : 607 - 10郾 7郾 Kumar, R郾 1999郾 Research Methodology: A Step鄄by鄄Step Guide for Beginners郾 Thousand Oaks, CA: Sage Publications郾 8郾 Laws, S郾 , with C郾 Harper and R郾 Marcus 2003郾 Research for Development: A Practical Guide郾 Thousand Oaks, CA: Sage Publications郾 9郾 Levy, P郾 , and S郾 Lemeshaw郾 1999郾 Sampling of Populations郾 3rd ed郾 New York: John Wiley & Sons郾 10郾 Lipsey, M郾 W郾 1990郾 Design Sensitivity: Statistical Power for Experimental Research. Thousand Oaks, CA: Sage Publications郾 11郾 Lohr, S郾 1998郾 Sampling: Design and Analysis郾 Pacific Grove, CA: Duxbury Press郾 第九章摇 抽样策略选择 llll llllllll 12郾 Nambiar, Devaki郾 2008郾 “ The Delhi Snowball: Sampling Escapades in Urban India郾 冶 Paper presented at the Annual Meeting of the International Communication Association, Montre鄄 al, May 22 - 26郾 13郾 Neuman, W郾 Lawrence郾 2006郾 Social Research Methods: Qualitative and Quantitative Approaches郾 6th ed郾 Boston: Allyn and Bacon郾 14郾 Patton, M郾 Q郾 2002郾 Qualitative Research and Evaluation Methods郾 Thousand Oaks, CA: 设 Sage Publications郾 计 与 15郾 Scheyvens, R郾 , and D郾 Storey, eds郾 2003郾 Development Fieldwork: A Practical Guide郾 实 Thousand Oaks, CA: Sage Publications郾 施 16郾 Stattrek郾 http: / / stattrek郾 com / tables / randon郾 asph郾 17郾 Tryfos, P郾 1996郾 Sampling Methods for Applied Research郾 New York: John Wiley & Sons郾 网址 1郾 Alliance of Statistics Consultants郾 http: / / www郾 statisticstutors郾 com / #statistical鄄analysis郾 摇271 2郾 American Statistical Association Directory郾 http: / / www郾 amstat郾 org / consultantdirectory / index郾 cfm郾 3郾 Dr郾 Drott蒺s Random Sampler郾 http: / / drott郾 cis郾 drexel郾 edu / sample / content郾 html郾 4郾 HyperStat Online郾 “ Chapter 11: Power郾 冶 http: / / davidmlane郾 com / hyperstat / power郾 html郾 5郾 HyperStat Online: Help with Statistics: Statistical Consultants and Tutors郾 http: / / dav鄄 idmlane郾 com / hyperstat / consultants郾 html郾 6郾 Probability Sampling郾 http: / / www郾 socialresearchmethods郾 net / kb / sampprob郾 htm郾 Power Analysis郾 http: / / www郾 statsoft郾 com / textbook / stpowan郾 html郾 7郾 Research Randomizer郾 http: / / www郾 randomizer郾 org郾 8郾 StatPages郾 net郾 Web Pages that Perform Statistical Calculations, http: / / www郾 StatPages郾 net郾 9郾 Survey Research Methods Section郾 http: / / www郾 fas郾 harvard郾 edu / ~ stats / survey鄄soft / survey鄄soft郾 html郾 10郾 The Survey System: Sample Size Calculator郾 http: / / www郾 surveysystem郾 com / sscalc郾 htm郾 11郾 UCLA Statistics Calculator: http: / / calculators郾 stat郾 ucla郾 edu郾 第十章 摇 计划和实施数据分析 一旦数据收集齐全, 评价者就需要分析这些数据以发掘其内涵。 数据分析策略是这一 过程的开端。 定性和定量数据分析要求不同的策略和技术。 本章包括四个主要部分: 誗 数据分析策略 誗 分析定性数据 誗 定量数据分析 誗 定性数据与定量数据的关联 数据分析策略 詪詪詪詪詪詪詪詪詪 制定数据分析策略是规划评价过程的一个重要组成部分。 在规划评价的过程中, 评价 者应该了解数据分析的三种可行的方法, 包括它们各自的优势和劣势。 在设计矩阵时, 目 标应该明确, 并需要指明基于所收集到信息所做的分析和得出的图表。 一个常见的错误是 收集了大量根本无用的数据。 不论评价设计最为关注的是定性数据还是定量数据, 数据收集和数据分析总是有重叠 的部分。 在开始进行数据收集时, 尤其是首先进行试点测试时, 我们需要花费一些时间进 行数据分析。 随着评价过程的深入, 我们将会花更多的时间在数据分析方面, 同时减少数 据收集的时间。 在依循半结构化的访谈指南以获取对某一干预活动的深度观察时, 定性分析是适用 的。 定性分析被用来分析对如下一些问题的回应: 誗 员工面临哪些困难? 誗 为什么参与者在初期就退出? 誗 参与者可能有什么样的体验? 定量分析被用来回答一些问题, 这些问题都使用如问卷调查这样的结构化数据收集手 段收集数据。 定量分析可能被用来回答以下一些问题: 誗 不同组别的参与者的平均得分是多少? 誗 在 1 ~ 5 的分值范围, 参与者是如何为干预相关性评分的? 第十章摇 计划和实施数据分析 llll llllllll 誗 变量值在多大程度上是对特定因素的反映? 誗 两个组别之间的差异是否具有统计显著性? 分析定性数据 詪詪詪詪詪詪詪詪詪 设 定性数据分析用来解释评价过程中的非数值化数据。 我们分析半结构化观察、 开放式 计 与 访谈、 书面文件以及专题小组座谈会文稿都需要利用定性分析技术。 实 定性数据分析在实地调查阶段就已经开始, 这时也可能产生一些观点。 实地调查的一部分 施 工作是记录和跟踪数据收集期间产生的值得分析的见解。 只要评价者注意不让初始说明限制了 分析的可能性, 数据收集和分析是会有重叠的 ( 表 10郾 1)。 正如 Patton (2002, p郾 436) 所说: 在基于调查、 标准测试和实验设计的数据收集过程中, 数据收集和数据分析之间的关系是非 常清楚的。 但是自然调查流动性和突发性的特征使得数据收集和数据分析之间的界限非常模糊。 在现场调查的过程中, 我们会对分析方向产生一些想法, 分析结构也会成型, 一些可能的主题也会 在脑海里呈现。 我们还可能形成一些假设, 这些假设会有助于接下来的现场调查。 尽管无论数据引 摇273 向哪里, 现场调查的前期阶段都会生成很多结果并具有突发性, 但是其随后阶段将会通过实证性 的数据收集而结束———深刻认识和确认 ( 或不确认) 出现的某种范式。 摇 表 10郾 1 收集和分析定性数据的建议 项摇 摇 目 要摇 摇 素 誗 做好记录 誗 在数据收集完成后, 立即详细记录访谈、 意见和专题小组座谈会备忘录 收集数据 誗 在收集数据的过程中不断进行比较 誗 定期地组织团队成员开会, 比较他们的记录、 识别各种主题, 并进行相关 调整 誗 在每一次重要访谈或焦点小组座谈会后立即写一页纸的总结 誗 包括所有的主要主题 数据摘要 誗 识别出最有趣、 最具启发性或最重要的主题和信息 誗 识别出需要探究的新问题 誗 创建一个单独的文件记录研究过程中研究者的自身反应, 包括感觉、 预感 和反应 使用工具进行跟踪 誗 当你有想法的时候, 把它们记录下来 誗 在数据收集过程中记录所引用文件的出处以便在撰写报告的时候能够加以 说明 誗 确定你所有的信息都在同一个地方 储存数据 誗 对所有的信息做备份, 将信息原文件储存在重要文档中 誗 在需要的时候, 使用备份进行书写、 剪切和粘贴 摇 摇 资料来源: 作者 有时候在分析中会产生一些分歧和模糊性。 如果时间安排、 预算和其他资源允许, 评价 通向结果之路: 有效发展评价的设计与实施 llll llllllll 者可以返回现场收集更多的数据, 这样就可以清楚地解释已有数据或进行新的观察。 在收集 数据的过程中, 团队成员经常需要每天或每周开会讨论可能出现的新主题和修改草案。 做好记录 在收集定性数据的时候, 准确地捕捉所有观察到的信息是非常重要的, 因此, 做好记 设 录至关重要。 这意味着我们要关注人们的说话内容和说话方式。 在做记录的过程中, 评价 计 者不应试图去理解人们说话的内容, 而是应该记录下自己观察到的内容, 包括肢体语言和 与 实 数据收集过程中所有可能的相关事项 ( 例如访谈中的各种干扰 ) 。 评价者应该捕捉那些即 施 时的想法、 反应和干扰, 并将它们作为独立的部分在记录中保存。 评价者在每次访谈、 观察或焦点小组座谈会后立即花一定的时间对记录进行回顾、 补 充和整理是非常重要的, 这有助于他们在以后能够理解记录内容。 如果笔记记录不清楚, 就会导致理解困难, 哪怕是仅仅间隔一天。 即便有部分内容是通过录音记录的, 评价者也 应该至少花费一点时间立即对这部分内容进行初步的整理, 这样就可以节省听录音带、 看 录影带或阅读文稿的时间。 三角验证是利用三种或三种以上的理论、 来源、 信息类型或分析类型来交互核对结 摇274 果, 从而证明和验证一个评价的方法。 三角验证适用于定性数据分析, 比如以下具有多种 来源的数据: 誗 访谈、 专题小组座谈会和问卷调查 誗 问卷调查、 现有数据和专家座谈会 誗 观测值、 项目记录和绘制地图 誗 访谈、 日记和现有数据 将从任何三种来源的数据中得到的发现结合起来就可以为某种特定范式提供证据。 整理定性数据为分析做准备 收集好定性数据后, 评价者会拥有很多页的关于观测、 访谈以及其他数据来源的笔记 和文稿。 整理和理解这些信息对评价者来说是一种挑战。 有专门针对整理数据的操作指南。 将这一过程写成文件对说明结果的有效性非常重要 ( IDRC 2008) 。 开始数据整理之时, 评价者应该: 誗 检查并确定所有数据是完整的 誗 对所有数据进行多个备份 誗 将数据整理至不同的文件 ( IDRC 2008) 评价者可以使用几种不同的方法来整理文件, 比如使用纸张备份或电子文件, 有些文件也 可以是扫描文件。 有些评价者会建立四种文件: 在第一种文件中, 他们按照时间顺序来储存数 据; 在第二种文件中, 他们主要保存分析文件和日记记录; 在第三种文件中, 他们保存研究方 法论的相关记录; 在第四种文件中, 他们储存了所有记录的备份文件 (IDRC 2008)。 Patton (2002) 提出了整理和报告定性数据的其他可选方法。 Patton 提醒评价者, 数 据分析应该立足于评价问题。 整理数据的方法选择应该力求回答评价问题。 第十章摇 计划和实施数据分析 llll llllllll 誗 叙事法既可以采用顺叙法 ( 从开头到结尾讲故事 ) , 也可以采用倒叙法 ( 从结尾 开始, 然后回溯到前面, 描述这样的结尾是如何产生的) 陈述数据 誗 案例研究法可以展示一个人或群体的信息; 重要的事件通常按照它们的发生顺序 进行描述 誗 分析框架包括了过程描述、 关键要素的说明 ( 通常等价于基本的评价问题) 、 问题 组织和关键概念的讨论, 如领导者能力和追随者品质 设 计 定性数据的阅读与编码 与 实 识别并对信息进行分类整理是开始步骤, 下一步是要阅读所有数据。 在阅读完几遍数 施 据后, 评价者应该开始寻找一些潜在的主题。 Patton (2002) 认为在评价中找到最为核心 的主题非常重要, 就像构建一本书的目录和对一个文件系统贴上标签。 他建议评价者应该 看看都有什么主题, 并给每个主题都赋予名字或贴上标签。 一旦数据被归纳到各个不同的 主题下面, 我们就需要对这些数据进行编码 ( 专栏 10郾 1) 。 编码是 “ 有效的数据标识和数 据修正工具。 它们强化并加速了分析进程冶 ( Miles 和 Humberman, 1994, p郾 65) 。 编码过程是一个反复的过程。 尽管在现场调查之前创立一系列的编码有利于开展评 摇275 价, 但是评价者仍然需要根据评价进程和现场记录提出更有实践意义的标识, 检查、 修 正、 再定义或增加编码, 有时候也需要放弃一些编码。 专栏 10郾 1摇 编码的实例 下面是评价一个教育计划的编码示例。 P 代表参与者, S 代表工作人员。 编码: Ps Re Prog ( 参与者对计划的反应) 编码: Ps Re Ps ( 参与者对其他参与者的反应) 编码: Ob PP ( 参与者互动的观测) 编码: Ob SS ( 员工反应的观测) 编码: Ob SP ( 工作人员和参与者之间互动的观测) 编码: Phil ( 计划宗旨的陈述) 编码: Prc ( 计划程序示例) 编码: P / outs ( 计划对参与者的影响, 结果) 编码: S - G ( 子群组别) 编码: GPrc ( 组别进程) 编码: C ! ( 冲突) 编码: C - PP ( 参与者之间的冲突) 编码: C - SP ( 工作人员和参与者之间的冲突) 编码: C - SS ( 工作人员之间的冲突) 如果编码过程是人工完成的, 那么这些缩写就写在紧挨数据段落或引语旁边的空白处。 圆括号里所有的标识都是各个不同文件的名称, 这些文件包含了所有类似的编码段落。 资料来源: Patton, 2002 通向结果之路: 有效发展评价的设计与实施 llll llllllll 进行内容分析 定性数据分析被称为内容分析。 这种分析方法识别文本、 演讲或其他媒体中出现的某 些词语、 短语或概念, 并对它们进行编码。 它是一种识别和分析隐藏在数据后面的信息的 系统性方法。 设 内容分析是指对书籍、 宣传册、 文稿、 新闻报道、 其他书面文件、 演讲稿和视频媒体 计 的分析。 它可以被用来分析一些叙述文本, 诸如日记和杂志, 以及调查、 访谈和焦点小组 与 实 座谈会中一些开放式问题的定性回答。 例如, 内容分析可以被用来检查小孩的课本, 以确 施 定这些课本是否覆盖了学习一门特定学科的必要知识, 传授一些在适当阅读水平下能够理 解的知识; 并且表现的方法与小孩生活和学习的环境相一致。 我们也可以进行更为深入的 分析, 检查这些课本是否传达了一个特殊的政治事项或是否曲解了历史。 一般而言, 内容分析开始于数据编码。 这一过程假设在文中提及最多的词语和短语反 映了重要的事情。 因而, 内容分析从以下一些内容开始: 词语频数、 空间测量 ( 例如报 纸上的专栏所占的版面) 、 时间计算 ( 广播和电视时间) 以及关键词的频数。 摇276 内容分析并不只是单一的词语计数, 它还可以进行更为深入的分析。 因此, 我们可以 分析内容, 并对词语进行编码, 还可以将词语归于各种便于管理的类别。 这些新的编码类 别可用以分析响应的频率和相关性 ( 专栏 10郾 2) 。 内容分析可以被分为两个类别: 概念性内容分析和相关性内容分析。 概念性内容分析 关注一个文本中特定词语出现的频率。 相关性内容分析不仅需要确定频率, 还要探究所确 认的概念之间的相互关系 ( Busch 等, 2005) 。 专栏 10郾 2摇 使用内容分析法确定手泵所带来的好处 为了了解村民们如何使用手泵取水的情况, 评价者访问了 100 名村民。 他们使用下 述程序分析结果。 1郾 阅读每一个回答, 并记录下每个响应。 2郾 挑出那些最频繁出现的响应, 并逐一对它们进行简单说明。 将每个主要的响应 聚集起来归为一种类型。 例如, 如果响应包括 “ 手泵非常便于使用 冶 和 “ 水总是清洁 的, 手泵也从来没有出现故障冶 , 评价者就可以确认为以下类型: 便于使用、 提供清洁 的水、 可靠。 3郾 确认所有的类别都是相互排斥的, 这样编码者才可以识别各种响应, 并将它们 归纳到相应的各个类别。 4郾 完成编码步骤。 5郾 将每个响应的频率制成表格。 资料来源: Narayan, 1996 例如, 一个概念分析可能使用下列的方法来确定类别: 誗 关于某个主题共享的语言 ( 什么内容被认为理所当然, 什么内容需要其他参与者 第十章摇 计划和实施数据分析 llll llllllll 进行澄清) 。 誗 被共享、 认为理所当然或质疑的对特定主题具有广泛影响的意见和误解。 誗 当参与者观点不一致时引起的辩论。 誗 参与者用以证明他们观点和经验的信息来源, 以及其他人如何对它们作出反应。 誗 促使观点变化或对经验进行重新解释的信息争议、 来源和类别。 誗 参与者相 互 讨 论 某 个 主 题 时 的 语 气、 肢 体 语 言 和 情 绪 ( Catterall 和 Maclaran, 设 1997) 。 计 与 根据 Kripendorff (2004) 的观点, 内容分析必须强调以下六个问题: 实 誗 我们需要分析哪些数据? 施 誗 这些数据是如何定义的? 誗 这些数据是从哪个总体中抽取出来的? 誗 数据分析的相关背景是什么? 誗 分析的边界是什么? 誗 推理的目标是什么? 一旦强调以上这些问题, 我们就可以对相关的数据和不相关的数据作出选择。 摇277 Neuendorf (2006) 为内容分析程序提供了一幅流程图 ( 图 10郾 1) , 它开始于内容分 析的理论和基本原理。 对评价者来说, 要做好内容分析是一大挑战, 他们必须知道运用内容分析的过程中存 在的一些潜在问题 ( 表 10郾 2) 。 计算机辅助的内容分析 如果我们要使用计算机进行内容分析, 那么所有的信息都必须转化计算机程序可以读 取的文件。 评价者可能需要输入、 扫描或重新建立数据文件。 许多软件包都有助于整理来自观察、 访谈或焦点小组座谈会的数据。 这些软件包括文 本数据库管理器, 文字处理器和自动检索软件。 这些程序是特别为处理文字内容而开发 的。 有一些内容分析软件程序可以和其他类型的媒体一起使用。 计算机辅助的 定 性 数 据 分 析 软 件 ( CAQDAS ) , 也 可 以 称 作 是 定 性 数 据 分 析 软 件 ( QDAS 或 QDA 软 件 ) , 这 些 软 件 用 于 研 究、 整 理、 归 类 和 解 释 文 本 数 据 和 视 频 数 据 ( 专栏 10郾 3) 。 评价者可以使用这种类型的软件分析各种相互关系和理论设想, 并构建相 关理论。 这些软件包括 Ethnograph, Qualpro, Hyperqual, Atlas鄄ti, QSR蒺s N6 ( 即 以 前 的 NUD*IST) 和 NVivo8, AnSWR, HyperRESEARCH, Qualrus 等。 美国评价协会 ( American Evaluation Association) 的网站上有这些资源的公共链接。 这些资源下面有个类别是 “ 定性数据分析软件 冶 , 简单地介绍了可以使用的各种软件, 包 括这些软件的成本、 适用媒介的范围和种类, 以及提供这些软件的网站链接地址。 此外, 网站还指出了在哪里可以免费下载这些软件或软件的试用版。 通向结果之路: 有效发展评价的设计与实施 llll llllllll   . 1    为什么?你有研究问题吗?你有假设吗?  理论与理由:内容是什么? . 2   概念界定:研究中要用到什么变量?你如何从概念上定义这些变量?  设 计 3    .可操作的度量:你的度量工具必须和概念相符合(内部有效性)。如果存在不 与 止一个数据收集单位的时候,你会选择什么单位?分类是否穷尽并相互独立?每 实 个变量都得到了很好的度量了吗?必须事先建立一个描述所有度量的编码方案。在 施 这一点上可以对表面有效性和内容有效性进行评估。  人工编码    计算机编码 a 4.  编码方案:建立下列   4 b.  编码方案:虽然可以使用计算机进行文本内   事项:  容分析,但是你仍然需要一个编码本对你的词 (1)编码本(解释所有 典和应用方法进行全面的解释。你可以使用词 变量的度量工具); 典定义关键词语。当创建原始词典时,你首先 (2   )编码格式。  需要从文本样本中生成一个频率序列,并使用 摇278 关键词语和短语对其进行检验。  . 5抽样:有可能对内容进行一次普查吗?(如果是,去第6   步)你如何对内容的一 个子集进行随机抽样(通过时间段、事件、页码、渠道或其他方法)? . 6培训和初始可靠性:在培训过程中,编码者在一起工作并确   定大家对变量的编码能否达成一致意见。然后,在独立的编码 测试中,对每个变量的可靠性进行标注。在每一个阶段都可以 编码格式进行修改。  根据需要对编码本/ a 7.    编码(人工):为了确保编码 b 7.    编码(计算机):将词典用于样 者间的可靠性,至少使用两个编码 本检验,以生成各个词典中每个单位 人员。编码过程应该独立完成。  的频率。做一些抽查以检验有效性。  . 8总体可靠性:将每个变量的可靠数值相加。   . 9制作表格和报告:可以使用多种不同的方式进行。可以将数值和统计量分开逐   一进行报告,也可以用交叉表将它们同时报告。也可能会用到趋势分析。  图 10郾 1摇 内容分析研究的流程 资料来源: Neuendorf, 2006 第十章摇 计划和实施数据分析 llll llllllll 专栏 10郾 3摇 对数据进行电子编码的策略 以下是一些使用 CAQDAS 的有用技巧: 誗 备忘录是对数据进行注解的最基本的方法。 使用者可以使用一些小的电子粘贴 备忘录为数据贴上备忘录。 设 誗 评价者可以使用自由编码对各个部分的数据贴上标志和编码。 计 誗 自动编码程序可以用不同的方法进行编码。 最常用的一种方法是使用计算机程 与 序对研究结果自动进行编码。 数据也可以根据事先指定的要求被自动记录。 实 施 誗 软件生成编码方案是 Qualrus 的一个新特征。 在这一程序中, 有一种算法会根据 以前存在的编码提出新的编码。 誗 N6 , HyperRESEARCH 和 Qualrus 可以提供多媒体的编码程序。 这些程序可以对 音频或视频文件和图像部分提供编码指令序列。 一些其他的 CAQDAS 程序可以连接外 部的多媒体文件。 资料来源: Loughborough, 大学社会科学系, 2007 摇279 定性数据人工分析 Porteous, Sheldrick 和 Stewart (1997) 针对使用人工分析定性数据提出了一些非常有 益的建议。 当然, 如果收集到的数据量很大, 我们还是要优先使用计算机辅助软件。 当以 下资料准备好之后就可以开始人工分析了: 誗 几支荧光笔 ( 每个评价问题用不同的颜色显示) 誗 每个评价问题都有一张工作表 ( 图 10郾 2) 誗 包括访谈或专题小组座谈会的记录、 文稿和录音带等数据 誗 用于汇总自我完成的问卷、 登记表和观察或图表分析的工具 摇 表 10郾 2 内容分析潜在的优势和挑战 潜在优势 潜在挑战 誗 直接使用记录或文稿观察其中的相互关系, 誗 有可能非常耗时 并因此获取社会关系中的主要方面 誗 易受错误影响, 特别是需要进行推理分析以更 誗 定量分析和定性分析相结合 深入理解时 誗 随着时间推移, 可以对文本进行分析得出有 誗 常常缺乏理论基础或非常随意地试图得出一些 意义的历史 / 文化观点 与研究 中 隐 含 的 关 系 和 影 响 有 关 的 有 意 义 的 誗 可以用于解释一些文本, 如开发专家系统等 推理 的文本 ( 因为我们可以对有关概念之间相互 誗 需要 化 繁 为 简, 特 别 是 处 理 一 些 复 杂 文 本 的 关系的知识和规则进行显性陈述) 时候 誗 是分析互动关系的一种自然手段 誗 运行的太频繁, 导致不能得到简单的单词计数 誗 洞察复杂的人类思考和语言使用模式 誗 常常不顾文本形成时的背景, 以及文本形成后 的各种状况 誗 使用计算机分析可能有些困难 摇 摇 资料来源: Busch 等, 2005 通向结果之路: 有效发展评价的设计与实施 llll llllllll 主题 / 参考资料的数量 引用语 发摇 摇 现 设 图 10郾 2摇 空白的定性数据分析工作表 计 与 资料来源: Porteous, Sheldrick 和 Stewart, 1997 实 施 每个评价问题至少使用一张工作表。 我们将每个评价问题写在每张工作表顶端的空白处, 并选择一个编码来识别每个问题的数据。 识别方法可以是钢笔、 铅笔或荧光笔的颜色, 也可以 是一个符号。 我们要将自己使用的颜色或符号记录在每张工作表顶端的第二行空白处。 为了填充工作表, 我们需要通读迄今收集到的记录和材料, 并使用下列程序对信息进 行编码: 誗 一口气读完所有已完成的工具或笔记和文稿。 誗 用不同颜色的荧光笔在每个评价问题对应的部分标上记号。 摇280 誗 回到开头并仔细阅读与第一个问题有关的所有数据。 誗 在工作表的 “ 主题 冶 一栏中, 写下该评价问题期望得到的每一个观点、 想法或 感觉。 誗 在每个主题之间留下一段空白, 用以记载每一点出现的频率。 誗 对每个观点、 想法或感觉出现的次数进行计数。 用下列方法填充工作表的其余部分 ( 图 10郾 3) : 誗 从各种记录中提炼和插入最能体现每个主题的引用语。 誗 对每个特别的要点进行初步的总结, 并将它们写入 “ 结果冶 一栏。 誗 将各种结果按照类型或种类进行整理。 誗 使用响应的数量 ( N = x) 表示精度和重要性。 主题 / 参考资料的数量 引用语 发现 父母 叙述:我认为决策的过 人们都强烈认为   父母应该更多地参与 程是有意义的 主题的选择 每个议题包括了几个主题 有时候我们只是对某 个主题稍有涉猎然后就得 许多参与者(52 离开或进入另一个主题了 8 位受访者中的3人) 每个主题的时间都不够 认为应该有更多的时 我们需要更多的时间   间进行讨论 进行讨论   图 10郾 3摇 已完成的定性数据分析工作表 摇 摇 资料来源: Porteous, Sheldrick 和 Stewart, 1997 在使用记录卡分析定性数据的时候 , 我们的目标是用通用的词语 、 短语 、 主题或图 第十章摇 计划和实施数据分析 llll llllllll 表总结看到的或听到的 。 随后 , 新的主题就可能出现 。 我们需要重新阅读早期的材料 , 检查某一主题是否确实在开始的时候就已经存在 , 但在其重要性并不清晰的时候就已 经消失 。 在识别词语 、 事项 、 主题或图表时 , 我们需要在它们所处的位置做上标记 , 这样就 可以在需要证实引用语或相关内容时再次找到它们 。 第一次做这样的事情或许会让你 感到单调乏味 , 但随着经验的积累 , 你可以比较容易地以更快的速度确定潜在重要信 设 息的位置 。 计 与 有时候, 少数人的一些观点也很重要, 我们需要报告这些观点。 这就需要你自己去判 实 断, 但是你必须要清楚只有一个或少数几个响应表示了那个观点。 正如西英格兰大学网站 施 上关于数据分析的一段话所说: 生活很少会一帆风顺。 总会有一些陷入僵局的主题, 它们或者会逐渐消失或者会相互矛盾。 定 性分析面对的诱惑是忽略那些不完全符合新兴理论的奇特种类。 这些奇特的种类就像你在抽屉里 找到的不成对的单只袜子, 因此形成袜子包现象。 所有的定性分析项目都会有一些具有独特性质 的奇特种类; 与其让它们从眼前消失, 不如将它们整合为整体的一部分。 摇281 解释定性数据 评价者描述数据并对它们进行解释。 在分析定性数据之前, 我们需要用一种描述性方 法清楚地对它们进行说明。 解释数据意味着要找出可能的因果关系、 进行推理、 了解意 义, 并处理与分析相矛盾的情况。 许多人害怕使用统计方法。 因而, 人们普遍认为定性分析方法在某种程度上是一个比 较容易的选择。 事实上, 一个好的定性数据分析所要求的不仅仅只是找出因果关系。 虽然 分析定性数据可能是一项费时耗力的工作, 但是它可以揭示许多行为和过程的规律, 这是 定量数据分析不能得到的。 评价者需要计划留出足够的时间将定性数据分析做好。 定性方法是分析因果关系的有效工具 (1994 年, Miles 和 Huberman 提出了一个非常 好的循序渐进的系统分析定性数据的指南) 。 Patton (2002) 描述了两种类型的定性分析: 归纳分析和演绎分析。 归纳分析是指从数据中发现范式、 主题和类别。 演绎分析是指利用 一个现有的框架分析数据。 一般而言, 我们初期先用归纳方法分析定性数据 ( 指出种类、 范式和主题) 。 一旦确定了种类、 范式和主题, 我们就可以进行演绎分析。 演绎分析包括 检验和证实归纳分析的可靠性和恰当性。 定性数据分析过程存在着发生偏差的风险 ( 如果不使用软件进行内容分析 ) ; 人们常 常只看见自己想看的东西, 而忽视那些不符合自己期望的事情。 让另一个人分析同样的数 据有助于纠正这种偏差 ( 但不能总是可以完全克服这种情况 ) 。 通过比较两种分析方法, 评价者可以确认新的主题或找到理解数据的不同方法。 当报告定性数据时, 有时无法说明有多少人或者多大比例的人说了某件事或做了某件 事, 有时也不一定需要这样去做。 因为并非所有的参与者都被问及同样的问题, 所以很难 了解到每一个人对某一问题的看法。 另一种控制偏差的方法是让两个编码者检查同样的文 本, 并依据主题对它们进行编码。 如果评价者训练有素, 操作规范和评价体系清晰且在事 通向结果之路: 有效发展评价的设计与实施 llll llllllll 前取得一致意见, 那么两个评价者在评价材料的过程中就会取得高度一致的意见。 两个评 价者意见较为一致, 表示值得信任。 如果不一致, 则表示我们需要修改操作规范或评价体 系, 或者两者都要修改。 表 10郾 3 总结了整理和解释定性数据的一些建议。 设 摇 表 10郾 3 整理和解释定性数据的一些建议 计 任摇 摇 务 建摇 摇 议 与 实 进行分类 誗 使用不断重复的主题、 想法、 词语和短语 施 誗 使用的类别范围要足够大以包含一些观点, 但是也不能大到漫无边际, 毫 无意义 誗 创建的类别之间要有不同的性质, 各自拥有独特性 对各个类别进行 誗 制定编码方案 编码 誗 制定详尽、 明确的编码决定规则 誗 对编码人员进行培训, 让他们知道如何使用编码方案 当使 用 两 个 及 两 个 誗 使用一个小的定性数据样本进行事前检验 摇282 以上的观察人员时, 誗 检查评价者之间的可靠性———看不同的人使用相同的方法评价同样的事情, 要检查可靠性 是否会得出相同的结果 誗 如果存在问题, 解决这些问题; 然后再次进行事前检验 分析数据 誗 对数据进行排序 誗 考虑将数据记录在卡片上 誗 考虑将数据记录到电子数据表中 誗 考虑使用计算机辅助进行数据分析 誗 整理数据以揭示范式和主题 解释数据 誗 如果有可能的话, 组成至少包括两个成员的团队对数据进行检查和分类, 这样就可以比较他们的结果, 如有差异, 则对结果进行检查和修改 誗 找出数据的内涵和意义 分享和检查 誗 将各种主题和类别与项目的过程或成果相联系, 或者同时与二者联系。 当 信息 受访者讨论过程事项时, 一些主题是否更为普遍? 当受访者讨论成果事项 时, 一些主题是否更具有相关性? 找出数据的其他解释和其他理解方法 撰写报告 誗 尽早进行信息分享, 并经常同重要信息提供者分享信息 誗 让其他人审阅早期的草稿, 这样可以获取信息、 发现问题、 得到其他解释 数据的方法以及挖掘其他可能的数据来源 誗 描述重要的主题 ( 主题法) 或展现反映过去发生事件的资料 ( 自然历史方 法) 誗 强调那些有趣的观点, 即使这些观点只有一个或两个人提及 誗 持续聚焦; 大量的数据非常容易使评价者迷失 誗 只包括重要的信息。 你要问自己这些信息是否回答了评价问题, 并对利益 相关者有用 摇 摇 资料来源: 根据 Porteous (2005) 的资料改编 第十章摇 计划和实施数据分析 llll llllllll 报告定性数据 许多评价同时使用定量和定性数据。 如果使用混合的数据收集方法 ( 定性和定量 ) , 那么评价者需要对部分定量数据作澄清和说明。 例如, 如果 55% 的受访者对某一项干预 不满意, 那么用一组有代表性的评语说明不满意的来源是非常有意义的。 设 计 评价者会期望获得 “ 可以引用的引言冶 。 我们要选择一些参与者的陈述, 因为这些陈 与 述清楚地表达了某一种思想或者值得关注的重要观点。 这些话很有道理: 许多报告的读者 实 会记得某一句引言而非一页纸的描写。 为了避免发生偏差, 评价者应该引用引言来说明与 施 某一主题相关的一系列论点和观点。 定量数据分析 詪詪詪詪詪詪詪詪詪 定量数据分析用于总结评价中收集的数字信息部分。 评价者将数据输入一个计算机数 摇283 据文件以整理数据或使用软件包对他们输入的数据进行分析。 数据编码 虽然定量数据分析也需要进行数据编码, 但是这一过程要比针对定性数据的内容分析 简单。 当数据需要变换成一个数字化响应时, 我们就需要对定量数据进行编码。 编码使人 们能够对数据进行有意义的处理。 由于高度、 重量、 年龄和旷课天数, 这类数据已经是数 字化数据, 我们不需要对它们进行编码。 其他类型的数据, 例如, 一个受访者是否拥有银 行账户, 则需要数字编码之后才能进行分析。 一个评价者可以用 1 和 2 对响应进行编码, 1 表示 “ 是冶 , 2 表示 “ 否冶 。 还有一些收集到的数据是表示范围或观点的。 例如, 当问题是 “ 你属于哪个年龄组冶 时, 每个年龄组可以被赋予一个编码 ( 小于 15 = 1, 15 ~ 18 = 2, 26 ~ 36 = 3, 等等 ) 。 有 些技巧对维护数据是很有帮助的 ( 专栏 10郾 4) 。 专栏 10郾 4摇 维护定量数据的技巧 誗 确定数据变量已经被标记 誗当数据标识或响应编码发生变化时, 我们要确定能够及时更新数据词典。 做好文 件分类是非常重要的 誗 创建数据集的备份以防万一。 创建临时的和永久的数据集是一种非常明智的做 法。 想一想如果数据丢失, 我们需要做些什么 誗 总是保留一份原始数据集的备份 资料来源: 儿童和青少年健康测量倡议 2009 通向结果之路: 有效发展评价的设计与实施 llll llllllll 每个人或记录都被称作是一个 “ 个案冶 。 数据文件由变量和每个变量的值组成。 变量 代表了需要分析的各个项目。 评价者阐明每个变量如何编码以及它们属于哪个类别非常重要。 这些编码都要汇编成 一本编码本 ( 有时候也叫数据词典) 。 编码者必须拥有这个编码本, 并且在经过培训后会 使用编码本。 设 计 数据清洗 与 实 施 数据清洗 ( 也叫数据清洁或数据洗涤 ) 是找出错误的或互相冲突的数据以提高数据 质量的过程 ( Rahm 和 Do, 2000) 。 我们通常称这些错误的或有冲突的数据为 “ 脏数据 冶 。 数据分析师估计, 有高达一半的分析时间用来进行数据清洗, 事实上, 这一时间经常还是 被低估了。 一旦数据集是干净的, 分析师就可以顺利开展工作。 数据库中的错误数据主要包括以下几种: 誗 数据缺失 誗 “ 不适用的冶 或没有响应 摇284 誗 数据输入错误 誗 数据格式不正确 誗 列位移 ( 一个变量列中的数据被输入到相邻的列) 誗 虚假数据 誗 编码错误 誗 度量和访谈错误 誗 过时的数据 ( P郾 A郾 N郾 D郾 A郾 2000) 有些情况下, 受访者不知道问题的答案或拒绝回答问题。 有些情况下, 受访者则可能 因为疏忽而漏掉一个问题。 评价者处理这类响应的一个通用方法是: 誗 不知道 = 8 誗 拒绝回答或数据缺失 = 9 例如, 有一个数据集由几个不同的人输入, 其中一个编码者使用大写字母输入所有的 数据, 而另一个编码者则将姓的第一个字母用大写字母输入, 同时用小写字母输入其他字 母。 一个编码者在某一项目下输入每一个地址, 而另外一个编码者则将街道地址输入一个 项目, 将乡镇输入一个项目, 最后将国家输入另一个项目。 此外, 我们还可以考察那些与 10 年前的评价数据结合的数据。 因为新的调查工具比以前包含了更多的问题, 所以对于 很多问题而言, 旧数据并没有包含任何响应。 数据存在的另外一个问题是许多受访者混淆了某些问题。 虽然记录答案的人往往会通 过尽力猜测来处理这些响应, 但是每个数据记录者会采用不同的准则进行编码。 有不少这 样的例子, 受访者被要求 1 ~ 5 度量标准中选择一个数字, 结果他们会回答一个小数 ( 如 2郾 5) 。 一些编码者将这些数字四舍五入凑整到最近的整数, 而另一些编码者则将他们调 低到 2, 还有一些编码者将这些响应看做是数据缺失。 所有这些问题都是由项目响应过程和数据输入过程中人们所犯的错误引起的。 如果能 第十章摇 计划和实施数据分析 llll llllllll 够建立并严格执行数据编码和数据输入的相关规则, 许多问题都会降低到最少的程度。 然 而, 数据输入过程中总会存在问题。 正是因为这个原因, 我们需要对数据输入进行检查。 评价者需要建立响应编码的规则, 并持续追踪原始的问卷调查表 ( 以便在发现可能的错 误时可以参考) 。 评价者需要检查数据, 并努力识别任何一个 “ 脏数据冶 。 一旦数据完成输入, 就需要在分析前进行筛选和清洗。 我们下面以学校的记录数据为 例: 如果问题是关于性别的, 则只有两种可能的响应: 1 和 2, 分别代表男性和女性, 如 设 果发现其他的响应, 它们必然是错误的。 如果问题是关于参加物理考试的, 所有可能的数 计 与 值包括 1 ( 表示是) , 2 ( 表示否) , 8 ( 表示不知道) 和 9 ( 表示缺失或拒绝 ) , 任何其他 实 的响应就可以看做是编码错误。 评价者可以查看输入记录中比同龄学生的期望数据高很多 施 或低很多的数据以发现身高数据中的错误 ( O蒺Rourke 2000b) 。 如果我们关注数据的准确 性, 评价者 可 以 回 到 原 始 数 据 表 核 实 编 码 数 据 的 准 确 性 ( 或 不 准 确 性 ) 。 ( Chapman [2005] 为我们提供了一本很好的有关数据清洗原则和方法的入门书。 他提到了一些网上 的资源和可以获取的软件。 虽然它们强调了多种特别的主题, 但是大多数信息都可以作为 一般信息使用。 为了说明数据清洗技术, Cody [ n郾 d郾 ] 提供了一个练习, 本章最后给出 了这个练习的链接) 。 摇285 计算机软件程序已经被用来帮助进行数据清洗, 这些程序检查超出范围的数据, Win鄄 pure 就是其中的一个例子。 保存做出数据清洗决定的记录非常关键。 使用统计方法 我们可以使用统计学方法对定量数据进行分析。 这部分内容介绍一些非常重要的统计 学概念, 实施发展评价或阅读发展评价报告的人都应该知道这些概念。 统计学家将统计分为两大类: 誗 描述性统计: 描述和概括定量数据 ( 最为狭义的定义) 。 誗 推断性统计: 一般用于分析随机样本数据, 它依据变量随机样本的有关信息, 对 一 个定性变量或定量变量的总体取值范围进行推断。 预测部分包括可靠性陈述, 说明总 体的实际值落在某一特定数值区间的概率。 描述性统计 一般而言, 我们使用两种类型的描述性统计方法来分析数据: 誗 集中趋势的测度: 描述一组数据以说明它们中间点的方法。 誗 离散程度的测度: 描述一组数据以说明数据离散程度的方法。 集中趋势的测度。 有三种测度集中趋势的计量单位, 有时我们将其称为 “3M冶 。 我们通常使用画图的方式将一组数据表示出来, 这叫做频数分布。 频数分布用以描述 数据组中每个变量的频数。 然后, 我们使用三个集中趋势测度单位中的一个或多个来确定 中间数值: 均值、 中位数和众数。 众数: 出现频率最高的响应值。 中位数: 一个分布的中点或中间值; 分布中的一半数值高于这个值而另一半数值低于 通向结果之路: 有效发展评价的设计与实施 llll llllllll 这个值。 在拥有偶数个数值的数据集中, 中位数被定义为两个中间值的平均值。 平均值: 将所有数值求和, 然后除以数值的个数 ( 样本大小) 。 我们最常用的两个统计数值是均值和中位数。 表 10郾 4 列出了 16 个国家城市人口占总人口比例的数据。 假设你要分析这些信息, 并 报告这些国家的平均城市化水平 ( 平均值) , 这个平均值应该是各个国家城市化率的总和 设 除以国家的数量: (90 + 64 + 84… + 93) / 16 = 71郾 3。 高于整个样本数 50% 和低于整个样 计 本数 50% 的两个中间数值是 71 和 73, 这确定了它的中位数是 72 (73 + 71 = 144 / 2 = 72) 。 与 实 众数是 47郾 6。 在这个案例中, 我们需要注意的是均值和中位数非常接近, 但是众数却相 施 差很远。 摇 表 10郾 4 拉丁美洲和中美洲国家的城市化比例 2007 年居住在城市的 2007 年居住在城市的 国摇 摇 家 国摇 摇 家 人口比例 ( % ) 人口比例 ( % ) 阿根廷 90 洪都拉斯 47 摇286 玻利维亚 64 墨西哥 76 巴西 84 尼加拉瓜 59 智利 88 巴拿马 71 哥伦比亚 73 巴拉圭 59 哥斯达黎加 62 秘鲁 73 厄瓜多尔 63 乌拉圭 92 危地马拉 47 委内瑞拉 93 摇 摇 资料来源: 世界银行: 《 世界发展指标 2008》 , 162 - 164 使用哪个数值来衡量集中趋势取决于数据类型: 名义数据、 序数数据还是间隔 / 比率 数据 ( 表 10郾 5) 。 誗 名义数据 ( 有时也叫类别数据) 是指多种相互不重叠类别数据中的一类, 诸如性 别、 宗教或原籍国等。 誗 序数数据指那些按一定顺序排列、 可用一定尺度度量的数据, 连续的响应值之间 的距离不一定相同。 我们可以用 “ 最重要冶 到 “ 最不重要冶 或者从 “ 强烈同意冶 到 “ 强 烈不同意冶 的度量尺度来说明序数数据。 序数数据没有零点。 誗 间隔 / 比率数据是实际的数值。 这些数据具有零点和固定的间隔, 就像一把尺子一 样。 间隔 / 比率数据可以被分割并和其他比率数据进行比较。 对间隔 / 比率数据来说, 选择哪个数值表示集中趋势还要取决于分布的情况。 如果分 布是钟形的, 这意味着平均值、 中位数和众数将非常接近。 在这种情况下, 平均值是表示 集中趋势最好的选择。 与之相反, 如果分布包含一些非常高的数值和一些非常低的数值, 平均值将不再是最接近中间值的数值。 在这种情形下, 中位数将是表示集中趋势较好的 选择。 第十章摇 计划和实施数据分析 llll llllllll 摇 表 10郾 5 不同数据类型用以衡量其集中趋势的优选度量工具 数据类型 最好的衡量集中趋势的统计数值 名义数据 众数 序数数据 众数和中位数 间隔 / 比率数据 众数、 中位数和均值 摇 摇 资料来源: 作者 设 计 离散程度的测度。 我们通常用两个计量单位来测度定量变量的离散程度: 区间和标准 与 实 差。 区间是一个变量的最高值和最低值之间的差额。 利用表 10郾 4 中的数据计算, 城市人 施 口比例的区间是 93 - 47 = 46。 区间并不是非常有意义的单位, 因为它完全取决于两个观 测值而忽略了其他所有的观测值。 当两端的数据非常极端时, 这一区间对其他所有数值所 处的范围而言毫无意义。 最常用的测度间隔 / 比率数据离散程度的计量单位是标准差。 标准差是衡量平均值两 侧数值的偏离程度的单位。 数值离平均值越远, 标准差就越大。 理解正态分布 ( 图 10郾 4) 对更好地理解标准差的概念非常重要。 正态分布有时也叫 摇287 钟形曲线, 因为它的形状像一口钟。 在正态分布中, 大部分数据都落在分布的中间部分。 越向分布的两端, 数据越少。 数据并不总是呈现出正态分布。 一些分布曲线会更为扁平, 另一些分布的曲线更为陡 峭或者曲线在一端或另一端翘起 ( 图 10郾 5) 。 标准差测度数据集在均值周围的聚集程度, 它衡量了到平均值的距离。 在一个正态分布 中, 在横轴上任何一个方向距离平均值一个标准差包含了大约 68% 的数据 ( 图 10郾 6)。 距离 平均值两个标准差包含了大约 95% 的数据。 距离平均值三个标准差包含约 98% 的数据。 y 频 率 x O 数值  图 10郾 4摇 正态分布 摇 资料来源: 作者 如果一个数据集的曲线更为扁平, 那么标准差也就越大。 标准差的数值表示了该数据 偏离均值的程度 ( 表 10郾 5) 。 如果在一次考试中每个人的分数都是 75 分, 那么平均分就是 75 分, 标准差为零。 如 通向结果之路: 有效发展评价的设计与实施 llll llllllll y y y 设 计 与 x x x 实 O O O 施 图 10郾 5摇 非正态分布 资料来源: 作者 y 均值  距均值一个标准差  摇288 距均值两个标准差  距均值三个标准差  x O 8 6 5 9 8 9 图 10郾 6摇 正态分布的标准差 资料来源: 作者 果同样是以 75 分为平均分, 那么每个人得分在 70 ~ 80 分情况下的标准差将小于每个人得 分在 40 ~ 90 分的情况。 用另一种方式表示就是: 小标准差 = 离散程度低 大标准差 = 离散程度高 标准差的值包含了每一个数值的影响, 因此, 它要优于区间。 经常使用的描述性统计方法。 有时候一个问题要求使用具体的数字作为答案 ( “ 你有 多少只山羊? 你多长时间去一次银行 冶 ) 。 这一类问题的响应绝对要进行报告, 并且用百 分比来表示。 在另外一些时候, 受访者被要求用一个数值范围进行评分。 例如, 一个评价者可能会问 受访者能否将他们所学到的东西进行运用, 并给他们一组分别代表从 “ 完全不冶 到 “ 许多冶 第十章摇 计划和实施数据分析 llll llllllll 的从 1 到 5 的数值进行选择。 在分析这种类型的数据时, 我们应该建立一个决策规则: 关注 答案在数值范围两个极端的人群所占的百分比; 关注答案在中间类别两边的人群; 或者关注 平均响应。 虽然没有明确的规则, 但是一些指南或许会有帮助 ( 专栏 10郾 6)。 专栏 10郾 5摇 计算标准差 设 一个分布的标准差计算过程如下: 计 1郾 计算数据的平均值 与 实 2郾 用每个数据值减去平均值计算偏差值 施 3郾 对每个偏差值求平方 4郾 将所有的偏差值平方求和 5郾 用数据样本值减去 1 6郾 所有偏差平方的和除以第 5 步的结果 ( 列出的项数减去 1 ) 7郾 将步骤 6 的结果开方 计算标准差的公式如下: 摇289 移 ( x - x) - 2 啄 = N -1 其中: 啄 = 标准差,移 = 求和符号, x = 均值 - 即使是一个非常小的样本, 计算标准差也是一件非常费时的事情。 非常幸运的是, 大多数的统计软件, 如 Windows 里的 Excel 和 SPSS, 都可以支持这些计算。 我们考虑一个卫生中心的顾客调查 ( 表 10郾 6) 。 分析这些数据的一种方法是报告如下 内容: 半数受访者表示同意或非常同意他们得到了好的医疗服务, 55% 的受访者表示同意 或非常同意诊所的员工愿意回答他们的问题。 然而, 60% 的受访者表示同意或非常同意他 们就诊需要等待很长时间。 在这个分析中, 评价者决定将持同意和非常同意观点的受访者 的百分比汇总起来报告。 如果数据是不同的, 那么评价者应该使用一个不同的策略。 例如, 思考一下表 10郾 7 中所列出的结果。 在这种情况下, 我们的分析可能关注以下内容: 80% 的受访者同意或非常同意他们获 得了好的医疗服务; 20% 的受访者同意或非常同意他们就诊需要等待很长时间。 我们最为 关注的是诊所工作人员回答问题的意愿, 95% 的受访者报告说他们非常同意或同意诊所员 工愿意回答他们的问题。 同时描述两个变量。 评价者有时候想同时描述两个变量。 例如, 他们想描述实验班和 讲习班的学生构成。 具体而言, 他们想知道每个班里男生和女生的比例。 数据分析显示, 实验班有 55% 的男生和 45% 的女生, 同时传统的讲习班有 55% 的女生和 45% 的男生。 交叉表显示了两个或多个变量的联合分布, 通常表现为矩阵形式。 一个频数分布描述 一个变量的分布, 而一个相依表则同时描述两个或多个变量的分布。 表中的每格都表示选 通向结果之路: 有效发展评价的设计与实施 llll llllllll 择特定响应组合的受访者的百分比和数量。 对班级招生情况的数据可以做如下解释: 在这个样本中, 男生 (55% ) 在某种程度上 比女生 (45% ) 更喜欢上实验班。 这一结果表明了性别和班级招生之间的相互关系。 但是, 这种相关性有多强呢? 在我们阐述相关性分析之前, 理解自变量和因变量的概念非常重要。 设 专栏 10郾 6摇 分析定量调查数据的指南 计 与 下面的指南可以帮助评价者分析定量调查数据: 实 1郾 选择一个分析数据的标准方法并始终如一地应用它。 施 2郾 不要把区间两端与中间的类别混合起来。 3郾 如果不报告 “ 强烈同意冶 或 “ 强烈冶 不同意的类别, 那么也不报告 “ 同意 冶 或 “ 不同意冶 的类别 ( 如果使用的话) 。 4郾 分析并报告百分比和数字。 5郾 提供受访者数量作为参考。 6郾 如果结果几乎没有差异, 那么就要提高基准点: 当我们关注的问题得到的大多 摇290 数答案是 “ 非常满意冶 或 “ 强烈不同意冶 时, 我们会得出什么结果? 7郾 数据分析是一种艺术和技能, 通过培训和练习, 它会熟能生巧。 资料来源: 作者 自变量是指解释另一个变量 ( 因变量 ) 的变化的那些变量。 例如, 在一个培训课程 的评价中, 自变量可能包括讲师们的经验、 培训对象的背景、 培训课程设计、 培训时间的 长短和培训方式, 等等。 因变量是指那些被解释的变量。 在一个培训课程的评价中, 因变量可能是课程考试的 成绩, 一个评价设计矩阵的等级或改进了的评价设计。 评价者常常对下面的问题感兴趣: 一个定量变量的平均值在两个样本中是否有差别? 例如, 他们可能会饶有兴致地去分析如下问题: 誗 在实施了一个灌溉项目后, 农作物的收成是否好于项目实施前? 誗 如果我们分别对一个旧的医院和一个发展项目下的新建医院的患者进行调查, 这 个调查能否揭示两个医院中对医疗服务满意的患者的百分比有所不同? 医院 1郾 基于你在地区诊所的就诊经历, 你同意或者不同意以下陈述? 结果如表 10郾 6 所示。 摇 表 10郾 6 顾客对当地诊所医疗服务的意见 ( 受访者的百分比) 陈摇 摇 述 非常不同意 不同意 观点中立 同意 非常同意 我就诊前等待时间较长 10 20 10 35 25 诊所工作人员愿意回答我的问题 5 10 30 30 25 我在诊所得到了很好的医疗服务 15 25 10 25 25 摇 摇 注: N = 36 资料来源: 作者 第十章摇 计划和实施数据分析 llll llllllll 医院 2郾 基于你在地区诊所的就诊经历, 你同意或者不同意下述陈述? 结果如表 10郾 7 所示。 摇 表 10郾 7 顾客对地区诊所医疗服务的意见 ( 受访者的百分比) 陈摇 摇 述 非常不同意 不同意 观点中立 同意 非常同意 我就诊前等待时间较长 50 20 10 15 5 设 计 诊所工作人员愿意回答我的问题 0 5 0 30 65 与 我在诊所得到了很好的医疗服务 0 20 0 55 25 实 施 摇 摇 注: N = 36 资料来源: 作者 评价者需要确定是否任何一个显著差异都能表明总体平均值间的真实差异, 或者能够表 明从两个总体中抽取的样本的随机变量间的真实差异。 在统计检验中, 我们通常假设两个总 体的平均值 ( 或比例) 没有差异 ( 相等)。 这一问题将在随后的推断性统计部分阐述。 相关性度量 ( 相关关系) 表明变量之间关联的强烈程度。 简单的相关并不能证明因 摇291 果关系。 如果相关性很强, 也只能一般性地说明存在一种因果关系的可能性。 我们通常使用从 - 1 到 1 的数字表示相关性。 正号意味着变量同方向变化: 一起增加 或一起减少, 这叫做直接相关, 完全正相关系数为 1。 负号意味着变量有 负相关性, 它们将沿着相反的方向变动 ( 例如, 随着年龄增长, 健康状况下降) 。 完全负相关系数为 - 1。 相关系数越接近零, 相关性越弱 ( 如果相关系 数为 0, 则表示不相关) ; 相关系数越接近 1 或 - 1, 相关性越强。 推断性统计 评价者可以使用推断性统计的方法, 根据从总体中取出的一个随机样本的特征, 对总 体特征进行估计和预测。 在使用随机样本的过程中, 我们最担心的是结果只反映了样本的 某些极端特征, 因而并不能准确地展现总体。 如果评价者选择一个不同的样本, 那么它们 的结果是基本相同还是大不相同? 统计显著性检验用于衡量在总体无差异的情况下, 获得相同结果的概率。 评价者称这 为原假设; 它总是认为在一个总体中没有差异。 假定对巴基斯坦人的一个随机样本的调查显示, 男性和女性之间的年收入差额为 5 000 卢比。 该检验可以表述为: 如果总体是没有差异的, 那么在一个随机样本中得出 5 000 卢比差异这一结果的概率有多大? 如果概率不超过百分之五 (0郾 05) , 那么我们就可 以认为样本结果可以对总体进行精确估计, 总体也大约有 5 000 卢比的差异, 并且这个差 异具有统计显著性。 一个 5% 的 P 值 ( 表示错误的概率 ) 表示评价者可以有 95% 的概率认定样本的结果 并不是由偶然性造成的, 它表示这一结果在 0郾 05 的水平上统计显著。 所有的统计显著性检验都部分地决定于样本的大小。 如果样本非常大, 小的差异性也 可能是统计显著的。 评价者需要根据他们所做研究的性质确定这些差异是否重要。 卡方检 通向结果之路: 有效发展评价的设计与实施 llll llllllll 验、 t 检验和方差分 析 是 常 用 的 三 种 统 计 检 验 方 法。 我 们 在 下 面 简 单 介 绍 每 一 种 检 验 方法。 卡方检验。 虽然卡方检验并不是衡量相关性的最有效方法, 但它是最为流行的一种统 计检验方法, 因为这种方法容易计算和解读。 卡方检验的主要目的是确定实际频数与理论 频数之间是否具有显著的差异。 卡方检验可以用来比较两个名义数值 ( 例如, 婚姻状况 设 和宗教关系) , 也可以用来比较两个序数变量 ( 分值响应) 或者名义变量和序数变量的一 计 个组合。 与 实 卡方统计量 ( 卡方值) 是数据表中每个格子的贡献之和。 表格中的每个格子都对整 施 个卡方统计量有一定的贡献。 如果某一个格子的实际频数和理论频数有显著差异, 那么这 个格子对整个卡方统计量的贡献很大。 如果某一个格子的实际频数与理论频数比较接近, 那么这个格子对整个卡方统计量贡献就比较小。 一个大的卡方统计量表明, 在表格中的某 个地方, 实际频数与理论频数具有显著的差异。 它并没有指明那一个格子或哪些格子导致 了高的卡方值, 而只是说明存在这样的格子导致高的卡方值。 卡方检验可以通过观察数据 来衡量两个变量相互之间的独立性。 卡方检验衡量交叉表的显著性。 卡方值不能用百分数来计算, 我们必须在进行卡方检 摇292 验前将交叉表格转换成完全的数字形式。 当任何一个格子的频数小于 5 时, 卡方检验也会 出现问题 ( 对这一问题的深入讨论见 Fienberg 1980) 。 T 检验。 当评价者考察两组样本之间的分值差异时, 他们就必须结合离散程度或方差 来判定两组样本之间的均值差异。 T 检验可以做到这一点。 T 检验用于确定一组样本的数 值是否在统计上高于或低于另外一组样本的数值。 这一分析适用于两个样本均值的比较。 评价者使用 T 检验将项目中的一组样本的均值与控制组的均值进行比较。 方差分析 ( ANOVA) 。 当我们对三个或三个以上的样本组进行比较时, T 检验就会 非常烦琐, 缺乏效率。 当一个评价需要同时对几个不同样本组的平均值进行比较时, 最好 使用方差分析方法。 ANOVA 是评价不同数据集之间差异的一种统计方法。 它可以通过 EXCEL 同时对两个 或多个平均值进行比较, 以确定观察到的变异是由随机变化引起的还是由检验中的某一个 因素或几个因素综合引起的。 因而, ANOVA 可以用来分析名义自变量是如何影响一个连 续型的因变量的。 在方差分析中, 假设所有用以比较的样本的总体都具有相同的标准差 ( 假设方差具有同质性) , 并且所有样本从总体中随机选取。 在使用 ANOVA 之前, 检查是 否满足这些假设条件非常重要。 方差分析检验的基础是 F 比率, 这一比率是由实验措施 或影响引起的变异除以实验误差引起的变异计算得来的。 原假设是 F 比率等于 1郾 0 ( 这表 示实验过程的引发的变异等同于实验误差引发的变异) 。 如果 F 比率足够大以至于它等于 1 的概率小于某一设定的水平如 0郾 05 (1 / 20) , 那么, 我们将拒绝这一假设。 定性数据与定量数据的关联 詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪 Miles 和 Huberman (1994) 讨论了如何将定性数据和定量数据进行关联。 他们引用了 第十章摇 计划和实施数据分析 llll llllllll 数量分析的知名学者 Fred Kerlinger 的一句话来开始讨论: “ 世界上并不存在什么定性数 据。 所有事物非黑即白, 不是 1 就是 0。冶 然后, 他们提出了一个相反的观点: 所有的数 据从根本上说都是定性的。 虽然关于定性数据和定量数据之间关系的讨论在美国持续了很多年, 但是在发展评价 领域还不是一个普遍关心的问题。 发展评价同时使用定性数据和定量数据理解世界: “ 定 量是为了定性, 同时一个可以衡量的性质仅仅表现为量度它的数值 冶 ( Miles 和 Huberman 设 1994) 。 定性方法提供了更多的情境; 定量方法允许将结果普及其他情形。 计 与 Miles 和 Huberman 提道, 在研究设计中将定量数据和定性数据关联起来会使评价者: 实 誗 通过三角验证方法证实或确认每种类型的数据 施 誗 细化或拓展分析, 提供更为丰富的细节材料 誗 通过关注意外事件和各种矛盾, 开启新的思路, “ 转变理念冶 和提出新的观点 Greene, Garacelli 和 Graham (1997) 描述了在评价中使用混合方法的认识论价值和政 治价值: 誗 认识论价值: 如果使用多种认知方法进行评价, 我们就会更好地了解一些事情 誗 政治价值: 所有的认知方法都是片面的, 所以, 多种多样的认知方法就显得具有 摇293 价值和受人欢迎 他们接着评论道: “ 有效的混合方法评价需要多种思维方法和评价方法一起积极发挥 作用, 这样, 我们才能更好地理解评价事物 冶 。 “ 如果我们要了解不同类型的现象, 那么 最好使用不同类型的方法冶 。 Hawkins (2005) 认为使用综合方法进行评价具有以下一些好处: 誗 我们可以将三角验证程序嵌入一致性检验过程, 这样就可以对关键变量进行两个 或两个以上的独立估计 誗 可以获得不同的观点。 例如, 虽然评价者可能认为收入和消费是家庭福利的关键 指标, 但是案例研究或许显示妇女更加关注的指标是暴力攻击、 对暴力的无能为力以及暴 力的威胁 誗 可以对不同的层面进行分析。 虽然调查方法可以对个体、 家庭和社区的福利水平 进行估计, 但是它们在分析社会历程 ( 例如社会冲突 ) 或实施制度分析 ( 例如, 公共服 务的运行效果如何或社区是如何看待该服务的 ) 方面并不是非常有效。 人们设计出许多 定性方法来分析诸如社会历程、 组织行为、 社会机构和冲突这样一些主题 誗 能够提供帮助评价者解释评价发现的反馈机会。 调查报告通常会提到结果中明显 的不一致性, 以及无法通过数据分析来解释的样本之间有趣的差异。 在大多数定量评价 中, 一旦数据收集过程完成, 不大可能重新回到现场收集更多的数据 誗 调查评价者常常利用定性方法核查异常值。 在很多情况下, 分析人员都不得不主 观地决定是否要将那些报告的情况远高于或低于平均水平的受访者排除在外 誗 从综合评价方法获取的好处取决于评价者的背景。 从定量评价者的观点看, 一部 分定性内容有助于: 识别评价所要强调的关键要素; 根据受访者的看法提炼问题; 提供评 价发生时的社会、 经济和政治背景信息。 评价者还有可能返回到现场跟踪一些有趣的结果 誗 定性评价者也可以从使用定量方法中受益。 抽样方法的使用可以使结果能够推广 通向结果之路: 有效发展评价的设计与实施 llll llllllll 到范围更大的总体。 评价者可以把样本选取工作和正在进行的或更早的调查工作结合起 来, 这样就可以将定性分析的结果和调查结果进行比较。 统计分析可以用来控制不同研究 领域的家庭特征和社会经济条件, 因此, 可以消除对于观测到的变化的一些其他解释 Hawkins (2005) 讨论了何时使用和何时不使用混合方法。 根据他的观点, 在以下情 景中, 可以使用混合方法: 设 誗 要求对干预及其背景有很深的理解 计 誗 有预算限制和明显的时间约束, 三角验证有助于验证从不同来源采用不同方法和 与 实 不同小样本收集到的信息 施 在以下情景中, 不可以使用混合方法: 誗 可以使用单一方法回答问题 誗 要求评价发现具有普及性, 并且指标 / 方法都比较简单 誗 在整个评价研究过程中, 评价人员不具备所选择评价方法要求具备的专长 ( 只使 用擅长的评价方法会更好) 誗 主要利益相关者非常相信某一种特殊的方法而强烈排斥其他方法, 因此, 不论混 摇294 合方法有多好, 他们都不太相信 誗 可用于分析和解释的时间非常有限 小摇 摇 结 詪詪詪詪詪詪 定性数据分析适用于非数值化的数据。 我们可以通过非结构化观察、 开放式访谈、 书 面文档分析和焦点小组座谈会文字记录等收集定性数据。 因为定性数据收集过程中的记录 非常重要, 所以我们必须详细记录。 内容分析是分析定性数据的一种方法。 虽然分析定性数据是一项费时费力的工作, 但 是它可以揭示一些有价值的信息。 在收集好定性数据后, 评价者需要整理这些数据, 并揭示其范式和共同特征。 在对定 性数据分类后 ( 不论是人工整理还是电子整理 ) , 我们就可以对这些数据进行编码, 并解 释这些数据。 我们可以使用描述性统计和推断性统计方法分析定量数据。 描述性统计方法对数据进 行总结, 并通过 3M ( 均值、 中位数和众数) 描述中间值。 一般而言, 衡量离散程度的指 标主要有区间和标准差。 其他常用的描述性统计方法包括: 频数分布、 百分比、 比例、 比 率和变化率。 评价者可以通过推断性统计根据总体中某一随机样本对总体进行估计。 常用的推断性 统计工具包括: 卡方检验、 T 检验和方差分析。 评价者通常同时使用定性和定量方法。 在许多情况下, 使用多种方法有很多优势。 如 果一个评价中仅有很少的问题且相对容易回答, 那么评价者通常选择使用单一的方法。 第十章摇 计划和实施数据分析 llll llllllll 练习 10郾 1摇 对定性数据进行编码和分析 收集几篇关于某一发展主题的报纸文章。 利用这些文章建立一张表格或手画网格, 并 以 “ 文章冶 和 “ 摘要冶 作为每列的标题。 然后, 将文章中你认为重要的部分填写到摘要 列。 当你从文章中识别到主题时, 将它们作为列标题增加到表格。 接着, 当一个摘要包含 设 某个主题时, 在相应的格子做上标记。 最后, 根据从文章中得出的结果写一篇叙述性的 计 与 总结。 实 10郾 2摇 避免解释定量数据中的常见错误 施 1郾 80% 的调查受访者认为某一个项目是有益的。 我们用下述哪种方法报告结果比较 好: “ 这一项目是有益的冶 或 “ 受访者认为项目是有益的 冶 ? 调查要求受访者识别出项目 的各种障碍和激励。 报告结果时会遇到什么问题? 请说明相关利弊。 2郾 一项调查要求学生对某一个课程的各个部分进行评分。 大多数学生对每个部分都 给予了正面的评分。 如果报告说大多数学生 ( 70% ) 认为课程是成功的, 那么其中的问 题是什么? 摇295 3郾 40% 的女生和 30% 的男生赞成改变课程。 如果报告说大多数女生都赞成改变课程, 这么报告准确吗? 4郾 51% 的受访者赞成改变课程。 如果报告说超过一半的受访者赞成改变课程, 这么 报告准确吗? 5郾 调查由该课程的 20 个任课老师中的 5 个老师完成。 5 个老师都认为他们讲课前做 好了充分的授课准备。 如果说所有的老师上课前准备充分, 这么说准确吗? 如果说 25% 的老师上课前准备充分, 这么说准确吗? 6郾 在一个 50 人的议会中, 女议员的议席从 2 人增加到 4 人, 如果说有 100% 的增加, 这么说准确吗? 7郾 某一培训项目的参与者比没有参与项目的人收入多了 20% 。 如果报告这个项目可 以使薪水提高 20% , 这么说准确吗? 10郾 3摇 分析问卷调查结果 至少需要两个同事一起完成下面调查, 收集调查表并记录结果。 自己一个人或者和其 他人一起工作, 使用叙述的方式总结调查结果, 并从所有的结果中得出一些结论。 1郾 你认为自己目前在多大程度上具有进行以下各项工作的能力? 技摇 能 很少或没有 一定程度 中等程度 很大程度 非常大程度 a郾 设计评价 b郾 分析数据 c郾 开展调查 d郾 组织专题小组座谈 e郾 召开利益相关者会议 f郾 撰写评价报告 g郾 准备口头概述 通向结果之路: 有效发展评价的设计与实施 llll llllllll 摇 摇 2郾 此次培训项目进行到现在, 你同意或不同意以下一些说法: 陈摇 述 强烈不同意 不同意 观点中立 同摇 意 非常同意 a郾 培训材料新颖 b郾 培训材料有趣 c郾 讲授时间充分 设 计 d郾 课堂讨论时间充分 与 e郾 练习有帮助 实 f郾 我 所 学 的 材 料 可 以 应 施 用于工作 3郾 请你提出对这门课程的建议。 名词解释 定性数据分析: 一种通过分析非数字形式的数据, 如半结构化采访和考察的描述性记 摇296 录或录音, 或其他文件和多媒体, 理解和解释行为和情景、 包括发现主题的方法 三角验证: 利用三种或三种以上的理论、 来源、 信息类型或分析类型来交互核对结 果, 从而证明和验证一个评价的方法 内容分析: 通过识别文本、 演讲或其他媒体中出现的某些词语、 短语或概念, 并对它 们进行编码的定性数据的一类系统分析方法 概念性内容分析: 关注文本中特定词语出现的频率的分析 相关性内容分析: 不仅需要确定频率, 还不要探究所确认的概念之间的相互关系的 分析 计算机辅助的定性数据分析软件: 使用软件研究、 整理、 归类和解释数据 归纳分析: 从数据中发现范式、 主题和类别的分析 演绎分析: 利用现有的框架的数据分析 数据清洗: 找出错误的或互相冲突的数据以提高数据质量的过程 描述性统计: 描述和概括定量数据的统计 推断性统计: 从样本对总体进行推断的统计 集中趋势的测度: 测量特征相似程度的统计测量方法 离散程度的测度: 测量特征相异程度的统计测量方法 名义数据: 表示某一个多种相互不重叠的种类的数据, 如性别、 宗教或原籍国等 序数数据: 有一定顺序排列的评价尺度 间隔 / 比率数据: 具有零点和固定的间隔, 像尺子一样可以与其他比例数据比较的 数据 区间: 一个变量的最高值和最低值之间的差额 正态分布: 数据在均值两侧分布的一种连续概率分布 交叉表: 通常以表格的形式显示两个或多个变量的联合分布 自变量: 解释另一个变量 ( 因变量) 的变化的变量 第十章摇 计划和实施数据分析 llll llllllll 因变量: 被解释的变量 相关性度量: 表明变量之间关联的强烈程度的指标 直接相关: 变量沿着同一方向 ( 同时向上或向下) 变动的相关 负相关性: 变量沿着相反的方向变动的关系 卡方检验: 确定实际频数与理论频数之间是否具有显著的差异的统计检验方法 T 检验: 用于确定一组样本的数值是否在统计上高于或低于另外一组样本的数值的统 设 计检验方法 计 与 方差分析: 评价不同数据集之间差异的一种统计方法 实 施 参考书目 1郾 Babbie, E郾 , F郾 Halley, and J郾 Zaino郾 2000郾 Adventures in Social Research郾 Thousand Oaks, CA: Pine Forge Press郾 2郾 Busch, Carol, Paul S郾 De Maret, Teresa Flynn, Rachel Kellum, Sheri Le, Brad Mey鄄 ers, Matt Saunders, Robert White, and Mike Palmquist郾 2005郾 Content Analysis郾 Writing@CSU, Colorado State University, Department of English, Fort Collins, CO郾 http: / / writing郾 colostate郾 edu / 摇297 guides / research / content / 郾 3郾 Child and Adolescent Health Measurement Initiative ( CAHMI ) 郾 2006郾 “ Promoting Healthy Development Survey: Implementation Guidelines郾 冶 Portland, OR: Oregon Health and Science University, Department of Pediatrics郾 ———郾 2009郾 “ Step 4 : Monitor Survey Administration and Prepare for Analysis郾 冶 http: / / www郾 cahmi郾 org郾 4郾 Catterall, M郾 , and P郾 Maclaran郾 1997郾 “ Focus Group Data and Qualitative Analysis Programs: Coding the Moving Picture as Well as the Snapshots郾 冶 Sociological Research Online 2 ( 1 ) . http: / / www郾 socresonline郾 org郾 uk / socresonline / 2 / 1 / 6郾 html郾 5郾 Chapman, Arthur D郾 2005郾 Principles and Methods of Data Cleaning: Primary Species鄄Occur鄄 rence Data郾 Report for the Global Biodiversity Information Facility, Version 1郾 0, Copenhagen郾 http: / / www郾 2郾 gbif郾 org / DataCleaning郾 pdf郾 6郾 Cody, Ronald郾 n郾 d郾 “ Data Cleaning 101郾 冶 Robert Wood Johnson Medical School, Pis鄄 catawy, NJ郾 http: / / www郾 ats郾 ucla郾 edu / stat / sas / library / nesug99 / ss123郾 pdf郾 7郾 Constable, Rolly, Marla Cowell, Sarita Zornek Crawford, David Golden, Jake Har鄄 tvigsen, Kathryn Morgan, Anne Mudgett, Kris Parrish, Laura Thomas, Erika Yolanda Thomp鄄 son, Rosie Turner, and Mike Palmquist郾 2005郾 Ethnography, Observational Research, and Nar鄄 rative Inquiry郾 Writing @CSU, Colorado State University, Department of English, Fort Collins, CO郾 http: / / writing郾 colostate郾 edu / guides / research / observe / 郾 8郾 Dehejia, Rajeev H郾 , and Sadek Wahba郾 2002郾 “ Propensity Score鄄Matching Methods for Nonexperimenal Causal Studies郾 冶 Review of Economics and Statistics 84 ( 1 ): 151 - 61郾 http: / / www郾 nber郾 org / ~ rdehejia / papers / matching郾 pdf郾 9郾 Denzin, N郾 , and Y郾 Lincoln, eds郾 2000郾 Handbook of Qualitative Research郾 2nd ed郾 通向结果之路: 有效发展评价的设计与实施 llll llllllll Thousand Oaks, CA: Sage Publications郾 10郾 Fienberg, S郾 E郾 1980郾 The Analysis of Cross鄄Classified Categorical Data郾 2nd ed郾 Cam鄄 bridge, MA: MIT Press郾 11郾 Firestone, W郾 1987郾 “ Meaning in Method: The Rhetoric of Quantitative and Qualita鄄 tive Research郾 冶 Educational Researcher 16 ( 7 ) : 16 - 21郾 http: / / edr郾 sagepub郾 com / cgi / con鄄 设 tent / abstract / 16 / 7 / 16郾 计 12郾 Gao, Jie, Michael Langberg, and Lenard J郾 Schulman郾 2006郾 Analysis of Incomplete 与 实 Data and an Intrinsic鄄Dimension Helly Theorem郾 http: / / www郾 cs郾 sunysb郾 edu / ~ jgao / paper / 施 clustering_lines郾 pdf郾 13郾 Glass, G郾 , and K郾 Hopkins郾 1996郾 Statistical Methods in Education and Psychology郾 3rd ed郾 Boston: Allyn and Bacon郾 14郾 Greene, J郾 C郾 , and V郾 J郾 Caracelli郾 1997郾 Advances in Mixed Method Evaluation: The Challenges and Benefits of Integrating Diverse Paradigms郾 New Directions for Evaluation No郾 74郾 San Francisco: Jossey鄄Bass郾 15郾 Greene, J郾 C郾 , V郾 J郾 Caracelli, and W郾 F郾 Graham郾 1989郾 “ Toward a Conceptual 摇298 Framework for Mixed鄄Method Evaluation Designs郾 冶 Educational Evaluation and Policy Analysis 11 ( 3 ) 255 - 74郾 16郾 Hawkins, Penny郾 2005郾 “ Thinking about Mixed Method Evaluation郾 冶 International Program for Development Evaluation Training ( IPDET) presentation, Ottawa, July郾 17郾 IDRC ( International Development Research Centre ) . 2008郾 Qualitative Research for Tobacco Control, Module 6 : Qualitative Data Analysis郾 Ottawa, Canada郾 http: / / www郾 idrc郾 ca / en / ev - 106563 - 201 - 1 - DO_TOPIC郾 html郾 18郾 Jaeger, R郾 M郾 1990郾 Statistics: A Spectator Sport郾 2nd ed郾 Thousand Oaks, CA: Sage Publications郾 19郾 Krippendorf, Klaus郾 2004郾 Content Analysis: An Introduction to Its Methodology郾 2nd ed郾 Thousand Oaks, CA: Sage Publications郾 20郾 Loughborough University Department of Social Sciences郾 2007郾 New Methods for the Analysis of Media Content郾 CAQDAS: A Primer郾 Leicestershire, United Kingdom郾 http: / / www郾 lboro郾 ac郾 uk / research / mmethods / research / software / caqdas_primer郾 html#what郾 21郾 Miles, Mathew郾 B郾 , and A郾 Michael Huberman郾 1994郾 Qualitative Data Analysis an Ex鄄 panded Sourcebook郾 2nd ed郾 Thousand Oaks, CA: Sage Publications郾 22郾 Morse, Janice M郾 , and Lyn Richards郾 2002郾 “ The Integrity of Qualitative Research郾 冶 In Read Me First for a User蒺s Guide to Qualitative Methods, ed郾 J郾 M郾 Morse and L郾 Richards, 25 - 46郾 Thousand Oaks, CA: Sage Publications郾 23郾 Narayan, Deepa郾 1996郾 “ Toward Participatory Research郾 冶 World Bank Technical Pa鄄 per 307, Washington, DC郾 http: / / www鄄wds郾 worldbank郾 org / external / default / WDSContentServ鄄 er / WDSP / IB / 1996 / 04 / 01 / 000009265_3980625172923 / Rendered / PDF / multi0page郾 pdf郾 24郾 NCSTE ( Chinese National Centre for Science and Technology Evaluation ) , and IOB 第十章摇 计划和实施数据分析 llll llllllll ( Policy and Operations Evaluation Department郾 2006郾 Country鄄Led Joint Evaluation of the ORET / MILIEV Programme in China郾 Amsterdam: Aksant Academic Publishers郾 25郾 Neuendorf, Kimberly A郾 2006郾 The Content Analysis Guidebook Online郾 http: / / academ鄄 ic郾 csuohio郾 edu / kneuendorf / content / index郾 htm郾 26郾 O蒺Rourke, Thomas W郾 2000a郾 “ Data Analysis: The Art and Science of Coding and Entering Data郾 冶 American Journal of Health Studies 16 ( 3 ) : 164 - 66郾 http: / / Findarti鄄 设 cles郾 com / p / articles / mi_m0CTG / is_3_16 / ai_72731731郾 计 与 ———郾 2000b郾 “ Techniques for Screening and Cleaning Data for Analysis郾 冶 American Jour鄄 实 nal of Health Studies 16 : 217 - 19郾 http: / / Findarticles郾 com / p / articles / mi_m0CTG / is_4 _16 / 施 ai_83076574郾 27郾 P郾 A郾 N郾 D郾 A郾 ( Practical Analysis of Nutritional Data ) . 2000郾 “ Chapter 2 : Data Cleaning郾 冶 http: / / www郾 tulane郾 edu / ~ panda2 / Analysis2 / datclean / dataclean郾 htm郾 28郾 Patton, Michael郾 Q郾 2002郾 Qualitative Research and Evaluation Methods郾 3rd ed郾 Thousand Oaks, CA: Sage Publications郾 29郾 Porteous, Nancy郾 2005郾 “ A Blueprint for Public Health Management: The ToolKit蒺s 摇299 Approach to Program Evaluation郾 冶 Presentation at the International Program for Development Evaluation Training, June鄄July 2005郾 Ottawa, Ontario郾 30郾 Porteous, Nancy L 郾 , B郾 J郾 Sheldrick, and P郾 J郾 Stewart郾 1997郾 Program Evaluation Tool Kit: A Blueprint for Public Health Management郾 Ottawa鄄Carleton Health Department, Ottawa郾 http: / / www郾 phac鄄aspc郾 gc郾 ca / php鄄psp / tookit郾 html郾 31郾 Rahm, Erhard, and Hong Hai Do郾 2000郾 “ Data Cleaning: Problems and Current Ap鄄 proaches郾 冶 University of Leipzig, Germany郾 http: / / homepages郾 inf郾 ed郾 ac郾 uk / wenfei / tdd / reading / cleaning郾 pdf郾 32郾 Rossman, G郾 B郾 , and B郾 L郾 Wilson郾 1994郾 “ Numbers and Words Revisited: Being ‘ Shamelessly Methodologically Eclectic郾 爷 冶 Quality and Quantity 28 : 315 - 27郾 33郾 Sieber, S郾 D郾 1973郾 “ The Integration of Fieldwork and Survey Methods郾 冶 American Journal of Sociology 78 ( 6 ) : 1335 - 59郾 34郾 Smith, J郾 A郾 1991郾 The Idea Brokers: Think Tanks and the Rise of the New Policy Elite郾 New York: Free Press郾 35郾 StatSoft郾 2008郾 Electronic Textbook郾 http: / / www郾 statsoft郾 com / textbook / glosp郾 html郾 36郾 Stemler, Steve 2001郾 “ An Overview of Content Analysis郾 冶 Practical Assessment, Re鄄 search & Evaluation 7 ( 17 ) 郾 http: / / PAREonline郾 net / getvn郾 asp? v = 7&n = 17郾 37郾 Swimmer, Gene郾 2006郾 “ Qualitative Data Analysis, Part I郾 冶 IPDET Handbook 2005郾 International Program for Development Evaluation Training ( IPDET ) Presentation, Otta鄄 wa, July郾 38郾 University of the West of England郾 2006郾 Analysis of Textual Data郾 Bristol郾 http: / / hsc郾 uwe郾 ac郾 uk / dataanalysis / qualTextData郾 asp郾 39郾 U郾 S郾 GAO ( General Accounting Office ) . 1996郾 Content Analysis: A Methodology for 通向结果之路: 有效发展评价的设计与实施 llll llllllll Structuring and Analyzing Written Material郾 GAO / PEMD - 10郾 3郾 1郾 Washington, DC郾 ( Available free of charge郾 ) 40郾 Washington State University郾 2000郾 A Field Guide to Experimental Designs: What Is anANO鄄 VA? Tree Fruit Research and Extension Center郾 Wenatchee, WA郾 http: / / www郾 tfrec郾 wsu郾 edu / ANO鄄 VA / basic郾 html郾 设 41郾 Weber, Robert Philip 1990郾 Basic Content Analysis郾 2nd ed郾 Thousand Oaks, CA: Sage 计 Publications郾 与 实 42郾 Weiss, Christopher, and Kristen Sosulski郾 2003郾 Quantitative Methods in Social Science: 施 QMSS E鄄lessons郾 Columbia Center for New Media Teaching and Learning, Columbia University, New York郾 http: / / www郾 columbia郾 edu / ccnmtl / projects / qmss / anova_about郾 html郾 43郾 Wolcott, H郾 F郾 1990郾 “ On Seeking—and Rejecting—Validity in Qualitative Re鄄 search. 冶 In Qualitative Inquiry in Education: The Continuing Debate, eds郾 E郾 W郾 Eisner and A郾 Peshkin, 121 - 52郾 New York: Teachers College Press郾 网址 摇300 在线课本和指南 1郾 CAQDAS ( Computer鄄Assisted Qualitative Data Analysis Software ) . 2008郾 http: / / caqdas郾 soc郾 surrey郾 ac郾 uk / 郾 2郾 Lane, D郾 M郾 Hyperstat Online Textbook郾 http: / / davidmlane郾 com / hyperstat / index郾 html郾 3郾 Statistics at Square One郾 http: / / bmj郾 bmjjournals郾 com / collections / statsbk / index郾 shtml郾 4郾 Stat Primer郾 http: / / www2郾 sjsu郾 edu / faculty / gerstman / Stat Primer郾 定性数据的软件包 5郾 AEA ( American Evaluation Association) . http: / / www郾 eval郾 org / Resources / QDA郾 htm郾 6郾 AnSWR郾 http: / / www郾 cdc郾 gov / hiv / topics / surveillance / resources / software / answr / index. htm ( developer site ), http: / / www郾 cdc郾 gov / hiv / software / answr / ver3d郾 htm ( free download site) . 7郾 Atlas鄄ti郾 http: / / www郾 atlasti郾 com / 郾 8郾 CDC EZ鄄Text郾 http: / / www郾 cdc郾 gov / hiv / topics / surveillance / resources / software / ez鄄text / in鄄 dex郾 htm ( developer site ), http: / / www郾 cdc郾 gov / hiv / software / ez鄄text郾 htm ( free trial download site) . 9郾 Ethnograph郾 http: / / www郾 qualisresearch郾 com / default郾 htm郾 10郾 Friese, Susanne郾 2004郾 Overview / Summary of Qualitative Software Programs郾 http: / / www郾 quarc郾 de / software_overview_table郾 pdf郾 11郾 Hyperqual郾 http: / / home郾 satx郾 rr郾 com / hyperqual / 郾 12郾 QSR Software郾 NVivo 8郾 http: / / www郾 qsrinternational郾 com / 郾 13郾 Qualpro郾 http: / / www郾 qualproinc郾 com / 郾 软件包 14郾 SPSS郾 http: / / www郾 spss郾 com郾 第十章摇 计划和实施数据分析 llll llllllll 15郾 OpenStat郾 Version 4郾 http: / / www郾 statpages郾 org / miller / openstat / 郾 16郾 Tutorial for SPSS v郾 11郾 5郾 http: / / www郾 datastep郾 com / SPSSTraining郾 html / 郾 17郾 Getting Started with SPSS for Windows郾 http: / / www郾 indiana郾 edu / ~ statmath / stat / spss / win / 郾 18郾 WinPure郾 Data Cleaning Software郾 http: / / www郾 winpure郾 com郾 数据分析的实例 设 19郾 Carleton University郾 Canadian Foreign Policy Journal郾 http: / / www郾 carleton郾 ca / npsia / 计 与 cfpj郾 实 20郾 IISD ( International Institute for Sustainable Development ) . http: / / www郾 iisd郾 org / 施 measure / default郾 htm郾 21郾 IMF ( International Monetary Fund ) . http: / / www郾 imf郾 org / external / pubs / res / in鄄 dex郾 htm郾 ———郾 http: / / www郾 imf郾 org / external / np / sta / index郾 htm郾 22郾 North鄄South Institute郾 http: / / www郾 nsi鄄ins郾 ca / ensi / research / index郾 html郾 23郾 OECD ( Organisation for Economic Co鄄operation and Development ) . http: / / www. 摇301 oecd郾 org / dac / 郾 24郾 UNDP ( United Nations Development Programme ) . Human Development Report 2002郾 http: / / www. undp郾 org / hdr2002郾 25郾 UNEP ( United Nations Environmental Programme) . http: / / www郾 grid郾 unep郾 ch郾 26郾 UNESCO ( United Nations Educational, Scientific, and Cultural Organization ) . ht鄄 tp: / / www郾 uis郾 unesco郾 org / en / stats / stats0郾 htm郾 27郾 UNHCR ( United Nations High Commission for Refugees ) . http: / / www郾 unhcr. ch / cgi鄄bin / texis / vtx / home郾 28郾 UNSD ( United Nations Statistics Division ) . http: / / unstats郾 un郾 org / unsd / databas鄄 es郾 htm郾 29郾 USAID ( U郾 S郾 Agency for International Development ) . http: / / www郾 usaid郾 gov / educ _ training / ged郾 html郾 ———郾 http: / / www郾 dec郾 org / partners / eval郾 cfm郾 30郾 U郾 S郾 Census Bureau郾 http: / / www郾 census郾 gov / ipc / www / idbnew郾 html郾 31郾 WHO ( World Health Organization ) . http: / / www郾 who郾 int / health鄄systems鄄perform鄄 ance郾 ———郾 Statistical Information System ( WHOSIS ) . http: / / www郾 who郾 int / topics / statistics / en / 郾 32郾 World Bank郾 http: / / www郾 worldbank郾 org / data郾 ———郾 World Development Indicators 2005郾 http: / / worldbank郾 org / data / wdi2005郾 迎接挑战 “ 我们殚精竭虑之时, 从不知晓会有怎样的奇迹降临到我们或他人的身上。冶 ———海伦·凯勒 第十一章: 复杂干预评价 誗 发展评价大局观 誗 联合评价 誗 国家项目评价 誗 部门项目评价 誗 主题评价 誗 全球和区域合作项目评价 第十一章 摇 复杂干预评价 发展干预变得越来越复杂, 给评价者带来了新的挑战、 新的期望, 应对贫困的新样 板、 新方法和新客户。 本章讨论联合、 国家、 主题、 部门和全球等层级的评价。 本章包括六个主要部分: 誗 发展评价大局观 誗 联合评价 誗 国家项目评价 誗 部门项目评价 誗 主题评价 誗 全球和地区合作项目评价 发展评价大局观 詪詪詪詪詪詪詪詪詪詪詪 评价有时候必须要高屋建瓴。 这意味着不仅要评价单个项目、 单个计划、 单个政策, 还要评价与其相关的项目、 计划和政策。 大局观可能关注一个部门内部, 如卫生、 教育或交通运输等部门发展干预的全面经验 和影响。 比如, 一个政府部门可能想确定针对妇女或儿童的干预的效果和教训; 一个援助 方也许想了解其针对教育部门的策略是否有效。 作为对 《 巴黎宣言》 和 《 阿克拉协定 》 的回应, 援助者贷款项目越来越多地采取全 部门参与方式 ( SWAps) 。 复杂的经济、 政治和社会因素影响着发展活动和评价。 发展和 发展评价越来越像多元化企业, 各种非政府组织, 如私营部门、 非盈利组织以及民间团体 都参与其中。 发展干预并不是线性层层推进的。 尽管发展干预背后有 “ 如果 …… 那么 ……冶 的推 理逻辑, 一个项目还是会受到经济、 政治、 气候、 社会等多种因素的作用, 并可能会影响 它的成效。 评价人员需要找出这些因素并设计出一套可以梳理其影响的评价方案。 随着评价复杂程度的增加, 这些因素的作用也更加复杂。 各个国家和它们的合作伙伴 正在寻找方法, 评估发生在一个部门、 一个国家或者气候变化等跨领域主题的变化的累积 效应。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 评价人员在管理评价活动时不得不面对这种复杂性。 但评价活动复杂性的增加并非是 因为评估对象的范围扩大了这么简单。 随着越来越强烈地意识到评价给不成熟或孱弱的国 力带来的负担, 《 巴黎宣言》 和 《 阿克拉协定》 强化了对国家援助的质量和结果开展多方 合作评价的需求。 发展的进程逐渐变得更加全面, 越来越强调国家政策改革、 能力建设和对全球的关 迎 注。 同时, 评价也通过以下方式进行了扩展: 接 誗 关注重点从项目、 计划或活动层面转向国家、 部门、 主题、 地区或全球层面 挑 战 誗 为评估全球或整个计划范围的结果, 考虑如何更好地汇总活动层面和国家层面的 干预成效 誗 寻找评估项目设计、 合作方式和治理对总体结果影响的方法 誗 探索项目在更高层面的可复制性和系统层面的适用性 ( Heath, Grasso 和 Johnson, 2005) 国别评价是全面理解当前情况, 洞察一国内部发展的总体效果和经验的一种方法, 但 有时还不是很清楚该如何进行国别评价。 针对一个国家或多个国家的部门或主题评价同样 摇306 能揭示大局。 它可能使用多种手段, 包括数据组合、 访谈、 实地考察、 普查和专题小组。 本章研究如下五种全面评价方法: 誗 联合评价 誗 国家计划评价 誗 部门计划评价 誗 主题评价 誗 全球和区域合作计划评价 联合评价 詪詪詪詪詪詪 联合评价是有多个机构参与的评价。 “ 联合冶 有不同的程度, 取决于评价过程中各合作方之间相互配合、 共享评价资源和合并评价 报告的程度。 在评估计划和战略的有效性、 不同合作方之间工作的互补性以及援助协调的质量等 时, 联合评价有助于解决复杂的归因问题 ( OECD 2002, p郾 26) 。 联合评价从 20 世纪 90 年代初就开始开展了。 2005 年 《 巴黎宣言》 和 2008 年 《 阿克 拉协定》 发布后, 联合评价的数量和质量都有增长。 然而, 人们对于依靠国家系统获取 面向结果数据的意识仍然非常薄弱。 对巴黎宣言的评价表明联合评价的数量在增加, 质量 越来越高, 也越来越有用。 尽管如此, 援助方由于没有可靠的国家系统数据可以使用, 仍 需面对使用其自有系统数据报告结果的压力。 联合评价可由如下人员进行: 誗 援助方 + 援助方 誗 援助方 + 受援方 誗 多个援助方 + 多个受援方 第十一章摇 复杂干预评价 llll llllllll 誗 受援方 + 受援方 ( Chen 和 Slot 2007) Breier (2005) 根据工作模式的特点提出了联合评价这一新型的学科。 在传统的多方 援助安排下, 所有有关各方都可以积极平等参与。 在资格审查式多方援助安排下, 只有满 足一定的条件才能参与, 如是否隶属于某一个组织 ( 如欧盟 ) , 或与要评价的问题是否有 重要关联等。 规划对联合评价的成功至关重要。 Breier 认为: 迎 接 从联合评价的最新经验得出的一个普遍存在的教训是, 在开始阶段必须保证足够的时间确定 挑 共同的评价框架, 即对将要开展的评价的目标、 内容、 重心和范围达成共识。 如果像分析的很多评 战 价那样, 没有花费必要的时间和耐心做这件事, 后面的评价过程中遇 到 困 难 的 可 能 性 非 常 大。 (2005, p郾 40) 如果联合评价只有少数几个机构参与, 管理架构可以比较简单: 誗 评价人员可以定期会面并共同做出管理决策 誗 由一个或几个机构牵头, 所有机构平等参与管理 誗 由一个机构代为管理, 并允许其他机构复查项目的主要产出 ( OECD 2006) 较大的联合评价最常见的管理架构为: 摇307 两层结构, 包括 ( a) 一个成员广泛参与的指导委员会和 ( b) 一个处理日常事务的管理小组。 该架构有很大的灵活性, 如决定一些机构是否为静默伙伴、 指导委员会参与决策的细致程度、 管理 小组由几方组成并应被授予多大的权力等 ( OECD 2006, p郾 20) 。 还可以采取弹性或分权方式。 像拼图游戏一样, 每个机构管理整个评价活动中的某个 独立的子模块。 也可以采取混合方式, 其中的一部分共同负责, 而其他部分由特定的合作 方负责。 ( OECD 2006) 分权和集权架构各有优缺点 。 按问题分权管理使授权或职责划分比较容易 , 也能使 管理过程效率更高 。 但它可能存在工作内容有重复或遗漏重要事项等问题 。 集权式管 理架构使各合作方对评价过程的各个模块有投入 、 有影响 , 但缺乏分权式管理的责任 感和紧迫感 。 合作各方需要考虑每种结构的优缺点 , 然后决定最适合一个具体评价的 方式 。 DAC 指出了评价合作各方必须达成一致的几个关键领域: 誗 管理评价的基本原则 誗 评价任务大纲 誗 收集和分析数据的方法 誗 选择评价小组的方式 ( 招标式和合同式) 誗 预算、 成本和融资 誗 成果报告规则, 包括披露规则 ( OECD 2006) Breier (2005) 讨论了联合评价应对法律问题的方法。 这些问题包括: 誗 合作各方的合约要求 誗 各方同意的程序, 通常反映了代表整个小组起牵头作用的机构的法律法规、 要求 和惯例 通向结果之路: 有效发展评价的设计与实施 llll llllllll 誗 统一协议或者单独谈判合约, 包括取消条款 ( 针对效果不佳的情况) 誗 要求提交表明资金使用情况进展报告的规定 一旦建立了 正 式 框 架 和 基 本 原 则, 联 合 评 价 管 理 者 的 工 作 就 得 转 向 运 营 和 管 理。 Freeman (2007) 描述了组织和管理外部评价团队的 16 条规则 ( 表 11郾 1) 。 另一个非常有用的资源是 DAC 的 《 联合评价管理指南 》 。 ( 本章最后有它的网页 迎 链接) 接 挑 摇 表 11郾 1 选择、 组织和管理外部评价团队并报告其工作 战 问摇 摇 题 规摇 摇 则 确保有坚实的复杂、 大型发展合作评价所需的核心技能 组织结构尽可能简单, 尽可能与有过合作关系的组织合作 选择外部评价团队 在国际竞争性投标过程中引入国内顾问, 并让他们参与方案选择和设计 在涉及多个国家的评价研究中, 使每个实地考察小组综合使用联盟内不同机构 的资源, 而不是按地域或机构分工 摇308 使主要外部评价组织的董事会层面的有关人员清楚评价的目标 组织评价小组研讨会确定通用的测量和报告的办法 在任何可能的地方, 建立一个向评价指导委员会报告的管理小组 管理外部评价团队 给指导委员会足够的时间开会讨论和确定当前状况 联合评价中, 确保外部评价团队公开透明操作, 并且将评价结果、 结论和建议 的证据与方法直接联系起来 如果需要, 在请求更多资源的协商中, 使评价团队和管理小组在根据原合约 ( 并使用原有资源) 应该承担的工作和由新问题和利益引出的或随着未能预见 管理外部评价团队 的新情况出现的工作之间的划分达成一致。 这需要该团队为新工作准备详细 的、 有预算和有期限的计划 确保联盟中的牵头组织在国际发展合作评价方面非常投入并有良好的业绩。 该 任务应与其核心业务和市场一致 组织外部管理团队 确保整个过程中利益相关各方均保持积极的态度 确保外部评价团队摒弃组织偏见, 平等对待对指导委员会的所有成员 将大部分预算使用在成果传播和后续活动上 在提交报告草案前提交初步结果 报告外部管理团队 使评价人员与指导委员会以开放的态度讨论草案可能的改进之处, 同时确保评 的工作结果 价人员能够并愿意客观地为其评价发现和结论承担责任 摇 摇 资料来源: 根据 Freeman 2007 第十一章摇 复杂干预评价 llll llllllll 国家项目评价 詪詪詪詪詪詪詪詪詪 全面的发展评价观经常关注国家援助。 国家项目评价 ( 有时称为国别援助评价 ) 评 价一个国家接受的整个援助项目。 迎 国家项目评价总的来说是一种规范性研究, 主要是对实际完成的工作和计划完成的工 接 挑 作进行比较。 它期望: 战 誗 评估国家援助项目与该国需求的战略相关性 誗 测试整个机构的成效达成情况以确定是否达到预期成效 誗 找出该国不同部门或不同方式的成功与失败之处, 以及影响绩效的因素 誗 判断援助方对特定国家的援助的有效性 ( OECD 1999) 国家协助评价经常关注 DAC 指标中的相关性、 效率、 影响和可持续性。 它可能要看 援助方绩效或国家绩效, 也可能两者都看 ( 专栏 11郾 1) 。 摇309 专栏 11郾 1摇 国家项目评价方法论示例 从 1995 年起, 世界银行独立评价局 ( IEG) 承担了 70 多个国家项目评价工作, 并 建立了一套清晰系统的方法论 ( 世界银行 2008 ) 。 IEG 评价方法是一种自下而上和自上 而下的方法。 对每一个主要目标, 国家援助评价方法评价: 誗 目标的相关性 誗 与世行战略的相关性, 是否符合世行的目标, 包括贷款和非贷款工具之间的 平衡 誗 战略实施的有效性 誗 取得的结果 该评价分为两步实施。 第一步是自上而下地审核世行项目是否实现了某一特定目标 或预计的成效, 并对该国的发展产生了重要影响。 第二步是自下而上地检查为实现目标 而使用的世行产品和服务 ( 借款、 分析和咨询服务以及援助协调 ) 。 这两步结合起来, 即从产品与服务及发展影响维度, 检测了评价发现的一致性。 接着评估世行、 其他援助 方、 政府和外部因素对该结果的贡献度。 当 IEG 评价某一援助项目的预期发展影响时, 它测量主要战略目标的相关度和实 现程度。 通常, 项目援引高层次目标, 比如千年发展目标 ( MDGs) 或减除贫困等来描 述他们的目标。 国家援助战略也可能设定了中期目标, 比如增强社会服务的针对性, 或 者促进农村综合发展。 它可能还会指出该项目将如何贡献于更高层次目标的实现。 评价试图验证中期目标是否产生了令人满意的净收益和国家援助战略中设定的结果 链条是否有效。 当因果关系不明确时, 评价人员必须设法根据证据重构因果关系。 评价 人员还需要评估中期目标和高阶目标之间的相关性、 有效性以及相关成果。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 摇 摇 评价人员还需要评估客户表现出的对国际优先发展目标的主动程度。 优先发展目标 的例子有千年发展目标、 人权保障、 民主化、 性别和环境等。 理想情况下, 国家援助战 略中应当关注并明确了这些目标, 使评价人员能够集中精力评价援助所采取的方法是否 合适。 国家援助战略可能掩盖了一些冲突或刻意不提到客户面临的某些关键的发展制 迎 约, 进而可能会减弱项目相关性和客户主动性, 增加人们不愿意看到的副作用, 如侵犯 接 安全等。 在评判项目成效时, 所有这些因素必须被考虑进去。 重要的一点是, 即使世界 挑 银行的项目绩效很好, 但如果该国发展并不好, 该援助仍可能被判定为是不能令人满 战 意的。 国家项目评估可能面对很大的挑战: 誗 整个国家援助项目可能缺乏一致的目标和清晰沟通的成效标准, 表现出一种机会 主义特征 誗 不同组织可能会资助类似的发展干预活动, 从而很难对不同项目进行归因。 ( 注 意: 共同援助是一个问题; 不同援助方资助相似干预项目是另外一个问题。) 摇310 誗 通常不知道一个国家内援助的分工情况, 从而很难知道其他人在干预涉及的领域 内做什么 誗 像任何评价一样, “ 它可能会影响声誉, 也担心结果会打击项目和合作方工作人员 的士气和努力。 像任何评价一样, 国家项目评价必须谨慎行事。冶 ( OECD 1999, p郾 18) DAC 发展评价网络给出下面的建议做法: 誗 联合评价应该应用于更多的评价工作, 并且受援方和其他合作方都要全面积极地 参与 誗 发展中国家应该更加主动地领导评价的规划、 协调和进度安排 誗 应给予发展中国家更多的支持, 培养其倡议和领导联合评价的组织能力 誗 在受援国内, 不同合作方之间需要更好的协调和更多的知识共享。 需要建立和扩 大国家级别的监测和评价网络以及专业协会 誗 开展由多个发展中国家参与的大型联合评价时, 应当促使发展中国家共同协调其 观点和投入 ( OECD 2005, p郾 7) 多边发展银行的评价合作小组最近发表了很好的国别评价操作标准。 这些标准试图进 一步理顺评价的标准、 过程和流程, 使评价结果更具有可比性。 本章最后给出了该标准 2003 版的网址链接 ( 评价合作小组 2008) 。 国家项目评价在项目之初就应明确职责范围, 该范围应该由该国和发展组织根据他们 的期望共同确定。 同时应当明确其存续期。 职责范围应当: 誗 清晰表述评价的目标、 评价的标准和评价结果的使用方式 誗 明确该组织最初为该国家项目设定的工作重点 ( 如减少贫困、 增加粮食产量) 誗 确定评价发现的报告、 传播和后续工作程序; 最好能完全披露评价发现 鉴于发现反事实情况的难度, 基准测试在国家项目评价中非常重要。 通常在同一区域 第十一章摇 复杂干预评价 llll llllllll 内相似的国家之间做比较。 随着越来越多国别评价项目的公开披露, 跨组织比较也越来越 可行。 正如在 GPS 中指出的那样, 国别评价的复杂度在增加。 例如, 作为对 《 巴黎宣言 》 和 《 阿克拉协定》 的回应, 将国家援助的多合作方评价扩展到 MDB 之外并囊括所有的外 部援助方的需求, 使得评价面临着前所未有的巨大挑战。 迎 部门项目评价 接 詪詪詪詪詪詪詪詪詪 挑 战 部门项目评价是针对主要项目部门, 如教育、 卫生或交通运输等的评价。 国际移民评 价组织 ( IOM) 评价指南将部门评价定义为 “ 对同一部门, 无论其属于一个国家或跨越 多个国家, 所有援助活动的评价。 一个部门覆盖一个特定活动领域, 如卫生、 工业、 教 育、 交通运输或农业冶 ( IOM 2006, p郾 30) 。 由于部门项目评价需要评价不同目标和不同援助方的项目, 所以它们比单个项目评价 要复杂得多。 它们可能会和国家项目评价一样复杂 ( 甚至更复杂, 如果是跨国项目 ) 。 和 国家项目评价一样, 部门评价通常也是规范性的。 摇311 在这里, 有必要对 IEG 的国家项目评价和部门项目评价进行比较。 在国家层面, IEG 通常审查世行一定时期内在该国进行的全部项目。 在部门评价中, IEG 审查一段时期内特 定国家内某一部门所有的项目。 但在部门项目审查时, IEG 经常遇到如何界定的问题。 比 如, 假设一个项目是跨部门的, IEG 是只包括以此部门为主的项目, 还是也要包括次要或 作用更小的项目? 如果 IEG 采用范围较大一点的定义, 是按照该部门得到的资源比例计 算比重吗? 因此, 尽管国家和部门评价都包括项目审查, 部门评价遇到的问题可能会更复 杂一些。 评价设计和评价方法也会遇到同样的问题。 对世界银行集团来说, 国别评价方法变得 越来越标准化, 其他贷款机构和援助方也渐渐如此。 与此同时, 部门评价显得自成一类, 设计和方法依据具体的评价问题和可用资源而定。 尽管大多数包含国别案例研究, 但也不 是必须的。 在用到案例研究的地方, 首先需要解决选择哪个案例和使用哪种方法这两个重 要的问题。 主人翁精神和合作方责任是部门项目评价的关键问题 ( 丹麦外交部 摇 1999) 。 发展组 织和合作机构都非常重视改进部门内部援助的执行、 问责和可持续性。 对坦桑尼亚卫生部 的联合评价的简单描述凸显了这些共同关心的问题 ( 专栏 11郾 2) 。 专栏 11郾 2摇 对坦桑尼亚卫生部的联合外部评价, 1999 ~ 2006 在 20 世纪 90 年代, 坦桑尼亚卫生事业一直停滞不前。 当地卫生服务的基本药品和 设备严重短缺、 基础设施恶化、 管理水平低下、 缺乏监管、 员工激励不足。 医疗服务停 滞不前甚至恶化。 公共部门、 教会组织和私营服务提供商之间在医疗服务方面的合作非 常有限。 卫生服务经费不足, 公共卫生部门的开支是每人 3郾 46 美元。 也没有证据表明 发展合作伙伴给该部门提供了支持。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 摇 摇 90 年代中期, 在该国政府的号召下, 坦桑尼亚及其发展合作伙伴 ( 比利时、 加拿 大、 丹麦、 德国、 荷兰和瑞士) 共同制订了一个任务计划以应对卫生服务落后的境况。 1999 年, 诞生了卫生部门第一个重要的战略计划———卫生部门工作计划 ( Health Sector Program of Work, POW) , 并达成一个全部门参与方式 ( SWAp ) 框架下的协议以支持 迎 卫生部门。 POW 和接下来的卫生部战略计划 2 ( HSSP2 ) 明确提出卫生部门的改革进 接 程, 应对该部门明显不足之处, 以实现千年发展目标 ( MDGs) 和国家经济增长和减贫 挑 战略 ( NSGRP / MKUKUTA) 设定的卫生相关的目标。 战 POW 和 HSSP 2 制定了战略干预的几个首要领域: 誗 加强地区卫生服务和改革, 并加强区域和全国的转诊医院 誗 将中央政府的卫生部和社会保障部转型为一个快捷的政策机构 誗 改善中央支持系统 ( 包括基础设施、 卫生管理信息系统、 药品供应、 运输以及 通信和信息技术) 誗 制定和实施应对 HIV / AIDS 的国家战略, 并明确将其作为 HSSP 2 的一部分 誗 改善政府与发展合作伙伴之间的关系以增强坦桑尼亚内外资源的协调性和一 摇312 致性 对该项目的评价集中在四个方面: 誗 卫生部门的战略和实施计划与 MDGs 卫生领域的目标和 NSGRP 卫生目标的相关 性, 以及外部支持的适当性和相关性 誗 卫生部门改革的九个首要战略目标的进展和成就 誗 评价时段内卫生服务的普及性、 服务质量和治疗效果的改善情况 誗 评价时段内伙伴关系的变化, 包括工作的协调性和一致性的变化以及不同形式 援助的使用情况 该评价于 2006 年 11 月 ~ 2007 年 9 月 , 由 一 个 评 价 小 组 执 行 , 该 小 组 由 八 位 国际卫生 和 评 价 顾 问 组 成 , 其 中 三 人 为 乌 干 达 和 马 拉 维 公 民 。 采 取 的 主 要 方 法 如下 : 誗 全面的文献阅读 誗 采访国家级的关键知情人员 誗 由卫生和社会福利部员工在 16 个地区开展自评 誗 评价小组在六个地区进行深入的案例调查 ( 包括与社区成员讨论) 誗 分析流向全国、 地区和市镇各级卫生部门的资金和资源 誗 审核全国卫生成效的有关数据 评价小组对各种方法获取的信息进行了检测和三角验证, 以找出各种发现和结论之 间的相似性, 并增强这些发现和结论的可靠性。 资料来源: 丹麦外交部 2007 第十一章摇 复杂干预评价 llll llllllll 主题评价 詪詪詪詪詪詪 主题评价 处理 “ 从一些发展活动中选定的一个或几个方面或主题 冶 ( 丹麦外交部 1999, p郾 30) 。 这些主题产生于政策陈述。 例如, 发展机构可能决定所有项目或计划均将 迎 涉猎应对某一个或某一些特定问题, 如性别、 环境、 社会可持续性或消除贫困。 项目或计 接 挑 划的所有阶段及各种形式的援助均应关注确定的问题。 战 和国家及部门评价一样, 主题评价仍然采用自下而上和自上而下相结合的方式。 基于 项目层面可对项目主题进行评价, 这些评价为主题评价提供了丰富的信息。 此外, 主题评 价也可超越项目层面, 可能会覆盖多个项目; 也会选择一些国家做深入的研究 ( 案例研 究) 。 主题评价需要查看各种不同的信息 ( 专栏 11郾 3) , 然后从这些资源中提取综合信息。 专栏 11郾 3摇 评价的用途 摇313 WASTE 是一个致力于持续改善城市贫困人口生活条件和城市整体环境的组织。 国 际劳工组织 ( ILO) 与其签订合同, 要求其进行一项针对儿童捡垃圾问题的主题评价。 评价的目的是为 ILO 如何更好处理该领域使用儿童的问题提供指导。 该项主题评价界定并严格地评估了垃圾清理行业和多种处理与捡垃圾相关的童工问 题的办法。 其信息来源于国际禁绝童工方案 ( International Programme on the Elimination of Child Labour) 在该领域开展的各种项目, 以及其他组织、 机构和政府等的相似项目。 该评价为 ILO 提供了战略评估和建议。 ( 该评价的结果, 即 《 垃圾清理行业 ( 捡垃圾 ) 中使用儿童的问题讨论: 童工主题行动计划》 , 可以从 ILO 的网站下载) WASTE 在埃及、 印度、 罗马尼亚、 坦桑尼亚和泰国的实地研究人员还根据他们的 主要发现另外写了报告。 例如, 在坦桑尼亚, 报告包括了对相关文档的审阅, 对项目管 理人员和员工的访谈, 对其他利益相关人员的采访, 对达累斯萨拉姆两个垃圾中转站和 一个主要填埋点的实地考察, 以及对捡垃圾人员和一个捡垃圾人员协会代表人的采访。 资料来源: Duursma 2004; WASTE 2005 关于儿童捡垃圾的主题评价的一个主要发现是性别在其中的作用: 参与其中的儿童大 部分是女孩, 几乎所有参与的成年人都是女性。 该项研究因其展现出的与性别相关的问题 而引人注目。 性别响应方式的显著特点有: 誗 一个能够体现发展的性别本质及性别平等对经济社会发展贡献的概念框架 誗 建立国家级、 部门级和地方级的性别数据集, 它综合了性别相关的数据, 发现应 在项目的设计和主题评价中讨论的与性别相关的关键问题 通常可以根据性别数据的缺乏作出对性别问题重视不够的结论。 在数据没有按照性别 区分的场合, 需要明确建立合适数据集的策略, 这些数据使将来更好地进行性别分析成为 通向结果之路: 有效发展评价的设计与实施 llll llllllll 可能。 这样的策略包括如下内容: 誗 确保数据收集方法能够产生男性和女性的数据, 并且在研究的设计中已经考虑了 关键的性别问题 ( 劳动的性别划分、 时间使用分析、 资源控制、 家庭和社区层面 的决策等) 誗 确保从家庭的不同成员收集信息、 收集关于家庭不同成员的信息, 并且 “ 户主 冶 迎 ( 通常是男性) 不是唯一的信息来源 接 誗 在适当的地方使用包含性别信息的数据收集方法以弥补普通数据收集方法的不足 挑 战 誗 确保调查组人员中男女的平衡 誗 确保在评价的设计、 分析和传播阶段咨询利益相关人员, 并且咨询对象包括代表 不同性别的群组 发展规划和评价频繁地使用 “ 中性 冶 方法, 即假设男性和女性有相同的发展需求。 在绝大多数社会中, 男性倾向于主导社区和家庭决策, 因此 “ 中性 冶 方式大多数情况下 反映的是男性的需求。 忽视女性的需求和能力会极大地削弱政策和项目的效率和平等性。 很多发展规划和评价工具并没有关注性别问题, 因此即使社区咨询和家庭调查试图了解社 摇314 区各个方面的观点, 很多时候并不能完整了解女性的观点。 全球和地区合作项目评价 詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪 全球和地区合作项目 ( GRPP ) 是组织和实施发展援助, 应对紧迫的全球和地区问题 的重要手段。 大多数 GRRP 是针对某一部门或主题的, 比如农业、 环境、 卫生、 金融或国 际贸易。 GRPP 是项目式的合作, 其中: 誗 合作各方为了实现某一共同目标而在一段时间内提供并将资源 ( 资金、 技术、 人 力和声誉) 汇集在一起 誗 项目开展的范围是全球、 地区或跨国性的 誗 伙伴国建立一个具有治理结构和管理部门的新的组织来实施这些活动 ( 世界银行 2007f) 新的 GRPP 通常是在一组全球或地区的参与者发现一个跨越多个主权区域的需要共同 行动的问题或机遇后建立。 这些参与者可能是援助方或受援国, 也可能来自公共或私营 部门。 我们以湄公河和尼罗河流域水资源管理为例。 单独一个国家不能有效处理这些问题, 因为许多国家———湄公河流域有 6 个, 尼罗河有 19 个———都参与到流域管理中。 不仅如 此, 随着全球或地区层面的共同行动, 大量经济体应运而生 ( 与许多国家的发展相比, 产生了新的技术或优秀的做法) 。 GRPP 经常关注于产生或保护全球公共利益 ( 如种子技术或生物多样性的研究 ) , 或 减少全球公共问题 ( 如 HIV / AIDS 或污染) 的活动。 全球公共产品是非竞争性和非排他性 的, 且不局限于一国利益的产品。 第十一章摇 复杂干预评价 llll llllllll GRPP 的合作各方通常有着不同的观点和动机。 一般会建立一个正式的治理结构, 确 定正式目标、 成员或参与资格要求、 决策程序, 有时也包括分配标准。 目前大约已经建立了 150 多个多方合作的 GRPP。 每个 GRPP 每年的经费从几百万美 元到数十亿美元不等。 他们的活动有些仅限于知识共享和人员联络, 有些则包括技术支 持、 投资、 市场或贸易等。 GRPP 的例子有国际农业研究咨询小组 ( Consultative Group of International Agricultural Research) , 西 部 非 洲 HIV / AIDS 和 交 通 计 划 ( West Africa HIV / 迎 AIDS and Transport Program) , 国际水合作组织 ( Global Water Partnership) , 贸易一体化框 接 挑 架 ( Integrated Framework of Trade) , 以及疟疾医药基金 ( Medicines for Malaria Venture) 。 战 下面列出的 GRPP 特性使得评价工作更加复杂: 誗 合作项目的本质使其有两个含义: 第一, 需要考虑不同合作方的不同观点。 第二, 既要依据与优秀合作做法有关的标准, 也要根据对项目结果的贡献 ( 正面和负面 的) 来对治理结构本身的有效性进行评价 誗 与具体任务不同, GRPP 没有达成目标的具体时间范围。 实际上, 目标和战略经常 随着资金的增加 ( 或减少 ) 、 援助方或合作伙伴组成的变化或外部条件的变化而 变化 摇315 誗 费用的支出和收益的取得在不同的层面 ( 本地、 国家或全球) 。 有效性评价需要考 虑不同层次的贡献以及他们的相互依赖关系; 这使构建结果链变得很复杂并存在 结果聚集的问题 誗 GRPP 的全球和地区公共产品维度意味着国家和全球层面的成本和收益是不同的。 这使成本有效性评价变得很复杂, 评估全球———国家协调的有效性及和相关联系 就很有必要 誗 由于其存续期不确定且通常更长的项目周期, 评价人员经常被要求分析复杂中期 战略目标的进展, 比如由于扩大规模、 将项目移交给当地实施、 不再依赖援助机 构、 关闭或退出, 或与新的全球项目的合作模式发生变化等各种原因而进行的资 源分配 鉴于世界银行集团参与的 GRPP 项目不断增加, 以及其在实现全球可持续发展目标中 的重要性, 2006 年世行的独立评价局启动了两个新活动以支持持续检验和提升其绩效。 第一, 应 OECD / DAC 评价网络 ( 由联合国评价小组和多边发展银行评价合作小组支持 ) 的要求, IEG 领导了一项建立评价 GRPP 项目的共同原则和标准的工作。 这项工作的第一 个成果是 《 全球和区域合作项目评价手册 ( Sourcebook for Evaluating Global and Regional Partnership Programs) 》 ( 世界银行 2007f) 。 这项工作还在进行, 日后将会发布一份更详细 的指导原则和样板的报告。 第二, IEG 开始评审世行参与的 GRPP 项目的独立评价报告, 评价并反馈报告质量, 独立评估这些结果和建议, 评价世行作为合作者的绩效。 七个全球项目的评审报告已经公 开发布, 从中也总结了一些经验。 对疟疾医药基金 ( MMV) 的评价和评审就是一个例子。 MMV 成立于 1999 年, 目标 是通过公共与私营各方的合作, 探索、 开发和发放低成本的治疗疟疾的新药品以减轻疟疾 盛行国家的负担。 至 2006 年已经累计投入 1郾 51 亿美元。 该项目的秘书处位于日内瓦, 是 通向结果之路: 有效发展评价的设计与实施 llll llllllll 依据瑞士法律设立的一家独立的非营利机构, 并在新德里设有办事机构。 MMV 的董事会 由 11 名分别来自工业界、 学术界、 世界卫生组织以及比尔及梅琳达 · 盖茨基金会 ( 它提 供 60% 的资金) 的著名人士担任董事。 MMV 的援助方在 2005 年委托第三方做了一次外部评价。 董事会配合评价工作, 但并 没有直接参与。 评价工作由一位著名的非洲裔公共卫生教授带领的四人小组进行。 迎 评价任务大纲要求使用标准的评价指标, 提出的评价问题能够仔细剖析 GRPP 项目特 接 有的共同之处和 MMV 资助活动自身的特性。 下面的讨论阐述了在复杂的 GRPP 评价中这 挑 战 些衡量指标是如何运用的。 相关性。 提出一些有关项目目标相关性的问题: 国际社会对要解决的问题和该项目要 处理的问题是否达成了共识? 评价报告指出该项目与千年目标阻止传染性疾病传播的相关 性, 该项目也是一种全球公共产品。 该报告在评估相关性时还使用了辅助性原则, 认为项 目应该尽可能在当地层面实施。 该评价还问了这样一个问题: 该项目提供了国家或地方层 面不能提供的服务吗? 由于该项目处理的是全球公共产品问题, 评价认为其满足辅助性 原则。 该评价还分析了 MMV 对其他供货和服务渠道 ( 考虑其他疟疾相关项目和纯私营部门 摇316 的药品开发计划) 的附加值。 它还评估了该项目目标与受益者需求之间的相关性。 根据 这些原则, 这个项目是相关的, 因为它不仅处理药品研发, 还处理药品的发放和获取的相 关问题。 该评价还提出了如下问题: 项目的战略和设计相关吗? 选择的干预方式是相关并且恰 当的吗? 它涉及并进入哪些地理范围? 公私合作关系是如何运用的? 项目是否可以设计得 更相关一些? 有效性 ( 目标的实现) 该评价分析了获得的产出和成效, 并分别与期望进行了比 较, 还分析了帮助或阻碍目标实现的因素。 评价的这一部分非常依赖于监测和评价框架以 及数据收集。 对下面这些因素的影响做了评估: 誗 利益相关者的投入 誗 组合管理的有效性 誗 公私合作关系管理的有效性 誗 科学性方法的运用 誗 主要产出方式的有效性 誗 预期之外的成效 效率摇 尽管在任务大纲中没有明确作为一个单独指标, 评价人员还是认识到考虑更有 效的药品发放方式的机会成本的重要性。 他们分析了行政管理费用占整个项目支出的大 小, 以及随着时间推移表现出的趋势, 并与大型私营制药企业中研发治疗其他疾病药品的 费用和典型产品开发流程的费用等做了基准比较。 治理摇 该报告通过观察疾病流行国家在管理团队中的代表性、 使用世界卫生组织和疾 病流行国家的专家等科技专业人员的情况、 合作方在成功调动资源中的信心和对评价的反 应等方面评估 MMV 管理的合理性。 该评价还评估了在完成下面这些重要工作时治理的有 效性: 第十一章摇 复杂干预评价 llll llllllll 誗 制定战略 ( 管理层是否可以有效传达对国家层面的新药品准入指导意见的看法) 誗 与有相似要求的组织的合作 ( 该评价建议给予这方面更多重视) 誗 资源调动 ( 该评价建议更加主动地筹集所需资源并使援助方的支持多元化) 可持续性 / 中期战略问题摇 该评价分析了项目的成效在当前条件下是否是可持续的, 并从资金需求和对目标的支持和拥护两个方面讨论了它的可持续性。 也评估了是否可以做 一些改进使项目更具有可持续性。 ( 项目的规模是否要改变? 与其他组织的关系是否可以 迎 更加有效? 是否应该考虑替代组织或国家协议?) 该评价还讨论了监测和评价 ( M&E) 的 接 挑 改进办法。 任务大纲要求评价人员测试由援助方提出的一种评价公私合作关系有效性的模 战 型。 此外, 评价人员对改进检测工作以促进未来的监测和评价活动提出了建议。 评价方法 包括审阅项目文档, 大量采访项目和活动层面的利益相关人员, 观察科学顾问委员会会议 以及国内现场考察。 全球项目评审评估了该评价的独立性和质量。 为了判断独立性, 它考虑谁担当评价工 作以及是如何管理的。 它还检查评价是否囊括了工作的所有方面, 是否与职责范围一致。 同时还考察了报告的质量及其最终影响 ( 项目管理层采用建议的程度 ) 。 该评审对评价发 现提供了独立的评估。 它确认评价发现为项目管理人员以及世界银行的后续行动提供了坚 摇317 实的基础。 全球项目评审还评估了世界银行作为合作伙伴的绩效, 考虑了它利用自身的召集能力 帮助建立该项目; 世行随后提供的资金支持 ( 这种资金支持对项目启动非常重要, 但随 着时间的推移与其他援助方相比重要性逐渐下降) ; 以及它在管理团队和委员会讨论中的 参与度。 它指出了该项目中一些与世行作用相关, 并认为世行的作用将会提升的问题。 该 评审总结了从评价和评审中得到的教训, 这些教训有些是针对项目本身的 ( 需要建立一 个恰当的监测和评价框架) , 有些是可以应用于其他 GRPP 项目的 ( 需要与其他全球和国 别层面的重要成员进行有效的协调和商议) , 还有一些可以用于其他援助手段 ( 从依靠公 私合作关系提供服务的项目中得到的教训) 。 小摇 摇 结 詪詪詪詪詪詪 最近, 评价人员试图调查许多针对部门、 国家或主题的干预措施的有效性。 这些方法 试图确定这些干预措施在更宽更广的层面所产生的影响。 评价人员采用更加复杂的方法来 观察多个项目、 计划或政策, 以便确定它们之间的互动及分享资源的方法。 这类评价包括 联合评价、 国家项目评价、 部门项目评价、 主题评价和全球和地区合作项目评价。 名词解释 联合评价: 有多个机构参与的评价 国家项目评价: 对一个国家接受的某个援助项目整体的评价 部门项目评价: 针对主要项目部门, 如教育、 卫生或交通运输等的评价 主题评价: 对从一些发展活动中选定的一个或几个方面或主题的评价 通向结果之路: 有效发展评价的设计与实施 llll llllllll 全球和地区合作项目: 合作各方汇集资源以实现共同确定的全球性、 地区性或涉及多 国的目标的项目合作 参考书目 1郾 ADB ( Asian Development Bank ) . 2006a郾 Indonesia: Capacity Building Project in the 迎 Water Resources Sector郾 Project Performance Evaluation Report for Indonesia郾 http: / / www. 接 adb郾 org / Documents / PPERs / INO / 26190鄄INO鄄PPER郾 pdf郾 挑 战 ———郾 2006b郾 Private Sector Development and Operations: Harnessing Synergies with the Public Sector郾 http: / / www郾 oecd郾 org / dataoecd / 6 / 59 / 39519572郾 pdf郾 2郾 AfDB ( African Development Bank) . 2005郾 Morocco: Evaluation of Bank Assistance to the Education Sector郾 http: / / www郾 oecd郾 org / dataoecd / 36 / 19 / 37968449郾 pdf郾 3郾 Bamberger, Michael郾 2005郾 IPDET Handbook for Evaluating Gender Impacts of Develop鄄 ment Policies and Programs郾 International Program for Development Evaluation Training, Ottawa郾 4郾 Bamberger, Michael, Mark Blackden, Lucia Fort, and Violeta Manoukian郾 2001郾 “ In鄄 摇318 tegrating Gender into Poverty Reduction Strategies郾 冶 In The PRSP Source鄄book郾 335 - 74郾 Wash鄄 ington, DC : World Bank郾 http: / / povlibrary郾 worldbank郾 org / files / 4221_chap10郾 pdf郾 5郾 Breier, Horst郾 2005郾 Joint Evaluations: Recent Experiences, Lessons Learned and Options for the Future郾 Draft Report to the Development Assistance Committee Network on Development Evaluation, Organisation for Economic Co鄄operation and Development, Paris郾 6郾 Chen, Jhaoying, and Hans Slot郾 2007郾 “ Country鄄Led Joint Evaluation: Dutch ORET / MILIEV Programme in China郾 冶 Presentation at the sixth meeting of the Development Assistance Committee Network on Development Evaluation, Paris, June郾 http: / / www郾 oecd郾 org / dataoecd / 63 / 28 / 38851957郾 ppt郾 7郾 Compton, Donald W郾 , M郾 Baizerman, and S郾 H郾 Stockdill, eds郾 2002郾 The Art, Craft, and Science of Evaluation Capacity Building郾 New Directions for Evaluation 93 ( Spring) ( publica鄄 tion of the American Evaluation Association) . 8郾 Danish Ministry of Foreign Affairs郾 1999郾 Evaluation Guidelines郾 2nd ed郾 Copenhagen. http: / / www郾 um郾 dk / NR / rdonlyres / 4C9ECE88 - D0DA - 4999 - 9893 - 371CB351C04F / 0 / E鄄 valuation_Guidelines_1999_revised郾 pdf郾 ———郾 2006郾 Evaluation Guidelines郾 Copenhagen郾 ———郾 2007郾 Joint External Evaluation: The Health Sector in Tanzania 1999 - 2006郾 http: / / www郾 oecd郾 org / dataoecd / 53 / 46 / 39837890郾 pdf郾 9郾 Duursma, M郾 2004郾 Child Labour in Scavenging, Tanzania, Dar es Salaam郾 Updated August 16 , 2005郾 http: / / www郾 waste郾 nl / page / 724郾 10郾 Evaluationof the Implementation of the Paris Declaration郾 Synthesis Report: 2008 , 26郾 11郾 Freeman, Ted郾 2007郾 “ Joint Evaluations郾 冶 International Program for Development Evaluation Training ( IPDET) presentation, Ottawa, June鄄July郾 12郾 Fullan, M郾 1993郾 Change Forces郾 London: Falmer Press郾 第十一章摇 复杂干预评价 llll llllllll 13郾 GTZ ( Gesellschaft f俟r Technische Zusammenarbeit ) . 2004郾 National Monitoring of Sustain鄄 able Poverty Reduction Strategy Papers PRSPs郾 Eschborn, Germany郾 http: / / siteresources郾 world鄄 bank郾 org / INTISPMA / Resources / Training鄄Events鄄and鄄Materials / summary_MainReport郾 pdf郾 14郾 Heath, John, Patrick Grasso, and John Johnson郾 2005郾 World Bank Country, Sector, and Project Evaluation Approaches郾 International Program for Development Evaluation Training ( IPDET) presentation, Ottawa, July郾 迎 15郾 House, Ernest R郾 Guiding Principles for Evaluators郾 1995郾 New Directions for Program 接 挑 Evaluation No郾 66郾 San Francisco: Jossey鄄Bass郾 战 16郾 IOM ( International Organization for Migration) . 2006郾 IOM Evaluation Guidelines郾 Office of the Inspector General郾 http: / / www郾 iom郾 int / jahia / webdav / site / myjahiasite / shared / shared / mainsite / about_iom / eva_techref / Evaluation_Guidelines_2006_1郾 pdf郾 17郾 Johnson, John郾 2007郾 “ Confronting the Challenges of Country Assistance Evaluation郾 冶 International Program for Development Evaluation Training ( IPDET ) presentation, Carleton Uni鄄 versity, Ottawa, June 26 – 27郾 18郾 Kusek, Jody Zall, and Ray C郾 Rist郾 2004郾 Ten Steps to a Results鄄Based Monitoring and 摇319 Evaluation System郾 World Bank, Washington, DC郾 http: / / www郾 oecd郾 org / dataoecd / 23 / 27 / 35281194郾 pdf郾 19郾 Mackay, Keith郾 1999郾 Evaluation Capacity Development: a Diagnostic Guide and Action Framework郾 ECD Working Paper 6 ( January ) , World Washington, DC郾 http: / / lnweb18郾 worldbank郾 org / oed / oeddoclib郾 nsf / a4dd58e444f7c61185256808006a0008 / 7f2c924e183380c585 2567fc00556470 ? OpenDocument郾 ———郾 2006郾 Institutionalization of Monitoring and Evaluation Systems to Improve Public Sector Management郾 World Bank, Independent Evaluation Group, Washington, DC郾 http: / / sitere鄄 sources郾 worldbank郾 org / INTISPMA / Resources / ecd_15郾 pdf郾 ———郾 2007郾 How to Build M&E Systems to Support Better Government郾 World Bank, Wash鄄 ington, DC郾 http: / / www郾 worldbank郾 org / ieg / ecd / docs / How_to_build_ME_gov郾 pdf郾 20郾 Mertens, D郾 M郾 1994郾 “ Training Evaluators: Unique Skills and Knowledge郾 冶 New Di鄄 rections for Program Evaluation 62 : 17 - 27郾 21郾 MLB ( Multilateral Development Bank ) , ECC ( Evaluation Cooperative Group ) , and WGEC ( Working Group on Evaluation Criteria and Ratings for Public Sector Evaluation ) . 2003郾 Good Practice Standards for Evaluation of MDB Supported Public Sector Operations郾 http: / / www郾 ifc郾 org / ifcext / oeg郾 nsf / AttachmentsByTitle / MDB鄄ECG / US$FILE / MDB鄄ECG _ Good鄄Prac鄄 tice郾 pdf郾 22郾 OECD ( Organisation for Economic Co鄄operation and Development) . 1999郾 “ Evaluating Country Programmes,冶 Development Assistance Committee, Vienna Workshop, March 11 - 12郾 http: / / www郾 oecd郾 org / dataoecd / 41 / 58 / 35340748郾 pdf郾 ———郾 2002郾 OECD Glossary of Key Terms in Evaluation and Results Based Management郾 De鄄 velopment Assistance Committee, Paris郾 通向结果之路: 有效发展评价的设计与实施 llll llllllll ———郾 2005郾 Workshop on “ Challenging the Conventional Wisdom: The View from Develo鄄 ping Country Partners,冶 Network on Development Evaluations, Development Assistance Commit鄄 tee, Nairobi, April 20 - 21郾 http: / / www郾 oecd郾 org / dataoecd / 20 / 44 / 34981186郾 pdf郾 ———郾 2006郾 DAC Evaluation Series: Guidance for Managing Joint Evaluations郾 Development Assistance Committee, Paris郾 http: / / www郾 oecd郾 org / dataoecd / 29 / 28 / 37512030郾 pdf郾 迎 23郾 Porteous, Nancy L郾 , Barbara J郾 Sheldrick, and Paula J郾 Stewart郾 1999郾 “ Enhancing 接 Managers蒺 Evaluation Capacity: A Case Study for Ontario Public Heath郾 冶 Canadian Journal of 挑 战 Program Evaluation郾 Special Issue: 137 - 54郾 http: / / www郾 phac鄄aspc郾 gc郾 ca / php鄄psp / pdf / tool鄄 kit / enhancing_managers_evaluation% 20_capacity% 20_CJPE_1999郾 pdf郾 24郾 UNFPA ( United Nations Population Fund ) . 2005郾 State of World Population 2005郾 http: / / www郾 unfpa郾 org / swp / 2005 / english / notes / index郾 htm郾 25郾 WASTE郾 2005郾 Thematic Evaluation on Child Labour in Scavenging Africa, Asia, and Europe Assessment郾 Gouda, the Netherlands郾 http: / / www郾 waste郾 nl / page / 720郾 26郾 World Bank郾 2001a郾 Design Paper for a Multipartner Evaluation of the Comprehensive De鄄 摇320 velopment Framework郾 Comprehensive Development Framework Secretariat, Washington, DC郾 http: / / www郾 worldbank郾 org / evaluation / cdf / cdf_evaluation_design_paper郾 pdf郾 ———郾 2001b郾 Engendering Development—through Gender Equality in Rights, Resources and Voice郾 Washington, DC : World Bank郾 ———郾 2001c郾 The PRSP Sourcebook郾 http: / / web郾 worldbank郾 org / WBSITE / EXTERNAL / TOPICS / EXTPOVERTY / EXTPRS / 0 , menuPK: 384207 ~ pagePK: 149018 ~ piPK: 149093 ~ theSitePK: 384201 , 00郾 html郾 ———郾 2005郾 Evaluation of World Bank蒺s Assistance to Primary Education郾 Operations Evalua鄄 tion Department, Washington, DC郾 http: / / www郾 worldbank郾 org / oed / education / evaluation _ de鄄 sign郾 html郾 ———郾 2007a郾 Country Assistance Evaluation: CAE Retrospective郾 Independent Evaluation Group, Washington, DC郾 http: / / www郾 worldbank郾 org / ieg / countries / cae / featured / cae _ retro鄄 spective郾 html郾 ———郾 2007b郾 Global Program Review: Medicines for Malaria Venture郾 Independent Evaluation Group, Washington, DC郾 http: / / lnweb18郾 worldbank郾 org / oed / oeddoclib郾 nsf / 24cc3bb1f94ae11 c8525680800 6a0046 / d591aea3bbb897de852573130077a0cb? OpenDocument郾 ———郾 2007c郾 Impact Evaluations: Bangladesh Maternal and Child Health郾 Independent E鄄 valuation Group, Washington, DC郾 http: / / www郾 worldbank郾 org / oed / ie / b angladesh_ie郾 html郾 ———郾 2007d郾 Poverty Monitoring Systems郾 http: / / web郾 worldbank郾 org / WBSITE / EXTER鄄 NAL / TOPICS / EXTPOVERTY / EXTPAME / 0 , contentMDK: 20203848 ~ menuPK: 435494 ~ pagePK: 148956 ~ piPK: 216618 ~ theSitePK: 384263 , 00郾 html郾 ———郾 2007e郾 PRSP Sourcebook郾 Washington, DC郾 http: / / web郾 worldbank郾 org / WBSITE / EXTERNAL / TOPICS / EXTPOVERTY / EXTPRS / 0, contentMDK: 20175742 ~ pagePK: 210058 ~ piPK: 210062 ~ theSitePK: 384201 , 00郾 html郾 第十一章摇 复杂干预评价 llll llllllll ———郾 2007f郾 Sourcebook for Evaluating Global and Regional Partnership Programs: Indicative Principles and Standards郾 Independent Evaluation Group, Washington, DC郾 http: / / siteresourc鄄 es郾 worldbank郾 org / EXTGLOREGPARPRO / Resources / source鄄book郾 pdf郾 ———郾 2008郾 CAE Methodology郾 Independent Evaluation Group, Washington, DC郾 http: / / web郾 worldbank郾 org / WBSITE/ EXTERNAL/ EXTOED/ EXTCOUASSEVA/ 0, contentMDK: 21107046 ~ menuPK: 3098030 ~ pagePK: 64168445 ~ piPK: 64168309 ~ theSitePK: 2832047 , 00郾 html郾 迎 接 网址 挑 战 1郾 International Labour Organization郾 http: / / www郾 ilo郾 org郾 2郾 Stufflebeam, D郾 L郾 1999郾 Evaluation Plans and Operations Checklist郾 http: / / www. wmich郾 edu / evalctr / chec klists / plans_operations郾 htm郾 ———郾 2001郾 Guiding Principles Checklist郾 http: / / www郾 wmich郾 edu / evalctr / checklists / guid鄄 ing_principles郾 pdf郾 3郾 World Bank郾 ADePT: Stata Software Platform for Automated Economic Analysis郾 http: / / econ郾 worldbank郾 org / programs / poverty / adept郾 摇321 ———郾 Core Welfare Indicators Questionnaire ( CWIQ ) . http: / / www4郾 worldbank郾 org / afr / stats / cwiq郾 cfm郾 ———郾 Global and Regional Partnership Programs郾 http: / / www郾 worldbank郾 org / ieg / grpp郾 引领 “ 行动最终要体现出智慧冶 ——— 《 博伽梵歌》 第十二章: 评价活动的管理 誗 设计矩阵的管理 誗 评价的承包 誗 不同人员的角色和职责 誗 人员、 任务和预算的管理 第十三章: 结果的展示 誗 精心设计沟通策略 誗 撰写评价报告 誗 形象地展示信息 誗 进行口头报告 第十四章: 指导评价人员: 评价的道德、 政治、 标准和指导原则 誗 道德行为 誗 政治与评价 誗 评价标准与指导原则 第十二章 摇 评价活动的管理 评价是一项复杂的事业; 想要所有人都能各司其职、 高质量地按时完成工作并不容 易。 本章讨论的是评价人员可用于计划、 管理、 按质完成并分享评价结果的方法, 帮助他 们的评价能为政策制定者实施改革所用。 本章包括四个主要部分: 誗 设计矩阵的管理 誗 评价的承包 誗 不同参与人员的角色和职责 誗 人员、 任务和预算的管理 设计矩阵的管理 詪詪詪詪詪詪詪詪詪詪詪 发展评价成功的关键在于计划。 如果评价没有计划好, 那么再多的后期分析———无论 多么尽善尽美———都无法补救。 中国有句谚语说得好: 千里之行, 始于足下。 如果第一步 和随后的每一步都能朝正确的方向迈进, 那么就会大大增加到达目的地的可能性。 漫无目 的或方向地四处徘徊, 对旅行者来说, 是时间、 精力和资源的浪费; 对评价人员来说, 也 是如此, 而且四处徘徊永远不会到达目的地。 因此, 比较明智的做法就是, 收集必要的地 图, 研究可行的路线, 并充分估算时间、 成本和可能遇到的危险, 为行程做好准备。 前面几章提到, 评价设计矩阵是用图示来展现评价活动的一种直观方法。 它强调评价 设计工作的每个重要部分。 矩阵模板不是一成不变的; 它可以根据评价活动的需要进行修 改。 跟所有其他计划工作一样, 它可能需要不断地更新和修改。 随着新信息的出现, 有些 想法和方法就要相应地做调整。 有了好的评价设计矩阵不一定能有成功的评价。 有时, 最完美的设计也可能会以劣质 的评价而告终, 比如, 实施评价的人缺乏必要的技能, 评价开展得太迟而无法影响关键决 定, 或者在数据收集阶段就已将预算耗尽。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 评价的承包 詪詪詪詪詪詪詪詪 评价管理者负责发现实施评价活动的员工在技能方面的不足之处, 并加以弥补。 具备 引 评价技能的员工供应不足, 需求量却很大。 因此, 发展评价活动往往被承包给咨询公司或 领 顾问。 有些机构, 如欧盟, 将大部分或全部的评价都外包给了专家。 为了确保评价的客观 性, 顾问们事前应未以任何形式参与过所要评价的项目。 使用承包商有利也有弊。 好处包括: 承包商可能对被评价的项目所处的行业和类型有 深刻了解; 能够讲当地的语言或者对当地情况比较熟悉; 而且, 如果采用了竞标程序, 就 可能找到性价比最高的评价人员。 坏处是承包的费用很高 ( 招标过程可能比合同本身还 要花费大) , 而且意味着内部评价能力得不到提高。 招标书 摇326 聘请咨询公司或顾问时, 首先要撰写一份招标书。 根据本组织的情况以及合同规定和 程序, 合作对象的确定可以依据三种方式: 单一来源、 定向邀标和公开竞标。 中标的标书 可由评价管理者或指定的评审小组按事先确定的标准推荐选出。 Hawkins (2005) 认为招标书应包括以下内容: 誗 评价目的 誗 研究背景 誗 对主要信息的要求 誗 评价的目标 誗 需要提交的内容 誗 时间安排 誗 标书筛选的标准 誗 项目管理者要完成的合同细节 誗 招标截止日期 誗 预算和其他资源 中标的标书应该由一组具备评价知识和经验、 了解项目所在领域和文化, 并且拥有评 价发现的所有权和使用权的人员选出。 这个专家组应该根据招标书中所列的标准来选择标 书, 并将筛选过程记录在案。 Hawkins 建议采用以下标准选择评价顾问: 誗 招标书是否全面详尽? 誗 有没有详细解释如何实施评价? 誗 提出了哪些沟通和报告策略? 誗 有没有能力方面的证据? 过往的成就如何? 誗 成本是多少? 有没有详细说明? 第十二章摇 评价活动的管理 llll llllllll 聘用承包商之后, 评价管理者仍需对承包商和评价负责。 这些责任包括: 誗 确保目标清晰明确 誗 保持对评价的所有权 誗 监督评价工作并及时提供反馈 誗 适时决策 誗 如需修改合同, 应与承包商坦诚协商 引 领 任务大纲 任务大纲 ( TOR) 是对工作任务的说明, 其内容包括: 评价的背景、 目标和目的; 评价团队成员的个人职责; 以及交付成果的时间节点等。 任务大纲通常对评价的总体情况 进行描述并达成初步共识。 它可以是客户和评价管理者之间的共识, 评价管理者和承包商 之间的共识, 或者评价管理者和评价人员之间的共识。 评价团队的所有成员应该有一份明 确列示自己在评价中的具体责任的书面说明, 这份说明通常就是任务大纲。 任务大纲应该务实地规定在指定的时间期限内完成什么任务。 摇327 任务大纲可以包括设计矩阵, 或者将设计矩阵的制定作为需要首先交付的成果之一。 它也可以反映有关评价的实施和汇报方面所达成的规范和标准 ( 参考第十四章对道德和 标准的讨论) 。 总体任务大纲的制定过程有助于确保利益相关者参与讨论, 并参与决定评价要解决的 问题。 任务大纲确立了基本的指导原则, 这样所有参与者都能明确对评价的期望 ( 专栏 12郾 1) 。 根据 《 评价和结果导向管理的关键术语表 》 ( OECD 2002) , 评价的任务大纲以书面 文件的形式呈现如下内容: 誗 评价的目的和范围 誗 评价方法 誗 绩效评估或分析的标准 誗 资源和时间的分配 誗 汇报要求 专栏 12郾 1摇 撰写评价任务大纲的建议 下面的建议可以帮助我们撰写评价任务大纲: 誗 清晰陈述评价的目标, 并明确以下几点: 姻 要考察的一般性问题和初步评价问题 姻 主要利益相关者及评价的预期用途 姻 总体评价方法 姻 期望的评价结果, 各项报告什么时间提交以及如何使用 姻 对评价团队成员专业能力的要求 通向结果之路: 有效发展评价的设计与实施 llll llllllll 姻 后勤安排 誗 不要简单地用技术术语和程式话语来描述目标, 要清楚地表述评价将如何帮助 组织 誗 关注需要初步讨论的问题 誗 避免选择太多问题, 深入地研究几个问题胜于浅尝辄止地大范围调查 引 资料来源: 编自 《 UNDP2006》 领 任务大纲一般包括以下内容: 誗 简短的描述性标题 誗 对项目或计划的描述 誗 评价的原因和期望 誗 对评价的范围和重点的说明 ( 涉及的内容和需要回答的问题) 誗 确定利益相关者的参与 ( 何人参与、 何人做何事、 问责流程) 誗 对评价流程的描述 ( 需要做何事) 摇328 誗 成果交付清单 ( 评价工作计划、 中期报告、 总结报告、 演示文稿) 誗 确定必要的资质 ( 对教育、 经验、 技能和能力的要求) 誗 根据活动、 时间、 人数、 专家费用、 差旅和其他支出进行成本估算 任务大纲是对评价设计矩阵的补充而不是替代, 前者强调的是各方责任, 后者则是评 价的实施计划。 不同参与人员的角色和职责 詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪 参与评价工作的人有很多。 他们的能力各不相同, 各自承担着不同的角色和职责。 客 户 ( 需求方) 、 利益相关者、 评价管理者和评价人员 ( 承包商或内部员工 ) 是其中几个比 较关键的角色。 数据分析员、 顾问、 同行评审人员和数据收集员承担的任务则比较有限。 参与评价活动的每个人的角色和责任都必须加以明确并达成一致。 主要客户 一项评价活动可能有很多利益相关者, 但是通常提出评价要求并资助评价活动的主要 客户只有一个。 一般而言, 该客户希望评价涉及的内容、 对评价的使用计划以及相应的时 间要求通常就形成了评价的框架。 评价人员最好尽早与客户见面并商谈以下问题: 誗 评价需求的性质和背景 誗 评价需求生成的必要性、 原因和利害 誗 对提交评价结论的关键时点要求 誗 评价要考察的重要问题 第十二章摇 评价活动的管理 llll llllllll 誗 沟通的时间安排和频率 Scriven (2007) 的 《 主要评价内容核对表 》 提到了在开始评价活动之前与客户会谈 的重要性, 以明确客户的具体要求和想法, 或者让客户澄清他们对这些细节问题的考虑。 Scriven 建议向客户提出以下问题: 誗 到底应对什么进行评价? 誗 评价的领域有多大? 引 誗 评价人员评价的是整个项目的影响, 还是各个组成部分的贡献? 他们评价的是客 领 户有关各部分如何作用的变革理论吗? 誗 评价应该考虑所有相关方面的影响, 还是只考虑几个方面的影响? 誗 该评价是形成性评价、 总结性评价还是描述性评价? 第四章曾提到 , 评价团队管理与主要客户 关 系 的 一 项 工 作 , 就 是 制 订 沟 通 计 划 。 制订沟通计划有利 于 评 价 人 员 开 展 与 客 户 、 主 要 利 益 相 关 者 、 媒 介 和 公 众 相 关 的 工 作 。 沟通计划规定了发送和接收信息 的 原 因 、 内 容 、 地 点 和 方 式 。 针 对 不 同 的 受 众 , 通常会采用不同的 媒 介 。 特 别 是 当 评 价 涉 及 敏 感 信 息 时 , 沟 通 计 划 的 制 订 就 显 得 尤 为重要 。 摇329 评价人员往往认为沟通是在整个流程之末、 报告完成后才做的工作。 实际上, 沟通工 作和沟通策略的制定也需要提前做, 并在评价过程中不断修正。 应当借助于沟通增强对评 价的支持、 改进评价及评价方法、 帮助获得认可, 并促进评价发现的应用。 利益相关者 第四章给出了利益相关者的定义: 利益相关者是指除客户以外, 对干预活动有利益关 系的人和组织。 他们在干预过程中或干预结束后的几年里通常受到了影响。 利益相关者可能来自组织内部, 也可能来自组织外部。 他们在评价中的作用从确定评 价要解决的问题到提供数据等不一而足。 在参与式评价中, 利益相关者可以承担评价活动的各个层面的责任。 这类评价可能会 挑选一部分利益相关者加入评价团队, 让他们参与提出问题、 收集和分析数据的过程。 利 益相关者一旦参与了评价过程, 他们就更可能支持这项评价, 并且根据评价结果和评价建 议采取相应措施。 ( 参见第五章对参与式评价的讨论) 让项目、 计划或政策的批判者参与到评价中来是有益的。 只要批判者能够找出评价活 动应该解决 ( 如果得不到解决就会损害评价活动 ) 的重要问题, 他们的参与是能够改善 评价过程的 ( CDC 2001) 。 世界银行的 《 参与资料手册 》 给出了如何让与参与式评价特别相关的利益相关者参 与进来的有用的指导原则 ( 世界银行 1996) 。 利益相关者一旦确认, 就需要策划让他们参 与进来。 评价人员要通过多种途径与利益相关者合作。 对于通常被排除在决策过程之外的 群体, 需要采取专门措施来保证他们有机会表达自己的意见。 为此, 评价人员需要将这些 “ 沉默者冶 组织起来, 安排他们发言, 与他们举行参与式会谈, 并尽力让各个层面的利益 相关者都能表达自己的意见。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 在很多利益相关者看来, 由外人邀请参加 “ 参与式评价 冶 似乎让人感觉很疑惑。 过 去与公共部门、 公务员和援助项目打交道的经历或许造成了某些负面印象, 需要加以修 正。 信任可以通过信息共享、 通过中间人来合作以及尽早着手和广泛参与等方法建立。 方 法之一就是分享与评价有关的信息。 评价人员可以通过个别会谈或集体讨论这种大规模的 讨论来分享信息。 在讨论会上, 评价人员可以和大家分享评价的方法及原因。 参加会议的 引 人有机会表达他们的期望和担忧。 如果评价是参与式的, 那么一旦信任得以建立, 就可以 领 邀请参与者们组成自己的委员会来参与评价活动。 将有关评价方法的论文放到网站上请大家进行点评, 是与学术研究人员、 非政府组织 和相关民众进行公开沟通的一个办法。 当然, 当新内容仍可被考虑和进行修改时, 务必要 这样做。 最有效的办法是评价人员汇总这些评论及所采取的相应措施 ( 或者没有采纳建 议的原因) , 并公布出来。 有些情况下 , 评 价 人 员 和 利 益 相 关 者 彼 此 缺 乏 信 任 , 需 要 中 间 人 出 面 协 调 。 这 时 , 受利益相关者尊重的 一 方 或 许 可 以 利 用 自 己 的 地 位 让 评 价 人 员 和 利 益 相 关 者 走 到一起 。 评价人员还应该拜访利益相关者, 尤其是那些直接受到干预活动影响的人。 评价人员 摇330 可以介绍自己, 并询问利益相关者是否已知晓评价活动以及他们对评价活动的看法。 评价 人员可以把这种非正式反馈和通过其他渠道听到的反馈进行对比, 以此来验证评价活动的 一致性并纠正偏见。 让利益相关者对与他们有关的评价有发言权有助于解决分歧并达成一致意见。 因此, 尽早让利益相关者参与可以避免冲突。 对那些认为自己不会因评价设计而蒙受损失的人来 说, 他们的唯一立场也许就是直接反对。 参与程度越低, 反对声音就会越大。 一旦反对意 见集合到一起, 问题就很难得到解决。 评价管理者 评价管理者负责管理评价活动的设计、 准备、 实施、 分析、 报告、 宣传以及后续工 作。 评价管理者可以同时管理多个评价活动。 有些情况下, 评价人员会同时负责评价的管 理和执行工作。 评价管理者的责任可以分为三个阶段: 准备、 实施和后续 ( UNFPA 2007) 。 准备阶段包括定义评价和制定招标书、 任务大纲和评价设计矩阵以及后勤等前期工 作。 这就要求评价管理者做到以下几点: 誗 明确评价目标和评价结果的使用者 誗 确定需要参与评价过程的人员 誗 与主要利益相关者会谈 誗 确定评价领域、 评价方法、 设计矩阵以及评价问题 誗 草拟评价任务大纲, 并写明评价的时间安排 誗 确定实施评价所需要的各项技能和经验 誗 监督数据收集工具的开发和测试以及现有信息的收集工作。 精挑细选, 确保现有 第十二章摇 评价活动的管理 llll llllllll 的信息来源可靠, 质量高, 能够生成有意义的评价结果; 收集的信息应该是可处 理的 誗 选聘评价人员, 并向他们介绍评价的目的、 评价矩阵和工作计划, 然后进行必要 的培训 誗 确保在评价活动开展前把背景文件 / 材料交给评价团队, 以使他们有时间消化这些 材料 引 誗 监督实地考察计划 领 誗 确保评价的资金支持 实施是指评价的实际执行阶段, 包括分析、 草拟报告和提交报告。 评价管理者需要做 到以下几点: 誗 保证评价人员能够获取足够的文件、 报告、 出版物和其他有关信息 誗 跟踪评价进程; 在实施的各个阶段, 向评价人员提供反馈和指导 誗 评估评价报告的质量, 与评价人员讨论报告的优缺点, 以保证报告初稿达到任务 大纲的要求, 评价发现经得起推敲, 而且建议的措施切实可行 誗 与评价人员和主要利益相关者会谈, 讨论和评论报告初稿 摇331 誗 核准通过评价的最终成果, 保证将评价结果呈现给利益相关者 作为最后一个阶段, 后续阶段是指评估评价人员的表现、 散发评价成果、 跟踪建议措 施的实施情况, 以及事后审查。 在这个阶段, 评价管理者的职责包括以下内容: 誗 评估评价人员的表现并记录在案 誗 将评价结论散发给主要利益相关者和其他受众 誗 推动建议措施的实施以及评价结论在目前和未来项目中的应用; 定期核查, 确保 建议措施得到执行 誗 带领评价团队进行总结评议, 找出做得不错并应该继续推行的方面以及今后需要 加以改进的地方 在这三个阶段中, 评价管理者可以起到团队会议协调人的作用, 确保所有参会者分享 自己的观点和想法。 作为协调人, 评价管理者需要负责: 誗 设计会议议程 誗 帮助大家围绕议程讨论 誗 保证所有的观点都能得到倾听 誗 监督决策过程 ( 无论是意见一致还是需要进行投票表决) 评价人员 评价人员指的是在评价活动中承担主要工作的人。 评价人员的数量取决于评价活动的 规模和范围、 预算以及能够参加评价的人数。 联合国开发计划署 ( UNDP 2006) 认为优秀的评价人员应具备以下特点: 誗 具备特定主题方面的专业知识 誗 具备有关主要发展问题的知识, 尤其是与重要目标相关的问题, 或者宏观把握的 通向结果之路: 有效发展评价的设计与实施 llll llllllll 能力 誗 熟悉该组织的业务及运作模式 誗 具备有关设计、 数据收集、 数据分析和报告准备等方面的评价技能 誗 具备运用信息技术的技能 联合国人口基金 ( UNFPA 2007) 认为评价人员可能需要承担如下责任: 引 誗 参与评价设计; 完善、 明确评价目标和内容 领 誗 执行评价 誗 审核可能获得的信息 / 文件 誗 设计 / 改进工具以收集所需的额外信息; 执行或协调额外信息收集工作 誗 进行实地考察和访谈 誗 在参与式评价活动中, 推动利益相关者的参与 誗 定期向评价管理者提供进展报告 誗 整理分析信息, 解释评价发现, 总结和探讨建议措施以及经验教训 誗 参与讨论评价报告初稿; 纠正或修改任何事实错误或不当解释 誗 在会议和培训上展示评价发现时, 引导反馈 / 讨论 摇332 誗 对评价报告进行定稿, 并准备汇报评价结果 很多组织正试图制定从事评价活动的个人职业能力标准, 对评价人员进行认证的想法 也在探讨之中。 ( 有关评价人员能力和证书方面的讨论见第十五章) 人员 、 任务和预算的管理 詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪詪 关于项目管理有不少比喻说法。 有些人把它比作是杂耍, 因为项目管理者必须同时盯 着很多东西 ( 人、 任务、 时间、 预算、 质量等) 。 有些人则把它比作是指挥交响乐团, 因 为项目管理者要站在一旁指挥很多具备不同技能的人。 人员管理 要确保一个评价团队能够密切配合, 项目管理者需要具备很多技能。 本节主要探讨项 目管理者需要掌握的冲突解决和团队建设技能。 项目管理者还要管理项目 “ 所有者 冶 的担忧。 有些人担心评价会关注负面的东西, 因为负面的东西容易吸引注意力。 他们或许担心有些负面的评价发现会危害一个整体上不 错的项目。 有时候他们担心当项目的影响难以衡量时, 会得出这个项目效果不佳的错误结 论, 从而影响资金筹措。 评价人员消除项目所有者担忧的一个办法是请他们参与确定评价内容。 评价人员也需 要请他们审核评价工作计划、 评价发现和建议措施。 第十二章摇 评价活动的管理 llll llllllll 冲突解决技巧 冲突往往出现在团队成员间。 解决冲突最亟须的两个技巧就是沟通技巧和倾听技巧。 最重要的沟通技巧包括使用 “ 我冶 而不是 “ 你 冶 作主语的陈述句。 倾听技巧包括确认倾 听方正确理解了发言方的意思 ( 如, 我听到你在说……是不是这样) 。 不是所有的冲 突 都 要 分 出 输 赢。 最 具 建 设 性 的 冲 突 解 决 方 式 应 该 是 双 赢 的 ( 专 引 领 栏 12郾 2) 。 专栏 12郾 2摇 解决冲突的建议 项目管理者可以通过各种方法来解决冲突: 誗 请冲突方坐下来协商。 允许各方简短地总结自己的观点, 不要打断他们。 如果 有人打断对方发言或开始批评对方, 应加以阻止 誗 允许大家讨论他们的感受。 这样做有利于减少冲突 誗 请参与的每个人说出希望看到其他人怎么做 摇333 誗 倾听双方的观点。 项目管理者要想想是不是因为工作环境引发了这场冲突。 如 果是的话, 要考虑如何改变工作环境来解决冲突 誗 不要偏袒。 提醒各方注意评价的目的或目标, 并努力找到能让双方共同实现评 价目标的办法 誗 期望各方一起解决分歧。 让他们继续会面以解决冲突。 设定时间, 检查他们的 进展 团队建设技巧 管理一个团队需要很多技巧。 这些技巧包括: 誗 倾听: 团队成员应该培养和使用良好、 积极的倾听技巧。 这些技巧可能会成为这 个团队最宝贵的资产 誗 提问: 团队成员应该提问题以明确和理解对方在说的话 誗 劝说: 团队成员应该互相交换观点, 解释、 辩护或重新思考自己的观点 誗 尊重: 团队成员应该尊重他人的看法, 鼓励并支持他们的观点和行动 誗 帮助: 团队成员应该在必要时互相帮助 管理一个团队还需要其他一些技巧 ( 专栏 12郾 3) 。 有很多办法可以调动团队发挥最大效力。 头脑风暴法可用来在短时间内收集一群人的 各种想法。 每个人就一个评价问题提出一个不同的想法, 然后写到翻页板上。 主持人一个 一个地询问, 不断反复, 直到最后没有别的点子提出为止。 基本规则就是把大家提出的所 有点子都写到翻页板上去———这里没有糟糕的点子。 不许对这些点子进行评论。 这样一 来, 所有的想法都得到了表达。 然后大家一起把相似的观点归类汇合, 列出一张新的 清单。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 专栏 12郾 3摇 改善团队合作的建议 下面的建议能够帮助项目管理者改善团队成员之间的合作: 誗 就具体工作的目的和重要性进行沟通 誗 积极倾听, 通过有效的转述帮助他人表达自己的想法 引 领 誗 和同事及他人一起积极提问, 尊重每个人的独特贡献和观点 誗 为了那些受到项目或评价影响的人们的利益, 要抛弃个人偏见以努力找到困难 问题的答案 誗 不要对评价发现采取抵制态度 资料来源: NEIR TEC 2004 概念构图是鼓励所有参与者各抒己见, 然后将这些点子归类并按重要性排序的集思广 益的过程。 它首先要通过头脑风暴法或关联图法激发大家提出想法。 每个点子都写到一个 单独的索引卡片上, 然后贴在墙上。 摇334 当大家再也想不出其他点子的时候, 所有参与者一起把这些卡片按照相似的概念 / 主 题加以归类, 并给每组概念 / 主题起一个适当的名称, 之后在主持人的引导下就每组的重 要性及其原因展开讨论。 在这个阶段, 大家可以舍弃那些相对不重要的概念或主题, 并将 其下的点子放弃或者归入其他概念或主题下。 参与者们检查墙上的各组点子时, 他们也可 以要求主持人把其他点子挪到其他类别。 当参与者对各组概念 / 主题及下面的点子满意之后, 主持人接下来按重要性对各组进 行排序。 给每个参与者几张贴纸, 贴纸的数量取决于主持人想挑选出几组重要的概念 / 主 题。 如果想挑出五组, 那么就给每个参与者五张贴纸。 参与者要把贴纸贴在他们认为最重 要的五组概念 / 主题的旁边。 主持人然后按照每组概念 / 主题旁边贴纸的数量挑出最重要的 五组概念 / 主题, 并按贴纸数量的多少将其进行排序。 如果需要的话, 可以依照同样的方 法对每组概念 / 主题下的点子进行排序。 任务管理 任务管理有时看起来比人员管理要容易, 但是这个过程也有其挑战之处。 关键是要集 中精力于评价目标和最重要的任务。 任务图可以帮助我们在相应日期内将每个人的任务罗列出来 ( 表 12郾 1 ) 。 我们也可 以使用 甘特图 。 这是一个很有用的监督工具 ( 图 12郾 1) 。 每个任务都可以填到这个甘特 图中以显示其实际进度 。 通过这个图我们也可以看出一项任务的进度是否取决于另一 项任务的完成 , 或者很多任务的完成挤到了同一时间段形成了瓶颈 。 很多软件包都有 甘特图模版 。 必须对活动进行监督以确保任务能够按时完成。 如果没有完成预期的进度, 评价人员 需要找出障碍并设法解决。 鼓励团队成员敢于报告所发现的问题, 这一点很重要, 因为解 决那些在早期发现的问题要容易得多。 第十二章摇 评价活动的管理 llll llllllll 摇 表 12郾 1 任务图示例 任摇 务 负责人 开始日期 结束日期 审阅外部文件, 找出相关的内外部问题 Anna, Miguel 和 Kabir 7/1 7/4 审阅与具体干预活动相关的项目 / 计划文件 ( 如 Kabir 7/5 7 / 23 董事会报告、 决议书、 监督报告) 引 领 安排时间与客户会谈 Anna 7 / 15 7 / 31 找出主要利益相关者并安排会谈 Anna 和 Miguel 7 / 15 7 / 17 撰写与客户的会谈纪要和决议总结 Anna 8/1 8/3 召开利益相关者会议, 并做会议总结 Anna 和 Miguel 8/5 8 / 15 草拟初步的评价设计 Anna 7/1 8 / 31 摇 摇 资料来源: 作者 摇335 任务  第一周  第二周  第三周  第四周  第五周  第六周  第七周      查阅文件 召开利益相               关者会议  草拟变革             理论 图 12郾 1摇 甘特图示例 摇 摇 资料来源: 作者 虽然制订计划很重要, 但是在遇到障碍时保持一定的灵活性同样重要。 遇到障碍时, 可以通过调配更多时间或资源或减少任务数量进行调整。 预算管理 根据 Sanders (1983) 的观点, 评价预算包括以下十类: 誗 评价人员的工资和福利 誗 顾问费用 誗 差旅费和津贴 ( 员工和顾问) 誗 通信 ( 邮费、 电话费等) 誗 打印和复印 誗 数据处理 誗 印刷材料 通向结果之路: 有效发展评价的设计与实施 llll llllllll 誗 用品和设备 誗 分包 誗 间接费用 ( 设施、 工具等) Horn ( 2001 ) 列出了一 个 做 评 价 预 算 的 详 细 清 单 。 这 份 清 单 依 照 上 面 几 类 对 成 本要素进行了细分 。 评 价 管 理 者 可 以 计 算 每 一 类 科 目 的 成 本 , 从 而 估 算 出 评 价 的 总 引 成本 。 领 如果评价预算过高, 那么就有必要考虑以下由 Fitzpatrick、 Sanders 和 Worthen (2004) 提出的成本节省法: 誗 聘用志愿者或低成本工人 誗 利用当地专家收集数据, 减少差旅成本 誗 培训成本较低的员工来执行某些任务 誗 借用设备、 人员、 材料和用品 誗 寻求外部评价人员所在单位的实物援助 誗 削减评价范围 ( 将有些内容推迟到以后再进行评价) 誗 使用现有的考量、 数据和报告 摇336 誗 如果牺牲精确度不会造成严重后果的话, 可以使用廉价的数据收集方法 誗 利用公共媒体散发评价结果 誗 通过好的管理提高效率 项目或计划预算用于评价的比例取决于很多因素, 包括项目或计划的可见性、 评价范 围以及评价如有缺漏可能带来的声誉风险。 Kellogg Foundation 的 《 评价工具包 》 (1998) 指出, 评价预算应该占到项目总预算的 5% ~ 10% 。 其他评价专家则建议评价费用应该占 项目 / 计划总成本的 1% ~ 3% ( 项目越大, 这个比例就越小) 。 项目管理 项目管理指同时对项目的各个方面进行管理, 包括时间、 范围、 成本和可用资源。 项 目管理是一个包含了多个阶段的过程。 项目管理的模型有很多, 也有一些项目管理方面的 认证。 项目管理权威 Michael Greer (2001) 曾开发了一个强调动作和结果的模型。 他的这 个模型把项目管理划分为五个阶段: 誗 启动 誗 计划 誗 执行 誗 控制 誗 收尾 每个阶段又分为几个步骤, Greer 将这些步骤称为动作。 他认为在这五个阶段中需要 执行二十个动作 ( 表 12郾 2) 。 第十二章摇 评价活动的管理 llll llllllll 摇 表 12郾 2 Greer 的二十个项目管理活动 阶段 / 动作 成功执行的结果 启动阶段 确认对项目交付成果的需求和概括描述, 包括交付成果创造 1郾 证明项目需求和可行性 交付成果的方法、 创造和完成交付成果的成本, 以及完成交 引 付成果可得到的好处 领 发起方做出的继续或停止项目的决定 委派一个项目管理者来正式认可项目并授权项目管理者在项 目活动中使用有关资源; 制定一个项目章程: 淤 正式确认项 2郾 获取项目授权 目; 于由级别足够高、 能够分派项目所需资源的项目之外的 管理者来签发; 盂授权项目管理者将资源分配到项目的各项 活动中 项目领域说明由发起方做出继续或停止的决定。 授权项目管 理者将组织的资源分配到各个阶段的活动中 3郾 获取各阶段授权 各阶段的书面批文, 正式承认对该阶段的认可。 这个书面批 摇337 文要由级别足够高的项目之外的管理者来签发, 他或她能够 满足项目的需求 计划阶段 项目领域说明 4郾 描述项目领域 领域管理计划 工作细分架构 所要执行的工作清单 5郾 确定项目活动并排序 工作细分架构的更新 项目网状图 估算完成各项活动所需的时间以及与之相关的各种假设 6郾 估算活动所需的时间和资源 所需资源的说明 活动清单的更新 辅助细节, 比如某时间内资源的使用、 现金流的预计、 订 7郾 制定项目时间表 单 / 交付的时间安排等 估算完成各项活动所需的成本 8郾 估算成本 辅助细节, 包括假定和限制条件 描述如何处理成本偏差的成本管理计划 用于衡量 / 监督成本的成本基数或分时间段的预算 9郾 制定预算和支出计划 支出计划, 说明在什么时间、 哪些方面使用多少钱 通向结果之路: 有效发展评价的设计与实施 llll llllllll 续表 阶段 / 动作 成功执行的结果 质量管理计划, 包括操作定义 10郾 制订正式的质量计划 ( 可选) 质量核查清单 沟通管理计划, 包括信息收集体系、 信息发布体系、 对需要 引 领 11郾 制订正式的项目沟通计划 ( 可选) 散发的信息的描述、 信息生成的时间安排以及更新沟通计划 的办法 角色和职责的安排 用人计划 12郾 组织和聘用员工 组织结构, 以及必要细节 项目员工 项目团队名录 13郾 识别风险与应对计划 ( 可选) 描述潜在风险的文件, 包括来源、 症状和解决办法 摇338 说明如何选择承包商的采购管理计划 工作说明或对需要采购的项目 ( 产品或服务) 的要求的说明 14郾 获取外部资源的计划及 招标文件 其实施 ( 可选) 评价标准 ( 对承包商的标书进行打分的办法) 与一个或多个产品或服务供应商签署合同 15郾 组织项目计划 将所有下一步项目计划活动整合到一起的综合项目计划 16郾 完成项目计划 由发起方书面批准的项目计划 ( 项目可以开始的 “ 绿灯冶 ) 17郾 审核项目计划, 做必要的修改 保证各阶段的详细执行计划准确无误, 并能有效地实现预定结果 执行阶段 工作成果 ( 可交付的成果) ( 根据项目的扩大或收缩) 改变要求 周期性的进展报告 18郾 执行项目活动 团队绩效的评估和改进 ( 如有需要) 邀请投标、 选择承包商 ( 供应商) 、 重新订立合同 管理合同以实现预期工作结果 控制阶段 决定是否接受已经检查过的成果 纠正动作, 例如重新整理需要交付的成果、 对工作流程的调 19郾 控制项目活动 整, 等等 更新项目计划和领域 第十二章摇 评价活动的管理 llll llllllll 续表 阶段 / 动作 成功执行的结果 列出学到的经验 19郾 控制项目活动 改进质量 完成评价核对表 ( 如有) 引 收尾阶段 领 以书面文件的形式正式说明发起方已接受该阶段或活动的 成果 20郾 结束项目活动 正式验收承包商的工作成果并更新承包商文档 更新项目档案 后续计划和 / 或工作成果交付计划 摇 摇 资料来源: Greer 2001 摇339 小摇 摇 结 詪詪詪詪詪詪 计划对于确保评价能够实现目标至关重要。 所有评价人员都要了解评价活动中自己和 他人的角色和责任。 任务大纲将这些责任以书面形式呈现出来, 供所有人查看。 在处理人员、 时间、 任务和成本等问题时, 管理者必须始终牢记评价的目标。 所有决 策都要基于评价目标的实现。 练习 12郾 1摇 任务大纲 请仔细阅读下面的任务大纲, 然后回答后面的问题。 世界银行受邀对世界贸易组织 ( WTO ) 管理下的一体化框架项目 ( Integrated Frame鄄 work) 在过去两年里的执行情况进行评议。 该项目由几个组织共同参与, 旨在帮助最不发 达国家充分利用国际贸易体系所提供的机会。 项目提供贸易相关的援助, 包括 WTO 规则 研讨会和港口的改善等。 其运作方式是, 帮助各个国家确定其需求, 然后组织圆桌会议, 对请求的援助项目进行讨论, 以获取援助国的支持。 评议应涵盖以下主题: 誗 对一体化框架项目目标的理解 ( 通过了解相关方的观点来实现) 誗 审核贸易相关的援助 ( 机构建设、 人员能力建设、 企业能力建设和基础设施建设) 誗 政策的考虑, 包括一体化框架项目的扩大以及贸易和宏观经济政策环境 誗 一体化框架项目的管理 誗 对未来的建议措施 顾问在审核这些主题时, 应该进行评估的方面包括: 项目的操作与目标之间的关联 通向结果之路: 有效发展评价的设计与实施 llll llllllll 度; 项目实现目标过程的成本效益; 负责监管项目、 圆桌会议和其他活动的主要机构之间 的协调效率。 顾问应该审查项目实施文件, 访谈所有相关机构的操作人员, 了解最不发达国家代表 的看法, 以及已经从项目中受益的至少两个最不发达国家的政府和商界代表的看法, 其中 一个最不发达国家应该来自非洲 ( 建议是博茨瓦纳或乌干达 ) 。 还应该了解主要援助国代 引 表的看法。 这份报告应该大约有二十页 ( 不包括所需的附件) 。 领 如果可能的话, 请两人一组阅读并点评上面的任务大纲, 然后回答以下问题: 1郾 该任务大纲是否包含了所有必要的内容? 2郾 哪些内容比较完整? 3郾 哪些内容还可以改善? 12郾 2摇 你是否做好了当管理者的准备? 阅读以下管理者的性格特点 ( Reh 2007 ) , 找出你已具备的技能和需要提升的技能。 就个人而言 誗 相信自己和自己的能力。 对自己感到满意, 但是仍然在不断学习、 不断进步 誗 性格外向。 不一定是中心人物, 但也不能作壁上观。 管理是一项与人打交道的技 摇340 术, 它不适合不喜欢人际交往的人 誗 诚实正直。 成功在很大程度上取决于别人对你的信任 誗 包容而不排外。 能让别人参与你所做的事情, 而不会因为他们缺乏某些特质就将 其排除在外 誗 身先士卒。 管理者必须作出表率。 有效的领导身上具有某种特质, 能让别人一眼 就注意到他们 就工作而言 誗 始终如一但不刻板; 值得别人依赖但也会随机应变。 善于决策却也乐于接受别人 的观点 誗 有点疯狂。 善于打破常规思考。 敢于尝试, 而且如果失败的话, 勇于承认错误, 但是并不会因为进行尝试而道歉 誗 不害怕 “ 缜密思考, 认真策划冶 。 制订计划和时间安排, 然后努力依照计划行事 誗 灵活并可迅速改变计划, 但不轻浮 誗 把信息当做可以使用的工具, 而不是可以秘藏的权利 名词解释 招标书: 项目招标的邀请书 任务大纲: 对工作任务的说明, 内容包括评价的背景、 目标和目的, 评价团队成员的 个人职责, 以及交付成果的时间节点等 评价管理者: 负责管理评价活动的设计、 准备、 实施、 分析、 报告、 宣传和后续工作 的人 头脑风暴法: 一种在短时间内收集一群人的各种想法的方法 概念构图: 鼓励所有参与者各抒己见, 然后将这些点子归类并按重要性进行排列的集 第十二章摇 评价活动的管理 llll llllllll 思广益的过程 任务图: 确定任务、 负责人、 起始日和截止日的表格 甘特图: 用以反映项目进度的图 参考书目 1郾 Bemelmans Videc, M郾 L郾 , R郾 C郾 Rist, and E郾 Vedung郾 1997郾 Sticks, Carrots, and Ser鄄 引 mons: Policy Instruments and Their Evaluation郾 Piscataway, NJ: Transaction Publishers郾 领 2郾 Billson, Janet Mancini郾 2004郾 The Power of Focus Groups: A Training Manual for Social, Policy, and Market Research: Focus on International Development郾 Burlington, RI: Skywood Press郾 3郾 CDC ( U郾 S郾 Centers for Disease Control and Prevention) . 2001郾 Introduction to Program Eval鄄 uation郾 http: / / www郾 cdc郾 gov / tobacco / tobacco_control _programs / surveillance _evaluation / evaluation _manual / 00_pdfs / Chapter1郾 pdf郾 4郾 Chelimsky, E郾 1987郾 “ The Politics of Program Evaluation郾 冶 Social Science and Modern Society 25 : 24 - 32郾 摇341 5郾 de Regt, Jacomina郾 1996郾 “ Mozambique: Country Implementation Review郾 冶 In World Bank Participation Sourcebook, 83 - 88郾 Washington, DC : World Bank郾 http: / / www郾 world鄄 bank郾 org / wbi / sourcebook / sb0211郾 pdf郾 6郾 ESRC ( Economic and Social Research Council) . 2007郾 “ Welcome to ESRC Today郾 Top Ten Tips郾 冶 http: / / www郾 esrc郾 ac郾 uk / ESRCInfoCentre / Support / Communications _ toolkit / com鄄 munications_strategy / index郾 aspx郾 7郾 Feuerstein, M郾 T郾 1986郾 Partners in Evaluation: Evaluating Development and Community Programs with Participants郾 London: MacMillan, in association with Teaching Aids at Low Cost郾 8郾 Fitzpatrick, Jody L郾 , James R郾 Sanders, and Blaine R郾 Worthen郾 2004郾 Program Evalu鄄 ation: Alternative Approaches and Practical Guidelines郾 New York: Pearson Education郾 9郾 Greer, Michael郾 2001郾 “ 20 Key Project Manager Actions and Results郾 冶 In The Project Manager蒺s Partner郾 Amherst, MA: HRD Press郾 http: / / www郾 michaelgreer郾 com / 20 - act鄄 ns郾 htm郾 ———郾 2008郾 Michael Greer蒺s Project Management郾 http: / / www郾 michaelgreer郾 com郾 10郾 Hawkins, Penny郾 2005郾 “ Contracting Evaluation郾 冶 International Program for Develop鄄 ment Evaluation Training ( IPDET) presentation, Ottawa, June 30 - July 1郾 11郾 Horn, Jerry 2001郾 A Checklist for Developing and Evaluating Evaluation Budgets郾 http: / / www郾 wmich郾 edu / evalctr / checklists / evaluationbudgets郾 pdf郾 12郾 Kellogg Foundation郾 1998郾 Evaluation Handbook郾 Battle Creek, MI郾 http: / / www. wkkf郾 org / Pubs / tools / Evaluation / Pub770郾 pdf郾 13郾 King, Jean A郾 , Laurie Stevahn, Gail Ghere, and Jane Minnema郾 2001郾 “ Toward a Taxonomy of Essential Evaluator Competencies郾 冶 American Journal of Evaluation 222 : 229 - 47郾 http: / / www郾 nbowmanconsulting郾 com / Establishingpercent20Essentialpercent20Programperce 通向结果之路: 有效发展评价的设计与实施 llll llllllll nt20Evaluatorpercent20Competencies郾 pdf郾 14郾 Kirkhart, K郾 E郾 2000郾 “ Reconceptualizing Evaluation Use: An Integrated Theory of In鄄 fluence郾 冶 In The Expanding Scope of Evaluation Use, ed郾 V郾 J郾 Caracelli and H郾 Preskill, 5 - 24郾 New Directions for Evaluation No郾 88郾 San Francisco: Jossey鄄Bass郾 15郾 Kusek, Jody Zall, and Ray C郾 Rist郾 2004郾 Ten Steps to a Results鄄Based Monitoring and 引 Evaluation System郾 Washington, DC : World Bank郾 领 16郾 Lawrence, J郾 1989郾 “ Engaging Recipients in Development Evaluation: The ‘ Stake鄄 holder爷 Approach郾 冶 Evaluation Review 13 ( 3 ) : 243 - 56郾 17郾 Leeuw , Frans郾 1991郾 “ Policy Theories, Knowledge Utilization and Evaluation郾 冶 OECD World Forum on Statistics: Knowledge and Policy, vol郾 4 , 73 - 91郾 Organisation for Economic Co鄄operation and Development, Paris郾 18郾 McNamara, C郾 1999郾 Checklist for Program Evaluation Planning郾 http: / / www郾 mana鄄 gementhelp郾 org / evaluatn / chklist郾 htm郾 19郾 Muir, Edward郾 1999郾 “ They Blinded Me with Political Science: On the Use of Non鄄 摇342 Peer Reviewed Research in Education Policy郾 冶 Political Science and Politics 32 ( 4 ) : 762 - 64郾 20郾 NCSTE ( Chinese National Centre for Science and Technology Evaluation ) , and IOB [ Policy and Operations Evaluation Department ( the Netherlands ) ] . 2006郾 Country鄄Led Joint Evaluation of the ORET / MILIEV Programme in China郾 Amsterdam: Aksant Academic Publish鄄 ers郾 21郾 NEIR TEC ( Northeast and the Islands Regional Technology in Education Consortium) . 2004郾 Gathering Together and Planning: Exploring Useful Skills for Educators to Develop Through Collaborative Evaluation郾 http: / / www郾 neirtec郾 org / evaluation / PDFs / Gathertogether3郾 pdf郾 22郾 OECD ( Organisation for Economic Co鄄operation and Development ) . n郾 d郾 DAC Evalua鄄 tion Quality Standards for Test Phase Application郾 Development Assistance Committee, Paris郾 http: / / www郾 oecd郾 org / dataoecd / 30 / 62 / 36596604郾 pdf郾 ———郾 2002郾 OECD Glossary of Key Terms in Evaluation and Results鄄Based Management郾 Development Assistance Committee, Paris郾 23郾 Patton, Michael Q郾 1977郾 “ In Search of Impact: An Analysis of the Utilization of Fed鄄 eral Health Evaluation Research郾 冶 In Using Social Research in Public Policy Making, ed郾 C郾 H郾 Weiss, 141 – 64郾 Lexington, MA: Lexington Books郾 ———郾 1997郾 Utilization鄄Focused Evaluation郾 3rd ed郾 Thousand Oaks, CA: Sage Publica鄄 tions郾 ———郾 2005郾 “ Qualitative Methods and Analysis for Development Evaluation郾 冶 International Program for Development Evaluation Training ( IPDET) presentation, Ottawa, June 27 - 29郾 24郾 Reh, F郾 John郾 n郾 d郾 “ How to Be a Better Manager郾 冶 http: / / management郾 about郾 com / cs / midcareermanager / a / htbebettermgr郾 htm郾 ———郾 2007郾 “ Management Tips郾 冶 http: / / management郾 about郾 com / cs / generalmanage鄄 ment / a / mgt_tips03郾 htm郾 第十二章摇 评价活动的管理 llll llllllll 25郾 Rist, Ray C郾 , and N郾 Stame郾 2006郾 From Studies to Streams: Managing Evaluative Systems郾 Piscataway, NJ: Transaction Publishers郾 26郾 Rossi, Peter Henry, Howard E郾 Freeman, and Mark W郾 Lipsey郾 1999郾 Evaluation: A Systematic Approach郾 Thousand Oaks, CA: Sage Publications郾 27郾 Rutman, L郾 1980郾 Planning Useful Evaluations: Evaluability Assessment郾 Thousand Oaks, CA: Sage Publications郾 引 28郾 Sanders, James R郾 1983郾 “ Cost Implications of the Standards郾 冶 In The Cost of Evalua鄄 领 tion, eds郾 M郾 C郾 Alkin and L郾 C郾 Solman, 101 - 17郾 Thousand Oaks, CA: Sage Publication郾 29郾 Schwartz, R郾 1998郾 “ The Politics of Evaluation Reconsidered: A Comparative Study of Israeli Programs郾 冶 Evaluation 4 : 294 - 309郾 30郾 Schwartz, R郾 , and J郾 Mayne郾 2004郾 Quality Matters: Seeking Confidence in Evalua鄄 ting, Auditing, and Performance Reporting郾 Piscataway, NJ: Transaction Publishers郾 31郾 Scriven, Michael郾 2007郾 “ Key Evaluation Checklist郾 冶 http: / / www郾 wmich郾 edu / evalctr / checklists / kec_feb07郾 pdf / 郾 32郾 Stufflebeam, Daniel L郾 1999郾 “ Evaluations Plans and Operations Checklist郾 冶 http: / / 摇343 www郾 wmich郾 edu / evalctr / checklists / plans_operations郾 pdf郾 33郾 Tilley, Nick郾 2004郾 Applying Theory鄄Driven Evaluation to the British Crime Reduction Programme: The Theories of the Programme and of Its Evaluations郾 Thousand Oaks, CA: Sage Publications郾 34郾 UNFPA ( United Nations Population Fund) . 2007郾 “ Tool No郾 5 : Planning and Manag鄄 ing an Evaluation郾 冶 Programme Manager蒺s Planning, Monitoring and Evaluation Toolkit郾 New York郾 http: / / www郾 unfpa郾 org / monitoring / toolkit / 5managing郾 pdf郾 35郾 Weiss, Carol H郾 1973郾 “ Where Politics and Evaluation Research Meet郾 冶 Evaluation 1 : 37 - 45郾 ———郾 2004郾 Identifying the Intended Uses of an Evaluation郾 International Program for Devel鄄 opment Evaluation Training ( IPDET ) presentation, Ottawa, July郾 http: / / www郾 idrc郾 ca / ev _ en郾 php? ID = 58213_201&ID2 = DO_TOPIC郾 36郾 Wholey, J郾 S郾 1979郾 Evaluation: Promise and Performance郾 Washington, DC : Urban Institute郾 ———郾 1994郾 “ Assessing the Feasibility and Likely Usefulness of Evaluation郾 冶 In Handbook of Practical Program Evaluation, eds郾 Joseph S郾 Wholey, Harry P郾 Hatry, and Kathryn E郾 New鄄 comer, 15 - 39郾 San Francisco: Jossey鄄Bass郾 37郾 Widavsky, A郾 1972郾 “ The Self鄄Evaluating Organization郾 冶 Public Administration Review 32 : 509 - 20郾 38郾 World Bank郾 2006郾 The World Bank Participation Sourcebook郾 Washington, DC : World Bank郾 http: / / www郾 worldbank郾 org / wbi / sourcebook / sbhome郾 htm郾 通向结果之路: 有效发展评价的设计与实施 llll llllllll 网址 1郾 Canadian Evaluation Society郾 Professional Designation Project郾 http: / / www郾 evaluation鄄 canada郾 ca / site郾 cgi? s = 5&ss = 6&_lang = EN郾 2郾 Conflict Resolution Information Source郾 http: / / www郾 crinfo郾 org / index郾 jsp郾 引 3郾 Conflict Resolution Network郾 http: / / www郾 crnhq郾 org / 郾 领 4郾 EIB ( European Investment Bank Group ) . 2008郾 “ What Is the EIB Group?冶 http: / / www郾 eib郾 org / attachments / general / whatis_eibgroup_2008_en郾 pdf郾 5郾 ESRC ( Economic and Social Research Council) . “ ESRC Society Today: Communication Strategy郾 冶 http: / / www郾 esrc郾 ac郾 uk / ESRCInfoCentre / Support / Communications _ toolkit / com鄄 munications_strategy / index郾 aspx郾 6郾 Europe Aid Co鄄operation Office郾 2005郾 Evaluation Methods郾 http: / / ec郾 europa郾 eu / euro鄄 peaid / evaluation / methodology / index_en郾 htm郾 ———郾 2006郾 Methodological Bases郾 http: / / ec郾 europa郾 eu / europeaid / evaluation / methodol鄄 摇344 ogy / methods / mth_en郾 htm郾 7郾 European Commission郾 2008郾 Evaluation Network郾 http: / / ec郾 europa郾 eu / regional_poli鄄 cy / sources / docgener / evaluation / tech_en郾 htm郾 8郾 Evalnet郾 2000郾 http: / / www郾 evalnet郾 co郾 za / services / 郾 9郾 IBSTPI ( International Board of Standards for Training, Performance, and Instruction ) . Competencies for Internal Staff and External Consultants Conducting Evaluations in Organizational Settings郾 http: / / www郾 ibstpi郾 org / Competencies / evaluatorcompetencies郾 htm郾 10郾 IDRC ( International Development Research Centre ) . 2004郾 Evaluation Planning in Program Initiatives郾 http: / / web郾 idrc郾 ca / uploads / user鄄S / 108549984812guideline鄄web郾 pdf郾 11郾 MSH ( Management Sciences for Health ) , and UNICEF ( United Nations Children蒺s Fund) . “ Quality Guide: Stakeholder Analysis郾 冶 In Guide to Managing for Quality郾 http: / / bsstu鄄 dents郾 uce郾 ac郾 uk / sdrive / Martinpercent20Beaver / Weekpercent202 / Qualitypercent 20Guidepercent 20鄄 percent 20Stakeholderpercent 20Analysis郾 htm郾 12郾 Treasury of Board of Canada Secretariat郾 2005郾 Improving the Professionalism of Evalua鄄 tion郾 http: / / www郾 tbssct郾 gc郾 ca / eval / dev / Professionalism / profession_e郾 asp郾 13郾 UNDP ( United Nations Development Programme ) . 2006郾 Planning and Managing an Evaluation Website郾 http: / / www郾 undp郾 org / eo / evaluation_tips / evaluation_tips郾 html郾 14郾 UNFPA ( United Nations Population Fund ) . 2004郾 Programme Manager蒺s Planning, Monitoring and Evaluation Toolkit郾 http: / / www郾 unfpa郾 org / monitoring / toolkit / 5managing郾 pdf郾 15郾 Weiss, Carol郾 Identifying the Intended Use ( s) of an Evaluation郾 International Develop鄄 ment Research Centre郾 http: / / www郾 idrc郾 ca / ev_en郾 php? ID = 58213_201&ID2 = DO_TOPIC郾 16郾 Western Michigan University Evaluation Center郾 Evaluation Checklists郾 http: / / www郾 wmich郾 edu / evalctr / checklists / checklistmenu郾 htm郾 ———郾 The Checklist Project郾 http: / / evaluation郾 wmich郾 edu / checklists郾 第十二章摇 评价活动的管理 llll llllllll 参考条目实例 17郾 ADB ( Asian Development Bank) . 2008郾 Model Terms of Reference Diagnostic City Water Assessment ( Links) . http: / / www郾 adb郾 org / Water / tools / City鄄Water鄄Assessments郾 asp郾 18郾 CIDA ( Canadian International Development Agency ) . Model for Evaluation Terms of Reference郾 http: / / www郾 acdicida郾 gc郾 ca / INET / IMAGES郾 NSF / vLUImages / Performancereview4 / US $ file / tor_sample_text郾 pdf郾 引 19郾 FAO ( Food and Agriculture Organization of the United Nations ) . FAO Model Terms of 领 Reference for a Joint Evaluation Mission郾 http: / / www郾 fao郾 org / pbe / pbee / common / ecg / 233 / en / torseng郾 doc郾 20郾 UNDP ( United Nations Development Programme) . 2002郾 Handbook on Monitoring and Evaluating for Results郾 http: / / www郾 undp郾 org / eo / documents / HandBook / ME鄄HandBook郾 pdf郾 摇345 第十三章 摇 结果的展示 当数据收集和分析工作基本完成后, 下一步就可以将初步的评价结果与其他人共享, 并制订计划将最终的评价结果传播出去。 将所学到的知识与其他人分享, 这是评价工作最 重要的组成部分之一, 也是有效变革的关键前提。 评价结果的展示可以是书面形式 ( 备 忘录和报告) , 也可以是口头形式 ( 简要介绍和汇报) 。 本章包括四个主要部分: 誗 精心设计沟通策略 誗 撰写评价报告 誗 形象地展示信息 誗 口头演讲 精心设计沟通策略 詪詪詪詪詪詪詪詪詪詪詪詪 不能用来为决策提供信息的评价是毫无价值的。 在设计一项评价的时候, 须牢记评价 的目的是要为利益相关者做决策提供有用的信息。 评价并不是为了知识本身而寻求知识, 这是评价与研究的关键区别所在。 评价结果必须得到清晰、 准确的表达, 并且其表达方式 必须有助于受众充分有效地利用其中的信息。 评价结果的沟通策略是发展评价的重要组成部分。 本书一直强调, 良好的沟通贯穿整 个评价工作的始终, 而不仅仅是一个在评价工作的尾声才产生的行为。 委托人及主要的利 益相关者不仅要在评价工作的规划阶段就介入进来, 而且还要参与设计传播调查结果和征 求反馈意见的步骤和方法。 在评价的初始阶段就应该制定评价的沟通策略, 它应明确以下几点: 誗 谁需要从评价中获取信息 誗 什么信息是必需的 誗 信息应当以什么形式表达 誗 应当何时提供信息 誗 谁来负责提供信息 一个良好的沟通策略应贯穿于评价工作的所有阶段, 涵盖评价工作的所有成果。 根据 第十三章摇 结果的展示 llll llllllll 特定利益相关者的不同需求, 应运用不同的沟通形式。 评价的沟通策略可以从与评价委托 人进行试探性的讨论开始, 继而与本地利益相关者群体进行讨论。 ( 表 13郾 1) 与委托人讨 论后, 可以就评价工作的初步设计作一个正式的简要介绍。 对本地利益相关者群体则可以 通过电子邮件通知他们, 评价的初步设计已经上传至某网站以征求公众意见。 而对于委托 人以及重要利益相关者, 则可以通过电话和电子邮件等形式不断向其通报评价工作的进展 情况。 引 评价的最终结果可以通过各种不同的方式向各方传播。 例如, 向援助方提交一份深入 领 分析评价发现的报告摘要, 并附上正式的最终报告。 而本地项目实施人员则可以获得一份 概况报告和摘要。 摇 表 13郾 1 评价工作准备阶段及设计阶段的沟通策略一览表 受众 行动 沟通方式 负责人 截止日 准备工作 讨论 项 目 有 关 问 题 以 委托人 会议 小组组长 6/1 及时间安排 摇347 全国 性 及 本 地 讨论项目有关问题 会议 小组成员 B 6/5 非政府组织 项目人员 讨论项目有关问题 会议 小组成员 C 6 / 11 本地政府官员 讨论项目有关问题 会议 小组成员 B 6 / 10 确定人选并发送邀请函 电子邮件 小组成员 A 6 / 14 咨询委员会 策划并举行筹备会议 咨询委员会会议 小组成员 B 6 / 25 电子 邮 件 通 知 评 价 发展评价团体 征求意见 小组成员 C 6 / 25 公开网站地址 设计阶段 审阅并讨论设计草案 咨询委员会会议 小组成员 A 7 / 15 咨询委员会 提出最终设计方案 电子邮件 小组成员 A 7 / 30 委托人 分享最终设计方案 口头介绍 小组组长 7 / 22 发展评价团体 审阅设计草案 网站 ( 收集公众意见) 小组成员 B 7 / 31 摇 摇 资料来源: 作者 对于最终报告, 评价者可以通过摘要、 口头报告以及书面报告等形式进行传播。 此 外, 通过新闻发布的形式, 可以将信息向更大范围的受众传播。 如果打算进行新闻发布或 召开记者招待会, 那么应该就其时间安排与具体操作等事宜与主要的利益相关者进行 商讨。 另外重要的一点是要设置一个反馈流程, 将利益相关者与评价人员集中在一起, 就评 通向结果之路: 有效发展评价的设计与实施 llll llllllll 价中的发现、 观点、 可选行动以及下一步工作等进行讨论。 如果要举行规模较大的讨论, 那么评价者应当做好充分准备, 明确同时与不同利益相关者群体沟通可能面对的挑战。 即便是评价报告的专业撰写人士也承认, 评价报告不一定是与其他各方沟通评价发现的 最有效方式 (Torres, Preskill, and Piontek 1997)。 评价者们需要运用各种不同的沟通方式, 比如宣传册、 视频、 主题报告以及配有图表的总结报告等来将信息传播出去。 ( 专栏 13郾 1) 引 领 专栏 13郾 1摇 运用创新的沟通技术来增强评价结果的吸引力 为了将评价结果传递给各个利益相关者, Lawrenz、 Gullickson 和 Toal ( 2007 ) 运用 了各种创新的技术。 1郾 他们撰写了一份详细的案例报告, 并通过各种渠道进行传播, 包括互联网, 以 满足受众的需求。 这个案例报告描述了各个评价小组对 13 个项目的实地考察过程。 它 不仅满足了委托人的需求, 并且也考虑到了其他可能从中受益的人的需求。 2郾 他们将评价结果编成了 9 份主题报告 ( 分别关于合作、 宣传、 材料开发、 职业 摇348 发展、 项目进展、 人才引进与挽留、 可持续性、 咨询委员会以及评价 ) , 并将报告上传 至他们的网站。 这些报告综合了实地考察报告、 调查数据以及以前对相关问题的研究。 3郾 为了增强这些主题报告的吸引力, 他们制作了一个宣传册。 这本宣传册引起了 强烈的反响, 大大增强了这些主题报告的吸引力。 于是他们把这 9 份报告全文刊登在一 本杂志上, 将评价结果传播到了更广泛的受众之中。 4郾 他们把介绍实地考察的手册———其中包含了进行实地考察的具体流程———上传 到互联网上。 在上传后他们发现, 许多组织以及研究人员对这本手册非常感兴趣。 5郾 他们制作了一本宣传册, 并以 PDF 的格式上传到他们的网站上, 其中描述了他 们所研究的项目中有关于可持续发展的关键行动步骤。 这本宣传册广受好评, 因为它使 用简便, 并且能提供项目改进情况的有关信息。 6郾 他们举行了一次视频会议来深入交流他们的想法。 7郾 他们把视频会议的纪要链接到他们的网站上。 网站上提供各种资料的链接, 包 括研究报告作者以及视频会议主要发言人的信息、 辅助文件和视频材料等。 所有这些信 息都公布在网站上, 同时也制作成了光盘。 撰写评价报告 詪詪詪詪詪詪詪詪詪 报告的目的是与读者进行沟通。 为此, 请注意以下几点: 誗 在撰写报告的过程中要时刻明确自己的目的以及读者的需求。 尽可能了解读者, 并以最能满足他们需求的形式撰写报告。 誗 使用的词汇应当 ———简洁 第十三章摇 结果的展示 llll llllllll ———生动 ———积极 ———常见 ———关注文化差异 誗 尽可能不要使用缩略语和首字母缩写 誗 根据实际需要控制报告背景介绍的长度并使之条理清楚。 如有必要, 多余的内容 引 可作为报告的附件 领 誗 提供充分的有关评价设计和方法的信息, 增强读者对报告的可信度, 同时了解其 局限性。 要提醒读者, 以某些方式来解读报告也许是不正确的。 同样, 具体细节 可作为附件 誗 撰写一个执行摘要 ( 将在下文中介绍) 誗 将报告的正文部分分成若干章节, 分别对重要的主题进行介绍或回答关于评价工 作的关键问题 誗 每一章节首先列出关键问题, 接着再讨论次要问题。 每一段话的开头就阐明本段 所要讨论的问题 摇349 誗 用证据来为结论和建议提供支持 誗 把相关技术信息———包括设计矩阵以及各种普查工具———纳入到附件中 誗 预留时间进行修改, 修改再修改 誗 请没有接触过任何相关材料的人来校读报告初稿。 请他们指出有遗漏或不清楚的 地方 誗 如果可能, 请一位具备相关专业知识和熟悉评价方法的外部专家来审阅报告的最 终稿, 并提出必要的修改建议。 如果同行审评不可行, 那么可以请一位没有参与 评价工作的同事来审阅报告 执行摘要 报告的执行摘要应当明确所涉及的评价问题、 描述所用的评价方法, 并概括报告评价 发现、 结论和建议。 它使读者能够迅速地掌握报告的主要内容。 执行摘要并非是对报告结 论章节的简单缩写。 它也不是一则预热广告, 告诉读者详细信息将稍后公布。 它必须能够 作为一个独立的文件, 以满足那些太忙而没有时间阅读报告全文的读者的需要。 根据 Scriven (2007, p郾 1) 的说法, 执行摘要的目的是要概括评价的结果, 而不仅是 过程: 在评价工作的整个过程中, 你要不断地问自己: 在自己已经掌握的信息的基础上, 最终的全面 概述应当如何呈现? 如何把它与委托方以及各利益相关者的需求结合起来? 这将有助于你了解哪 些是最值得关注的问题。 执行摘要应当简明扼要: 以单倍行距算, 2 页为佳, 4 页则过于冗长。 执行摘要应包括以下部分: 通向结果之路: 有效发展评价的设计与实施 llll llllllll 誗 一段简要的概括或介绍, 从阐明研究的目的和所关注的问题开始, 以能吸引读者 的方式进行描述 誗 关于评价工作的描述, 从主要的问题开始, 附加一段关于评价的范围和方法的 说明 誗 提供足够的背景信息, 阐明研究所处的背景 引 誗 概要介绍报告的主要发现, 并找出对读者最重要的内容 领 誗 提示读者有关信息在正文中所处的页码 誗 主要的结论和建议 报告的正文 评价报告的正文应包括以下几个部分, 通常划分为若干章节 ( 在较简短报告中划分 为小节) : 誗 引言 誗 评价工作描述 摇350 誗 评价发现 誗 结论 誗 建议 报告的引言部分应当包括: 誗 评价目的 誗 背景 誗 运用变革理论模型描述项目的短期和长期目标 誗 评价问题 评价工作的简要描述包括: 誗 目的 誗 范围 誗 问题 誗 方法 誗 局限性 誗 涉及的人 ( 咨询委员会、 咨询公司) 在评价工作的描述之后是评价结果。 在撰写这一小节的时候, 评价者应当: 誗 用便于受众理解的方式展示结果 誗 只列出最重要的结果 誗 围绕研究问题、 主题或相关事项等内容来组织评价结果 誗 使用图、 表以及其他图形元素来突出要点 报告的最后部分是结论和建议, 这也是读者们通常会首先阅读的部分。 评价者们往往 很难区分评价发现和结论。 评价发现描述的是在评价工作中发现的事实, 通常描述有没有 达到某项准则, 并且需要证据来支持。 第十三章摇 结果的展示 llll llllllll 而结论则是对评价结果的专业评估。 它应紧紧围绕评价的每个子目标以及项目、 计划 和政策的整体目标。 在结论部分不能添加任何额外的信息。 建议倡导争取一些行动。 建议部分表明评估报告希望委托人和其他利益相关者接下来 做什么。 建议通常很难起草。 它们不应该太过拘泥于细节, 那样会削弱管理层针对问题制 定具体的解决方案的自主权。 评估工作应该起到这样的作用: 比如, 建议为技术援助制定 一个定价策略, 而不应该代为起草定价策略或制定策略的具体细节。 但是, 它可以指出定 引 价策略中应当包括的关键要素。 领 尽管如此, 建议也不能太笼统, 那样就没有效力。 建议应当清晰并且足够具体, 这样所 有人才都能明白应该做些什么, 哪些机构和单位应该采取行动, 以及应该在什么时候完成。 评价报告中不应该罗列过多的建议。 评价者应把主要建议的数量控制在 3 ~ 4 个, 然 后根据需要每组建议下可以再分成若干部分。 应当特别注意建议的语气。 要记住最终做出 决策的是阅读评价报告的人, 而不是评价报告本身。 如果不按照所给的建议行事, 那么建议就几乎毫无价值。 一个跟进建议执行情况的办 法是建立一个建议追踪系统。 这个系统可以帮助利益相关者监控评价建议的执行情况。 它 对评价报告中的每一条建议进行追踪, 并跟踪建议执行的进展情况, 包括: 摇351 誗 给出建议的日期 誗 谁负责采取行动 誗 反应 / 进展 表 13郾 2 展示了建议追踪系统使用的一个简单矩阵。 在这个矩阵中, 评价者可以填充 前两列的内容, 而管理层则负责跟踪进展, 并确保这些建议能够按其指令进行。 国际金融公司 ( IFC) ———一个致力于推动私营企业发展的世界银行下属机构提供了 另一个范例。 IFC 有自己的一套建议追踪系统。 IFC 的独立评价局 ( IEG) 做出的评价报 告为 IFC 管理层提供建议。 IFC 董事会下属的发展成效委员会 ( CODE) 对这些建议进行 讨论。 CODE 希望可以得到关于这些建议的阶段性情况报告, 包括建议被采纳的程度和现 状。 IEG 与 IFC 管理层一起, 开发了管理层行动追踪系统 ( 简称 MATR) 。 MATR 在设计上确保了报告过程的公正性, 无论是 IEG 还是 IFC 都无法改变最终的评 分。 图 13郾 1 展示了 MATR 的两个阶段。 在第一阶段, IEG 和 IFC 首先就用以评估每个新建 议执行情况的指标达成一致。 在第二阶段, 每个有效建议的执行情况和采纳程度将会定期更 新并向 CODE 汇报。 IEG 和 IFC 给出的评分可以不必相同。 当建议执行完毕、 被取代或不再 相干, 那么就将被设为无效状态。 IFC 管理层没有采纳的 IEG 的建议不在被追踪之列。 摇 表 13郾 2 建议追踪系统 建议 来源 日期 负责人 反应 / 进展 1郾 2郾 3郾 4郾 摇 摇 资料来源: 作者 通向结果之路: 有效发展评价的设计与实施 llll llllllll 第一阶段指标周期 I EG建议 管理层 的反应 第二步 管理层指派 任务经理 引 领 第一步 任务经理 任务小组 选择团队并提出 对指标进行讨论 指标 否决 E IG 管理层 摇352 MATR 认可 认可 认可或否决指标 认可或否决指标 否决 第二阶段监控周期 I EG建议 管理层指派 任务经理 对外发布 仅包括评分) (   任务经理选择 团队并提出建 任务小组 议执行的现状, 提出意见 以及采纳程度 (LOA;管理 ) 对内发布 层给出意见 E IG提交建议执行情况、 管理层 MATR 采纳度和管理层的意见 认可或否决 认可 图 13郾 1摇 IFC 追踪建议的 MATR 系统的两个阶段 第十三章摇 结果的展示 llll llllllll 形象地展示信息 詪詪詪詪詪詪詪詪詪詪詪 可视化信息可以使报告更加有趣 , 并且比文本更加清楚地传递信息 , 同时也容易将 读者的目光 吸 引 到 特 定 的 重 点 上 。 因 此 , 有 效 地 运 用 图 形 工 具 能 加 强 评 价 报 告 的 影 引 响力 。 领 插图 插图能够帮助阐明文本中所描述的要点。 但要确有需要的时候才可使用, 不要仅仅为 了装饰而使用插图。 报告封面的插图可以表明报告的总主题; 应当有明确而具体的理由, 才能在报告正文中使用插图。 所有的插图都应该在文本中有所呼应, 文中应提示读者可以从图中看到什么。 可以用 在评价报告里的插图类型包括地图、 素描、 线形图以及照片等。 如有必要, 应首先获得插 摇353 图作者的许可再使用插图。 地图 地图在报告中可以用来: 誗 指出项目所在的地点 誗 提供环境背景信息 誗 显示项目的地理范围或地理分布情况 誗 显示取样的基础 誗 用色块或等值线来描绘某个地区的各种地形 ( Cummings 2003) 为使地图得到充分利用, 需要: 誗 确认这些地图简单易读 ( 色块和阴影部分必须容易辨认) 誗 使用最新的版本 誗 确认地图的来源 誗 在适当的地方添加指南针箭头, 并注明制图比例。 素描和线形图 作为数据收集 工 作 的 一 部 分, 评 价 者 有 时 候 会 要 求 受 访 者 画 一 些 素 描 图 ( 插 图 13郾 1) 。 这样的素描图可以用来: 誗 使报告生动活泼 誗 使报告更具个性化 誗 表现一种方法论 誗 用来替代一些当前技术能力无法描绘的复杂的插图 誗 带来些幽默感 通向结果之路: 有效发展评价的设计与实施 llll llllllll 誗 直观地表达受访者的印象 线形图可以用来展现事物是如何运行的或两个事物是如何联系在一起的。 它非 常有用, 特 别 是 在 很 难 用 文 字 对 一 个 流 程 或 环 境 进 行 描 述 的 时 候, 不 如 把 它 画 出来。 引 插图 13郾 1 儿童对干预行为前后村庄的不同印象 领 照片 照片是对报告非常有用的补充。 它可以: 誗 提供背景信息 誗 表现现场工作的进展 誗 捕捉直接观察到的景象 ( 例如: 房屋类型, 以及街区拥挤的状况) 誗 帮助读者熟悉现场情况 誗 提供证据 ( Cummings 2003) 摇354 像其他类型的插图一样, 照片也不能纯粹做装饰用。 Levin, Anglin 和 Carney 对如何 在材料中使用照片和插图进行了概括。 他们总结了图片对乏味的学习过程产生的两类 影响: 誗 如果插图与内容有关, 那么在学习中就有可能取得中等至很大的收获 誗 如果插图与内容无关, 或者甚至更糟的是与内容相冲突, 则无法从中有所收获, 甚至可能带来困惑 因此, 在报告中使用照片或其他图片, 必须要有明确而具体的理由。 图表 图表能够形象化地表现数据。 最理想的情况是, 它们告诉读者一个关于它们的故事, 却无需文字叙述。 组织结构图 组织结构图展现了一个组织内部的层级结构 ( 图 13郾 2) 。 这种示意图清晰且准确地描 述了职责分工和报告结构体系。 评价报告中通常会出现组织结构图, 因为要了解某个机构首先就要了解其组织结构。 大多数的文字处理程序都有创建组织结构图的功能。 甘特图 甘特图通常用于规划 ( 图 12郾 1) , 主要用于项目管理, 尤其是项目的规划。 第十三章摇 结果的展示 llll llllllll 主席 顾问委员会 ) 主管(1 ) 主管(2 ) 主管(3 内部审计 评价和监控 引 助理(1 ) 助理(2 ) 助理(3 ) 领 经理 经理 经理 经理 经理 经理 经理 经理 经理 图 13郾 2摇 组织结构图举例 图表 图表应当直观而简单地传递信息。 摇355 每个图表都应当有一个标题、 一个编号以及数据来源标注。 图表的标题应说明数据的 年份 ( 如果可行的话) 。 至少有 4 种以上的用于表现数据的图表, 每种都各有其用途。 ( 表 13郾 4) 折线图: 折线图 通常用来表现一个变量 ( 或多个变量 ) 如何随着时间而变化。 ( 图 13郾 3 和图 13郾 4) 例如, 评价者可以用折线图来表现食物成本在几个月以来的升降趋势、 若干年人口的变化, 或者学生每天的成绩在六星期内的变化。 折线图可以表现某时间段里发生变化的一个或多个变量。 它适用于表现连续的数据, 即区间数据或比例数据。 区间数据可分成若干区间, 不同区间的长度有实际意义。 区间数 据通常出现在计数中, 比如收入的计数、 受教育年数的计数, 或者是投票数量的计数。 比 例数据是具有真正意义的零点的区间数据。 收入是一种比例数据, 因为 0 元就是真正的 “ 零收入冶 。 摇 表 13郾 3 坐标图的组成部分 组成部分名称 描摇 摇 述 标题 所有图表都应有标题, 这样读者可以在第一时间明白图表所要传达的信息 横轴或 X 轴 横轴或 X 轴是折线图或柱形图中水平方向的轴线, 表示一个变量 ( 比如时间) 纵轴或 Y 轴 纵轴或 Y 轴是折线图或柱形图中垂直方向的轴线, 表示另一个变量 ( 比如成本) 原点 原点是横轴与纵轴相交的点 许多图表中都包含有网格线, 可以通过清楚的显示不同水平来帮助比较数据。 应 网格线 当适当控制使用的网格线数量, 以免看起来太乱 通向结果之路: 有效发展评价的设计与实施 llll llllllll 续表 组成部分名称 描摇 摇 述 X 轴和 Y 轴的标题非常重要, 它们表明了度量的内容及度量单位 ( 年、 米、 磅、 轴标题 平方英里、 立方吨、 元、 度) 。 例如: 成本 ( 单位: 美元) ; 距离 ( 单位: 公里) 引 X 轴和 Y 轴需要以合适的比例来显示数值。 应认真地选择比例, 以确保能够完全 领 轴比例 显示数据的全部数值范围。 同时要注意两个轴比例之间的大小比例, 以更好的表 现变量之间的关系 实际数值 许多图表中还包含各数据点的实际数值, 以附加文本的形式显示在图表中 坐标是图表中 X 变量的值与 Y 变量的值对应的点。 用什么形状来表现这个对应 坐标 点 ( 点、 顶点、 条形的顶点) 取决于所使用图表的类型 摇 摇 资料来源: 作者 温度(℃) 摇356 0 4 2 3 3 0 8 2 5 2 4 2 2 0 8 1 0 1 0 时间(月) 月 2 月 3 4 月 月 5 月 6 图 13郾 3摇 2008 年 2 ~ 6 月 A 省月平均气温下降 摇 表 13郾 4 各图表的类型和用途 图表类型 示摇 摇 例 用摇 摇 途 折线图 显示随时间变化的趋势 单柱形图 比较线性的或单维度的特征值 第十三章摇 结果的展示 llll llllllll 续表 图表类型 示摇 摇 例 用摇 摇 途 多柱形图 用一个通用变量比较两个或多个特征值 引 领 饼图 显示一个整体的各个部分 散点图 表明趋势或者关系 摇 摇 资料来源: 作者 摇357 2 10 0 9   学校3 阅   学校2 读 0 6 成 绩   学校1 0 3 0 一季度 二季度 三季度 四季度 0 20学年 5 图 13郾 4摇 2004 ~ 2005 年区域内三所学校学生阅读成绩差异 柱形图: 柱形图使用柱形图案 ( 长方形 ) 来表示数量以便进行比较。 必须仔细地给 柱形图起标题, 以便读者明白其要表现的内容。 柱形图有两种类型: 单柱形图显示单个变量的信息, 而多柱形图则要展现多个变量的 信息。 柱形图案可以水平显示也可以垂直显示。 可以使用多柱形图来表现同一个变量的两组或多组数据。 例如, 评价者想比较一个国 家三个不同地区的土地矿井恢复率。 他们可以使用一个多柱形图来描述这些信息。 再比 如, 双柱形图可以用来比较男生和女生对于同一问卷的不同回答。 柱形图通常用来表现名义数据或分类数据。 名义数据或分类数据没有顺序, 而且各类 别分配到的数字是完全随意的 (1 = 东方, 2 = 北方, 3 = 南方 ) 。 这些类别必须在图例中 得到清楚的解释。 以下是柱形图的范例。 图 13郾 6 显示的是 4 个不同地区的孕妇在育儿能力测试中的得 分情况。 单柱形图展现关于单个特定变量的单组数据 ( 图 13郾 5) 。 多柱形图显示关于单个 特定变量的多组数据 ( 图 13郾 6) 。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 饼图。 使用饼图的效果在扇区数量较少的时候比较好 ( 图 13郾 7) 。 在扇区数量多于 8 个或者少于 3 个的时候不要使用饼图。 0 10 7 8 8 0 5 7 9 6 引 分 领 (  数   0 6 5 4   %   ) 0 4 0 2 0 西部 北部 东部 南部 测试对象 图 13郾 5摇 不同地区孕妇育儿能力测试得分比较 摇 摇 资料来源: 作者, 数据为虚构 摇358 0 10 主任 90 回80 答70 0 240 .0 的60 1 330 .0 平50 均40 助理 第一季度 值3 第二季度 0 第三季度 20 第四季度 10 0 950 .0 7 680 .0 0 1 2 3 问题编号 图 13郾 6摇 助理和主任在回答问题上的差异摇 摇 图 13郾 7摇 第三季度电力成本最高 ( 按加元计算, 2008 年) 摇 摇 资料来源: 作者, 数据为虚构摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 资料来源: 作者, 数据为虚构 散点图: 散点图是用来描绘一组数据点之间相互关系的图表。 这些数据点在图表中的 位置取决于它们的值所对应的坐标。 如果两个变量之间存在联系, 那么就以一条直线或曲 线来表示这种联系。 联系越密切, 数据点与这条线的距离就越近。 如果散点图中无法显示 各点之间的特定规律, 那么就说明两个变量之间不存在明确的联系。 表格 表格以一种有条理的方式来表述信息。 在报告中可以考虑使用的表格有两种类型: 数 据表和分类表 ( 矩阵) 。 第十三章摇 结果的展示 llll llllllll 0 10 0 9 0 8 0 7 测 引 试 0 6 领 平 0 5 均 成 0 4 绩 0 3 0 2 0 1 0 0 1 2 3 4 5 6 7 8 9 0 1 1 1 2 1 全部年级 摇359 图 13郾 8摇 测试平均成绩与年级之间的关系 摇 摇 数据表 表格可以用来展示数字型的信息, 但是只有在数据组规模较小的时候才能在报告中使 用数据表 ( Tufte 1983) 。 较大规模的数据表格主要用作以其他表述数据形式的基础 ( 比 如折线图和柱形图) , 并通常以附件的形式出现。 就像图片和插图一样, 读者并不会自动地了解能从表中获得怎样的信息。 表格的标题 最好能向读者表明能从表中看到什么信息, 以及如何解读。 在报告的正文中也应该有一段 文字简要描述表格中的相关信息。 当使用表格展示数据的时候, 务必标注出数据的来源以 及数据产生的年份。 Eherenburg (1977) 概括了设计数据表格的几点原则: 誗 将数字四舍五入, 小数点后保留不要超过两位有效数字, 以帮助读者进行比较。 ( 注意: 建议保留到整数位; 读者一般不需要了解小数点以后的细节) 誗 计算出每行和每列的汇总和平均值 ( 如果可行 ) 以帮助读者对单元格的数字进行 比较 誗 把最重要的数据放在列中, 这样有助于读者进行比较 在设置表格格式的时候, 要注意太多的分隔线 ( 划分单元格的线 ) 会使阅读变得困 难。 以下面两个表格为例, 表 13郾 5 使用了许多分隔线, 而表 13郾 6 与表 13郾 5 显示的数据 相同, 但是使用的分隔线较少。 请注意, 在第二个表格中为何是数据而不是分隔线成为关 注焦点的。 同样, 表格的最后一行显示了每一列数据的平均值。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 分类表 ( 矩阵) 分类表或矩阵是一种将一组事物按照不同分类因素进行排列的表格形式 ( 表 13郾 7) 。 表中至少需要用两种分类因素来表明被分类事物的相似性或差异性。 分类表也可以用来帮 助阐述比较复杂的信息。 设计矩阵是分类表的一种。 引 领 摇 表 13郾 5 包含较多分隔线的数据表示例 摇 受访者人口统计信息 受访者序号 身高 ( 英寸) 体重 ( 公斤) 年龄 ( 岁) 地区 1 44 30 7郾 2 北部 2 46 35 7郾 1 东部 3 40 20 7郾 6 北部 4 32 22 7郾 2 南部 5 29 23 7郾 0 南部 摇360 6 50 38 7郾 8 北部 7 44 30 7郾 3 西部 8 44 28 7郾 3 西部 9 42 30 7郾 5 东部 10 48 45 7郾 9 南部 平均值 38郾 09 27郾 36 6郾 72 摇 表 13郾 6 包含较少分隔线的数据表示例 摇 受访者人口统计信息 受访者序号 身高 ( 英寸) 体重 ( 公斤) 年龄 ( 岁) 地区 1 44 30 7郾 2 北部 2 46 35 7郾 1 东部 3 40 20 7郾 6 北部 4 32 22 7郾 2 南部 5 29 23 7郾 0 南部 6 50 38 7郾 8 北部 7 44 30 7郾 3 西部 8 44 28 7郾 3 西部 9 42 30 7郾 5 东部 10 48 45 7郾 9 南部 平均值 38郾 09 27郾 36 6郾 72 摇 摇 注: N = 10 资料来源: 作者, 数据为虚构 第十三章摇 结果的展示 llll llllllll 摇 表 13郾 7 分类表范例 摇 减少贫困策略: 案例研究国家 国摇 摇 家 开始日期 实施时间 ( 年) 是否复查完毕 埃塞俄比亚 2002 年 9 月 17 日 4郾 7 是 几内亚 2002 年 7 月 25 日 4郾 9 是 引 毛里塔尼亚 2001 年 2 月 6 日 6郾 3 是 领 莫桑比克 2001 年 9 月 25 日 5郾 7 是 坦桑尼亚 2000 年 11 月 30 日 6郾 3 是 摇 摇 注: 数据截至 2007 年 5 月 资料来源: 世界银行, 2004 年 增强可视化信息的有效性 摇361 专栏 13郾 2摇 绘制有效图表的技巧 以下提示有助于尽量增加 “ 数据墨水冶 并增强图表的效果: 誗 为传递信息提供足够的数据, 但是要控制单个图表中数据的数量 誗 确保图表传递了信息, 并且该信息是有意义的 誗 使用容易辨认的字体, 并且字号不要小于 10 号。 不要使用太多不同的字体和字 号。 使文字便于阅读。 ( 尽可能横向排列文字, 并避免与图表的其他元素相互 干扰) 誗 要有重点地展示数据, 而不要简单地罗列所有数据 誗 不要使用加粗的网格线; 不要使用太过繁杂的网格线; 不要使用不必要的刻度 标记; 尽量不要使用过多的简单数据、 文本框、 阴影、 箭头和图例 誗 去掉太靠近 X 或 Y 轴周围的文本框 誗 在柱形图中隐藏掉网格线 誗 使用刻度标记 ( 不包含网格线) 来表示数据的 X 值和 Y 值的实际坐标位置 誗 简化图表, 把柱形替换成单线条, 删掉多余的与数据无关的内容, 去除坐标轴 的网格线, 将最小数值 ( 数值范围) 列为 X 轴和 Y 轴的起点 誗 保持刻度准确, 并对其进行清楚地表述。 根据需要提供尽可能多的关于刻度的 信息, 但尽量不要以太引人注目的方式在图表中显示 誗 不要使用复杂而不必要的填充样式 誗 要注意有些阴影在打印出来后可能不够明显 誗 适当地使用空白区域, 这有助于缓解视觉疲劳 誗 注明信息的来源出处 资料来源: Tufte 1983 通向结果之路: 有效发展评价的设计与实施 llll llllllll 可视化信息展示领域的专家 Edward Tufte 提出, 通过图表展示应该达到以下效果: 誗 展示数据 誗 引导读者去思考图表的主旨, 而不仅仅关注方法、 图表设计、 绘图技术或其他的 信息 誗 避免歪曲数据所要传递的信息 引 誗 在有限空间内展示大量的数字 领 誗 帮助理解庞大数据组的意义 誗 引导读者对不同的数据组进行对比 誗 从全面概览到细微结构等不同层次对数据进行解读 誗 将数据的统计学描述和文字描述紧密结合 ( Tufte 1983) (%) 0 6 4 5 5 0 9 4 6 4 4 0 1 4 3 8 9 3 摇362 0 4 4 3 频 0 3 1 3 0 7 2 率 2 0 2 0 2 0 2 3 0 1 0 东部 西部 北部 南部 (地区) 图 13郾 9摇 过度复杂的图表举例 摇 摇 资料来源: 作者 Tufte 把用于展示数据本身的墨水称为 “ 数据墨水冶 。 绘制图表所用的绝大部分墨水应 该是数据墨水。 而用在网格线、 标签或其他分散注意力的元素上的墨水应该尽可能的少 ( 专栏 13郾 2) 。 他把那些不提供任何附加信息的装饰元素称为 “ 图表垃圾冶 。 图 13郾 10 展示了一 个 包 含 “ 图 表 垃 圾 冶 的 图 表 。 阴 影 和 网 格 线 对 于 突 出 图 中 的 信息没有任何帮助 。 柱 形 顶 上 的 数 据 标 签 分 散 了 读 者 对 柱 形 填 充 样 式 的 注 意 力 。 图 13郾 11 展示的是同样一个图表 , 但却没有 “ 图 表 垃 圾 冶 。 这 个 图 表 使 用 的 绝 大 部 分 是 “ 数据墨水 冶 。 口头演讲 詪詪詪詪詪詪 许多人都非常害怕当众进行演讲。 提前进行充分的准备和练习有助于减轻这种恐 惧感。 第十三章摇 结果的展示 llll llllllll (%) 0 6 1 0 5 2 0 4 3 引 频 0 3 率 2 0 领 0 1 0 东部 西部 北部 南部 (地区) 图 13郾 10摇 改进后的图表 摇 摇 资料来源: 作者 在准备演讲时, 请考虑以下问题: 誗 听众是谁? 他们想知道什么? 他们需要了解多少细节信息? 摇363 誗 我演说的重点是什么? 我最希望听众记住的三个要点是什么? 我希望听众在接收 到我传递的信息后会有何反应? 誗 在向听众传递这些信息的时候是否存在语言和技术上的困难? 誗 我怎样才能提前预料到听众对我的演说的反应? 誗 我的演说将会花多长时间? 誗 我能够使用哪些视音频资源 ( 幻灯片、 投影仪) ? 在准备演说的时候, 要关注听众的需求, 突出重点信息, 并记住一个简单且具有经验 的法则: “ 简述要演说的内容———告诉他们———总结刚刚说过的内容重点冶 。 提高演说质量的最好办法之一就是不断练习。 在当众演练之前先独自演练一下。 在演 练后征求别人的反馈, 然后有针对性地对演说进行调整。 要控制演说的时间, 确保把分配 给你的时间用足, 而且不要超时。 在演说过程中, 要面向听众进行演说, 而不要只是朗读讲稿。 要与听众进行眼神交 流。 如果使用投影仪和幕布的话, 要提前把幻灯片打印一份放在面前, 这样就可以避免你 为了回头看投影幕而背对着观众。 运用可视化工具 可视化工具能够加强演说的效果, 比如幻灯片、 投影仪、 布告板和讲义 ( 如果要使 用幻灯片或投影仪的话, 要准备一个备份计划, 以防遇到停电或设备故障等情况) 。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 专栏 13郾 3摇 幻灯片演示和讲义的技巧 以下技巧有助于加强使用讲义的效果 誗 尽量减少字数。 每张幻灯片的文字控制在 8 行以内 引 誗 留出足够的空白区域 领 誗 使用清晰的图表 誗 每页讲义的幻灯片不要超过 2 个以便于阅读 书面信息可以加深对口头传递的信息的印象。 因此, 特别是在面对使用不同母语听众 的时候, 最好在演讲开始前散发一些讲义 ( 专栏 13郾 3) 。 这样做的另一个好处是, 听众可 以直接在讲义上做笔记。 如果没有这些讲义, 你经常会发现听众都在忙于把幻灯片的内容 抄下来! 提前散发讲义的缺点是, 听众会提前翻看后面的内容, 而不是专心听演说人的演 讲。 如果为此你要在演讲结束后才散发这些讲义, 那么你就要在演讲前告诉听众这个信 摇364 息。 如果演讲中将涉及一些复杂的数据或表格, 则可以考虑在谈到相关内容的时候把这些 表格散发下去。 使用演示软件 PowerPoint 等演示软件可以使演讲看起来更专业。 要审慎地使用这些软件, 否则, 它 们将会把演讲变成一个纯粹的幻灯片展示。 要使演说有吸引力, 演讲人应当控制幻灯片的 数量, 只用它们来展示最重要的内容。 过度地使用幻灯片会让演讲变得乏味。 同时, 还有可能 “ 把所有事情都变成商品推 销冶 以及 “ 使演讲人的权威凌驾于听众之上冶 ( Tufte 2003) 。 正如 Tufte 所说: 听众们不得不忍受无休止的、 一张接一张幻灯片的折磨。 对于这些堆积的信息, 他们很难理解 上下文并评价其中的联系。 通过演示进行分析一般只有在同时提供相关信息的时候才更有效。 通 常情况下, 提供的信息越详细, 表达和理解得才越清楚。 这一点对于统计数据来说尤为重要, 因为 其基本的分析手段就是进行比较。 ( Tufte 2003) 小摇 摇 结 詪詪詪詪詪詪 传递评价结果与实施评价本身一样重要: 如果评价的结果没有传递出去, 那么之前所 进行的评价工作也就几乎失去了意义。 选择用书面还是口头的形式来展示评价结果取决于 听众的需求。 图表可以增强书面和口头报告的效果。 按照本章所描述的原则, 评价者们可以增强他 们将要进行的评价的影响力。 第十三章摇 结果的展示 llll llllllll 练习 13郾 1摇 改进一份评价报告 设计一个评判指标清单 , 用来对一个评价报告向目标读者传递评价方法 、 评价发 现 、 结论以及建议等信息的效果进行评估 。 根据这些指标 , 来评估一个最近在你的专 业领域内发表的报告 。 根据你的评估给出一个评分 ( A 为优秀 , B 为很好 , C 为一般 , 引 并用 NI 来表示需要改进 ) 。 然后指出报告中可以改进的部分以使其更有效地传递它所 领 包含的信息 。 13郾 2摇 为读者定制一份评价报告 在上一练习使用的报告中, 指出可能对其中的评价发现和评价方法感兴趣的不同读者 群。 然后想一想, 对于不同类型的读者来说, 他们分别对评价报告的哪些部分更感兴趣, 对于信息的详细程度有什么不同需求, 通过哪些方法能更好地将报告的主要信息传递给他 们以满足他们不同的需求和偏好。 运用你的分析能力, 起草一个清单, 列举出不同类型的 读者分别适合怎样的信息传播方式, 何时传播以及从谁那里获得信息。 名词解释 摇365 执行摘要: 对报告涉及的评价问题、 所用的评价方法, 以及评价的结果、 结论和建议 作简短的总结 组织结构图: 展示组织内部的层级结构和报告结构的图 图表: 两个或多个数据之间关系的图形化展示 折线图: 通常用来表现随时间的变化的、 用线条连接一系列数据点的图 柱形图: 用水平或垂直的矩形表示并比较数量的一种图 饼图: 分割成多个扇形的圆, 其中每个扇形表示所代表的元素的相对大小 参考书目 1郾 Busuladzic, Dino, and James Trevelyan郾 1999郾 Demining Research: An Ergonomic Aspect of Humanitarian Demining郾 University of Western Australia, Perth郾 http: / / www郾 mech郾 uwa郾 edu郾 au / jpt / demining / tech / dino / ergonomics郾 html郾 2郾 Cummings, Harry郾 2003郾 “ Using Graphics in Development Evaluations郾 冶 International Program for Development Evaluation Training ( IPDET ) presentation, Carleton University, Otta鄄 wa, June 16鄄July 11郾 3郾 Druker, Phil 2006郾 Advanced Technical Writing郾 University of Idaho, Moscow , Idaho郾 ht鄄 tp: / / www郾 class郾 uidaho郾 edu / adv _ tech _ wrt / week14 / conclusion _ recommendation _ final _ re鄄 port郾 htm郾 4郾 Ehrenberg, A郾 S郾 C郾 1977郾 “ Rudiments of Numeracy郾 冶 Journal of the Royal Statistical Society 140 : 277 – 97郾 5郾 Independent Evaluation Group of the International Finance Corporation郾 2008郾 Enhancing Monitoring and Evaluation for Better Results: Biennial Report on Operations Evaluation in 通向结果之路: 有效发展评价的设计与实施 llll llllllll IFC2008郾 Washington D郾 C郾 : World Bank郾 http: www郾 ifc郾 org / 郾 郾 郾 / BROE2008 _ FullReport / $ FILE / BROE + for + disclosure鄄final + V8鄄nnal郾 pdf郾 6郾 Kaplan, Craig S郾 2003郾 “ Presentation Tips郾 冶 Craig Web Experience郾 http: / / www郾 cgl郾 uwaterloo郾 ca / ~ csk / presentations郾 html郾 7郾 Lawrenz, Frances, Arlen Gullickson, and Stacie Toal郾 2007郾 “ Dissemination: Hand鄄 引 maiden to Evaluation Use郾 冶 American Journal of Evaluation 28 ( 3 ) : 275 - 89郾 领 8郾 Lentz, Michelle 2007郾 “ Tufte and Visual Presentation郾 冶 http: / / www郾 writetech郾 net / 2007 / 02 / presentation_st郾 html郾 9郾 Lester, P郾 M郾 2000郾 Visual Communication: Images with Messages郾 2nd ed郾 Kentucky: Wadsworth Cengage Learning郾 10郾 Levin, J郾 R郾 , G郾 J郾 Anglin, and R郾 N郾 Carney郾 1987郾 “ On Empirically Validating Functions of Pictures in Prose郾 冶 In the Psychology of Illustration, vol郾 1 , eds郾 D郾 A郾 Willows and H郾 A郾 Houghton, 51 - 85郾 London: Springer鄄Verlag郾 11郾 MIGA郾 2007郾 Annual Report 2007 - 08郾 http: / / www郾 miga郾 org / documents / IEG_MI鄄 摇366 GA_2007_Annual_Report郾 pdf郾 12郾 Scriven, Michael郾 2007郾 “ Key Evaluation Checklist郾 冶 http: / / www郾 wmich郾 edu / eval鄄 ctr / checklists / kec_feb07郾 pdf郾 13郾 Taylor, Dave郾 2007郾 “ Use PowerPoint to Enhance Your Presentation, Not Cripple It郾 冶 http: / / www郾 intuitive郾 com / blog / use_powerpoint_to_enhance_your_presentation_not_cripple_ it郾 html郾 14郾 Torres, R郾 , H郾 S郾 Preskill, and M郾 E郾 Piontek郾 1997郾 Evaluation Strategies for Com鄄 municating and Reporting郾 Thousand Oaks, CA: Sage Publications郾 15郾 Tufte, Edward R郾 1983郾 The Visual Display of Quantitative Information郾 Cheshire, CT: Graphics Press郾 ———郾 1990郾 Envisioning Information郾 Cheshire, CT: Graphics Press郾 ———郾 1997郾 Visual Explanations: Images and Quantities, Evidence and Narrative郾 Chesh鄄 ire, CT: Graphics Press郾 ———郾 2003郾 “ PowerPoint Is Evil: PowerPoint Corrupts郾 PowerPoint Corrupts Absolutely郾 冶 Wired 11郾 09 , September郾 http: / / www郾 wired郾 com / wired / archive / 11郾 09 / ppt2郾 html郾 ———郾 2006郾 Beautiful Evidence郾 Cheshire, CT: Graphics Press郾 ———郾 2008郾 The Work of Edward Tufte郾 http: / / www郾 edwardtufte郾 com / tufte / 郾 16郾 Wallgren, Anders, Britt Wallgren, Rolf Persson, Ulf Jorner, and Jan鄄Aage Haaland郾 1996郾 Graphing Statistics and Data郾 Thousand Oaks, CA: Sage Publications郾 17郾 World Bank Operations Evaluation Department郾 2004郾 “ The Poverty Reduction Strategy Initiative : An Independent Evaluation of the World Bank蒺s Support through 2003郾 冶 World Bank, Washington, DC郾 第十三章摇 结果的展示 llll llllllll 网址 1郾 Statistics Canada郾 Using Graphs郾 http: / / www郾 statcan郾 ca / english / edu / power / ch9 / u鄄 sing / using郾 html郾 2郾 Torok, George郾 Presentation Skills Success郾 http: / / www郾 presentationskills郾 ca / 郾 引 领 摇367 第十四章 摇 指导评价人员 : 评价的 摇 摇 摇 摇 道德 、 政治 、 标准 摇 摇 和指导原则 摇 摇 摇 评价人员承担着多项任务, 包括评价的规划、 组织、 设计, 以及数据的收集、 分析和 展示。 他们还要面对来自外部和内部的压力, 可能会被要求修改计划、 组织或者评价的报 告以满足其他人的需求。 有时候, 评价人员提出的修改意见是受欢迎的; 而有些时候, 则 可能会引起道德或者政治上的问题。 道德和政治是所有评价人员必须考虑的问题。 那些在治理不善以及存在腐败的国家中 工作的评价人员尤其要注意这一点。 发展组织中的内部压力也能造成道德问题。 本章主要 讨论评价中的道德以及政治问题。 本章包括三个主要部分: 荫 道德行为 荫 政治与评价 荫 评价标准与指导原则 道德行为 詪詪詪詪詪詪 道德是用来引导人们做出选择的一套价值观和信念。 道德考虑的是一些重大问题, 例 如 “ 我们应该怎样生活?冶 想想这个问题吧。 谁来定义 “ 我们冶 ( 寻求共识的集体 ) 、 “ 应 该冶 ( 目标) 、 “ 怎样冶 ( 方式) 和 “ 生活冶 ( 身体的存在) ( 世界 IQ 2008) ? 道德取决于 决策者, 即其关于对错和好坏的看法。 制定法律是为了确认以及控制道德行为, 但是法律不能涵盖所有可能的情况。 另外, 有些行为可能合法但却不符合道德规范 ( 例如, 从一个即将被评价的人那里收受小礼物, 或者改变报告的口吻使之显得更加正面或者负面, 而不顾及报告的证据) 。 评价人员经常遇到这种情况: 不清楚做什么事情才是正确的; 存在很多灰色领域。 但 人们一直期望评价人员能够公正地进行评价。 由于价值观和信念是判断是否符合道德标准 的基础, 因此不同的文化就会有不同的法律。 故而非常有必要了解在进行评价的国家中, 什么是合法的, 什么是符合道德的。 第十四章摇 指导评价人员: 评价的道德、 政治、 标准和指导原则 llll llllllll 评价人员同样需要对任何要求告发犯罪或者犯罪嫌疑的法律有所了解。 例如, 在美国, 性骚扰是犯罪。 性骚扰被宽泛地定义为 “ 不为受害人接受的性侵犯和性要求, 以及当屈从或 者拒绝这种行为会直接或间接地影响到受害人的就业、 工作表现, 或造成一种敌意的、 威胁 性的、 攻击性的工作环境的口头或身体的性行为冶 ( 美国平等就业机会委员会 2002)。 不告 发有嫌疑的性骚扰有可能承担法律责任。 评价人员需要知晓他们工作所在的国家的法律, 以及他们自己组织内部的指导原则和 引 标准。 许多发展组织已经制定并颁布了各种道德标准或指导原则。 领 评价腐败和谬误 评价人员必须能够 “ 面对权力说出真相 冶 , 且具有独立的、 善于思辨和分析的思维。 Fitzpatrick, Sanders, 以及 Worthen (2004) 指出了五种 “ 评价腐败冶 的类型: 誗 由于利益冲突或者其他报偿或惩罚而扭曲事实真相以获得正面评价结果的意愿 ( 这样的意愿可以是有意的, 也可以是无意的) 誗 草率的、 反复无常的, 或者不专业的评价实践导致产生无事实依据的观点 摇369 誗 评价人员的偏见或先入为主的观念导致的 “ 有缺陷的冶 评价 “ 发现冶 誗 通过许下无法实现的承诺来诱导客户或参与者合作 誗 没有承担起应该承担的责任 House (1995) 从一个较为不同的角度来研究评价腐败问题。 他指出可能仅仅只是评 价人员误解了他们的责任, 并将之归纳为以下五种 “ 评价谬误冶 : 誗 客户中心主义: 只要所做的事情能满足客户的要求或者对客户有利都在道德上是 对的 誗 合同中心主义: 评价人员必须不加疑问地完全履行书面合同, 哪怕这么做有害于 公共利益 誗 方法论中心主义: 只要遵循可行的调查方法就能保证评价人员的行为符合道德, 即使有的方法实际上会加剧评价人员的道德困境 誗 相对主义: 评价人员必须同等地看待从各种参与者中收集到的观点数据, 仿佛没 有理由给予边缘群体较少关注而给予关键群体更多关注 誗 多元主义 / 精英主义: 评价人员相信权势者拥有更高的声望和话语权, 应该给予其 更大的优先权 道德问题的确认 Morris 和 Cohn (1993) 调查了美国评价学会成员对道德问题的看法, 并从中总结出 以下道德问题: 誗 客户在开展评价以前就决定评价结果应该是什么样, 或者以一种道德上可疑的方 式使用评价结果 誗 客户宣称某些研究问题不得列入评价范围, 尽管这些问题与评价相关 通向结果之路: 有效发展评价的设计与实施 llll llllllll 誗 客户在评价结果公布之前刻意修改数据 誗 客户对评价人员施加压力以改变评价结果 誗 客户压制或者忽视评价结果 誗 客户迫使评价人员违反保密性原则 誗 客户滥用评价结果而未加说明 引 誗 在规划评价时将一些合法的利益相关者忽略掉 领 誗 评价人员发现了违法的、 不道德的或者危险的行为 誗 评价人员由于种种原因不愿意完全公布评价结果 誗 评价人员不确定自己能否客观公正地展示评价结果 誗 尽管客户和利益相关者没有对评价人员施压来违反保密性原则, 但是评价人员担 心汇报某些评价结果可能会违反上述原则 誗 评价结果被用作反对某些人的证据 除了上述道德问题, 评价设计时也会遇到道德问题。 在随机抽样决定谁接受干预和谁 会被放置在对照组时, 也可能会出现道德问题。 在项目实施过程中, 如果预计干预能取得 摇370 乐观的结果, 那么没有接受干预的一方可能也会要求得到干预。 答应这个要求就会改变评 价设计以及评价本身。 要使评价有益于管理人员、 发展组织、 参与者和普通民众, 那么这些评价必须诚实、 客观和公正。 评价人员的工作正是要保证以诚实公正的方式来收集、 分析和报告数据。 评价之初受到的影响可能很微妙。 评价人员有时会被施压避免问某些类型的评价问 题, 或者使评价导向不太敏感的区域。 某些可能会对组织或项目产生负面影响的评价问题 可能不会被提及。 客户可能会说: “ 你我都知道我们有问题需要改正, 而且我们已经开始 纠正措施了, 但是我们不需要把这些公之于众, 并妨碍对项目的支持。冶 可能还会存在调 查职员、 项目参与者或者公民对调查的抵制, 因为评价可能会揭示一些敏感 ( 负面 ) 问 题。 在另一些情况下, 某些人可能会被排除在会议和访谈之外, 实地考察也可能因为 “ 时间紧迫冶 而受限制。 评价人员应该力争把被回避的问题提出来, 避免受到他人指使, 并且确保聆听和考虑了所有的观点。 在评价过程中也经常会出现影响评价的行为。 尽管大多数评价人员能很快识别贿赂行 为, 但对一些微妙的影响方式未必总能识别。 提供友情帮助、 晚宴或者娱乐活动, 这些举 动对远离家乡的人而言可能是一种迎宾之道, 但这些做法也可能意图影响评价人员的观点 并最终影响评价报告。 有时候会有人向评价人员提供腐败或者欺诈行为的线索。 评价人员不应该试图去分辨 这样的信息是否是为了转移自己的注意力, 或者信息提供者是为了报复某人, 抑或者这是 一项真实的腐败或欺诈行为。 评价人员不是专业的调查员。 因此, 他们不应该去调查这些 指控是否属实, 而是应该向有关权力机构反映这些指控以便展开调查。 大多数发展组织都有举报涉嫌失职或欺诈行为的程序。 例如, 在世界银行, 机构诚信 调查局负责调查对员工不当行为的指控, 同时也调查施行的腐败和欺诈行为。 这样的部门 通常有自己的 “ 热线冶 来举报失职、 欺诈或滥用权力的行为。 评价小组成员必须熟悉自己组织在处理欺诈、 渎职以及失职行为方面的政策和标准。 第十四章摇 指导评价人员: 评价的道德、 政治、 标准和指导原则 llll llllllll 这些程序可能在员工手册、 宣传册或者聘用合同中能找到。 评价人员应该牢记必须遵守组 织的政策和标准。 “ 不要为害冶 的箴言当然也适用于评价。 除非涉嫌存在欺诈或渎职, 并且已经向上报 告要求调查, 评价不能伤害到参与者。 这意味着评价的参与者在任何情况下都不应处于受 威胁的境地。 如果保证对参与者保密, 而他们的名字却在后来被泄露出来, 那么这就是一种伤害。 引 保密是至关重要的, 不过在某些情况下保密可能很困难。 例如, 几名访谈者告诉一项教育 领 计划的评价人员, 他们的主管正在私吞项目经费。 这种情况下评价人员应该怎么做呢? 如 果公布这些情况, 访谈者的身份则有被泄露的危险。 不向有关方面揭露这一事件, 则可能 导致行为上的潜在共谋。 在这种情况下, 匿名热线的作用就充分体现出来了。 同 ( 没有 卷入指控的) 监管人员或管理人员讨论情况和选择方案也是有益的。 在回答记者、 项目管理人员或者董事会成员的提问时, 评价人员都需要格外小心, 哪 怕对方要求不必记录在案。 至少要让对方说清 “ 不记录在案 冶 的具体含义。 评价人员需 要确认对该含义没有疑义, 然后才能继续开展评价。 摇371 政治与评价 詪詪詪詪詪詪詪詪 评价总是在特定的政治环境下开展的。 单是评价正在进行中这一事实就能被用来推进 个人或机构的进程。 人们常说知识就是力量; 评价提供的知识能被形容为胡萝卜, 也能被 形容为大棒来影响政治行为。 它是一项经常能产生赢家和输家的活动。 政治会削弱评价的公正性 。 它能决定评价的使用方式和使用程度 。 正面评价有助于 获得更多的资金 , 把试点项目进行全面推广 , 提高影响力和声誉 , 并为干预活动的参 与者们铺平职业道路 。 发现严 重 问 题 的 评 价 活 动 的 确 可 能 改 进 干 预 活 动 和 未 来 结 果 , 但也可能导致项目预算的减少甚至项目的取消 , 以及干预活动参与者的名声 、 权力和 影响力的丧失 。 评价过程出现政治的原因 评价是一种组织知识。 因此, 就现实定义而言, 权力斗争是评价过程的内在属性。 Murray (2002) 指出, 政治在评价中不可避免, 因为评价活动存在着很大的主观性。 正是主观性导致了评价参与者之间意见的不同。 评价人员从利益相关者中和被评价人员中 收集对现实的感知。 感知往往因人而异, 继而导致在评价的各个阶段的意见分歧, 进而政 治行为出现了。 Murray (2002 p郾 2) 将意见分歧归因于 “ 评价方法技术要素的内在问题, 以及人类普 遍存在的弱点冶 。 他还描述了评价中可能产生政治效应的技术缺陷和人性弱点。 以下是对 这两种不足之处的描述。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 技术缺陷 当评价目标、 目的和标准明确时, 大多数评价都能取得很好的效果。 但是评价人员、 客户以及利益相关者经常难以对评价对象达成共识。 另外, 也很难确定评价的重点。 一个 好的评价能说清楚变革理论以及对项目的假设。 如果是同利益相关者一起确定变革理论, 引 那么就能确保在项目的目标、 目的、 活动以及计划预期结果上能达成共识。 这样变革理论 领 能帮助我们在计划的理解方面避免潜在冲突, 使之不至于变成政治问题。 Murray (2002) 还指出了第二种常见的能导致政治问题的技术问题: 评价某一层面的 组织, 然后将评价结果推而广之到其他层面中。 这样的话, 当个体、 计划或部门的表现与 整个组织之间的关联不是很清晰的时候, 就会导致问题。 再说一次, 变革理论能帮助我们 确认内在假设。 人性弱点 人们通常做对自己有利的事情。 他们潜意识中存在的偏见会对如何进行评价或者分析 摇372 结果产生影响。 Cutt 和 Murray (2000) 认为有三种人为因素会影响评价: 誗 “ 做个老好人———免得受指责冶 ( LGAB) 的思维 誗 “ 对实际情况的主观描述冶 ( SIR) 的现象 誗 信任因素 LGAB 的思维表现出了人的共同特点: 希望获得成功并极力避免失败。 几乎所有的评 价都希望既能揭示成功也能揭示失败。 但是, 评价人员可能不会充分地报告失败, 因为他 们害怕自己会同失败联系在一起。 在某些 LGAB 的情形之下, 人们会极力解释负面结果是 他们无法控制的。 或者, 他们可能会质疑评价的范围和方法。 ( 正是由于这个原因, 在评 价之初对于评价设计达成共识是非常重要的。) SIR 现象体现在对评价数据的解释过程中。 观察同一事件的两个人可能会分别把这个 事件描述为 “ 老师对整个课堂已经失去控制 冶 或者 “ 老师在课堂中使学生全身心地投入 到一个议题中冶 。 评价人员对于什么起作用其实早已有了预设的信念和态度。 评价结果可 能正是这些信念和态度的主观演绎。 例如, 一个认为能把学生保持在座位上、 一个孩子回 答一个问题的老师才是称职的老师, 但作为一名评价人员, 很可能认为这类事件是混乱或 失控了。 而自己的孩子身处 “ 开放式课堂 冶 的评价人员, 更可能将这类事件视为老师与 学生互动的范例。 SIR 现象正是本书指出评价人员需要通过阅读文献去了解类似的项目中什么是起作用 的, 以及发现了哪些问题的原因。 另一个减少主观偏见的方法就是使用多种数据收集方 法, 同时进行问卷调查、 面谈以及结构式的观察等, 此即所谓的多元交叉验证。 Cutt 和 Murray 发现还有一个因素是信任。 信任能导致或引发 LGAB 和 SIR。 信任是指 相信一个人的信用或能力。 如果人们觉得另一个人缺乏信用或能力, 他们可能就不信任这 个人。 他们会担心这个人会对他们造成伤害。 信任是用程度衡量的, 从部分信任 ( 只在 某种情况下或 者 只 对 某 些 事 情 ) 到 完 全 信 任 ( 在 任 何 条 件 下 ) 。 在 有 不 信 任 的 时 候, 第十四章摇 指导评价人员: 评价的道德、 政治、 标准和指导原则 llll llllllll LGAB 和 SIR 现象就很可能导致政治因素介入到他们的关系之中。 前面的几章已经介绍了 一些建立信任的方法, 包括让利益相关者参与评价设计到建立信任的具体技巧等。 辨认政治博弈 想要让评价彻底同政治绝缘是不可能的。 挑战在于如何应对评价人员身处的政治局 引 面。 为了帮助评价人员做到这一点, Murray (2002) 根据介入的人的角色对政治博弈进行 领 了分类。 理解这些博弈有助于评价人员应对政治环境。 由被评价人员主导的政治博弈 被评价人员通常希望避免他不想要的对其活动的正式审查。 他们可能会做出以下 反应: 誗 否认评价的必要性 誗 宣称评价会占用太多的正常或任务繁重的工作时间, 并要求评价延后 誗 声称评价是好的, 但是百般拖延 摇373 誗 为了让评价人员信任他们, 试图同评价人员建立紧密的私人关系 一旦启动评价, 开始收集数据, 就会产生其他的政治博弈。 信息的提供者可能: 誗 忽视或者歪曲评价人员要求提供的信息, 企图粉饰现状 誗 向评价人员提供大量的信息, 使得评价人员难以区分哪些是有用信息, 哪些不是 誗 在评价快结束时冒出一些新的数据 一旦信息收集完毕, 评价人员准备解读这些信息时, 被评价人员可能会有: 誗 否认问题的存在 誗 贬低问题的重要性, 宣称他们早已知道这些问题并已经着手改变, 或者归咎于他 人或超出其控制范围的因素 誗 宣称信息不相关, 因为事态已经变化了 其他利益相关者的政治博弈 其他的利益相关者也可能会影响评价中的政治博弈。 不同的利益相关者有不同的日程 安排和关注点。 如果利益相关者没有参与确认评价主要问题的进程中, 他们可能会认为评价的东西是 错误的。 另外, 他们可能会刻意让其他人, 例如媒体, 批评组织机构, 并暗示评价应该怎 样开展。 评价人员的政治博弈 评价人员同样可以玩政治游戏博弈。 在数据收集过程中, 一些评价人员可能会 “ 非 正式的冶 收集他们自己的信息从而暗中破坏整个过程。 这样, 非正式的信息就能进入评 价的归因阶段。 大多数评价人员的博弈发生在评价的归因阶段, 这些博弈包括: 通向结果之路: 有效发展评价的设计与实施 llll llllllll 誗 改变或不列出某些评价标准 誗 使用在决策中未列出的指标 誗 解释数据时采用未声明的价值观和意识形态来过滤数据, 例如决定某个数据来源 是不可信的 誗 忽视同评价人员结论不一致的数据 引 领 管理评价中的政治问题 因为政治在评价中是不可避免的, 因此对政治进行管理十分重要。 在整个评价过程 中, 评价人员应该建立信任。 在理想状态下, 在评价的每个阶段, 所有参与的人员都应该 能公开讨论其关心的话题, 或者至少能就彼此间的分歧达成共识。 Murray (2002) 说明了 让参与评价的各方充分了解评价背后逻辑的重要性。 他建议变革理论 ( 或逻辑模型 ) 是 充分说明逻辑的一个方法, 这样就能大大减少误解的可能性。 还能通过什么方式建立信任呢? 这通常需要时间和反复实践, Murray 建议让所有利 摇374 益相关者, 特别是被评价人员参与到评价过程中来。 通过协商平衡利益相关者 评价人员最大的挑战之一就是同多个利益相关者打交道。 评价人员需要很强的协商技 巧来管理多个利益相关者的利益和繁忙的日程。 Markiewicz (2005) 为评价的协商提供了 非常有用的原则和方法。 评价协商的原则 下列原则是在 Markiewicz (2005) 提出的协商评价原则的基础上修改后得到的: 誗 清楚评价的内在政治本质 誗 认可各利益相关者的贡献 誗 评估利益相关者的立场并计划评价 誗 保证评价人员在利益相关者圈子中是一个活跃的角色 誗 评价人员应该发展自己作为协调者的应对冲突的能力 誗 提高管理与各利益相关者冲突的能力 一个重要的战略就是将利益相关者组成参照群体、 指导委员会或咨询委员会来监督评 价的过程。 这样的方法同 “ 评价人员是协调者冶 的模式是一致的。 ( 这个方式通常不适用 于独立评价, 因其主要目标是问责 ) 这些组织必须具有清晰的角色和职能, 需要建立一 些基本规则, 来明确各成员参与评价过程的程度。 根据 Markiewicz (2005) 的说法, 一旦评价人员在利益相关者中建立了某种程度的信 任和认可后, 就可以协商利益相关者之间存在冲突和争执的地方。 评价人员需要发挥催化 剂的作用, 帮助利益相关者自己形成解决方案。 要做到这点, 评价人员需要很强的沟通技 能, 这包括积极倾听和思考, 提出适当的问题, 确认理解正确。 评价人员同样需要确保协 第十四章摇 指导评价人员: 评价的道德、 政治、 标准和指导原则 llll llllllll 商能够突出重点, 并推动和鼓励利益相关者之间的互动。 评价人员需要提高自己的协商技巧。 有些情况下, 评价人员需要组织一些针对协商技 巧的额外的培训和实践 ( 评价人员是推动者的模式 ) 。 另一种办法是与同行分享解决冲突 的经验 ( 包括成功和失败的经验) 。 Patton (1997) 建议评价过程中至少要开四次会议 ( 对于长期项目而言会议要更多) : 誗 第一次会议: 专注于评价 引 誗 第二次会议: 方法与测量的工具 领 誗 第三次会议: 数据收集工具 誗 第四次会议: 审核数据并找到一致的解释以形成评价结果 这同本书推荐的步骤是相似的。 Markiewicz (2005) 讨论了评价人员在处理利益相关者关系时应该发挥的作用 。 她 认为有意义的两种特征是积极响应和灵活应对 , 这样有利于利益相关者的参与 。 她同 样讨论了如果评价人员同利益相关者之间保持过多的和过于亲密的私人联系会遇到的 困难 。 Patton 认为还需要对经验过程保持关注, 并帮助利益相关者同样做到这一点。 这有利 摇375 于保持客观的关系, 避免偏见和滥用评价结果。 评价协商的实践 Markiewicz (2005) 提出评价协商有三个阶段: 誗 开始阶段: 表明各自的立场 誗 中间阶段: 积极的协商 誗 收尾阶段: 逐步达成共识 要使用这一模型, 评价协商者需要既能换位思考又善于自我肯定的一系列技能。 换位 思考技能能够创造一个易于协商的环境, 自我肯定技能则能够组织协商过程。 换位思考技能被定义为 “ 对他人的需要、 利益和处境展示恰当的、 不加以判断的理 解的过程冶 ( Mnookin, Peppet, 和 Tulumello 2000, p郾 46) 。 它包含了两个要素: 通过别人 的视野看待世界的能力以及将观点诉诸文字的能力。 “ 换位 冶 包括把对他人经历的理解转 化为共鸣。 Markiewicz (2005) 相信换位思考有利于理解他人关于目标和价值等方面的信息。 它 是促进别人开放心扉的催化剂, 也是协商过程中的说服别人的工具。 一旦评价人员理解了所有利益相关者的观点, 评价人员此时需要向每一个在场的利益 相关者阐述自己的理解 ( Hale 1998) 。 评价人员应该询问各方自己的理解是否是正确的, 并让他们澄清不同之处。 积极的倾听和思考能帮助评价人员理解会谈内容, 询问合适的问 题, 确保正确理解利益相关者的观点。 自我肯定是表达并维护自身的需要、 利益以及立场的能力 ( Mnookin, Peppet, 和 Tu鄄 lumello 1996) 。 在评价的协商过程中, 该技能可以被视为协调者的权威性。 在换位思考与 自我肯定之间很难寻求平衡。 Mnookin, Peppet, 和 Tulumello (1996) 认为换位思考和自 我肯定在协商行为中属于两种相互依存的维度。 一起使用时, 对协商非常有益, 并能更好 通向结果之路: 有效发展评价的设计与实施 llll llllllll 地理解各利益相关者的需求。 评价标准与指导原则 詪詪詪詪詪詪詪詪詪詪詪詪詪詪 引 职业协会建立了各种标准和指导原则来帮助成员做出符合道德准则的决定。 在北美、 领 欧洲以及澳大利亚的专业团体都为评价人员建立了道德准则。 美国评价协会 ( AEA) 建立了一系列的标准和原则, 这些标准和原则集中在以下两 份文件中: 《 项目评价标准》 和《 评价人员的指导原则 》 。 其他组织以这些标准和原则为 平台, 根据各自的具体环境和形势做了相应的调整。 美国评价协会建立的《 评价人员的指导原则 》 , 目的是为评价人员的日常工作提供指 导。 美国评价协会的标准和原则之间的最大区别在于两者目的不同。 标准关注的是专业绩 效, 而原则关注的是专业价值。 标准主要适用于评价的产品, 而原则则适用于评价人员的 行为。 这两个文件为符合道德准则、 正确地开展评价提供了依据。 摇376 项目评价标准 美国评价协会的项目评价标准被分为以下四大类: 誗 应用性 誗 适当性 誗 可行性 誗 准确性 适当性包括 8 个具体标准: 1郾 服务定位: 强调评价人员不仅要服务于评价资助机构的利益, 同时也要服务于项 目参加者、 社区以及社会的知情需求。 2郾 正式协议: 包括遵守规则、 数据使用权、 清楚地向客户说明评价的限制, 以及不 过量承诺等方面。 3郾 受试者权利: 包括获得非正式的同意, 保证隐私权以及保密。 4郾 人际间交往: 这是受试者权利的延伸。 它强调了评价人员在交往中必须尊重人的 尊严以及价值, 在评价中不能受到侮辱或伤害任何参与者。 5郾 完整而公正的评估: 致力于保证项目的优缺点都得到了详细的描述。 评价人员需 要保证他不会带有倾向性地开展评价以满足赞助方或对一些其他机构的要求做出让步。 6郾 评价结果的发布: 评价人员的责任就是通过项目实施以及详尽的评价结果来服务 于更广大的公众利益, 而不仅仅是客户和赞助方。 评价结果应该向公众发布。 7郾 利益冲突: 评价人员需要尽可能开诚布公地说明他们可能的偏见和价值观, 这样 即便是最诚实的评价人员, 在工作中不知不觉表露出某种偏见时, 客户对此能有所警示。 8郾 财务责任: 评价人员需要保证所有的支出———包括提供、 收集和协助其他评价者 收集信息, 以及向民众解释评价的时间和精力———都得到了适当、 审慎、 详细的记录。 第十四章摇 指导评价人员: 评价的道德、 政治、 标准和指导原则 llll llllllll 美国评价协会认为自己的项目评价标准是针对本国设计的, 并非放之四海而皆准。 2000 年, W郾 K郾 Kellogg 基金会在巴巴多斯资助了一项区域性的和全国性的评价人员会 议。 一些国际评价组织也出席了会议。 该会议的一项议题即是美国评价协会的评价标准是 否能够以及如何应用到其他国家。 这届会议的结果之一就是出版了该议题的专刊 ( Russon 2000) 。 在首期专刊上, Taut (2000) 认为由美国评价协会发布的项目评价标准是基于价值观的, 而价值观在各种文化 引 之间是不同的。 她调查了在美国以外不同的价值观是如何影响美国评价协会标准的适 领 用性。 Taut 从有关跨文化文献中体现的文化价值维度比较了标准中的价值观。 她认为最重 要的文化价值维度包括: 誗 个人主义与集体主义 誗 等级制度与平等主义 ( 或权力距离) 誗 保守主义与自由主义 誗 驾驭主导与和谐共生 誗 避免不确定性 摇377 她指出其他一些跨文化的区别包括直接与间接交流, 高情境与低情境, 以及资历的重 要性。 Taut 因此总结到 “ 什么是有用的、 符合道德的在不同文化之间差异的程度远大于什 么是可行的、 准确的差异……很明显, 适当性标准的评判问题与政治和文化的影响高度相 关冶 (2000, p郾 24) 。 她建议评价人员应该在描述这些社会时考虑她文中讨论的文化维度。 她还推荐咨询同行们的看法, 并在文化领域专家指导下进行分析。 评价人员的指导原则 美国评价协会鼓励在项目、 人员和政策评价中的道德实践, 并为实现这样的目标制定 了指导原则 (1995) 来帮助评价人员的专业工作。 这些原则包括以下方面: 誗 系统性询问 誗 尊重他人 誗 有足够的能力 誗 对公众和社会利益负责 誗 诚信 2004 年, 美国评价协会道德委员会主持了对指导原则的审核, 并做了大量更新 ( 更 多关于指导原则和项目评价标准的公开信息可以在美国评价协会网站上找到。 这两个文件 的链接参见本章末尾的 “ 评价组织冶 ) 。 其他在互联网上公开了其草案阶段或最终确定的指导原则或评价标准的评价组织 包括: 誗 非洲评价协会 ( 起草了评价标准与指导原则) 誗 澳大利亚评价协会 ( 道德原则) 通向结果之路: 有效发展评价的设计与实施 llll llllllll 誗 加拿大评价协会道德行为指导原则 誗 德国评价协会 ( 评价标准) 誗 意大利评价协会 ( 指导原则) 誗 瑞士评价协会 ( 评价标准) 誗 英国评价协会 ( 优秀实践指导原则) 引 英国优秀实践指导原则不仅为评价的操作人员制定了指导原则, 它还为委员会成员和 领 参与者制定了评价过程中的指导原则。 联合国系统中的评价道德 联合国评价局 ( UNEG) 在自己的 《 道德行为指南 》 ( UNEG 2008) 一书中强调了评 价道德。 这些原则基于 “ 共同拥有以及国际公认的专业理念 冶 ( UNEG 2008, p郾 3) 。 它们 适用于所有联合国机构内的联合国内部员工、 外部咨询师以及伙伴单位评价人员的评价 行为。 以下是 《 道德行为指南》 的概要: 摇378 誗 评价的国际性, 包括: —应用性 —必要性 誗 评价人员的义务 独立 公正 可信性 利益冲突 诚信 问责 誗 参与者的义务 尊重尊严和多元化 权利 保密性 伤害的避免 誗 评价过程与产品 精确、 完整、 可信赖 透明 报告 遗漏与不正当行为 ( UNEG 2008) UNEG 也建立了联合国系统的评价标准。 其中道德标准包括: 誗 评价人员以诚信的态度处理同利益相关者的关系, 并对信仰、 行为方式和风俗传 统保持敏感 第十四章摇 指导评价人员: 评价的道德、 政治、 标准和指导原则 llll llllllll 誗 评价人员应该保证尊重他人, 正如自己期望得到他人尊重一样 誗 评价人员应该保证信息提供者的匿名与机密 誗 评价人员应该对他们的绩效与成果负责 DAC 标准 引 本书第一章讨论了经济合作与发展组织 ( OECD) 发展援助委员会 ( DAC) 的发展评 领 价网络。 DAC 是制定发展评价规范与标准的重要组织。 DAC 的主要规范与标准的最新摘 要可以在 http: / / www郾 oecd郾 org / dac / evaluationnetwork 上找到。 与本章特别相关的是 DAC 评价质量标准草案, 它为评价过程与产品提供了指导。 这 些标准在三年测试期结束后于 2009—2010 年间最终确定。 指导原则的第六部分关注评价 人员的独立性以及评价团队在多大程度上能不受干预地自由工作。 第七部分讨论评价道 德。 该草案标准还指出, 评价过程以及评价人员 “ 对性别、 信仰、 方式以及所有利益相 关者和风俗保持敏感, 并诚实公正地对待。 参与者在评价过程中的权利要得到保护。 在法 律规定或信息提供者要求下, 要保护其匿名与机密冶 ( p郾 22) 。 摇379 利益冲突 直接或者间接的利益冲突是影响评价人员可信度以及评价可靠性的一个主要潜在因 素。 对于每个评价来说, 评价人员需要指出他们是否能避免利益冲突, 或可能出现的利益 冲突。 一些组织制定了一些原则来管理利益冲突。 例如, 亚洲开发银行的业务评价局禁止内 部员工或咨询师评价自己参与的工作。 这是一种值得肯定的做法。 小摇 摇 结 詪詪詪詪詪詪 道德是引导选择的一系列的价值和信仰。 当存在利益冲突、 不专业或不认真地进行评 价工作时, 让个人偏见影响工作、 许下无法兑现的承诺、 或者没有全身心投入时, 评价人 员的行为就违反了道德标准。 以客户中心主义、 合同中心主义、 方法论中心主义、 相对主 义、 或多元主义 / 精英主义等形式出现的各种误解同样也能导致违背道德行为的发生。 OECD 发展援助委员会发展评价网络、 联合国评价局、 美国评价协会, 以及其他机构 制定了一些标准和准则以及规范来帮助定义和测量质量、 道德或行为规范。 发展评价人员 需要熟悉这些相关的标准、 准则, 以及行为规范, 并规范自己的工作实践。 练习 道德: Rosa 与农业评价 Rosa Marquez 为你讲述了下面的故事, 并征询你的意见。 主要的道德问题是什么? 你 通向结果之路: 有效发展评价的设计与实施 llll llllllll 建议 Rosa 如何处理它们? Rosa 与一些当地官员、 项目人员, 以及地主们会面, 简要介绍了对当地某农业项目 即将开展的评价。 多年以来, 当地得到了大笔资金来修建灌溉系统、 购买肥料、 修路和采 购设备。 这是 Rosa 第一次造访这一地区。 而当地的团队成员 Eduardo 已经来过多次了, 并且 引 认识了不少地主。 他建议他们应该与当地人共进晚餐, 建立良好的关系。 领 在晚餐中, Rosa 仔细倾听了 Eduardo 与一些地主之间的对话。 他们似乎同 Eduardo 关 系密切, 还送给了他一盒雪茄。 大家讨论当地的一些需求, 地主们表示他们需要更多资源 来有效地利用土地, 引入更多的设备来替代农场工人。 他们还表示需要使用比环境法限定 的更多的肥料。 Eduardo 同意他们的观点, 并表示即将开展的项目评价能帮助他们, 因为 这个评价会建议赋予他们豁免权。 晚餐结束时, 一位地主邀请 Rosa 参观这一地区, 并与他的家人共进午餐。 Rosa 认为 拒绝别人的邀请不太礼貌, 因此接受了邀请, 并为第二天的见面做了准备。 她同 Eduardo 晚餐后进行了简短的对话, 并问他为何站在地主们一边。 Eduardo 回答说他认为地主们如 摇380 果觉得他们能从评价中得到一些积极的结果, 那么他们会表现得更加合作。 第二天的旅行中, 地主说他工作的多么辛苦, 面对巨大的困难取得了多么不容易的进 步。 他告诉 Rosa 希望她多支持地主们的工作。 如果评价的结果是负面的, 他和他的家庭 就无法生活。 出于对她的感激, 地主给了 Rosa 一条自称是家族祖传的项链。 在同地主一家旅行并共进午餐后, Rosa 见到了一位项目官员。 他为 Rosa 安排了接下 来的三天里要约见的人。 他还安排了两个社区会议。 这些会议包括了地主、 农业延伸产业 工人、 销售肥料和农用设备的商业人士以及农产品的出口商。 当 Rosa 询问为什么没有农 业工人及其家人的代表参与会议时, 该官员说这些人对于项目评价的有效性没有任何价 值。 Rosa 询问该社区内是否还有其他什么人需要面谈, 项目经理却说已经花了很大的力 气来保证所有应该出现的人都包括在内了, 这样 Rosa 项目评价的工作就会轻松很多。 参考书目 1郾 Cutt, James, and Vic Murray郾 2000郾 Accountability and Effectiveness Evaluation in Non鄄 profit Organizations郾 London: Routledge郾 2郾 Fitzpatrick, Jody L郾 , James R郾 Sanders, and Blaine R郾 Worthen郾 2004郾 Program Eval鄄 uation: Alternative Approaches and Practical Guidelines郾 New York: Pearson Education Inc郾 3郾 Hale, K郾 1998郾 “ The Language of Co鄄Operation: Negotiation Frames郾 冶 Mediation Quar鄄 terly 16 ( 2 ) : 147 - 62郾 4郾 House, E郾 R郾 1995郾 “ Principles Evaluation: A Critique of the AEA Guiding Principles郾 冶 In Guiding Principles for Evaluators, eds郾 R郾 Shadish, D郾 L郾 Newman, M郾 A郾 Scheirer, and C郾 Wye, 27 - 34郾 New Directions for Program Evaluation No郾 66郾 San Francisco: Jossey鄄Bass郾 5郾 JCSEE ( Joint Committee on Standards for Educational Evaluation) . 1994郾 The Program Evaluation Standards: How to Assess Evaluations of Educational郾 Programs Thousand Oaks, CA: 第十四章摇 指导评价人员: 评价的道德、 政治、 标准和指导原则 llll llllllll Sage Publications郾 6郾 Markiewicz, Anne郾 2005郾 “ ‘ A Balancing Act爷 : Resolving Multiple Stakeholder Interests in Program Evaluation郾 冶 Evaluation Journal of Australasia 4 ( 1 - 2 ) : 13 – 21郾 7郾 Molund, Stefan, and G觟ran Schill郾 2004郾 Looking Back, Moving Forward: SIDA Evalua鄄 tion Manual郾 Stockholm: Swedish International Development Cooperation Agency郾 8郾 Mnookin, Robert H郾 , Scott R郾 Peppet, and Andrew S郾 Tulumello郾 1996郾 “ The Tension 引 between Empathy and Assertiveness郾 冶 Negotiation Journal 12 ( 3 ) : 20 - 35郾 领 ———郾 2000郾 Beyond Winning: Negotiating to Create Values in Deals and Disputes郾 Cam鄄 bridge, MA: Harvard University Press郾 9郾 Morris, M郾 , and R郾 Cohn郾 1993郾 “ Program Evaluators and Ethical Challenges: A Na鄄 tional Survey郾 冶 Evaluation Review 17 : 621 – 42郾 10郾 Murray, Vic V郾 2002郾 Evaluation Games: The Political Dimension in Evaluation and Accountability Relationships郾 http: / / www郾 vserp郾 ca / pub / CarletonEVALUATIONGAMES郾 pdf郾 11郾 Patton, M郾 Q郾 1997郾 Utilization鄄Focused Evaluation: The New Century Text郾 3rd ed郾 Thousand Oaks, CA: Sage Publications郾 摇381 12郾 Russon, Craig郾 2000郾 The Program Evaluation Standards in International Settings郾 ht鄄 tp: / / www郾 wmich郾 edu / evalctr / pubs / ops / ops17郾 pdf郾 13郾 Stufflebeam, D郾 L郾 1986郾 “ Standards of Practice for Evaluators郾 冶 Paper presented at the annual meeting of the American Educational Research Association, San Francisco, April郾 14郾 Tassie, A郾 W郾 , V郾 V郾 Murray, J郾 Cutt, and D郾 Gragg郾 1996郾 “ Rationality or Poli鄄 tics: What Really Goes on When Funders Evaluate the Performance of Fundees?冶 Nonprofit and Voluntary Sector Quarterly 25 ( 3 ) : 347 – 63郾 15郾 Taut, Sandy郾 2000郾 “ Cross鄄Cultural Transferability of the Program Evaluation Standards郾 冶 In The Program Evaluation Standards in International Settings, ed郾 Craig Russon郾 Occasional Papers Series, Western Michigan University, Evaluation Center, Kalamazoo郾 http: / / www郾 wmich郾 edu / evalctr / pubs / ops / ops17郾 pdf郾 16郾 UNEG ( United Nations Evaluation Group) . 2005郾 Norms for Evaluation in the UN System郾 http: / / www郾 uneval郾 org / index郾 cfm? module = UNEG&Page = UNEGDocuments&LibraryID = 96郾 ———郾 2008郾 Ethical Guidelines郾 http: / / www郾 uneval郾 org / papersandpubs / documentde鄄 tail郾 jsp? doc_id = 102郾 17郾 U郾 S郾 Equal Employment Opportunity Commission郾 2002郾 http: / / www郾 eeoc郾 gov / facts / fs - sex郾 html郾 18郾 World IQ郾 2008郾 “ Simple View of Ethics and Morals郾 冶 http: / / www郾 wordiq郾 eom / def鄄 inition / Simple_view_of_ethics_and_morals郾 网址 1郾 Department for International Development郾 http: / / www郾 keysheets郾 org / red_7_swaps_rev. pdf郾 通向结果之路: 有效发展评价的设计与实施 llll llllllll 2郾 Evaluation Center, Western Michigan University郾 http: / / www郾 wmich郾 edu / evalctr / 郾 3郾 Human Rights Education郾 http: / / www郾 hrea郾 org / pubs / EvaluationGuide / 郾 4郾 Institute of Development Studies郾 1998郾 Participatory Monitoring and Evaluation: Learn鄄 ing from Change, IDS Policy Briefing 12 ( November) . http: / / www郾 ids郾 ac郾 uk / ids / bookshop / briefs / PB12郾 pdf郾 引 5郾 Inter鄄American Development Bank郾 2004郾 Proposal for Sectorwide Approaches (SWAps). ht鄄 领 tp: / / enet郾 iadb郾 org / idbdocswebservices / idbdocsInternet / IADBPublicDoc郾 aspx? docnum = 509733郾 6郾 MEASURE Evaluation Project郾 Monitoring and Evaluation of Population and Health Pro鄄 grams郾 University of North Carolina, Chapel Hill郾 http: / / www郾 cpc郾 unc郾 edu / measure郾 7郾 National Aeronautics and Space Act of 1958郾 http: / / www郾 hq郾 nasa郾 gov / office / pao / History / spaceact郾 html郾 8郾 Treasury Board of Canada郾 Linkages between Audit and Evaluation in Canadian Federal Developments郾 http: / / www郾 tbs - sct郾 gc郾 ca / pubs_pol / dcgpubs / TB_h4 / evaluation03_e郾 asp郾 9郾 United Nations Population Fund郾 UNFPA List of Evaluation Reports and Findings郾 ht鄄 摇382 tp: / / www郾 unfpa郾 org / publications / index郾 cfm郾 10郾 World Bank郾 The World Bank Participation Sourcebook郾 Washington, DC : World Bank郾 http: / / www郾 worldbank郾 org / wbi / sourcebook / sbhome郾 htm郾 评价组织 11郾 African Evaluation Association郾 http: / / www郾 geocities郾 com / afreval / 郾 12郾 American Evaluation Association郾 http: / / www郾 eval郾 org郾 13郾 Australasian Evaluation Society郾 http: / / www郾 aes郾 asn郾 au / 郾 14郾 Canadian Evaluation Society郾 http: / / www郾 evaluationcanada郾 ca郾 15郾 European Evaluation Society郾 http: / / www郾 europeanevaluation郾 org郾 16郾 German Society for Evaluation郾 http: / / www郾 degeval郾 de / 郾 17郾 Government and Nongovernmental Organizations郾 http: / / www郾 eval郾 org / Resources / govt_orgs_&_ngos郾 htm郾 18郾 Institute of Internal Auditors郾 http: / / www郾 theiia郾 org郾 19郾 International Organization of Supreme Audit Institutions郾 http: / / www郾 gao郾 gov / cg鄄 home / parwi / img4郾 html郾 20郾 Italian Evaluation Association郾 http: / / www郾 valutazioneitaliana郾 it / aiv / news郾 php郾 21郾 Swiss Evaluation Society郾 http: / / www郾 seval郾 ch / en / 郾 22郾 United Kingdom Evaluation Society郾 http: / / www郾 evaluation郾 org郾 uk / 郾 标准和指导守则 23郾 American Evaluation Association郾 2004郾 Guiding Principles郾 http: / / www郾 eval郾 org / Publi鄄 cations / GuidingPrinciples郾 asp郾 ( Abbreviated version in brochure form: http: / / www郾 eval郾 org郾 ) ———郾 2005郾 Program Standards郾 http: / / www郾 eval郾 org / EvaluationDocuments / progeval郾 html郾 24郾 Asian Development Bank郾 Guidelines郾 Operations Evaluation Group郾 http: / / 第十四章摇 指导评价人员: 评价的道德、 政治、 标准和指导原则 llll llllllll www郾 adb郾 org / documents / guidelines / evaluation / independent - evaluation郾 pdf郾 25郾 Australasian Evaluation Society郾 Ethical Guidelines for Evaluators郾 http: / / www郾 aes郾 asn郾 au / about / Documents% 20 - % 20ongoing / guidelines_for_the_ethical_conduct_of_ evaluations郾 pdf郾 26郾 Canadian Evaluation Society郾 Guidelines for Ethical Conduct郾 http: / / www郾 evaluationcanada郾 ca郾 引 27郾 German Society for Evaluation郾 Standards郾 http: / / www郾 degeval郾 de / standards / stand鄄 领 ards郾 htm郾 28郾 Italian Evaluation Association郾 Guidelines郾 http: / / www郾 valutazioneitaliana郾 it / statu鄄 to郾 htm#Linee. 29郾 Organisation for Economic Co鄄operation and Development郾 Principles for Evaluation of Development Assistance郾 Development Assistance Committee郾 http: / / www郾 oecd郾 org / dataoecd / 31 / 12 / 2755284郾 pdf郾 ———郾 DAC Criteria for Evaluating Development Assistance郾 Development Assistance Commit鄄 tee郾 http: / / www郾 oecd郾 org / document / 22 / 0 , 2340 , en _2649 _34435 _2086550 _ 1 _ 1 _ 1 _ 1 , 摇383 00郾 html郾 ———郾 DAC Network on Development Evaluation郾 Evaluating Development Co鄄Operation: Summary of Key Norms and Standards郾 http: / / www郾 oecd郾 org / dac / evaluationnetwork郾 30郾 United Kingdom Evaluation Standards郾 2008郾 http: / / www郾 mfcr郾 cz / cps / rde / xbcr / mf鄄 cr / EvalStandards_UK郾 pdf and http: / / www郾 evaluation郾 org郾 uk / resources / guidelines郾 aspx郾 第十五章 摇 展望未来 前十四章描述了 “ 通向结果的道路冶 , 讨论了发展评价的基础, 如何准备、 设计和执 行评价活动, 以及如何以专业的方式开展相应工作。 这些章节让我们了解到了该领域的最 新情况。 本章先简要介绍过去和现在的情况, 然后展望发展评价的未来。 本章包括两个主要部分: 誗 从过去到现在 誗 展望未来 从过去到现在 詪詪詪詪詪詪詪詪詪 发展评价能很快反映发展方面的变革。 2000 年联合国首脑会议上, 各国领导人签署 了 《 千年发展宣言》 , 并将发展定义为减除贫困而进行的全球合作, 引起了人们对结果衡 量的关注。 发展评价对此作出了回应, 但是前面还有很长的路要走。 本书旨在加强评价知识在决策中的应用。 有七个关键步骤可以提升评价在判断发展有 效性方面的作用: 1郾 实施结果为导向的评价。 除了衡量产出之外, 人们对结果的实现给予了越来越多 的关注, 但是这尚未成为发展或发展评价中的常规做法。 如果不知道在短期、 中期和长期 如何衡量干预活动是否成功, 那么组织就会继续为要求提供的产品和服务付费, 但是却不 清楚能否带来行为的变化, 以及能否实现机构的持续发展。 2郾 找到发展干预活动背后的变革理论。 在关注影响时的第一个关键问题不是 “ 干预 活动带来了什么影响?冶 , 而是 “ 真的有必要进行干预活动吗? 我们为什么期望干预活动 会带来这样的影响?冶 这种分析应该成为标准的做法。 变革理论应该生动地描述干预活动 与期望结果之间的逻辑关系, 干预活动怎样起作用及其原因, 以及环境中能够引起可观察 到的变化的其他主要事件。 3郾 促进反事实在评价设计中的恰当应用。 要建立干预活动与成效和影响之间的关系, 反事实往往是不可缺少的。 不过, 虽然实验 ( 准实验 ) 设计是比较可靠的设计方法, 但 并非 “ 黄金法则冶 。 发展评价要关注必须要回答的那些问题, 而且要选择适合这些问题的 设计。 比如, 项目延长会带来什么样的边际影响, 环境因素和参与者的特征会对干预活动 第十五章摇 展望未来 llll llllllll 的实施产生什么影响, 了解这些可能要比了解实验组与对照组之间的影响差异要有用得 多。 尽管我们知道实验性设计和准实验性设计肯定是影响评价设计训练的一部分, 但是这 种训练还必须包括如案例研究这样的非实验性设计。 4郾 在国家层面使用绘图、 贡献和追加分析, 而不是寻求归因。 在项目层面, 很难将 发展结果归因于单个发展实体; 在更复杂的评价活动中, 例如部门或国家层面的评价活动 中, 这种归因通常更是毫无结果的。 在认识到发展是全球合作过程之后, 我们需要转变以 引 往的模式。 发展评价的第一步就是要勾画出特定国家的主要援助方、 贷款方和非政府组织 领 的活动。 这项活动最好由这个国家自己来做, 然后以此为基础来评价援助的协调, 并以追 加方式确定各发展组织的贡献。 5郾 降低项目层面评价的成本, 并增加项目评价的收益。 说来说去, 大多数评价资源 还是用在项目评价上。 在最后一笔资金支付 1 ~ 3 年后, 相关类别项目的评价应该得到更 多应用。 可以从这些评价中寻找成效模式, 并分析是否存在对成功至为关键的参与者特征 或情景变量。 6郾 建设评价能力 。 人们对结果衡量越来越重视导致对发展 评 价 专 家 的 需 求 上 升 。 《 巴黎宣言 》 和 《 阿克拉协定 》 使人们开始关注发展中国家的能力建设需求 , 而且很 摇385 多援助方增加了援 助 资 金 , 但 是 评 价 能 力 建 设 还 需 要 长 期 的 努 力 。 援 助 方 也 应 注 意 增强发展中国家各部 委 和 其 他 机 构 对 评 价 人 员 的 需 求 , 这 方 面 需 求 的 激 发 是 不 能 忽 视的 。 多边发展银行、 双边发展银行和其他援助组织必须要解决自身员工评价能力的建设问 题。 他们现有的一些比较敬业的评价职员通常是从内部的项目评价官员提拔而来。 这些职 员通常缺少评价方面的坚实背景。 他们有些是具有其他背景的经济学家或研究人员, 尽管 受过通行的社会科学研究方法和经济计量学方面的培训, 但是可能缺少定性方法方面的 培训。 为了保证计划的质量, 对培训活动和其他评价能力建设活动, 也需要进行评价。 当需 求超过供应的时候, 就会出现计划质量下降的问题。 对于声称具备评价培训专业能力的人 或机构, 需要对其进行资质认证。 7郾 使用评价知识。 如果完美的评价发现不能用于指导下一个干预活动, 那么前面的 所有步骤就都失去了意义。 评价不只是为了问责, 也是为了从中学习。 一直以来这都是评 价人员信奉的箴言。 我们已经比较熟悉如何在发展评价的环境中提高评价应用的可能性。 强调把评价知识转化成行动已不是什么新鲜事了。 展望未来 詪詪詪詪詪詪 我们没有能够完全预见未来的水晶球。 但是我们可以了解发展评价的未来趋势和可能 面临的挑战。 本书的结尾部分就是对未来的思考。 首先而且最重要的是, 我们看到几乎每个发展中国家的监测评价工作都在不断发展。 目前一个有意思的现象就是组团到发展中国家考察, 更多地了解这些国家的监测评估体 通向结果之路: 有效发展评价的设计与实施 llll llllllll 系。 考察团的成员有的来自发展中国家, 也有的来自发达国家。 我们相信类似的活动不仅 会出现在政府的各部委, 而且会出现在议会、 基金会、 教堂、 协会、 其他志愿者组织以及 私营部门。 对结果问责的需求仍旧存在。 所面临的主要威胁是, 过于繁杂的监测指标体系中充斥 了太多的数据, 其结果是评价的努力无法持续。 引 领 内部和外部评价 发展评价是二十世纪九十年代美国评价协会关于定量和定性方法大讨论的全过程。 事 实上, 混合方法已经成为发展组织常用的方法。 发展评价面临的更大问题是, 到底是要进行内部评价还是外部评价, 而且从组织结构 安排的角度而言, 应该将评价机构放在哪里? 尽管监测系统和监测评价人员被明确地视作 组织的一部分, 但是对评价的看法却往往并不是这样。 对于那些从零开始而不是已具备某 些评价知识的人来说, 这是个尤为重要的问题。 发展评价会不会成为内部活动, 成为管理结果导向监测系统的人员的职能? 或者会越 摇386 来越像欧盟委员会所采取的策略那样, 评价活动会被外包出去? 现在人们对结果的需求越来越强劲, 因此我们预测, 发展评价不仅在组织内部管理监 测评价的部门会有较大发展, 而且请外部咨询师和公司进行评价的要求也会更加强烈。 我 们也预见, 要求进行独立评价的呼声和必要性会不断增长。 由外部单位进行的评价并不一定是独立评价 。 如果评价是由外部单位实施 , 但是却 由计划管理方资助并监测 , 那么这就是内部评价 , 不应被视为独立评价 。 独立评价活 动 、 独立评价单位和独立评价人员必须满足独立原则要求 , 如由多边开发银行评价合 作组 ( 见第一章 ) 所制定的那些原则 , 独立性不是看实施评价的单位有着怎样的声誉 或道德准则 。 在发展组织内部可以设立一个独立的评价部门 ( 例如世界银行的独立评价局 ) 。 这个 部门可以是议会或其他立法组织的一部分。 但是, 不论放在哪里, 都应使用如第一章所展 示的评分表来正式评估这个部门是否达到独立原则的要求。 专栏 15郾 1摇 用于分析政府监测评价体系的几个关键问题 1郾 现有监测评价体系的起源: 监测评价支持者们的作用、 使监测评价信息得到重 视的重大事件 ( 例如, 以改革为导向的政府的当选、 财政危机) 。 2郾 负责监测评价体系管理和评价活动规划的部委或机构; 监测评价体系主要各方 的角色和责任 ( 财政部、 规划部、 总统办公室、 其他部委、 立法部门) ; 利益相关者认 真对待监测评价的措施 ( 强化对监测评价信息的需求 ) ; 在国家和部门层面之间可能存 在几个互不协调的监测评价体系; 联邦 / 州 / 地方问题对监测评价体系的重要性。 第十五章摇 展望未来 llll llllllll 摇 摇 3郾 公共部门环境易于还是难于让管理者达到工作高标准并对其绩效负责。 对政府 绩效的进一步重视会有利于公共部门的各项改革, 例如扶贫政策、 绩效预算、 加强政策 分析技能、 政府部门绩效文化的创建、 服务质量 ( 例如客户服务标准 ) 的改善、 政府 分权、 更广泛的民众参与和反腐政策。 4郾 监测评价体系有力地支持公共部门管理主要方面的工作, 包括预算决策的制定、 引 国家或部门规划管理和责任关系 ( 对财政部、 总统办公室、 议会、 行业部委、 民众) 。 领 5郾 监测评价信息在预算过程不同阶段的作用 ( 政策咨询和规划、 预算决策的制定、 绩效评估和报告) ; 行业部委的监测评价工作与评价信息在预算过程中的应用可能缺乏 协调; 预算过程与国家规划之间是否脱节; 在预算制定中加强监测评价作用的机会。 6郾 其他部门 ( 例如行业部委) 使用主要利益相关者 ( 例如财政部 ) 委托的监测评 价信息的程度; 无法应用的原因认定 ( 如果有的话) 、 不同利益相关者使用程度的证据 ( 如诊断评估或调查) ; 对政府有极大影响的主要评价活动的例子。 7郾 评价监测体系强调的工具类型 ( 一般绩效指标、 快速评估或评价、 绩效审计、 严格的深层影响评价) ; 各种类似监测评价的规模和成本、 设定评价优先顺序的方式。 ( 评价活动是关注于 “ 问题计划 冶 、 试点计划、 高支出计划还是高可视性计划? 或者, 摇387 是否基于系统的研究来回答计划的有效性问题?) 8郾 收集绩效信息和执行评价活动的责任由谁承担 ( 部委自己、 学术部门或者咨询 公司) ; 数据质量、 可靠性或者以往评价活动的质量问题; 当地自己进行监测评价的优 缺点; 主要的能力制约和政府的能力建设侧重点。 9郾 援助方近几年对监测评价的支持程度。 在整个政府、 部门或机构层面支持监测 评价的援助方项目 ( 提供技术援助、 其他能力建设, 对严格的影响评价等主要评价活 动的资助) 。 10郾 对监测评价体系优缺点的整体结论, 包括在政府更替时该体系的可持续性。 评 价体系对援助方的资助或其他帮助的依赖性。 目前制定的用于未来加强监测评价体系的 计划。 资料来源: 世界银行 2006 评价能力的发展 对监测评价不断增长的需求必须与评价能力的建设同步进行。 从长远来看, 评价部门 只依靠几个外部专家是不够的。 一个国家内各层次的评价能力都必须在总体上得到发展。 我们预计, 发展中国家的评价能力建设会不断得到发展。 为加强发展中国家评价能力建设, 需要采取很多措施来建立和强化监测评价体系, 主 要关注点在国家和部门层面, 涵盖很多概念和工具, 包括记录发展有效性、 明确项目与计 划的目标和结果链、 绩效信息收集 ( 包括基本数据的收集 ) 、 计划和项目的监测评价、 受 益人评估调查、 部门评估和绩效审计等方面的能力 ( Kusek and Rist 2004, Mackay 2007) 。 评价能力开发能够帮助各国确定从哪里着手开始建设评价能力 ( 专栏 15郾 1) 。 在这方 通向结果之路: 有效发展评价的设计与实施 llll llllllll 面, 已经开发出了很多分析诊断工具 ( 可参见世界银行 1999) 。 评价能力的建设能够保证评价发现对一个国家有四个方面的益处: 誗 在规划、 决策和安排优先次序尤其是预算的安排方面帮助分配政府资源 誗 帮助了解部门、 计划和项目层面各种活动的进展情况, 从而能够学习经验和改善 今后的活动 引 誗 让管理者对其所管理活动的绩效承担起相应责任, 从而政府也能对其绩效负责。 领 这个责任的内涵就是要认识到, 经济治理和稳健的公共部门是国家竞争力的核心。 市场会对能够有效管理和审查公共支出的政府给予回报。 在这方面, 评价为政府 提供了一个工具 誗 证明发展活动是否成功。 对一些过去的发展努力比较成功的国家, 国际发展援助 机构向他们提供援助面临很大压力。 这些国家要吸引外部资源, 能够证明其发展 有效性就变得越来越重要。 此外, 发展援助机构越来越重视政府的整体发展方式, 也提高了对全国绩效的重视程度 想要建设评价能力, 就需要让决策者们相信评价有助于政策制定; 评价能力的建设不 摇388 能强加给政府。 这就需要建立一个能够定期收集数据、 扩散结果和使用结果的信息基础设 施。 建立有效的评价体系通常需要很长时间, 因为这需要以政治改革和机构改革为条件 ( Schaumberg鄄M俟ller 1996) 。 例如, 美国用了 10 年时间才开始完全实施 《 政府绩效和结果 法案》 及其所规定的监测评价体系 ( Kusek 和 Rist 2004) 。 各类机构需要相信, 评价并不 是某种控制体系, 而是用于改善绩效和决策的工具。 怎样才能推动绩效能力建设呢? 有哪些激励措施和障碍呢? Toulemonde (1999) 讨论 了同时使用激励措施 ( 胡萝卜) 和根据需求进行评估 ( 大棒 ) 的重要性。 他认为第一个 激励措施就是预算。 评价活动要花费资金, 没有资金就不可能进行评价能力建设。 第二个 激励措施就是让那些想成为评价人员的人们有良好的职业发展途径。 Toulemonde 也提出了几个通过限制性措施创造评价需求的办法。 第一个就是强制评 价。 只要组织被要求进行评价, 他们就必须有权利提问, 必须能够获取所有的现场数据, 而且必须利用评价的结果。 Toulemonde 认为, “ 法律和规则本身没有任何意义冶 (1999, P郾 159) 。 法律和规则的 推行必须借助权力。 他还讨论了把激励措施和限制措施融合在一起的意义。 发展评价人员的职业化 任何人都可以打算成为发展评价人员。 但是, 目前还没有通过培训或实践应达成的发 展评价者能力标准, 也没有认证程序。 很多人没有经过正式培训, 而是在自己的岗位上不 断学习。 管理或指导评价部门也不需要任何特别的证书: 评价方面的知识和经验并不是从 事这类工作的前提条件。 经年累久的在职学习不应该被否定, 没有经过正式培训的管理人员也可以逐渐胜任自 己的岗位。 但是认证方面的缺乏却让发展评价服务的采购方难以认定对方的专业性。 随着发展评价需求的不断增长, 我们相信, 作为应对评价认识的不足和实施不到位的 第十五章摇 展望未来 llll llllllll 举措, 人们要求评价实现职业化的呼声可能会不断提高。 国际发展评价协会在全球发展评 价职业化道路上正在起着越来越重要的作用。 专栏 15郾 2摇 计划评价人员的基本能力 1郾 职业实践 引 1郾 1摇 应用职业评价标准 领 1郾 2摇 遵守职业道德, 在评价活动中要努力做到正直和诚实 1郾 3摇 向潜在客户展示个人的评价方法和技能 1郾 4摇 尊重客户、 受访人员、 计划参与者和其他利益相关者 1郾 5摇 在评价活动中要考虑一般大众的利益 1郾 6摇 促进评价知识库的建设 2郾 系统的调查 2郾 1摇 了解评价基础知识 ( 术语、 概念、 理论、 假设) 2郾 2摇 熟知定量方法 摇389 2郾 3摇 熟知定性方法 2郾 4摇 熟知混合方法 2郾 5摇 进行文献综述 2郾 6摇 明确计划理论 2郾 7摇 拟定评价问题 2郾 8摇 制定评价设计 2郾 9摇 确定数据来源 2郾 10摇 收集数据 2郾 11摇 评估数据有效性 2郾 12摇 评估数据可靠性 2郾 13摇 分析数据 2郾 14摇 解释数据 2郾 15摇 做出判断 2郾 16摇 制定建议措施 2郾 17摇 为评价中的决策提供理论基础 2郾 18摇 报告评价程序和结果 2郾 19摇 记录评价的优点和不足 2郾 20摇 进行广义评价 3郾 情况分析 3郾 1摇 描述计划 3郾 2摇 确定计划的可评价性 3郾 3摇 明确利益相关者的利益 通向结果之路: 有效发展评价的设计与实施 llll llllllll 摇 摇 3郾 4摇 满足既定使用者的信息需求 3郾 5摇 解决冲突 3郾 6摇 分析评价的组织背景 3郾 7摇 分析评价的政治考量 3郾 8摇 注重评价的应用问题 引 领 3郾 9摇 注重组织的变化问题 3郾 10摇 尊重评价地点和客户的独特性 3郾 11摇 乐于接受他人的观点 3郾 12摇 必要时调整研究 4郾 项目管理 4郾 1 对招标书做出回应 4郾 2摇 在评价开始前与客户协商 4郾 3摇 撰写正式合同 4郾 4摇 在评价过程中与客户进行沟通 摇390 4郾 5摇 制定评价预算 4郾 6摇 根据信息需要说明成本的合理性 4郾 7摇 确定评价所需的资源, 例如信息、 专家、 人员和工具 4郾 8摇 使用合适的技术 4郾 9摇 监督其他参与评价的人员 4郾 10摇 对其他参与评价的人员进行培训 4郾 11摇 进行连贯的评价活动 4郾 12摇 及时报告工作进展 5郾 反思实践 5郾 1摇 意识到自己是评价人员 ( 知识、 技能、 性格) 5郾 2摇 反思个人的评价活动 ( 可以发展的能力和方面) 5郾 3摇 谋求评价方面的职业发展 5郾 4摇 谋求相关专业领域的职业发展 5郾 5摇 建立能够提升评价实践的职业关系 6郾 人际交往能力 6郾 1摇 使用书面沟通技巧 6郾 2摇 使用口头 / 倾听沟通技巧 6郾 3摇 使用协商技巧 6郾 4摇 使用冲突解决技巧 6郾 5摇 促进建设性的人际交往 ( 团队工作、 团队协助) 6郾 6摇 展现跨文化交流能力 资料来源: Stevahn 等, 2005 第十五章摇 展望未来 llll llllllll 打造核心能力 是否应该如专栏 15郾 2 所列示的那样建立评价人员核心能力, 这是涉及发展评价内外 部的一个重要问题。 美国评价协会 ( AEA) 经过初步调查后决定不设立这些能力标准。 与之不同, 加拿大评价协会 ( CES) 正在探讨 “ 专业职称 冶 这种形式的认证, 同时他们 也在努力加强评价方面的研究生培养。 新西兰评价协会目前正在考虑制定职业能力标准。 引 加拿大财政部要求对受加拿大各政府机构委托的评价单位负责人进行认证。 加拿大财 领 政部秘书处发布了一项名为 “ 增进联邦政府评价职业化的可选方法调查 冶 的研究报告 ( 加拿大财政部秘书处 2005) , 并公布了其研究结果。 国际培训绩效及教学标准委员会为 在组织环境中进行评价的内部员工和外部咨询师制定了能力标准 ( 本章后附有该网站的 链接) 。 CES 的职称项目认为应该把所接受的教育和经验综合起来作为认证的基础。 该项目认 为证书就相当于要求进行考试。 因此, 它选择了一个非考试的认证办法。 实施认证需要做 的很多工作目前正在进行当中, 包括设定认证条件、 对现有从业者的培训机制、 建立认证 委员会和争议解决机制等。 预计在 2009 年会启动一个示范项目 ( AEA 2008) 。 要了解该 摇391 方面的更多信息, 请参见本章末尾所附的 CES 网站链接。 对从事发展评价的人员有没有什么标准? 国际发展评价协会已经开始探索这个有关发 展评价人员的问题。 加拿大评价协会进行的大量努力和基础工作为此开了一个好头。 联合 国评价局的评价能力建设小组为各层次评价人员制定了核心能力标准, 并于 2008 年开始 施行。 这一工作对国际发展评价协会的工作或许也很有帮助 ( 参见本章末尾所附的 UNEG 的网站链接) 。 有些人认为, 评价领域永远都不会达成一套统一的评价人员能力标准, 相反, 每个组 织或单位都会根据具体业务、 文化和传统为评价人员制定其能力标准。 我们预计, 在发展 评价方面会有一套全球的核心能力标准。 各单位组织可能会根据其具体业务提出额外的能 力标准, 而且会根据需求对全球核心能力标准做出适当调整, 但是大家会期望核心能力标 准能够得到遵守。 另一个争议认为, 只有超人才能够达到各种情况下所有评价活动所需的能力标准。 当 然, 对于希望成为评价专家的人来说, 还会有其他一些要求, 例如社会和环境评价或类似 方面的专业能力。 但是, 正如脑外科医生会接受普通内科方面的训练而内科医生却不会得 到脑外科方面的训练一样, 核心才是最主要的。 发展评价人员的认证 是不是应该有一个能够让发展评价人员获得全球公认技能证书的程序? 这种认证对审 计人员来说当然非常有用, 例如注册会计师的职称就得到了世界各国的认可和尊重。 国际 发展评价协会最近对其成员的调查发现, 人们非常支持通过能力提升并最终通过认证来不 断提高该行业的职业化程度 ( Morra Imas 2009) 。 对评价人员的认证为评价服务的使用者提供了一个保护机制, 可以帮助他们辨别出不 合格的评价工作和持有伪造资质的从业者。 这也是一个可以将评价和评价从业人员与审计 通向结果之路: 有效发展评价的设计与实施 llll llllllll 和审计人员区分开来的机制。 人们的担心主要是害怕一旦建立这样的机制会造成准入的障 碍, 尤其是在需求超过供给, 且在职学习是这个行业传统准入办法的环境中, 这种担心就 更多。 在评价质量和评价能力受到关注, 尤其是外部需求强劲的情况下, 核心能力标准有可 能得到大力推动。 我们认为, 如果发展评价人员的核心能力标准一旦制定, 那么讨论认证 引 问题也就为期不远。 领 最后, 发展评价的最大挑战也许就是学会为干预活动设定现实的期望, 在没有民主传 统的国家建立评价的公共需求、 平衡结果导向的评价和参与式评价, 并在所有组织内促进 有关发展评价的思考。 我们期待着迎接这些挑战。 练习 评价能力的建设 政府要求你 ( 或你的团队) 在你的国家制定一个提升评价能力的战略计划。 使用下 面的问题来引导思路, 准备一份 1 ~ 2 页的战略计划。 1郾 在未来几年, 需要解决的最困难的二三个发展问题是什么? 摇392 2郾 据你所知, 现在有哪些评价能力 ( 评价人员、 技能、 资源、 基础设施) ? 3郾 基于当前和未来的发展需要和所面临的问题, 以及你对现有评价能力的评估, 列 出能够改善你们国家评价能力的六个最重要的举措。 4郾 在你们国家, 是什么在推动着对监测评价体系的需求? 5郾 在你们的政府中, 哪个部门对计划的有效 ( 或效率) 完成负责? 6郾 政府部门有没有一个法定的 ( 通过法令或授权) 战略或组织负责跟踪发展目标? 7郾 在你们国家, 哪些部门拥有设计和使用监测评价体系的必要技能? 这种能力对监 测评价在你们国家的运用起到了什么作用? 用至关重要、 十分重要或重要标明你们国家评价能力建设的重要性。 参考书目 1郾 AEA ( American Evaluation Association) . 2008郾 “ Professional Designation for Evaluators in Canada: Where Are We Now ?冶 Session at the annual conference of the American Evaluation Association, Denver, CO, November 5 - 8郾 2郾 Beywl, W郾 , and K郾 Harich郾 2008郾 “ University鄄Based Continuing Education in Evalua鄄 tion: The Baseline in Europe郾 冶 Evaluation 13 ( 1 ) : 121 - 34郾 3郾 Boyle, Richard郾 1999郾 “ Professionalizing the Evaluation Function: Human Resource De鄄 velopment and the Building of Evaluation Capacity郾 冶 In Building Effective Evaluation Capacity: Lessons from Practice, eds郾 Richard Boyle and Donald Lemaire, 135 - 51郾 New Brunswick, NJ: Transaction Publishers郾 4郾 Boyle, Richard, and Donald Lemaire, eds郾 1999郾 Building Effective Evaluation Capaci鄄 ty: Lessons from Practice郾 New Brunswick, NJ: Transaction Publishers郾 5郾 Dewey, J郾 D郾 , B郾 E郾 Montrosse, D郾 C郾 Schroter, C郾 D郾 Sullins, and J郾 R郾 Mattox II郾 第十五章摇 展望未来 llll llllllll 2008郾 “ Evaluator Competencies: What蒺s Taught versus What蒺s Sought郾 冶 American Journal of Evaluation 29 ( 3 ) : 268 - 87郾 6郾 Ghere, G郾 , J郾 A郾 King, L郾 Stevahn, and J郾 Minnema郾 2006郾 “ A Professional Develop鄄 ment Unit for Reflecting on Program Evaluator Competencies郾 冶 American Journal of Evaluation, 27 ( 1 ) : 108 - 23郾 7郾 Kusek, Jody Zall, and Ray C郾 Rist郾 2004郾 Ten Steps to a Results鄄Based Monitoring and E鄄 引 valuation System郾 World Bank, Washington, DC郾 http: / / www郾 oecd郾 org / dataoecd / 23 / 领 27 / 35281194郾 pdf郾 8郾 Mackay, Keith郾 2007郾 How to Build M&E Systems to Support Better Government郾 World Bank, Independent Evaluation Group, Washington, DC郾 http: / / www郾 worldbank郾 org / ieg / ecd / docs / How_to_buil d_ME_gov郾 pdf郾 9郾 McDonald, K郾 E郾 , and S郾 E郾 Myrick郾 2008郾 “ Principles, Promises, and a Personal Plea: What Is an Evaluator to Do?冶 American Journal of Evaluation 29 ( 3 ) : 343 – 51郾 10郾 Morra Imas, Linda郾 2009郾 “ The Competencies and Credentials Debate in Evaluation: What Is It all About?冶 Presentation to the International Development Evaluation Association蒺s 摇393 Global Assembly, Johannesburg, March郾 11郾 Porteous, Nancy L郾 , Barbara J郾 Sheldrick, and Paula J郾 Stewart郾 1999郾 “ Enhancing Managers蒺 Evaluation Capacity: A Case Study for Ontario Public Heath郾 冶 Canadian Journal of Program Evaluation ( Special Issue) : 137 - 54郾 12郾 Rist, Ray C郾 , and Nicoletta Stame, eds郾 2006郾 From Studies to Streams: Managing Evaluative Systems郾 Piscataway, NJ: Transaction Publishers郾 13郾 Schaumberg鄄M俟ller, Henrik郾 1996郾 Evaluation Capacity Building: Donor Support and Experiences郾 Copenhagen: Organisation for Economic Co鄄operation and Development郾 http: / / www郾 oecd郾 org / dataoecd / 20 / 52 / 16546669郾 pdf郾 14郾 Sonnichsen, Richard C郾 1999郾 “ Building Evaluation Capacity within Organizations郾 冶 In Building Effective Evaluation Capacity: Lessons from Practice, eds郾 Richard Boyle and Donald Le鄄 maire, 53 - 73郾 New Brunswick, NJ: Transaction Publishers郾 15郾 Stevahn, Laurie, Jean A郾 King, Gail Ghere, and Jane Minnema郾 2005郾 “ Establishing Essential Competencies for Program Evaluators郾 冶 American Journal of Evaluation 26 ( 1 ) : 43 - 59郾 16郾 Toulemonde, Jacques郾 1999郾 “ Incentives, Constraints, and Culture鄄Building as Instru鄄 ments for Development of Evaluation Demand郾 冶 In Building Effective Evaluation Capacity: Lessons from Practice, eds郾 Richard Boyle and Donald Lemaire, 153 - 68郾 New Brunswick, NJ: Transac鄄 tion Publishers郾 17郾 Treasury of Board of Canada Secretariat郾 2005郾 Improving the Professionalism of Evalua鄄 tion郾 Final report郾 http: / / www郾 tbs鄄sct郾 gc郾 ca / eval / dev / Professionalism / profession_e郾 asp郾 18郾 World Bank郾 1999郾 Evaluation Capacity Development: A Diagnostic Guide and Action Framework郾 ECD Working Paper 6 , Operations Evaluation Department, Washington, DC郾 通向结果之路: 有效发展评价的设计与实施 llll llllllll ———郾 2006郾 Diagnostic Guides郾 Washington, DC郾 http: / / www郾 worldbank郾 org / ieg / ecd / diagnostic_guides郾 html郾 网址 1郾 Campbell, Patricia B郾 , and Beatriz Chu Clewell郾 2008郾 Building Evaluation Capacity: 引 Designing a Cross鄄Project Evaluation郾 GuideI郾 Urban Institute, Washington, DC郾 http: / / 领 www郾 uquebec郾 ca / observgo / fichiers / 43799鄄GRA鄄la郾 pdf郾 ———郾 2008郾 Building Evaluation Capacity: Collecting and Using Data in Cross鄄Project Eval鄄 uations郾 Guide II郾 Urban Institute, Washington, DC郾 http: / / www郾 uquebec郾 ca / observgo / fich鄄 iers / 42773鄄GRA鄄lb郾 pdf郾 2郾 Canadian Evaluation Society郾 www郾 evaluationcanada郾 ca郾 ———郾 Professional Designation Project郾 http: / / www郾 evaluationcanada郾 ca / site郾 cgi? s = 5&ss = 6&_lang = EN郾 3郾 UNEG ( United Nations Evaluation Group ) . 2004a郾 Evaluation Capacity Development: A 摇394 Strategy Paper郾 http: / / cfapp1鄄docs鄄public郾 undp郾 org / eo / evaldocs1 / uneg _ 2006 / eo _ doc _ 3500 11048. doc郾 ———郾 2004b郾 Evaluation Capacity Development Task Force: Highlights郾 http: / / cfapp1鄄 docs鄄public郾 undp郾 org / eo / evaldocs1 / uneg_2006 / eo_doc_562044935郾 doc郾 4郾 Weiss, Carol郾 Evaluating Capacity Development: Experiences from Research and Develop鄄 ment Organizations around the World郾 http: / / www郾 agricta郾 org / pubs / isnar2 / ECDbood ( H鄄 ch7 ) . pdf郾 附录一 OECD DAC 发展评价网络 评估发展合作关键规范和标准概述 目摇 录 引言 ……………………………………………………………………………………… 395 定义评价 ………………………………………………………………………………… 396 评价规范和标准的制定 ………………………………………………………………… 396 第一部分: DAC 发展援助评价准则 ………………………………………………… 397 第二部分: 评价标准 …………………………………………………………………… 399 第三部分: 评价体系及其使用: 同行评审和评估工具 ……………………………… 401 第四部分: DAC 评价质量标准 ……………………………………………………… 402 第五部分: 指导性文件 ………………………………………………………………… 406 摇 摇 DAC 发展评价网络是发展援助委员会 ( DAC) 的一个附属机构, 旨在通过支持有 力的、 信息充分的、 独立的评价活动来提升国际发展项目的成效。 该网络是一个很独特 的机构, 由 30 个双边援助国和多边发展机构组成, 成员包括澳大利亚、 奥地利、 比利 时、 加拿大、 丹麦、 欧盟委员会、 芬兰、 法国、 德国、 希腊、 爱尔兰、 意大利、 日本、 卢森堡、 荷兰、 新西兰、 挪威、 葡萄牙、 西班牙、 瑞典、 瑞士、 英国、 美国、 世界银 行、 亚洲开发银行、 非洲开发银行、 美国开发银行、 欧洲复兴开发银行、 联合国开发计 划署以及国际货币基金组织。 引摇 摇 言 DAC 发展评价网络是一个很独特的国际论坛, 汇集了来自 OECD 成员国和多边发展 机构的发展合作部门的评价经理和专家。 它的目标是支持有力的、 信息充分的、 独立的评 价活动以提升国际发展项目成效。 该网络是 OECD 发展援助委员会的一个附属机构。 该网络的一个重要使命就是制定国际统一的发展评价规范和标准。 它影响评价政策和 实践, 并按照 《 巴黎援助成效宣言 》 的承诺形成一致的评价方法。 规范和标准是在经验 的基础上制定的, 并且随着时间不断演变, 以适应不断变化的援助环境。 规范和标准是国 通向结果之路: 有效发展评价的设计与实施 llll llllllll 际参考的基础, 指导人们通过开展高质量的评价来提高发展成效。 本文总结的规范和标准, 应有甄别地应用, 并根据每个评价活动的目的、 目标和背景 做适当调整。 鉴于该总结报告不是一份完整的评价手册, 读者可自行到 DAC 发展评价网 络的网站上阅读全文: www郾 oecd郾 org / dac / evaluationnetwork郾 摇 摇 定义评价 评价是对一个正在进行的或者已经完成的项目、 计划或政策及其设计、 实施和结果 的客观、 系统的评估。 评价的目标是确定目标的相关程度和完成情况以及发展的效率、 效果、 影响和可持 续性。 评价应提供可信并且实用的信息, 使受援国和援助国在进行决策时, 有相关经验 教训可作参考。 评价也是决定一个活动、 政策或计划的价值或重要性的过程。 摇396 这些重要定义收录在 《 评价与结果导向管理的关键术语表 》 中。 这个术语表是一个 实用的能力提升工具, 它能增进读者对评价基本概念的了解。 DAC 术语表有阿拉伯语、 汉语、 荷兰语、 英语、 法语、 意大利语、 日语、 斯瓦希里语、 葡萄牙语、 俄语、 西班牙 语、 瑞典语和土耳其语版本可供参考。 评价规范和标准的制定 《 发展援助评价准则》 ( 概要详见本文第一部分) 由 OECD 发展援助委员会于 1991 年 采用, 是评价网络评价方法的核心。 这些准则重点关注评价体系在发展机构内的管理和制 度安排。 1998 年对评价准则进行评审时, 大多数 DAC 成员反馈称, 他们在实施核心准则方面 已取得进展, 并且认为这些准则的实用性和相关性强。 这些基础评价准则不仅是发展评价 的一个关键 基 准, 而 且 是 DAC 同 行 评 审 的 基 础, 这 个 评 审 会 是 唯 一 国 际 公 认 的 评 价 OECD DAC 成员国发展合作项目绩效的机制。 尽管如此, 评审会还重点讨论了需要进行调 整或者出具更具体指导方针的地方, 为进一步发展完善做好了铺垫。 《 DAC 发展援助评价标准》 ( 详见本文第二部分 ) 是基于评价准则制定的, 它作为应 用措施的总指南, 对开展发展评价工作非常实用。 2006 年基于对开展已八年的同行评审, 对成员国评价政策和实践的全面分析最后形 成了 《 评价体系及其使用: 同行评审和评估工具 》 ( 详见本文第三部分 ) 。 该文件提出了 在发展机构内建立强大评价职能的关键要素, 并被用于推动评价准则的实施。 在制定规范性框架方面的最新进展是对 评价质量标准 的定义 ( 其试行方案见本文第 四部分) 。 这些标准给出了对评价流程和产品的指南。 在三年试行期结束后, 该标准将于 2009—2010 年期间最终定稿。 附录一摇 OECD DAC 发展评价网络评估发展合作关键规范和标准概述 llll llllllll 除了这些总体规范和标准, OECD DAC 成员认为, 发展评价的某些领域还需要具体指 南。 于是在评价经验以及上述文本的基础上, 还针对多个领域制定了具体的指南。 本文第 五部分介绍了一些最重要的指南文件。 第一部分: DAC 发展援助评价准则 评价准则于 1991 年在 OECD DAC 高层会议上通过, 于 1992 年作为 《 DAC 有效援助 准则》 的一部分发表。 原文件的重要内容摘录如下。 1郾 核心内容 该准则对援助评价在援助管理过程中的角色提供总体指导, 中心思想如下: 誗 援助机构应有一个评价政策, 该政策应对指导方针和方法有明确规定, 应正确界 定对评价政策的作用、 责任及在机构援助框架中的地位 誗 评价过程应不偏不倚, 应独立于决策过程和发展援助的实施与管理 誗 评价过程必须尽量公开, 结果可供人广泛使用 誗 评价要被使用才能有用。 对政策制定者和操作人员的反馈都是必需的 摇397 誗 在实施援助评价时, 与受援国的合作伙伴关系以及援助方合作都是必要的; 这种 合作是受援国机构建设和援助活动协调的一个重要方面, 还可减轻对受援国的行 政负担 誗 援助评价及其评价要求必须从一开始就成为援助规划中不可分割的一部分。 明确 一项援助活动要达到哪些目标, 是客观评价的一个必要前提 ( 第 4 段) 2郾 评价目的 评价的主要目的是: 誗 通过对经验教训的反馈来改进未来的援助政策、 计划和项目 誗 提供问责基础, 包括向公众提供信息 无论是对成功还是对失败的评价, 都可以获得宝贵信息, 而且如果信息反馈得当, 就 可以改进未来的援助计划和项目。 ( 第 6 段) 3郾 公正性和独立性 评价过程应不偏不倚, 应独立于决策过程和发展援助的实施与管理。 ( 第 11 段) 公正性能确保评价具有可信度, 避免在评价发现、 分析和结论上产生偏见。 独立性使 评价更合理, 减少了因政策制定者和管理人员只负责对自身活动的评价而产生的利益冲 突。 ( 第 12 段) 要确保评价过程公正独立, 最好将评价职能从负责规划和管理发展援助的业务管理部 门分离出来。 可建立一个中央管理部门, 直接向负责发展援助的部长、 机构负责人、 机构 董事会或理事会汇报。 如果有一些评价职责附属于业务管理部门, 那么它们应该向中央管 理部门汇报, 或者向高层或负责计划决策的管理委员会汇报。 在这种情况下, 应尽量避免 对评价过程和结果做出妥协和让步。 不管使用何种方法, 组织上的安排和程序应为评价发 现应用于计划和决策提供便利。 ( 第 16 段) 通向结果之路: 有效发展评价的设计与实施 llll llllllll 摇 摇 4郾 可信度 评价的可信度取决于评价人员的专业水平和独立性以及评价过程的透明程度。 可信度 要求评价既汇报成功也要汇报失败。 受援国应全力参与评价, 以提高评价可信度和评价投 入。 ( 第 18 段) 评价过程的透明对评价可信度和合理性至关重要…… ( 第 20 段) 5郾 实用性 评价发现要能影响决策, 就必须相关而且实用, 并以清楚简洁的方式呈现。 评价发现 应该充分反映参与发展合作各方的不同利益和需求。 容易获得也是实用性的一个重要方 面…… ( 第 21 段) 评价必须及时, 即在决策需要时可以用得上。 这就是说, 评价在项目或计划实施的各 个阶段都发挥着重要作用, 因此不应仅仅当做一项事后的工作来开展。 监测正在进行的活 动是项目实施人员的责任。 独立评价人员在实施过程中提供的评价是日常监测的一个重要 补充。 ( 第 22 段) 6郾 援助方和受援国的参与 只要情况允许, 援助方和受援国都应参与评价过程。 由于评价发现与双方都相关, 评 摇398 价任务大纲应涵盖双方都关心的问题, 而且评价应反映他们对相关活动的有效性和影响的 观点。 评价过程的公正性和独立性准则应对受援国和援助方同等适用。 参与和公正性能提 高评价的质量, 反过来也对评价的长期可持续性有重要意义, 因为当援助方撤离之后, 受 援国将承担所有责任。 ( 第 23 段) 只要合适, 受影响的团体的观点和意见也应纳入评价之中。 ( 第 24 段) 让所有相关方都参与评价, 能提供一种探索式的学习机会, 并能提高受援国的评价技 巧和能力, 这也是应通过培训以及机构和管理发展方面的其他支持工作推动的重要目标。 ( 第 25 段) 7郾 援助方合作 援助方之间的合作对于相互学习和避免重复劳动非常重要。 应鼓励援助方之间的协 作, 以共同研究评价方法、 分享报告和信息, 并提高评价发现的可获取性。 应推动联合援 助评价, 以增进对彼此的程序和方法的了解, 并减轻受援国的行政负担。 为协助联合评价 的筹划, 援助方之间应在实际实施之前系统地交换评价计划。 ( 第 26 段) 8郾 评价规划 负责对发展援助活动进行评价的机构应该制定一个总体计划。 在细化这个计划时, 应 对评价的各种活动合理分类, 然后设定评价的优先顺序, 并起草一个时间表。 ( 第 27 段) 还未做这项工作的援助机构应细化评价过程的指南和 / 或标准, 为评价的实施和汇报 提供指导并设定最低要求。 ( 第 31 段) 9郾 评价的设计和实施 必须筹划每项评价并起草任务大纲, 以: 誗 设定评价的目的和范围, 包括确定评价发现的受众 誗 描述评价的方法 誗 确定项目 / 计划绩效评估的标准 附录一摇 OECD DAC 发展评价网络评估发展合作关键规范和标准概述 llll llllllll 誗 决定完成评价所需的资源和时间 ( 第 32 段) 确定评价要考察哪些问题———通常被称为 “ 评价问题 冶 ———非常重要。 这些问题会 为评价过程提供一个便于管理的框架, 为得出系统性的结论和建议提供基础 …… ( 第 35 段) 10郾 成果散发和反馈 评价报告应意思明确, 尽可能不带专业术语, 应包括以下几个部分: 摘要、 对要评价 的活动的简要描述、 对评价方法的描述、 主要发现、 经验教训、 结论和建议 ( 可与报告 分开) 。 ( 第 39 段) 反馈是评价过程的一个重要部分, 因为它能将过去和未来的活动联系起来。 为确保评 价结果能用于未来的政策和计划制定, 就必须建立一个相关各方都参与的反馈机制。 这样 的机制可以体现为评价委员会、 研讨会、 自动化系统、 汇报和后续步骤等措施。 建立网络 和内部沟通等非正规途径也有助于想法和信息的传播。 为确保反馈有效, 反馈过程需要得 到人力、 预算等资源以及高层管理者和其他相关方面的支持。 ( 第 42 段) 《 DAC 发展援助评价准则》 评审 摇399 1998 年, 援助评价工作组 ( 即现在的 DAC 发展评价网络 ) 的成员对 《 DAC 发展援 助评价准则》 的应用经验进行了评审, 目的是检查这些准则的实施和使用情况, 评估它 们的影响、 实用性和相关性, 并提出建议。 下面的摘录展示了实施准则方面在做的工作, 并指出了本文第二至第五部分建议的一些工作的方向。 全文包括详细的评价发现以及评价 人员和使用者的进一步建议。 评审显示, 发展合作中的评价不断发展演变, 关注点也在不断变化。 网络的大多数成 员对他们的中央评价办公室进行了组织再造, 赋予了它们新的角色, 对援助成效给予了重 点关注。 此外, 中央评价办公室也从传统的项目评价转为计划、 行业、 主题和国家援助评 价。 OECD 国家国内对发展援助结果的兴趣日渐增加。 分散式评价得到越来越多的关注, 有迹象表明, 在发展中国家, 评价也开始深入人心。 大多数成员表示他们已基本参照 《 DAC 发展援助评价准则 》 来开展评价活动。 他们 还表示, 这些准则对指导他们的评价工作非常有用而且有针对性, 有些情况下对评价办公 室的重组也很有帮助。 基于以上结果, 评审得出结论认为, 这些准则还是合理有效的。 但是, 还需要制定某些关键领域的指南 ( 如好的做法或最佳实践) , 以对准则进行补 充和强化。 指南应包括: 如何有效处理独立性与发展合作伙伴关系所需的参与性之间的平 衡; 如何改善反馈与沟通; 如何推广评价文化; 如何实施国家计划和联合评价; 如何促进 合作伙伴关系以及如何进行人道主义援助的评价。 第二部分: 评价标准 考虑 《 DAC 发展援助评价准则 》 列出的以下标准, 对发展合作计划和项目的评价是 有帮助的。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 摇 摇 相关性 援助活动与目标群体、 受援国和援助国的优先事项和政策相符的程度。 在评价一个项目或者计划的相关性时, 可以考虑下列问题: 誗 计划的目标在何种程度上仍然有效? 誗 计划的活动和产出与总体目标和子目标的实现一致吗? 誗 计划的活动和产出与预期的影响和效果一致吗? 摇 摇 有效性 对援助活动在何种程度上达到目标的衡量。 在评价一个项目或者计划的有效性时, 可以考虑下列问题: 誗 在何种程度上实现了 / 有可能实现目标? 誗 影响目标实现的主要因素有哪些? 摇 摇 效率 摇400 效率衡量的是产出 ( 定性和定量的 ) 和投入之间的关系。 这是一个经济术语, 用来 评估援助使用最少的资源来达到期望结果的程度。 一般通过与能达到同样产出的其他方法 相比较, 判断是否最有效。 在评价一个项目或者计划的效率时, 可以考虑下列问题: 誗 活动具有成本效益吗? 誗 目标是否按时达到? 誗 与其他替代方法相比, 实施项目或计划的方式是否最有效率? 摇 摇 影响 影响是发展干预措施直接或间接、 有意或无意引起的正面和负面的变化。 它包括这项 活动对当地社会、 经济、 环境以及其他发展指标的主要影响。 考察的对象应既包括有意的 结果, 也包括无意的结果, 还必须包括外部因素的正面和负面影响, 如贸易和金融环境的 变化。 在评价一个项目或者计划的影响时, 可以考虑下列问题: 誗 由于计划或项目的原因, 发生了什么? 誗 活动给受益人带来什么实质改变? 誗 有多少人受到了影响? 摇 摇 可持续性 可持续性考量的是停止资金援助之后活动的效益能否延续。 项目应该在财务上可持 续, 还要在环境上可持续。 在评价一个项目或者计划的可持续性时, 可以考虑下列问题: 誗 在停止资金援助之后, 计划或项目的效益还能延续吗? 附录一摇 OECD DAC 发展评价网络评估发展合作关键规范和标准概述 llll llllllll 誗 导致项目或计划可以持续或不可持续的主要因素是什么? 第三部分: 评价体系及其使用: 同行评审和评估工具 该框架于 2006 年 3 月制定, 是在对开展了八年的同行评审进行全面分析的基础上开 发完成的。 它旨在强化评价职能, 提高发展机构的透明度和问责能力, 是用于改进援助机 构评价工作的一个管理工具。 它还是一个 “ 活冶 工具, 在实践中不断更新。 1郾 评价政策: 评价部门的角色、 责任和目标 誗 相关部委或援助机构有没有评价政策? 誗 该政策规定了评价部门在该机构的援助架构内的角色、 治理结构和地位吗? 誗 评价职能有效涵盖了全部发展合作计划吗? 誗 根据该政策, 如何通过评价促进机构学习和问责能力? 誗 机构如何看待评价和审计之间的关系? 誗 在有两个或两个以上的援助机构的国家, 如何界定和协调各个评价部门的角色? 该评价政策在援助机构内是否得到了充分的了解和贯彻? 摇401 2郾 公正、 透明和独立 誗 评价部门和评价过程在何种程度上能独立于业务部门? 誗 哪些正式因素和实际因素确保 / 限制了评价部门的独立性? 誗 评价部门有哪些报道援助计划及其实施的成功和失败的经验? 誗 评价过程的透明度是否足以确保它可信而且合理? 评价发现是否一直对外公开? 誗 评价体系如何在保持独立的同时, 又不失和业务部门间必要的互动? 机构内外的非评价人员认为评价过程和评价报告公正吗? 3郾 资源和员工 誗 评价是否有适当的资金和人员支持? 誗 评价部门是否有可靠的预算支持? 是年度预算还是跨年度预算? 旨在促进评价反 馈和使用以及评价知识管理的活动是否包括在预算内? 誗 员工是否具备与评价相关的专业知识? 如果没有, 是否有培训计划? 誗 在招聘顾问方面, 是否有规定任职资格、 公正性和责任义务的政策? 4郾 评价合作伙伴关系与能力建设 誗 受益人参与评价过程的程度如何? 誗 机构在何种程度上依靠当地的评价人员, 或者如果不能依靠本地评价人员时, 在 何种程度上依靠合作伙伴国的第三方评价人员? 誗 机构参与由合作伙伴主导的评价吗? 誗 评价部门支持合作伙伴国的培训和能力建设项目吗? 合作伙伴 / 受益人 / 当地的非政府组织是如何看待该机构 / 国家的评价流程和产品的 质量、 独立性、 客观性、 实用性和伙伴关系导向的? 5郾 质量 誗 评价部门如何保证评价 ( 包括报告和流程) 的质量? 通向结果之路: 有效发展评价的设计与实施 llll llllllll 誗 机构有评价实施指南吗? 利益相关者使用这些指南吗? 誗 机构是否制定 / 采用了用于评估和改进评价报告质量的标准 / 基准? 整个机构如何看待评价产品 / 流程的质量? 6郾 评价的计划、 配合和协调 誗 机构是否有一个根据确定的时间表描述未来评价的跨年度评价计划? 誗 评价计划是如何制定的? 由援助机构内部何人确定工作重点? 怎么确定的? 誗 在由两个或多个机构共同分担官方发展援助 ( ODA) 职责的 DAC 成员国中, 评价 职能是如何组织的? 誗 评价部门是否与其他援助方配合共同开展评价活动? 誗 如何协调地方上的评价活动? 评价的上级部门是集权式的还是分权式的? 誗 评价部门是否参与两个 / 多个援助方的评价活动? 誗 评价部门 / 援助机构是否利用其他援助组织的评价信息? 誗 机构如何评估它对多边组织所作贡献的成效? 它在何种程度上依赖多边机构的评 价体系? 7郾 散发、 反馈、 知识管理和学习 摇402 誗 如何散发评价发现? 除评价报告之外, 还使用其他沟通工具吗? ( 新闻稿、 新闻发 布会、 摘要、 年度评价发现报告集) 誗 有哪些机制能保证将评价结果反馈给政策制定者、 操作人员和大众? 誗 有哪些机制能保证员工和有关利益相关者可获得评价中的知识? 机构人员是否认为评价是一个 “ 学习工具冶 ? 8郾 评价的使用 誗 在援助机构的内部和外部, 谁是评价的主要使用者? 誗 评价是否回应了议会、 审计办公室、 政府和公众提出的信息需求? 誗 是否有相应的体制来确保评价发现和建议的跟踪和实施? 誗 援助机构 / 相关部委如何从利益相关者的角度推动对评价发现的后续行动 ( 如通过 指导小组、 咨询小组和决策咨询小组) ? 誗 决策流程是否能够鼓励在政策制定过程中使用评价? 誗 最近是否有评价发现和建议引发操作和政策方面重大变化的例子? 誗 是否有将评价作为一种问责机制的例子? 非评价人员 ( 操作和政策部门、 地方办事处等) 如何看待评价的实用性和影响? 第四部分: DAC 评价质量标准 《 DAC 评价质量标准》 于 2006 年通过, 试行期为三年。 2009 年, 将根据成员国和感 兴趣的合作伙伴的应用情况, 对其最终定稿。 该标准支持遵守 《 DAC 发展援助评价准则 》 的评价活动, 这些准则包括公正性、 独 立性、 可靠性和实用性, 应结合准则来阅读。 准则侧重于发展机构内评价体系的管理和制 度安排; 而标准则指导人们如何实施评价及撰写评价报告。 这些标准给出了高质量评价流 附录一摇 OECD DAC 发展评价网络评估发展合作关键规范和标准概述 llll llllllll 程和产品所需的关键支柱, 为出色完成评价工作提供了指南。 它的目标是提高发展评价的 质量。 标准并非对每个评价活动均有约束作用, 尽管如此, 还是应尽可能广泛地应用, 在 不可应用的地方应提供一个简短说明。 1郾 评价的原理、 目的和目标 1郾 1摇 评价的原理 说明进行评价的原因、 目标对象以及在某个特定时间实施的原因。 1郾 2摇 评价的目的 评价目的与评价的学习和问责功能一致。 例如, 评价的目的可能是: 誗 致力于改进一项援助政策、 程序或技巧手段 誗 考虑一个项目 / 计划是否该继续或者终止 誗 援助支出要对利益相关者和纳税人负责 1郾 3摇 评价的目标 评价目标说明评价旨在达到什么结果。 例如: 誗 确定结果 ( 产出、 成效、 影响) , 并衡量一个具体的发展干预措施的效果、 效率和 相关性 摇403 誗 为某个具体政策、 计划等提供评价发现、 结论和建议 2郾 评价的范围 2郾 1摇 评价的范围 通过明确规定涉及的问题、 实际花费的资金、 时间期限、 干预措施的类型、 地理覆盖 面、 目标团体及所评价的发展干预的其他要素, 明确界定评价的范围。 2郾 2摇 干预的逻辑和评价发现 评价报告简要描述和评述干预措施的逻辑, 并区分投入、 活动、 成效和影响等不同层 面的评价发现。 2郾 3摇 评价标准 评价报告在评价发展援助时使用 DAC 标准: 相关性、 效率、 效果、 影响和可持续性。 应清晰界定针对某特定评价所适用的标准。 如果未适用某个标准, 或者适用了其他标准, 都要在评价报告中说明。 2郾 4摇 评价问题 提出的问题以及对原始问题的所有修改都记录在报告中, 使读者能够评判评价小组是 否进行了充分的评估。 3郾 背景 3郾 1摇 发展和政策背景 评价报告提供与发展干预相关的政策背景以及对发展机构和合作伙伴的政策文件、 目 标和战略的描述。 发展背景指的是: 区域经济和国家经济及其发展程度。 政策背景指的 是: 减贫战略、 性别平等、 环境保护和人权。 3郾 2摇 制度背景 评价报告提供与发展干预相关的制度环境和利益相关者参与情况的描述, 以确定并评 估它们的影响。 通向结果之路: 有效发展评价的设计与实施 llll llllllll 3郾 3摇 社会政治背景 评价报告描述干预的社会政治背景, 以及它对发展干预的成效和效果的影响。 3郾 4摇 实施安排 评价报告描述为实施发展干预而做出的组织安排, 包括援助国和合作伙伴的角色。 4郾 评价方法 4郾 1摇 说明所使用的方法 评价报告对所使用的评价方法和过程进行描述, 并讨论它们的有效性和可靠性。 这里 也要分析会受到的制约以及这些制约对评价的影响, 包括对评价的独立性的影响; 还要详 细描述收集及处理数据和信息所使用的方法和技术, 并对选择这些方法和技术的原因及其 限制和缺点做出说明。 4郾 2摇 评估结果 说明对结果进行评估的方法。 还应说明原因和促成因素 / 干扰因素。 如果使用指标来 进行评估, 那么这些指标应符合 SMART 原则 ( 即具体、 可衡量、 可实现、 相关、 有时间 限制) 。 4郾 3摇 咨询有关的利益相关者 摇404 有关的利益相关者参与评价过程, 确定评价问题, 为评价提供投入。 援助国和合作伙 伴的意见都要征询。 评价报告要说明咨询了哪些利益相关者、 区分这些利益相关者的标准 以及他们的参与情况。 如果没有咨询所有的利益相关者, 那么应描述筛选利益相关者所用 的方法和理由。 4郾 4摇 抽样 对任何抽样样本的选择都要在评价报告中解释说明。 还应阐述评价样本的局限性。 4郾 5摇 评价小组 评价小组应由既具备评价技能又有业务知识的人构成, 要注重男女比例平衡, 并且还 要包括相关国家或地区的专家。 5郾 信息来源 5郾 1摇 信息来源的透明 评价报告详细描述所使用信息的来源 ( 文件、 调查对象、 文献等) , 以评估信息是否 足够充分。 在不损害参与者的隐私权和保密性的前提下, 应完整地列出访谈对象和参考文 件清单。 5郾 2摇 信息来源的可靠性和准确性 评价使用多种方法和信息来源, 应对使用的信息来源和数据的正当性进行反复校对和 严格评估。 6郾 独立性 6郾 1摇 相对于利益相关者评价人员的独立性 评价报告说明评价人员独立于委托代理人、 实施者和受益人的政策、 运作和管理等工 作程度。 应开诚布公地说明可能发生的利益冲突。 6郾 2摇 评价过程的自由和公开 评价小组能够不受干涉地自由工作。 确保他们会得到密切配合, 还能获取所有相关信 附录一摇 OECD DAC 发展评价网络评估发展合作关键规范和标准概述 llll llllllll 息。 任何会对评价过程产生影响的阻碍因素都要在评价报告中说明。 7郾 评价职业道德 7郾 1摇 评价工作遵守职业道德 评价过程要顾及所有利益相关者的性别、 信仰、 礼仪和风俗, 要公正诚信。 参与者在评 价中的权益要受到保护。 根据要求或者按照法律规定, 要保护信息提供者的匿名权和机密。 7郾 2摇 尊重评价小组内存在的异议 评价小组的成员应有机会对某一判断和建议发表不同意见。 小组内未解决的任何意见 分歧都应在报告中说明。 8郾 质量保证 8郾 1摇 整合利益相关者的评论 利益相关者有机会对评价的发现、 结论、 建议和经验教训发表评论。 这些评论以及任 何重大分歧都要在评价报告中反映。 如果存在争议的事实可以验证, 那么评价人员应该进 行调查, 必要时对原稿进行修改。 如果存在不同的观点和解读, 利益相关者的评论应该一 字不差地公布出来, 例如添加附录, 这样与参与者的权益不冲突。 8郾 2摇 质量控制 摇405 整个评价过程要注意质量控制。 根据评价的范围和复杂程度, 决定内部质量控制还是 通过外部机构、 同行评审会或对照组进行质量控制。 质量控制遵守评价的独立性原则。 9郾 评价结果的相关性 9郾 1摇 评价发现的生成 评价发现与被评价的对象和评价的目的是相关联的。 在评价问题和数据分析之后, 就 要得出结果, 支持结论的证据必需非常清晰。 如果计划和实际实施情况存在差异, 应做解 释说明。 9郾 2摇 评价要在规定的时间和预算内完成 评价的开展和结果的得出应围绕评价的目的按部就班地进行。 对时间表和预算做的调 整要在报告中说明。 如果计划和实际实施情况与评价产品存在差异, 都应做解释说明。 9郾 3摇 建议和经验教训 针对目标使用者和使用者职责范围内可付诸行动的事项而言的建议和经验教训要有相 关性。 建议是可付诸行动的提议, 经验教训是为了更广泛的使用而对结论所做的概括。 9郾 4摇 评价的使用 评价要求管理层基于评价结果对拟采取的后续行动做出明确的肯定和回应。 管理层应 确保有系统地散发、 存放和管理评价产品, 确保它们容易获得, 并将评价发现的效益最 大化。 10郾 完成 10郾 1摇 通过结论回答评价问题 评价报告对评价范围内的所有问题和信息需求做出回答。 如果不可能的话, 应做解释 说明。 10郾 2摇 分析应清晰 分析应有逻辑。 应系统地陈述、 分析和解读数据和信息。 通过分析数据和信息有逻辑 通向结果之路: 有效发展评价的设计与实施 llll llllllll 地、 明确地得出发现和结论。 隐含的假设要明确提出, 并纳入考虑范围。 10郾 3摇 结论、 建议和经验教训的区分 评价报告必须清楚地区分发现、 结论和建议。 评价单独列出结论、 建议和经验教训, 它们之间应有清晰的逻辑区分。 结论应通过发现和分析来支撑。 建议和经验教训在结论之 后有逻辑地自然得出。 10郾 4摇 摘要应清晰、 有代表性 评价报告里要有一份执行摘要。 摘要应概括报告的主要内容, 并重点强调主要结论、 建议和经验教训。 第五部分: 指导性文件 发展评价的某些特定领域需要更具体的指南, 因此在评价实践和上述规范和标准的基 础上, 还特别制定了一些用于指导评价政策和实践的文件。 下文将列出几份指导性文件。 摇 摇 预防冲突与构建和平活动的评价指南: 申请 阶 段 的 工 作 草 案 ( OECD, 摇406 2008 ) 摇 摇 该文件主要陈述了评价预防冲突与构建和平活动面临的挑战和最佳实践。 用于预防冲突与构建和平活动方面的援助资源、 时间和精力越来越多, 人们也越来越 关注哪些活动奏效、 哪些效果不好及其原因何在。 本指南力图帮助回答这些问题, 为从事 预防冲突与构建和平项目、 计划和政策评价的人提供指导。 指南应能促进系统学习, 改进 问责, 并最终提高构建和平工作的成效。 指南的主要内容包括: 誗 援助方应对所有的预防冲突与构建和平工作, 包括由如非政府组织等实施合作伙 伴开展的工作, 进行系统的、 高质量的评价 誗 应通过改进项目设计来推动评价工作 誗 需要通过连贯协调的干预措施和政策战略来促进和平 誗 需要澄清预防冲突与构建和平的概念和定义 摇 摇 联合评价管理指南 ( OECD, 2006 ) 该文件为发展计划的联合评价人员提供实务指导, 以提高联合评价工作的有效性。 其 主要参考文件包括 《 联合评价: 现状、 经验教训与未来选择 》 和 《 多个援助方的联合评 价实务指南》 (2000) 。 本指南重点不是讨论如何让利益相关者参与评价过程的参与式评价, 而在于探讨多个 发展合作机构如何联合开展评价。 国际社会越来越重视发展成效的共同责任和联合进行援 助管理, 因此, 这些合作方法, 包括多个援助方之间的合作、 多个合作伙伴间的合作, 或 者两者都有的情况下, 变得越来越实用。 联合评价可以使所有的合作伙伴都受益, 例如: 誗 合作伙伴共同提高能力和相互学习 附录一摇 OECD DAC 发展评价网络评估发展合作关键规范和标准概述 llll llllllll 誗 扩大参与面和自主权 誗 共同分担工作 誗 增强评价发现的合理性 誗 减少评价的总数量和合作伙伴国的总交易成本 尽管如此, 联合评价也会有一定的成本和挑战, 给援助机构带来极大的负担。 例如, 为了在机构之间达成共识和保证有效的协调, 可能会耗费很多成本和时间; 复杂的联合评 价, 可能会拖延完成时间, 无法满足及时性和相关性的要求。 摇 摇 促进有效学习和问责的评价反馈 ( OECD, 2001 ) 该文件重点介绍了各种反馈体系, 找出了最有利于提高评价反馈的领域。 它还分析了 评价反馈面临的主要问题和挑战以及解决方案。 主要挑战在于将评价结果传达给发展机构内部和外部的多种受众。 评价结果的反馈和 沟通是评价流程一个必不可少的组成部分。 有效的反馈能给决策者提供决策信息参考, 以 改进发展政策、 计划和实践。 由于不同机构的背景、 组织结构和工作中心不同, 使用蓝图 法是不合适的。 而且, 为适应不同的目标受众, 还需要调整反馈方法。 尽管如此, 还是可 摇407 以在多个层面确定一些可采取行动的领域。 用于改善评价反馈的行动建议包括: 誗 采取措施了解在组织内外是如何学习的, 找出阻碍因素 誗 评估如何提高评价反馈的及时性和相关性, 并采取行动确保及时性和相关性 誗 进行更深入的战略思考以便调整评价方法, 满足不同受众的需要 誗 将更多的精力用于改进合作国利益相关者参与评价工作的方式, 包括评价经验的 反馈 誗 采取措施加大组织内部学习的空间, 加强对内部学习的激励 ( 通过评价和其他 来源) 摇 摇 紧急复杂事件的人道主义援助评价指南 ( OECD, 1999 ) 该文件的受众是与人道主义援助计划评价的委托、 设计和管理相关的人员。 相对发展援助而言, 人道主义援助过去不需经历那么严格的评价程序。 随着分配给人 道主义援助的官方发展援助份额不断增加, 对其复杂程度的了解更深入, 越来越需要为其 制定合适的评价方法。 作为 《 DAC 发展援助评价准则 》 的一个补充, 本指南重点强调人 道主义援助评价需要特别关注的领域。 摇 摇 OECD DAC 发展评价网络 发展合作的评价 关键规范和标准总结 DAC 发展援助网络的一个重要使命就是制定国际统一的发展评价规范和标准。 它影 通向结果之路: 有效发展评价的设计与实施 llll llllllll 响评价政策和实践, 并按照 《 巴黎援助成效宣言 》 的承诺形成一致的评价方法。 规范 和标准是在经验的基础上制定的, 并且随着时间不断演变, 以适应不断变化的援助环 境。 规范和标准是国际参考的基础, 指导人们通过开展高质量的评价来提高发展成效。 对本文总结的规范和标准, 应有甄别地应用, 并根据每个评价活动的目的、 目标和 背景做适当调整。 鉴于该总结报告不是一份完整的评价手册, 读者可到 DAC 发展评价 网络的网站上 ( www郾 oecd郾 org / dac / evaluationnetwork) 阅读全文。 摇408 附录二 Outer Baldonia 中学职业培训项目的设计矩阵 Outer Baldonia 中学职业培训项目的设计矩阵摇 第一页 主要评价问题: 应该给项目再授权吗? 主要方法: 准实验性影响评价 问题 度量标准 目标或标准 基准 问题 子问题 类型 或指标 ( 仅针对规范性问题) 数据 1郾 该 项 目 提 供 哪 1郾 A郾 1 在 哪 些 职 项目给学员提供 些 服 务? 对 象 业技术领域为参 描述性 的可以认证的职 不适用 不适用 是谁? 与者提供培训? 业技能领域 1郾 A郾 2 按 技 能 领 同 上, 每 年 的 参 域 划 分, 参 与 情 描述性 不适用 有 与者人数 况有变化吗? 项目提供的支持 1郾 B郾 1 项目提供哪 描述性 服务 ( 如 读 写 水 不适用 不适用 些支持服务? 平、 咨询) 1郾 B郾 2 多大比例的 得到各种支持的 参与者获得了支 描述性 学员 的 人 数 和 不适用 不适用 持服务? 比例 1郾 C 职 业 培 训 项 目中最受参与者 各个认证领域的 描述性 不适用 不适用 欢迎的认证领域 学员人数 有哪些? 1郾 D 未 来 五 到 十 年, 项 目 会 在 何 未来五到十年预 种程度上对预计 描述性 计会有高需求的 不适用 不适用 需求量大的领域 职业领域清单 提供认证? 2郾 所 提 供 的 服 务 2郾 A郾 1 项 目 的 参 项目 授 权 文 件 显 示 接受职业培训的 性别 平 等 程 度 与 者 中, 男 女 人 规范性 女性的参与目标 不适用 男女人数和比例 如何? 数相等吗? 为 50% 2郾 A郾 2 支 持 服 务 项目 授 权 文 件 表 明 接受各项支持服 的获得是否与性 规范性 性别 平 等 是 其 目 标 不适用 务的性别比例 别有关? 之一 通向结果之路: 有效发展评价的设计与实施 llll llllllll 设计矩阵第一页 设计 数据来源 样本 数据收集工具 数据分析 评论 数据来源应该 1郾 A郾 1 一 次 性 项 目 档 案 过去 5 年 频率统计 匹配; 对差异 档案检索文件 1 设计 ( MIS) 的档案 内容分析 做标注并解释 说明 项目 官 员 访 谈 项目主任 指南 1郾 A郾 2 时 间 同上 同上 同上 同上 建议使用图示 序列 检查是否有重 1郾 B郾 1 一 次 性 项 目 档 案 过去 5 年 档案检索文件 2 清单 复, 如 M郾 Smith 设计 ( MIS) 的普查 和 Mary Smith 摇410 注意参与者可 1郾 B郾 2 同上 同上 同上 同上 频率统计 以接受多种支 持服务 项 目 档 案 过去 5 年 1郾 C 一次性设计 档案检索文件 2 频率统计 图示 ( MIS) 的普查 注意趋势的变 化和项目对变 劳动 部 关 于 短 对过去 5 年来 化的回应程度; 期、 中 期 和 长 过去 5 年 提供 的 认 证 领 注意在项目提 1郾 D 时间序列 档案检索文件 3 期劳 工 预 测 的 的报告 域进 行 趋 势 分 供的培训领域 年度报告 析和预测 之外是否会出 现潜在的成长 领域? 按性 别 的 频 率 统 计; 按 线 形 在线形图中以 2郾 A郾 1 时 间 项 目 档 案 过去 5 年 图呈现, 这样 5 档案检索文件 1 黑粗线表示标 序列 ( MIS) 的档案 年来 的 趋 势 一 准, 一目了然 目了然。 与标准相对照 注意这些年来 2郾 A郾 2 同上 同上 同上 同上 同上 是否有变化 附录二摇 Outer Baldonia 中学职业培训项目的设计矩阵 llll llllllll 设计矩阵第二页 问题 度量标准 目标或标准 基准 问题 子问题 类型 或指标 ( 仅针对规范性问题) 数据 3郾 A 每 年 的 就 业 80% 的 结 业 学 员 能 3郾 项目有效吗? 目标在何种程度 规范性 每年的就业率 不适用 就业 上达标或超标? 3郾 B 每 年 的 平 均 1 ~ 3 年, 时 薪 2 美 就业工资水平在 规范性 每年的就业工资 元; 4 ~ 5 年, 时 薪 不适用 何种程度上达标 3 美元 或超标? 3郾 C 学 员 的 就 业 标 准 不 是 很 明 确, 岗位在何种程度 学员的认证领域 描述性 所以 作 描 述 性 问 题 不适用 上与他们的认证 和就业领域 处理 领域相一致? 摇411 3郾 D 项 目 的 肄 业 每年的参与人数 项目 文 件 称 不 应 高 规范性 不适用 率是多少? 和毕业人数 于 10% 4郾 与 类 似 项 目 相 每个学员的成本 标 准 不 是 很 明 确, 4郾 项 目 具 有 成 本 比, 每 个 学 员 耗 描述性 与其他类似项目 所以 作 描 述 性 问 题 不适用 效益吗? 费的项目成本合 相比较 处理 理吗? 5郾 教 师 的 流 动 率 5郾 A 教 师 的 流 动 教师 每 年 的 流 未 设 定。 隐 含 的 标 在何种程度上是 描述性 不适用 率是多少? 动率 准是它应该很低 一个问题? 5郾 B 教 师 岗 位 空 空缺的平均长度 未 设 定。 隐 含 的 标 描述性 不适用 缺持续多长时间? 和幅度 准是它应该很低 5郾 C 可 以 找 到 同 教学年限 未 设 定。 隐 含 的 标 样资格的老师来 描述性 在认证领域的工 准是他们应条件 不适用 替代吗? 作年限 相当 通向结果之路: 有效发展评价的设计与实施 llll llllllll 设计矩阵第二页 设计 数据来源 样本 数据收集工具 数据分析 评论 需要通过确认 将每年 的 和 5 过去 5 年的学 就业情况和起 3郾 A 时间序列 每年普查 档案检索表 4 年总 体 的 情 况 员档案 始工资对档案 与标准对照 信息进行验证 学员 最 后 一 年 将信 息 管 理 系 可能很难回忆 雇主访谈指南 一次性 的 档 案, 雇 主 随机抽样 统的 信 息 和 雇 起两年前的 雇主档案表 1 档案 主信息相匹配 情况 需要通过确认 将每年和 5 年 过去 5 年的学 每 年 的 就业情况和起 3郾 B 时间序列 档案检索表 4 总体 的 情 况 与 员档案 普查 始工资对档案 标准对照 信息进行验证 学员 最 后 一 年 将信 息 管 理 系 可能很难回忆 雇主访谈指南 一次性 的 档 案, 雇 主 随机抽样 统的 信 息 和 雇 起两年前的 摇412 雇主档案表 1 档案 主信息相匹配 情况 过去 两 年 的 学 每年 和 总 体 的 3郾 C 一次性 员 档 案, 显 示 普查 档案检索表 4 频率统计 认证领域 过去 两 年 内 雇 雇主访谈指南 随机抽样 用学员的雇主 雇主档案表 1 将每 年 及 总 体 过去 5 年的学 3郾 D 时间序列 普查 档案检索表 4 情 况 与 标 准 员档案 对照 项目 财 务 主 管 对整个 5 希望能将每个 的就业率 (参 年的财务 每 个 学 员 的 学员的成本和 4郾 一次性 见 3郾 1) 访谈 报表进行 成本 其他类似培训 项 目 的 财 务 普查 项目相比较 报表 对类 似 培 训 项 文献综述 内容分析 目已有的评价 按年、 范围和均 5郾 A 时间序列 项目就业档案 5 年的档案 档案检索表 5 值的频率统计 按年、 范围和均 5郾 B 时间序列 项目财务档案 5 年的档案 档案检索表 5 值的频率统计 将员工 5 年来 5郾 C 时间序列 项目就业档案 5 年的档案 档案检索表 6 的就 业 档 案 进 行比较 附录二摇 Outer Baldonia 中学职业培训项目的设计矩阵 llll llllllll 设计矩阵第三页 问题 度量标准 目标或标准 基准 问题 子问题 类型 或指标 ( 仅针对规范性问题) 数据 背景 文 件 显 示 10% 6郾 学 员 肄 业 在 何 6郾 A 每 年 从 项 目 每年参加项目和 是 可 以 接 受 的; 暗 种程度上是一个 肄业的男女人数 描述性 中途退出的男女 不适用 含对男性 / 女性都是 问题? 和比例各是多少? 人数和比例 一样 6郾 B 从哪些认证领 同 上, 按 认 证 领 描述性 不适用 不适用 域肄业? 域统计 6郾 C 肄 业 的 常 见 肄业 的 最 常 见 描述性 不适用 不适用 理由是什么? 理由 对辍学率的知晓 6郾 D 项 目 官 员 对 程度 摇413 描述性 未指明 不适用 辍学率有多关注? 对原因的看法 采取的行动 将就业的学员两年 来的 留 职、 起 薪、 7郾 A 和 那 些 中 途 加薪、 晋升和解雇 7郾 在何种程度上, 退出培训项目的 率和 (1) 公司 雇 那些经过了培训 人 相 比, 毕 业 学 用的其他类似职位 有, 就 的学员在就业后 因果 未指明 员的 留 职、 加 薪、 的人在可比的时期 业工资 比培 训 前 挣 得 晋升和解雇率怎 内的工资 (2) 参 要多? 么样? 加项目之前的工资 (3) 退出项目的人 的工资作比较 (1 ) 如 果 没 有 接 7郾 B 和 公 司 聘 用 受 培 训, 学 员 被 的其他条件相似 起始工 聘 用 的 可 能 性; 但是没有接受培 资; 培 因果 (2) 聘用更多的项 未指明 训 的 人 相 比, 雇 训前的 目毕业生; (3) 与 主如何看待学员 工资 其他人相比的工作 的工作表现? 表现 通向结果之路: 有效发展评价的设计与实施 llll llllllll 设计矩阵第四页 设计 数据来源 样本 数据收集工具 数据分析 评论 退学 者 每 年 的 频率分布; 过去 5 年的学 6郾 A 时间序列 年度普查 档案检索表 4 按 年、 性 别 统 员档案 计的 辍 学 率 及 总数 按照 项 目 每 年 和总 体 项 目 退 可能要进行显 过去 5 年的学 6郾 B 时间序列 年度普查 档案检索表 4 学的 频 率 对 认 著性测试— —— 员档案 证领 域 进 行 横 卡方检验? 向制表 分别 从 学 员 和 对两年期 培训 项 目 官 员 过去 2 年的学 间中途退 以 前 的 学 员 6郾 C 一次性 的视 角 分 析 的 三角验证 员档案 出项目的 访谈 摇414 人的普查 肄业 原 因 的 频 率分布 项目 官 员 访 谈 培训项目官员 高级官员 指南 对两年期 过去 2 年的学 间中途退 项目 官 员 访 谈 内容 分 析 和 频 6郾 D 一次性 员档案 出项目的 指南 率统计 培训项目官员 人的普查 在项目启动时 7郾 A 准 实 验 性 雇 主 和 雇 主 前两年的 雇主访谈指南 内容 分 析 和 频 没有建立对照 设计 - 不 对 等 档案 普查 雇主档案表 1 率统计 组; 需要使用 小组 代理 以 前 的 学 员 项目肄业者 调查 注 意 C&E 设 雇 主 和 雇 主 前两年的 雇主访谈指南 内容 分 析 和 频 计的限制; 机 7郾 B 一次性 档案 普查 雇主档案表 1 率统计 密文件, 无法 获取 摇 摇 资料来源: 作者 附录三 缩略语表 ADBA 亚洲开发银行 AEA 美国评价协会 AfDB 非洲开发银行 ANOVA 方差分析 ANSI 美国国家标准学会 ASEAN 东盟 BE 商业环境 CAHMI 儿童与青少年健康衡量倡议 CAQDAS 计算机辅助定性数据分析软件 CATI 计算机辅助电话访问 CES 加拿大评价协会 CESE 中欧, 东欧, 南欧 CGD 全球发展中心 CIDA 加拿大国际发展署 CIS 独联体 CODE 发展成效委员会 CSF 社区援助框架 CSR 企业社会责任 DAC 发展援助委员会 DANIDA 丹麦国际发展署 DfID 英国国际发展署 DEC 灾害应急委员会 通向结果之路: 有效发展评价的设计与实施 llll llllllll 续表 EBRD 欧洲复兴开发银行 ECI 早期交流指标 EDUCO 萨尔瓦多社区管理学校计划 EET 国际上对企业年金制度通行的免税政策 ESEA 小学及中学教育法案 ESRC 经济与社会研究委员会 EU 欧盟 FAO 联合国粮农组织 FATF 反洗钱金融行动特别工作组 FDI 外国直接投资 FIT - ED 信息技术与教育发展基金 摇416 GAD 性别与发展 GAO 美国政府问责办公室 GDP 国内生产总值 GICHD 日内瓦人道主义排雷国际中心 GMI 最低收入保障 CPRA 政府绩效与结果法案 HIPC 重债穷国 HSSP2 卫生部门战略计划二 IBSTPI 国际教学、 培训与绩效标准董事会 IDEAS 国际发展评价协会 IDRC 国际发展研究中心 IFAD 国际农业发展基金 IFC 国际金融公司 IISD 国际可持续发展研究所 ILO 国际劳工组织 IMF 国际货币基金组织 IOB 荷兰政策和运营评价部 附录三摇 缩略语表 llll llllllll 续表 IOM 国际移民组织 IPDET 国际发展评价培训项目 IRBM 结果导向综合管理体系 IBTOSAI 最高审计机关国际组织 IOCE 国际评价合作组织 JEEAR 紧急援助卢旺达的联合评价 JICA 日本国际协力局 LGAB 粉饰太平, 避免责难 LOA 接受水平 LSMS 衡量生活水平的调查研究 摇417 M&E 监测与评价 MATR 管理行动的跟踪记录 MBS 修正预算体系 MDBs 多边发展银行 MDGs 千年发展目标 MFPED 财政、 计划与经济发展部 MIS 管理信息系统 MMV 抗疟药品项目 MSH 卫生管理顾问公司 NAD 国家审计局 NCSTE 国家科技评估中心 NDC 收入型缴费模式 NEIR TEC 东北部和岛屿地区教育技术联合体 NGO 非政府组织 NHIFA 全国医疗保险基金管理局 ( 匈牙利) NORAD 挪威国际合作开发署 NSGPR 国家发展和减贫战略 NSSI 国家社会保障研究所 ( 保加利亚) 通向结果之路: 有效发展评价的设计与实施 llll llllllll 续表 ODA 官方发展援助 OECD 经济合作与发展组织 PEAP 消除贫困行动计划 POW 卫生部门工作计划 PPBS 规划项目预算系统 PPBS 项目绩效预算制 PRSP 减贫战略文件 RFP 招标书 SDC 瑞士发展与合作署 摇418 SHIPDET 上海国际发展评价培训项目 SIDA 瑞典国际开发合作署 SIEF 西班牙影响评价基金 SIR 对于事实的主观解读 SWAps 全部门参与方式 TI 透明国际组织 TOR 任务大纲 UNDP 联合国开发计划署 UNEG 联合国评价局 UNEP 联合国环境项目 UNESCO 联合国教育、 科学及文化组织 UNFPA 联合国人口基金会 UNHCR 联合国难民署 UNICEF 联合国儿童基金会 UNSD 联合国统计处 USAID 美国国际发展署 WHO 世界卫生组织 附录三摇 缩略语表 llll llllllll 续表 WID 妇女发展 WTO 世界贸易组织 ZUS 社会保险基金 ( 波兰) 摇419 后摇 摇 记 近年来, 重视监测与评价, 实施结果导向的管理, 寻求更好的发展结果, 已经成为国 际社会发展的普遍潮流。 有感于在推动结果导向管理的过程中监测与评价能力之不足, 在 财政部领导的亲自倡导和关心下, 2007 年, 财政部国际司、 世界银行独立评价局、 亚洲 开发银行独立评价局及财政部亚太财经与发展中心 ( AFDC) 联合发起成立了上海国际发 展评价培训项目 ( SHIPDET) , 旨在整合国际资源, 通过培训、 专题研究等, 推动中国和 亚太地区其他发展中国家发展评价领域的能力建设。 四年多来, SHIPDET 每年分别为中 国和亚太地区各国的官员举办一期监测与评价核心课程培训班, 并围绕核心课程, 先后组 织举办了绩效预算、 影响评价等短课程培训。 2008 年起, AFDC 还根据国家发改委的要 求, 为西部部分省区的基层官员举办了监测与评价专题培训班。 几年来, 共有来自 30 多 个国家和多个国际组织的官员、 学者及实务界人士近千人参加了 SHIPDET 的培训。 得益于各合作方的大力支持, SHIPDET 近年来一直能够聘请各领域国际一流的专家 前来讲授有关专题课程, 其中, 监测与评价核心课程一直由全球享有盛誉的发展评价领域 知名学者、 前世界银行独立评价局专家 Ray Rist 先生和原国际金融公司首席评价官 Linda Morra鄄Immas 女士主讲。 专家们的精彩演讲得到了学员们的广泛好评, 在上海市财政局、 江苏省财政厅和浙江省财政厅等有关单位的大力支持下组织的现场案例考察也广受欢迎。 但在培训过程中, 缺乏系统的中文版教材一直是面向国内学员举办专题培训时一件美中不 足之事。 两年前, Ray 和 Linda 总结他们多年来从事监测与评价理论研究、 实务工作及相 关教学的成果, 撰写了系统介绍发展评价理论与方法的 《 通向结果之路 》 , 由世界银行出 版社出版发行。 借助多年来合作近水楼台之便利, AFDC 和经济科学出版社共同争取到世 行出版社出版本书中文版的授权, 两位专家还为中文版的出版提供了珍贵的财务支持, 我 们在此不仅要感谢他们撰写了一本系统介绍发展评价理论和方法、 实用性很强的专著, 还 要感谢他们对中国人民的深厚感情, 感谢他们对出版中文版所给予的强有力的支持。 本书 中文版得以面世, 也是财政部领导, 特别是李勇副部长、 王军副部长、 朱光耀副部长亲切 关心和支持的结果。 领导的关心和支持始终是对我们的巨大勉励。 本书的出版也是 SHIP鄄 DET 几年来运作的成果之一。 在此, 我们要对财政部国际司郑晓松司长、 张文才副司长、 陈诗新副司长、 吴晋康副司长、 王忠晶副司长, 以及对 SHIPDET 的发起设立和持续运作 给予重要指导和支持的邹刺勇处长、 刘伟华处长、 刘芳副处长以及国际司其他各位同仁表 示衷心的感谢。 邹家怡主任、 杨少林执董、 杨英明执董、 常军红副主任在担任我国驻世界 银行和亚洲开发银行执董或副执董期间对 AFDC 与世、 亚行独立评价局之间的合作给予了 无微不至的关心和支持。 可以说, 没有财政部领导的远见卓识, 没有国际司和我国驻世、 后摇 摇 l 记lll llllllll 亚行执行董事办公室各位领导和同事们富有创造性的工作, 就不会有今天在国际社会享有 良好声誉的上海国际发展评价培训项目, 也就不会有本书中文版的面世。 当然, 在本书中 文版即将出版之际, 我们也要感谢上海国家会计学院和亚太财经与发展中心的各位同事, 特别是要感谢夏大慰院长, 现已赴亚洲开发银行担任东亚局高级顾问的原亚太财经与发展 中心北京分部杨金林副主任, 以及亚太财经与发展中心北京分部周强武副主任, 他们的支 持对我们弥足珍贵。 我们还要感谢这些年来参加上海国际发展培训项目培训的来自财政系 统和其他多个系统的朋友们, 正是他们对发展评价领域知识的渴求激励我们下决心完成翻 译本书的浩大工程。 最后, 我们也要感谢经济科学出版社的白留杰编辑, 她的细致和高效 始终值得我们学习。 本书翻译工作顺利完成是亚太财经与发展中心上海本部全体同事协力合作的结果。 整 项工作由李扣庆主持。 初稿翻译的分工为: 第一章, 李扣庆; 第二章和第六章, 赵敏; 第 三章, 王晖; 第四章、 附录及中文版序, 陈宝莲; 第五章, 王颖; 第七章, 曹声容; 第八 章, 吴宁沁; 第九章、 第十一章和序言、 导论, 杨超; 第十章, 吉瑞; 第十二章和第十五 章, 刘廷和; 第十三章, 刘晓强; 第十四章, 刘颂。 赵敏、 曹声容、 王晖、 陈宝莲、 刘廷 和等参加了部分章节的校阅工作, 李扣庆对全书进行了校阅。 在全书翻译过程中, 作为团 摇421 队秘书, 石文岚做了大量工作, 彭润中也对翻译工作给予了大力支持。 在绝大多数发展中国家, 结果导向的监测与评价都是一项方兴未艾的事业。 随着改革 开放的不断深化, 我国政府和公众对公共资源使用绩效的关注不断增强, 加强结果导向的 监测与评价体系的建设是加强问责、 提高公共资源使用绩效必不可少的一环。 在这一进程 中, 发展评价领域的理论和方法无疑可以为我们提供很好的借鉴。 我们衷心期望本书中文 版能够对读者朋友系统了解发展评价理论和方法有所助益。 当然, 由于译者水平有限, 翻 译稿中谬误之处在所难免, 还请读者朋友们不吝赐教。 2010 年, 世界银行独立评价局联合全球多家发展机构, 借鉴 SHIPDET 模式, 推出了 在全球范围推动发展评价能力建设的 “ 评价与结果学习中心冶 倡议 ( Center of Learning on Evaluation and Result, CLEAR) , 鉴于成功运作 SHIPDET, 亚太财经与发展中心未经其他 地区中心均必须经历的公开竞标程序, 被认定为东亚地区唯一的地区中心。 在财政部领导 下, 亚太财经与发展中心将在积极服务于亚太地区财经与发展领域能力建设的同时, 整合 国际资源, 更好地服务于我国结果导向的监测与评价体系建设。 李扣庆 2011 年 10 月