质性研究的编码者间一致性_学术资讯

质性研究的编码者间一致性

阅读： 2023/6/9 14:20:56

信度、效度一直以来都是质性研究绕不开的话题，目前既有研究种多用编码一致性系数来以表明编码结果的可重复性与客观性。但学术界目前对于编码一致性系数的认知与使用并不统一，本研究对编码一致性系数在心理学质性研究中的适用性、编码者身份对合作编码的影响以及窒息感研究的综合性评价等问题，一起看看~
作者：亓立东杨莉萍陈家敏张登攀舒梅李兮何
来源：《心理科学》2023年第3期
摘要
质性研究的编码者间一致性日渐受到研究者关注。部分研究者倾向于将编码者间一致性作为编码信度指标，以表明编码结果的可重复性与客观性。也有研究者反对这样做，他们强调资料分析结果的社会建构性，建议采取协商对话的方式发展对研究资料的多元理解。基于对以上两种态度的分析，研究进一步讨论了编码者间一致性在心理学质性研究中的适用性、编码者身份对合作编码的影响及质性研究的综合性评价等问题。
关键词
编码者间一致性编码信度协商对话研究质量
引言
从国内外心理学研究的发展态势来看，质性研究传统重新获得了研究者的认可（何吴明 , 郑剑虹 , 2019）。近年来国内质性心理学发展迅速，涌现出大批优秀成果（傅安国等 , 2020; 刘甜芳 , 杨莉萍 , 2018; 吴继霞 , 黄希庭 , 2012; 许丹 , 李亦欣 , 2020; 张秀敏 , 杨莉萍 , 2018 等）。随着质性研究的快速发展，如何评价一项研究的质量受到研究者的关注，这一问题涉及研究者如何在研究开展、方法教学、获取资助、成果评审及向实践转化等环节证明其研究的可靠性（Lester & O' Reilly, 2021）。
经过长期发展，在质性研究领域逐渐形成了两套主要的质量评价术语体系。Lincoln 和 Guba （1985）对应量化研究质量评价方式提出了质性研究的可信赖性（trustworthiness）标准，产生了较大影响。可信赖性包括可信性（credibility）、可转移性（transferability）、可依赖性（dependability）和可确认性（confifirmability），分别对应量化研究的内部效度、外部效度、信度和客观性。但有研究者认为，应该考虑质性研究质量评价术语在更大范围内的可接受性，建议沿用已被广泛认可的量化研究质量评价术语，并对其内涵与评估方式进行改造，使之适用于质性研究（O' Reilly & Kiyimba, 2015）。因而研究者提出了严谨性（rigor）标准，包括质性研究的信度、效度及可推广度①，分别对应可信赖性中的可依赖性、可信性及可转移性（Morse, 2015）。尽管两套质量评价术语在命名上有较大差别，但在内涵、评估方式上有较多重叠，也都被研究者广泛使用②。
在上述两套术语中，信度与可依赖性是相对应的概念（王文科 , 王智弘 , 2010；Ary et al., 2010），指资料收集、分析及诠释过程和结果的一致性、稳定性或可重复性（Morse, 2015），是评价研究质量的重要维度。针对质性研究信度或可依赖性的评估，研究者分别提出了多项具体方法，并且包含一些类似项目，与编码质量相关的内容包括：可依赖性中的编码——再编码 / 评定者内部一致性（coderecode/intra-rater agreement）和评定者间 / 观察者间一致性（inter-rater/inter-observer agreement）（Ary et al., 2010; Guba, 1981）；信度中的评定者间信度（inter-rater reliability）等（Morse, 2015）。
但有研究者认为，评定者间一致性 / 信度（inter-rater agreement/reliability）或评定者内一致性 / 信度（intra-rater agreement/reliability）更适用于量化研究传统（Nili et al., 2020）。在质性研究中采用编码一致性（coding consistency）这一表述则更为合适。编码一致性被视为质性研究的编码信度（也对应于可依赖性，下同）指标，包括编码者内一致性（intra-coder consistency）与编码者间一致性（intercoder consistency），前者指同一编码者在不同时间点对相同资料进行两次或多次编码的一致性；后者指不同编码者对相同资料进行编码的一致性（Krippendorff, 2004）。编码者内一致性被认为易受研究者的知识经验、解释风格等主观因素影响，在相关研究中较少被使用（Joffe & Yardley, 2004）。研究者通常评估编码者间一致性，为研究信度提供证据（徐建平，张厚粲，2005；O' Connor & Joffe, 2020）。
研究者认为，对编码者间一致性进行评估有如下重要意义。首先，鼓励编码者谨慎对待编码工作并积极反思、交流，进而提高编码质量；第二，检验编码过程的严谨性，为编码质量提供佐证，提高研究结果的可接受性；第三，在保证内部一致性的前提下，促进团队合作；最后，利于研究者应对循证实践（evidence-based practice）对质性研究范式的威胁，促进质性研究成果向公共实践转化（Lester & O' Reilly, 2021; O' Connor & Joffe, 2020）。从现有文献来看，编码者间一致性受到多学科研究者及期刊编辑的广泛关注（Elliott et al.,1999; MacPhail et al., 2016; Wu et al., 2016），其中包括众多心理学研究者（Díaz et al., 2021; McDonald et al., 2019），例如体育与运动心理学（McGannon et al., 2021）、社会心理学（Nili et al., 2020）、管理心理学（邓新明 , 2014）领域的研究者。
但也有研究者认为，将编码者间一致性作为信度指标，以表明编码过程和结果的可重复性与客观性为目的，其背后的理论预设与部分质性研究的哲学理念相违背（Hammersley, 2010）。并且，对编码者间一致性的评估在技术层面也存在难以克服的困难（Church et al., 2019; Nili et al., 2020）。因此，他们反对将编码者间一致性作为评价质性研究质量的普遍标准，并提出了相应的替代方案，即编码者间协商对话，以发展对研究问题的多元理解（Hemmler et al., 2022; Smith & McGannon, 2018）。
目前很少有研究针对编码者间一致性的应用情况进行系统梳理，并对研究者的分歧进行解释。这为研究者认识和评估编码者间一致性造成了困难，也不利于质性研究评价标准体系的构建。本研究围绕研究者对编码者间一致性的应用及分歧进行深入分析和讨论，以期为心理学质性研究的评价提供一些参考。
将编码者间一致性作为编码信度指标
高编码者间一致性表示研究控制了个人偏见，编码结果超越了个人理解，有较高的可重复性，即使换作其他人对资料进行分析也会获得相同结果，研究因此具有了更强的客观性（Campbell et al., 2013）。研究者在评估编码者间一致性时，通常会计算编码者间信度（inter-coder reliability, ICR）或编码者间一致性信度（inter-coder agreement, ICA）。
在有些质性研究中，研究者强调资料分析的客观性，要求编码者各自独立编码；有的研究资料结构性较强，只需对资料进行筛选、分类等基础性分析（O' Connor & Joffe, 2020）；如果团队中有多位同等水平的编码者，通常可以计算 ICR 以评估编码信度。然而，在更多质性研究中，资料的结构性较弱研究者需要对复杂资料做深入解读，如果要求编码者独立编码，则很难获得理想的编码一致性结果；并且研究者往往也希望通过讨论，最大程度避免个人偏见对研究结果的影响，以保证编码质量（Marques & McCall, 2005）；另外，在团队中寻找多个同等水平的编码者也并非易事。这时研究者大多倾向于通过计算 ICA 对编码信度进行评估。
2.2 ICR 与 ICA 的计算方式
计算 ICR 和 ICA 需要将研究资料划分为分析单元，因为编码者对相同长度的原始资料进行编码，结果才具有可比性。研究者可以将原始资料中的句子、段落或访谈中的一次问答作为分析单元，也可以将一页转录稿作为分析单元（Garrison et al., 2006）。但前者将资料进行强制分割，可能会破坏语境，后者可能导致较大计算偏差。Campbell 等（2013）认为，以意义单元作为分析单位更具可行性，即由对研究主题有深入理解的编码者基于文本意义将研究资料划分为分析单元。
目前已发展出多种计算 ICR 与 ICA 的方式，应用较为广泛的有百分比一致性系数（percent agreement, PA）、归类一致性系数（category agreement, CA）、kappa 系数等。了解 ICR 与 ICA 的计算方式，有助于研究者理解编码者间一致性的原理并恰当使用。
2.2.1 百分比一致性系数
PA 有两种主要的计算方式：
PA1 = A/n
n 指分析单元总数；A 指编码一致的分析单元数量。PA1 不适用于如下两种情况：同一分析单元浮现了多重含义，需要设置多个编码；计算高阶编码的一致性。
PA2 = iA/n
n 指所有编码者的总编码数；i 指编码者数量； A 指编码者对相同分析单元进行一致编码的总次数（Campbell et al., 2013）。PA2 适用于为同一分析单元设置多个编码的情况。
2.2.2 归类一致性系数
研究者可以使用 CA 计算高阶编码的一致性： CA = nS/（T1+T2+...+Tn） n 指编码者数量；Tn 指第 n 个编码者的编码数；S 指相同编码（编码的命名与涵盖的下属编码完全相同）的数量（胡炜等 , 2007; 徐建平 , 张厚粲 , 2005）。
2.2.3 kappa 系数
相对前述计算方法，Cohen kappa 控制了偶然因素导致的编码一致，计算方式为：
Kappa = （po - pc）/（1-pc）
po = （nii+njj）/n
pc = （ni+/n）（n+i/n） + （nj+/n）（n+j/n）
po 指观察编码一致（observed disagreement）；pc 指偶然因素导致的编码一致；i 和 j 指编码；nii 指两个编码者在同一个分析单元中同时应用编码 i 的次数；njj 指两个编码者在同一个分析单元中同时应用编码 j 的次数；n 指分析单元总数；ni+ 指编码者 1 将分析单元编码为 i 的次数；n+i 指编码者 2 将分析单元编码为 i 的次数；nj+ 指编码者 1 将分析单元编码为 j 的次数；n+j 指编码者 2 将分析单元编码为 j 的次数（Cohen, 1960; Nili et al., 2020）。Cohen kappa 系数的应用有如下限制条件：仅能计算两名编码者的编码一致性；每个分析单元只能进行一次编码。因此，研究者对其进行了发展：Fleiss kappa 适用于有多个编码者的情况；Fuzzy kappa 适用于为每个分析单元设置多个编码的情况（Fleiss, 1971; Kirilenko & Stepchenkova, 2016）。
目前对 ICR 或 ICA 的可接受标准尚无统一规定。总结前人研究发现，研究者普遍将 .70~.80 作为 PA 和 CA 系数的可接受标准（Campbell et al., 2013; Cheung & Tai, 2021; O' Connor & Joffe, 2020）； McHugh（2012）认为当 kappa 系数达到 .80~.90 表示可靠性较强。
PA 和 CA 都通过计算一致编码在总编码中的占比评估编码一致性，对于能否使用这种方式计算 ICR 或 ICA，研究者观点不一。有研究者认为，它们不能有效分离偶然因素所导致的编码一致，因此不适用于计算 ICR 或 ICA （Krippendorff, 2004）。但也有研究者认为，在探索性研究中可以使用 PA 或 CA 计算编码信度（Campbell et al., 2013; Kurasaki, 2000），主要依据在于：很多质性研究的目标是对现象进行探索性解释，这往往需要对大量资料进行精细化分析，产生大量编码，而随着编码数量增加，编码偶然达成一致的可能性会逐渐降低（Grayson & Rust, 2001）；很多质性研究难以满足 kappa 系数等复杂计算方式的统计学假设，如编码方案中的编码被使用的概率相同等（Campbell et al., 2013）。因此，研究者需要根据研究特征在不同计算方式中进行选择。
值得注意的是，计算机技术的发展为质性研究者带来了便利。研究者可以借助 NVivo、Dedoose 或 ATLAS.ti 等质性资料分析软件进行编码并计算编码者间一致性。但实际上，目前这类软件只能为研究者提供一套对文本信息进行标注、分类或对比的辅助管理系统，而对文本深层含义的获取、理解与解释依旧依赖于研究者。同样，使用质性资料分析软件计算编码者间一致性时，首先需要研究者对文本单元进行理解并编码，然后才能利用软件执行计算程序，分析软件主要起简化计算过程的作用。
以协商对话促进多元理解
3.1 对于将编码者间一致性作为编码信度指标的质疑
研究者认为，将编码者间一致性作为信度指标以表明编码过程和结果的可重复性与客观性的做法基于如下预设：研究者可以准确获取参与者的内部话语，多位编码者都能从这些话语中得出类似的结论（Smith & McGannon, 2018）。也就是说，研究对象是独立于研究者和研究方法之外且不受其影响的客观实在（孙进 , 2006）；研究所提出的知识主张能准确反映参与者的真实想法、感受和意见（Lester & O' Reilly, 2021）。
上述理论预设与部分质性研究范式联系密切，在这类研究中可以计算 ICR 或 ICA 作为编码信度。但质性研究内部范式十分多样，现实可以被揭示、参与者的内部话语能被准确获取的预设在很多质性研究中并不适用（Hammersley, 2010），将编码者间一致性作为编码信度指标的做法也因此受到了批评。研究者强调，社会现实具有建构性特征，是多重的、变化的；研究者与研究方法对现实或研究对象具有建构作用，理论无涉的知识（theory-free knowledge）是不可能实现的。所以，研究并不是对客观现实的反映，不能获得与现实相对应的知识（孙进，2006；Smith & McGannon, 2018）。研究者持有的知识、理论、假设、参考标准（framework）等都会影响编码过程，使得编码与学术传统及研究者的主观世界相联系。不同编码者几乎不可能使用完全相同的方式理解同一个问题，期待通过编码结果的互相印证来证实研究的客观性并不现实（Lincoln & Guba, 1985; Smith & Hodkinson, 2009）。同时，研究者也不可能对同一问题进行两次完全一样的观察，没有必要考虑资料编码的可重复性（Sparkes & Smith, 2013）
此外，计算 ICR 或 ICA 在技术性层面也存在问题。首先，在归纳编码（inductive coding）或对开放式访谈所收集资料的分析中，研究者难以提前确定编码方案，这会使计算过程十分繁琐（Morse, 2015; Nili et al., 2020）。其次，对 ICR 或 ICA 的评估未关注多层次编码之间的结构关系，阻碍了对研究现象的深入理解（Church et al., 2019）。最后，研究者可能为获得较高的量化指标而过度简化编码，导致对资料的解释流于表面（Olson et al., 2016）。
因此，研究者需要结合研究取向及研究特征对编码者间一致性在质性研究中的适用性做更多讨论（Smith & McGannon, 2018）。同时，研究者也提出了替代方案，即多位编码者进行协商对话，从而汇集多元视角，发掘对资料的多重理解，以实现对资料的全面、深入分析（Hemmler et al., 2022; Smith & McGannon, 2018）。
3.2 利用协商对话发展多元理解
研究者建议采用编码者间的协商对话①代替对编码者间一致性的评估（Garrison et al., 2006; Smith & McGannon, 2018）。在实践层面，协商对话要求编码者在编码的各阶段都保持批判性对话，即编码者互相分享，进行批判性反馈。主要包括：明确和解释相同编码的内涵与外延，识别编码命名相同但实际含义却不同的情况；针对分歧编码采取尊重和接纳的态度，鼓励编码者进行反身性思考，尝试解释产生分歧的原因；将编码分歧作为对问题的多元化理解纳入研究报告（Garrison et al., 2006）。另外，研究者也强调透明报告协商对话过程，即详尽而明确地呈现一致编码与分歧编码的内涵、重要编码决定及原因、一致编码与分歧编码对理解研究问题的帮助及反身性思考过程等。
协商对话作为过程性评估方式能帮助编码者认识到解读资料的其他视角，鼓励他们基于对资料的多重理解进行反思与对话，从而汇集多元观点，实现对资料的全面解读（Olson et al., 2016）。协商对话提供了一个允许编码者进行共同建构的机会，能帮助研究者全面而深入的理解研究问题；透明化报告能让读者了解编码的公平性与可靠性，确认研究的严谨性（Hemmler et al., 2022），从而提高研究的外部接受度和可交流性。此外，在技术层面，协商对话允许编码者考虑多层次编码之间的结构关系，更适用于归纳编码，也避免了对量化指标的片面追求。
3.3 理解编码共识与分歧的新视角
利用协商对话促进多元理解的方式，为认识编码共识和分歧提供了新视角。共识并不代表研究结果的稳定性、可重复性或承认背后隐含了独立于研究者的客观真理。共识只能表示编码者在相互建构的过程中获得了一种有根据的（defendable）、可被接受的合理解释（Smith & McGannon, 2018）。共识揭示的是社会意义，反映了编码者在特定学术和社会背景下所获得的关于某一现象的主流话语（Gergen, 2015）。研究者同时也强调分歧，认为分歧往往体现了对同一问题不同方面的认识，通过对编码分歧进行解释对话，能帮助读者更加全面、深入地了解研究问题的多面性。
讨论
4.1 编码者间一致性在心理学质性研究质量评价中的适用性
质性研究者对编码者间一致性的推崇在一定程度上受到了新实证主义（neo-positivism）循证实践浪潮的影响。研究者亟需向外界证明研究的“科学性”，避免丧失话语权。这一趋势在心理学质性研究中表现得也十分明显（Brinkmann, 2015）。但不加分辨地进行编码者间一致性评估，只会破坏质性研究的内部逻辑，有必要进一步厘清编码者间一致性适用于哪些类型的质性研究。
质性研究作为一个伞概念，内部充满了异质性与多样性。主要原因在于研究者受历史文化、哲学思潮、学科传统等因素的综合影响而形成了多样化的研究取向（approach to inquiry，也被称为认识论信念、世界观、范式等）。在研究取向指导下，研究者将多种研究方式、方法与实践要求相结合，形成了不同类型的质性研究。研究取向对质性研究具有导向作用（Levitt, 2020）。对编码者间一致性的评估也要以研究取向为指导，同时考虑心理学学科特征及研究实施的技术细节，保持研究内在的方法自洽性（研究的各环节始终与研究取向保持一致）。
如前所述，评估编码者间一致性的目的是确认编码结果的可重复性及客观性，从而为研究质量提供证据。在质性研究中，有一类研究秉持外部现实客观存在的本体论假设，与评估编码者间一致性的目的相契合，主要包括实证主义和后实证主义取向的质性研究。研究者普遍认同后实证主义是质性研究的理论基础之一（陈向明 , 2000）。同时， Berkovich（2018）认为，对质性研究和量化研究进行二元区分的结构主义（structuralism）观点破坏了实证主义质性研究的合法性，狭义的质性研究与狭义的实证主义可以进行有机结合；Su（2018）通过全面阐述实证主义质性研究的哲学立场及优势来说明其合理性。从现实情况来看，实证主义的质性研究意在发现核心变量并提出待检验的理论假设，在社会科学领域已经得到了广泛使用（张汉 , 2016）。由此可见，实证主义和后实证主义都可以作为方法论基础指导研究者开展质性研究。并且，考虑到心理学学科的实证主义传统、心理学研究者的知识背景及质性研究成果在心理学领域的可接受性等因素，实证主义或后实证主义取向的质性研究还将持续吸引着心理学研究者的注意。
对秉持实证主义或后实证主义取向的研究者而言，在研究中对编码者间一致性进行评估是可取的，也是必要的，既能为编码质量提供证据和保证，又符合质性研究方法自洽性的要求。但是，如果研究者认同社会现实的建构性特征，则可能需要采用协商对话等方式提高编码质量，如解释现象学、社会建构论等取向的质性研究。同时，有的研究者还会将不同研究取向相融合，实施混合取向的质性研究，例如，在心理学领域正逐渐受到关注的量化与质性混合研究设计；在临床与咨询心理学领域被广泛应用的共识性质性研究方法（consensual qualitative research，CQR）等（Hill et al., 2005）。对于能否在这类研究中应用编码者间一致性，取决于后实证主义（或实证主义）取向在其中的地位和角色，研究者应该灵活判断并说明依据。
研究的其他特征也会影响对编码者间一致性的应用。相较于探索性的研究，要为实践活动提供指导的研究可能更需要使用编码者间一致性证明研究质量，如组织与管理心理学的研究等。而有的研究并不适合进行多人编码，难以进行编码者间一致性评估，如参与式行动研究或民族志研究大多由单一研究者在真实环境中开展，研究者的参与经验是情境性的，难以向其他研究者传达（Cheung & Tai, 2021; McDonald et al., 2019）。研究者可以尝试采用外界审核（external audit trail）等方式检验研究信度（Guba, 1981）。
研究者应该以研究取向为根本出发点，结合心理学学科传统、研究特征，判断是否评估研究的编码者间一致性。在研究报告中，研究者不仅要阐释所采用的技术手段，还要澄清支撑这些方法的研究取向。这有利于读者在特定研究取向框架内对当前方法的适恰性做出公正评价（Levitt, 2020）。
4.2 编码者身份对团队合作的影响
对编码方案进行讨论或针对编码进行协商对话有助于提高编码质量，但需要妥善处理编码者的身份问题，否则会对资料分析带来不利影响（Hemmler et al., 2022）。在研究团队中，最常见的是导师与学生、项目负责人与研究助理等组合，其中一方可能被认为更博学、更权威，其主导地位应该受到尊重。这导致处于从属地位的编码者不能充分表达自己的理解或非常容易妥协（Campbell et al., 2013）。研究者应该意识到这一问题，并采取相应行动，如鼓励成员自由分享观点、坦诚交流，对多元化理解采取开放态度，建立平等舒适的合作氛围（Hemmler et al., 2022）；透明化报告团队成员间的人际关系以及为避免权力关系影响所做的努力等。
4.3 编码质量只是质性研究质量的维度之一
质性研究的质量评价是一项系统性工作，涉及对整个研究过程的全面评价，编码质量只是研究质量的一个方面。研究者可以灵活选择多种方式对研究进行综合性评价，例如，使用外界审核等方法验证研究信度；采用成员检查、三角检验等方式验证研究效度；利用案例交叉比较等方法检验研究可推广度等（王文科 , 王智弘 , 2010；Ary et al., 2010; Guba, 1981）。但对于一项研究究竟需要接受哪些方面的评价才足以证明其质量，目前还缺乏深入讨论。在未来，研究者可以从方法学视角出发，立足于不同研究取向，重新审议质性研究的各个操作环节，尝试构建质性研究评价体系。
结论
在讨论质性研究质量评价问题时，编码者间一致性受到了研究者的关注。能否将编码者间一致性作为编码信度指标主要取决于研究者的研究取向。无论使用何种研究质量评估方式，都需要保证其与研究取向的适切性。将多种评价方式相结合，形成综合性的质性研究评价体系是未来的发展方向。
转自：“质化研究”微信公众号
如有侵权，请联系本站删除！

浏览(552)

点赞(0)

收藏(0)
上一篇：文化资本视域下民族村寨文旅业的分化

下一篇：跨行政区生态环境协同治理的政策过程