阅读: 2023/5/22 15:06:57
计算传播研究的知识地图与实证框架——基于12991篇中外核心文献的对比分析
作者|赵甜芳
内容提要
计算传播研究是传播学最具成长性的领域之一,但少有成体系的、实证规范研究。该研究从中外对比的角度出发,采用文本挖掘与网络分析法,通过分析过去22年间12991篇中外核心文献以及绘制计算传播研究的知识地图,发现:国际计算传播研究正成长为计算社会科学领域的两大主分支之一,且该主题经历了从计算机科学、到心理学、再到传播学的迁移路径;国内计算传播研究具有个性化术语表达、侧重理论论述、聚焦本土议题及本学科知识三个特点。基于此,该研究进一步整理出覆盖2个一级类别和13个二级类别的计算传播研究方法体系,并构思了计算传播研究的实证框架,该框架兼顾本土知识生产的适用性和实证研究的科学性。
关键词
计算传播学 大数据 计算方法 文本挖掘 网络分析
正文
一、引言
通过计算方法观察和研究人类传播行为已有悠久的历史。但“计算传播”作为一个单独的领域被提出且引起关注,则是近十年发生的事。2014年前后,香港城市大学互联网挖掘实验室开始研究计算社会科学在新闻传播研究中的应用,计算传播学走入国内外研究者的视野。国际传播学会(ICA)于2016年创建了计算方法小组,短短两年内升级为分会,并于2018年创办国际期刊《计算传播研究》,表明计算传播研究得到国际学术同行认可。同时期,中国新闻史学会成立计算传播研究专业委员会,多家高等教育机构成立计算传播研究中心,把计算传播研究推向新高度。
计算传播研究作为中国学术机构率先推广、国内高等教育机构大力支持的研究领域,具有一定的前期积累和优势。但是在构建中国自主知识体系的时代背景下,计算传播研究面临新挑战:
一是本土化的实证研究仍相对稀缺。“本土化”泛指建构西方学术理论与非西方社会现实之间联系的过程,可追溯至20世纪社会学领域的本土化运动,即发展中国家的社会学界发起的地方化、区域化的社会科学知识生产运动,以挑战和反抗发达西方社会支配的学术霸权。“虽然本土化的概念已经广泛传播,但是在意义与指向上还缺少明确的共识,且科学普遍性与文化特殊性之间的矛盾难以调和。”这也是计算传播研究本土化的瓶颈。
二是研究方法的范畴不明。过程性是传播的关键特征,但“缺乏研究传播过程的方法,以及采用其他领域的方法,是传播学领域的两个长期挑战,这反映了传播学者对过程的普遍背离”。第三次工业革命时代,井喷式发展的计算方法被认为是“帮助传播学突破历史方法的束缚,催化一套新的过程研究方法”的机遇。但由于计算方法的具体范畴尚不明确,其在传播过程研究的适用性也缺乏整理,间接造成了研究边界模糊的问题。这属于国内外计算传播研究的共性问题。
三是缺乏符合计算规范的通用实证框架。计算规范并非科研事业的终极目标,但对研究认知、过程监督及结果阐释起着关键作用,催化新领域的成熟。在规范形成过程中,如何兼顾国际通用性和本土适用性,仍是待解决的难题。
本文基于国际科学引文数据库和中国期刊全文数据库检索的12991篇核心文献样本,通过中外对比分析,归纳计算传播研究的知识脉络和主要方法,构思出计算传播研究的通用实证框架。主要贡献包括:
(1)梳理出计算传播研究的知识地图。包括领域定位、主题演化、方法变迁、显著特点等。
(2)提出适于本土计算传播研究的方法体系。包括以量表调查法、控制实验法、内容分析法、元分析为代表的传统量化方法,和以大数据技术、自然语言处理、机器学习、计算机视觉、仿真建模、网络分析、时空分析为代表的新型计算方法。
(3)提出一种兼顾本土化论证与国际传播需求的通用实证框架。该框架构建了中英文通用写作框架,展示了传统量化计算与新型计算方法的具体范畴,列出计算与人文相结合的两条路径及多域视角。
二、文献综述
(一)“计算传播”概念提出
作为计算社会科学分支的计算传播学,起源于两个截然不同的学科:根植于社会和人文的传播学,和根植于STEM(科学、技术、工程、数学)的计算科学。其历史渊源可追溯至上世纪80年代,彼时个人终端电脑的普及为跨时空的沟通提供便利,促进“以计算机为媒介的传播”这一新兴领域的诞生和发展,也为计算传播研究领域的诞生埋下伏笔。20世纪末到21世纪初,以推特、脸书、微博等为代表的社交媒体平台兴起,记录了人们在虚拟空间的大量“数字足迹”(digital trace)海量数据矿藏及智能计算技术推动社会科学转型,促成“计算社会科学”研究热潮的出现,也为“计算传播研究”的快速生长奠定基础。
正如计算社会科学研究早于其概念的普及,计算传播研究也早于其概念的推广。20世纪80年代起,计算和数学方法开始被引入不同类型的传播学研究中,例如传播学研究数学模型等。21世纪初期,出现了传播网络分析、仿真代理模型等传播学研究。2009年后,有学者开始提倡使用大规模数据和计算技术展开传播学研究,也曾提到过“计算传播”的概念,可惜并未进一步阐述及定义。
国内学者敏锐地捕捉到这一热点机遇,展开积极的跨学科探讨与合作。孟小峰等人于2013年探讨了大数据时代面向社会科学和技术应用的社会计算研究,唤起多领域的关注。祝建华等人于2014年按经典5W模型梳理了计算社会科学在新闻传播研究中的应用,揭开计算传播研究序幕。同时期,国内传播学者开启了对计算传播研究的广泛讨论,包括大数据时代的新闻传播进路、数据新闻报道、传播可计算性、计算传播效果、前沿议题、虚假信息传播、网络舆论研究、社交媒体情感动员、国内教育展望和发展路径等。
(二)国内外研究现状
现有计算传播研究可大致归为以下三类。第一类是传统量化研究的延伸,即大数据及计算机技术辅助的量化研究。例如:把传统的问卷调查延展为计算机辅助的线上调查、基于自动文本挖掘的内容分析、人工智能辅助的回归模型等。这类研究遵循“问题→数据→假设→统计检验→结果→结论”的流程步骤。第二类是传统质化研究的升级,即基于大规模经验数据的理论构建与探讨。例如:社交媒体大数据支持的案例研究、基于大数据的议程设置理论、基于主题建模的框架分析等。这类研究介于质化与量化之间,容易与第一类研究混淆。区别在于第二类研究并不要求严格的假设与统计检验,更多遵循“问题→数据→分析→结果→讨论”的流程。第三类是跨领域的研究触角,包括物理学、计算机科学、心理学等领域学者用各自的研究视角触及传播学研究。例如起源于物理学的复杂网络传播动力学研究,计算机科学中的大数据挖掘与社会协同计算,心理学及认知科学通过心理测验、眼动仪、核磁共振等方式深入理解人内传播机制。
这三类研究模式共同构筑了计算传播研究的底色。中国本土计算传播研究主要集中在第一类。传统量化研究的丰富经验促成了计算传播在中国本土的率先发展,但是它对假设检验及统计条件的严格限制,增加了额外的人力与计算负担,所用统计模型多为一元/二元/线性回归等统计模型,较难适配高维复杂、非线性、多元异构的大数据特征,一定程度地限制了计算传播研究范畴。本文通过分析传统量化研究与新型计算方法的传承发展关系,构建囊括二者的方法体系,尝试解决学科内部方法派系冲突问题。
三、研究设计
(一)研究问题
计算传播的研究问题通常具有可计算性,需要通过问题构造或转化来得到可计算的问题。本文的可计算问题包括:
问题1:计算传播研究在计算社会科学研究中的整体定位是什么样的?设计算社会科学包含多个分支学科,每一项研究被主要地归类于一个学科。统计其中标注为“计算传播学”的文献数量,该问题可被构造为不同时间点上计算传播研究占总体文献的比例问题。
问题2:国内外计算传播研究各自遵循什么样的发展路径?设“发展路径”指特定时间范围内相关文献标签的变化情况。该问题被转化为“在指定的文献发表时间范围内,中外计算传播研究的文献标签数量是如何变化的”这一可计算问题。
从质化研究的视角展开研究,可提升计算传播研究结果的社会意义与价值。本文尝试回答的质化问题包括:
问题3:计算传播研究方法的具体范畴是什么?所提“具体范畴”指统计国内外计算传播文献的主要计算方法后,归纳所得的主要方法类别。
问题4:如何展开计算传播研究的本土化知识生产实践?所提“本土化”知识指以本土语言为主要书写媒介的、符合本土社会文化背景的内生性知识。
(二)研究数据
数据集1(WoS计算社会科学引文集):以WoS数据库为文献来源,以大卫·雷泽等人于2009年和2020年的两项里程碑式文章为锚点,收集引用文献,得到1612篇研究样本,探究计算传播研究在计算社会科学中的所占位置。
数据集2(SSCI计算传播文献集):以WoS—SSCI搜索引擎为文献来源,时间范围设定为2000年1月到2022年9月,分两个子集:1)专业集,即以国际传播学领域23本高水平期刊(JCR Q1)为文献来源,累计获得22615篇文献,通过精确匹配和人工编码相结合的方法,标注出9795篇带有明确计算方法的专业集文献;2)主题集,即以SSCI总库为数据来源,以“computational communication”为关键词、以“主题搜索”为检索类型进行文献补充,初始获得1403篇文献,通过人工阅读的形式剔除弱相关文献,获取760篇主题集文献。
数据集3(CNKI计算传播文献集):以CNKI学术期刊搜索引擎为文献来源,时间范围设定为2000年1月到2022年9月,分两个子集:1)专业集,即以国内传播学领域的4本代表性期刊为文献来源,累计获得18143篇文献,通过精确匹配和人工编码相结合的方法,标注出735篇带有量化及计算方法的专业集文献;2)主题集,即以CSSCI总库为数据来源,以“计算传播”为关键词进行主题搜索,初始获得227篇文献,通过人工阅读剔除弱相关文献,得到89篇主题集文献。
(三)研究方法
本文运用文本挖掘与网络分析相结合的计算方法展开研究。编程语言为Python 3.6,网络可视化工具为Gephi。
1. 文本挖掘(text mining)
文本挖掘是从文本中提取高质量信息的过程,是数据挖掘方法在文本语料处理方面的应用。参考IBM SPSS给出的文本挖掘步骤,本文的做法如下。一是识别待挖掘的文本,标记标题、摘要、关键词、发表期刊、所属领域、发表时间、作者、所在单位、发表期刊、基金资助等字段信息。二是大数据技术辅助的数据分析,包含数据采集、清洗、缺失值处理、关键词提取等自动化处理环节和人工编码环节。人工编码过程分两阶段:第一阶段由两位受过培训的编码员独立编码,如果编码一致则确定为最终编码,如果存在分歧则进入第二阶段;第二阶段邀请一位资深编码员加入,三位编码员按多数投票原则确定最终标签。
2. 网络分析(network analysis)
网络分析是综合社会统计学、复杂网络科学、数学图论之间的复合型研究方法。本文涉及的网络分析包含两部分:一是关键词共现分析,关键词是由文献作者提供的、最能概括本文核心内容的词汇,高频共现的关键词代表着某一方向的结合趋势。节点表示关键词,其大小反映了和该节点相连的边的权重之和。边表示两个关键词共同出现于至少一篇文献中,其粗细反映了每一对关键词共同出现的次数。二是聚类分析,通过运行基于模块度的社团检测算法(louvain)识别具有紧密联系的关键词社团,对比主要研究主题下的关键词分布情况。网络可视化是呈现分析结果的必要途径,为优化视觉效果,采用力导引算法(forceatlas)进行布局。
四、研究发现
(一)作为计算社会科学主要分支的计算传播研究
基于数据集1,本文探究了计算传播在计算社会科学中的位置。首先提取出引文涉及的七大领域,随后通过人工编码将样本文献分类。经初步统计,各分支领域详细占比概况见图1(a),各分支领域随时间变化的情况见图1(b)。
图1(a)显示,尽管社会科学覆盖的学科分支众多,但只有少部分拓展出“计算”方向。经统计,计算社会学、计算政治学、计算经济学、计算心理学、计算传播学、计算语言学以及人文计算的文献数占绝对优势。计算社会学的文献最多(28%),涉及人类整体性活动、社会系统模拟和预测、社会感知计算、社会协同计算等多样化的研究内容。计算传播学位居第二(23%),研究主题多与社交媒体传播、传染和扩散模型、影响力传播者、意见领袖、新闻内容计算相关,图1(b)显示,2009年已有少量计算传播相关研究,但是2014-2020年开始进入快速发展期,目前已与计算社会学并列成为计算社会科学框架下的两大分支领域。
虽然计算经济学、计算心理学、计算语言学、人文计算在文献中占比较少,但并不代表这些领域的研究滞后。恰恰相反,这些领域的出现时间均早于2009年。例如“计算经济学”的概念可追溯到1996年汉斯·安曼(Amman, Hans M.)等人提出的基于代理的计算经济学,并由利·特斯法松(Tesfatsion, Leigh)等人于2006年进行重新阐释;“计算语言学”由格里·沙姆(Grishman, Ralph)等人于1986年给出过系统性介绍,之后伴随自动化文本处理的兴起而迅猛发展。这些先驱性探索为2009年的“计算社会科学”研究热潮奠定了基础。
(二)主题演化:从计算机科学,到心理学,再到传播学的迁移之路
文献预调研结果显示,WoS文献分布在不同领域,而CNKI文献以传播学为主。因此本文基于数据集2,重点统计了“2000-2009年”、“2010-2015年”、“2016-2022年”三个时段以“计算传播”为主题检索得到的760篇SSCI英文文献研究领域,考察国际“计算传播”主题的发展历程。
表2列举了排序靠前的20个领域的占比情况。早在第一个时期(2000-2009年),计算机科学领域的研究占比最高(20.91%),表明该时期主要以计算方法和技术的突破为主。第二个时期(2010-2015年)心理学领域研究后来居上,在同期研究文献中的占比(20.24%),以微弱的优势赶超计算机科学(19.64%)。到了第三个时期(2016-2021年),计算传播的文献数增长迅速,传播学领域以极高的比例(25.11%)占据榜首,表明传播学的主体地位开始显现。尽管商务&经济、语言学在早期研究的占比较高(分别为10.00%与9.09%),但二者比例在后来的阶段不断被稀释,最终停留在第三阶段的4%左右。
可以预期,在“计算传播”主题的未来发展中,传播学的主体性将进一步凸显,心理学、计算机领域知识将更广泛地迁移至传播议题研究。伴随着知识的横向迁移与纵深探索,计算传播研究兼顾“广”与“深”的特色将更加鲜明。
(三)方法变迁:从传统量化到新型计算的方法演进之路
计算传播作为新的研究领域,目前尚未形成公认的方法体系,但关于计算的思考有迹可循。在韦氏词典中,计算(computation)一词有两层含义:a)计算的动作或行为——等同于calculation;b)计算机的使用或操作。换言之,狭义的计算指基于计算机的自动化数值计算方法,例如大数据技术辅助的计算、机器学习、神经网络、仿真模拟等自1946年计算机诞生之后陆续问世的新方法。广义上的计算则泛指基于数学的科学计算方法,包含描述统计与数理统计、线性代数与几何、数学图论等历史悠久的数学方法。承认狭义的计算,也即承认其数学基础——广义的计算。从这个角度看,传统量化研究中的计算方法可被视作狭义计算方法的前身、广义计算方法的组成部分。
本文借鉴类型学思路,通过统计数据集2和数据集3中专业集文献频繁提及的研究方法,将其划分为两类一级方法和十三级二类方法。随后根据每个二级方法类别描述,依次为文献打上方法标签,同一文献可以被标记上多种方法标签。统计时间轴以2014年为分界点,被分为两个阶段:2000-2013年和2014-2022年,由此观察不同量化计算方法的发展趋势。表3展示了具体方法类别及统计数据。
统计结果显示:1)传统量化方法在CSSCI和SSCI文献中均占据主导性优势,但在二级方法选择上存在差别。中文文献更倾向于使用内容分析法和量表调查法,而英文文献更倾向于量表调查法、控制实验法。元分析在两类研究均占比最小,属于传统量化研究中相对小众的方法。2)新型计算方法在CSSCI和SSCI文献中呈现增长趋势。受益于主题建模方法的广泛应用,自然语言处理的增长幅度最大。其次是大数据技术的应用,涉及推特、微博等短文本社交媒体数据挖掘。3)在计算层面,调查数据和实验数据的分析采用一元/二元回归、多元线性回归、结构方程模型、因子分析、多层次分析等数理统计方法。混合计算方法的出现频率也较高,常见组合为内容分析+网络分析、内容分析+调查法,新型组合则为大数据技术+机器学习、大数据技术+自然语言处理。
(四)从中外文献对比角度看本土研究的主要特点
文化背景与语言语法的不同,导致中英文文献的术语表达、论证倾向、研究议题等方面均存在差异。本节通过对比分析,凝练出本土计算传播研究的特点,为构建实证框架做铺垫。
特点一:本土研究在“核心术语表达”方面偏个性化,尚未达成共识。
关键词反映了一篇文献的核心术语表达及领域关联。本文提取出数据集2和3中主题集文献的关键词,绘制关键词共现网络。
图2(a)展示的英文关键词网络中,度值超过100的头部节点依次为“传播、信息、模型、行为、社交媒体、网络、感知、媒体、动力学、语言、进化、科学、推特、涌现、互联网、新闻、知识、框架、演讲、大数据、系统”。排名前五的关键词依然落在经典5W传播框架的概念范畴内,意味着国际计算传播的研究视野并未失焦。对“知识、语言、话语、行为、直觉”的关注承接了传统传播学研究对人际之间显性与隐性交流的双重关注。以“网络、动力学、感知、进化、涌现”为代表的关键词也频繁出现,表明具有良好数学表达和成熟技术路线的传播动力学理论及方法吸引着国际研究者的关注。图2(b)展示的中文关键词网络中,度值超过20的头部节点依次为“社会网络分析、社交媒体、社会网络、微博、新闻传播学、计算传播、意见领袖、新媒体”,主要与社会网络和新媒体有关,较少涉及系统动力学。
对比网络结构可以发现:英文关键词网络的密度较高,存在标签为“传播”的超级中心节点,表明核心术语表达方面的共识度较高。中文关键词网络连边稀疏、存在大量孤立节点团,表明关键词大多只在一篇文章出现,呈现个性化表达的特点。
特点二:本土文献侧重理论思辨,实证研究比例较低。
计算传播研究不仅包含实证(计算类)研究,也涉及理论类、思辨类、探讨类、综述类等非实证(非计算类)研究。本文招募三位编码员对中文文献进行了人工编码,将具有明确计算方法的文章标注为“计算类”,无明确计算方法的标注为“非计算类”。
结果显示,在以“computational communication”(计算传播)为关键词获取的英文文献样本(n=760)中,非计算类文献占比41.4%,不足半数。而在以“计算传播”为关键词获取的中文样本(n=89)中,非计算类文献占比71.9%,占主导性优势。该结果表明,当前阶段的本土计算传播研究处于理论先行的阶段,实证研究的比例相对较低。但随着以“大数据技术”和“自然语言处理”为代表的新型计算方法正在迅速引起关注和使用,这一现状有望得到改善。
特点三:专注本土议题与本学科知识,引入跨学科研究方法。
研究领域可通过关键词网络的社团分布来体现。网络社团指内部连边紧密、外部连边稀疏的网络结构特征,一定程度地体现了研究主题的分布情况。
对SSCI主题集的英文关键词网络进行社团划分,得到大小不一的26个社团(模块度为0.47)。图3(a)展示了规模排列前五的社团主题,分别为媒介传播(17.30%)、语言交流(10.82%)、网络动力(10.54%)、认知与心理(9.13%)、复杂系统管理(5.52%)。从社团内部结构来看,媒介传播与网络动力两个社团主题具有较高的内部连通性,节点相对集中,而其他三个社团的节点分布相对分散。从社团之间连通性来看,媒介传播与网络动力两个社团具有最高的连通性,复杂系统管理的社团则与其他社团联系都比较稀疏,处于相对边缘的位置。五个头部研究主题具有较强的跨学科色彩及可度量性,代表着计算传播研究高度扩展和跨领域研究走势。
同样的做法适用于CNKI主题集的中文关键词网络。由于网络中孤立社团过多,首先通过表4规则合并相似关键词。通过运行社团检测算法,整个网络被划分为92个社团(模块度为0.874)。节点数排序前十的社团占总结点数的比例为53.78%,具有一定代表性。这十个社团的主题可被进一步归纳为三大主题:社会网络与社会化媒体(26.17%)、新闻传播学理论与实务(17.05%)、计算传播研究方法(10.56%)。三个主题之间的联系较为稀疏。该结果显示,本土计算传播研究的对象、议题、理论仍在传播学科范畴内展开,跨学科的交叉融合主要体现在新型计算方法的引入。
五、实证框架
计算传播作为计算技术与传播学研究的结合体,可使作为舶来品的技术更有社会关怀和问题意识,使经典传播学问题更有技术解决方案。这种潜在价值呼吁中国计算传播研究一方面关注国内传播研究问题,重视本土化知识生产;另一方面促进中国知识话语及影响力的国际化传播,贡献中国学术智慧。二者双向促进,最终服务于学术共同体的多元化发展。在此前提下,有必要构建一个符合中国国情与学科现状、与国际接轨的通用实证框架。本文从写作规范、方法体系、实践路径三个维度展开构思。
(一)研究设计:突出研究问题及方法,区分研究结果与讨论
写作框架可分为“个性化”与“规范化”两种。前者符合作者本人的思维习惯,服务于多元化思想表达,但对作者的逻辑一致性、读者的知识密度要求较高。后者遵循固定的写作模式,更符合跨学科领域学术共同体的阅读习惯。作者从三个数据集中选出92篇发表于《新闻与传播研究》、《科学》、《美国国家科学院院刊》等国内外权威期刊的文献进行分析,归纳出国内外通用写作模块,见表5。
计算传播研究的核心在于解决传播学议题下“什么是可计算的”以及“如何计算”两个难题。在此写作模块下展开研究,首先得“明确一个特定的问题”。它允许研究者通过归约、嵌入、转换或模拟等方式将一个看似困难的问题重新表述为已知且可解决的问题。这个问题最好有清晰的定义且能列举出具体发生语境。图灵奖获得者詹姆斯·格雷(James Gray)认为,一个表述清楚的问题应该能通过专业术语界定并表述清楚,虽然问题解决方案可能尚不明朗,但提出者应对问题意义非常清楚,并展开有效的同行讨论。这意味着研究者需要在不同的研究阶段中追问自己:
①问题是否可计算?或哪些部分是可计算的?
②问题成立的前提假设是什么?问题解决的判定条件是什么?
③问题适合用哪种计算方法?其时空复杂性如何?是否有更优的解法?
④问题的解是否具有可解释性?
其次是给出方法的原理简介和关键步骤。计算方法多有其自身的条件约束和适用场景,理解方法自身的误差和外部的不确定性,是得出可靠结果的前提。体现在写作规范上,就是阐明研究方法的基本原理、环境配置、关键步骤等。值得注意的是,数据只是一种催化剂,并非计算的必备条件。有一些计算方法无需外部数据的输入,例如仿真模型只需要少数经验参数的设定,而并不直接依赖外部观测数据。
最后要区分事实性的“研究结果”与经验性的“思考讨论”。例如,本文提及的“早在第一个时期(2000-2009年),计算机科学领域的研究占比最高(20.91%)”为事实性的研究结果,如果进一步讨论该结果出现的原因,则需要切换到“思考讨论”模块。如果不显性地、结构化地区分事实和讨论,容易误导读者将“主观演绎”误判为有实际证据支持的“客观事实”,从而误导本领域初学者,也阻碍跨领域的学术交流与传播。如考虑行文流畅度,需要将二者归于同一模块,建议提供直接或间接的证据关联。直接证据主要指一手数据分析结果,间接证据包括引用权威文献、提供典型案例说明。
(二)方法体系:“计算”的边界、价值与类别范畴
对“计算边界”的分析常始于对“数学边界”的探讨。计算理论依赖严谨可靠的数学推导,计算硬件多由“非0即1”二元逻辑门电路构成。软硬件层面的限制导致计算方法无法成为超越数学的存在。计算既有边界与适用性,也有其独特价值。一是提升知识积累与传播的效率。计算方法将经验数据转化为结构化知识,实现快速积累与传播。例如大数据自身偏差限制了其价值提取,而好的计算能够有效控制环境变量和泛化误差,将大数据转化为高精度、细粒度的结构数据,为下游领域提供相对可靠的研究依据。二是实现人类社会的宏观定量分析。智能计算方法和自动化流程使得成本昂贵的大规模的人类活动调查、人类学田野研究、人口学统计、经济学实验有了替代方案。“我们终于可以从对社会原子或社会分子(即小社会群体)的分析转向社会科学家所设想的社会总体状态的定量分析,正如物理学中发生的事情一样。”三是对人文认知的促进。智能计算技术实现了对复杂智能“涌现”的观测及模拟,使人工智能与人脑智能的边界变得模糊,计算方法逐渐有了自我纠偏、进化以及知识生产的潜力。这些新景观唤起了学者对机器伦理与算法偏见、数字鸿沟、信息茧房等现象的反思以及对“人之本质”的重新审视。
广义计算方法包括传统量化方法与新型计算方法两大部分,具体见图4。该类别的构建过程建立在对国际和国内传播学代表性期刊近20年的文献样本调研基础上,不仅适用于本土研究,也同样适用于国际计算传播领域的研究。鉴于传统量化方法研究已十分丰富,而新型计算方法研究相对较少,因此本小节重点介绍后者。常用的七类新型计算方法包括:大数据技术、自然语言处理、机器学习、计算机视觉、仿真建模、网络分析、时空分析。下文逐一介绍。
大数据技术,用于大数据收集和处理的综合性研究方法,常见于社交媒体挖掘、新闻文本挖掘等研究任务。它通常遵循固定的流程步骤,例如数据采集、数据清洗、数据处理、数据可视化。大数据收集和处理技术的一个重要数学依据是“大数中心定律”,即样本数量越多,其算术平均值就有越高的概率接近现实期望值。大量数据所提供的宏观视角常与研究者的微观视角不一致,分析过程常遇到反常识的现象和结果,因此“不预设假设”成为一种研究默契。
机器学习,当下流行的模式识别与分类方法,按训练集依赖程度可大致分为监督学习、半监督学习、无监督学习三类。传播学研究中常用监督学习方法的典型代表有随机森林、逻辑斯特回归等,常用无监督学习方法包括K-均值聚类、主成分分析等。此外,还包括自监督学习、弱监督学习、强化学习等细分方法,以及图机器学习、联邦学习、AI大模型、因果推断等综合性机方法,但由于应用这些方法的可视化软件尚不多见,因此未引起传播学领域的广泛关注和使用。神经网络也常被列为广义上的机器学习方法,计算成本较高且结果可解释性有待探索,在传播学领域的推广仍需时日。
自然语言处理,语言学与计算机科学交叉领域的研究方法,典型代表是主题建模和语义网络。经典的隐狄利克雷模型(LDA)能从一系列文档中提取出多个以词组形式呈现的抽象主题,但主要适合长文本分析,在处理短文本数据时会由于词向量稀疏而降低主题质量。之后诞生诸多改进版本,例如细粒度主题模型MG-LDA、带少许先验知识的主题模型CorEx、带作者偏好的主题模型ATM、带时间维度的动态主题模型DTM、带结果解释的主题模型LDA2VEC、能实现图文混合挖掘的主题模型等。语义网络能将句子中提取的关键词及共现关系以网络形式呈现,挖掘出概念与实体之间的潜在关联。近几年,类似ChatGPT的新型自然语言处理方法不仅是机器理解人类语言模式的新突破,也为经典传播学理论增加了新的观察维度。
计算机视觉,通过计算机对目标进行识别、追踪、恢复及生成的机器视觉技术。可借助计算机视觉技术自动化地统计图像的色彩和亮度等特征,推进计算美学研究;也可通过识别社交媒体图像中的人脸、性别、手势、微笑、肤色、动物、文字等内容信息,丰富社交媒体及用户行为研究;还可通过新闻现场的定格图像观察,剖析新闻事件背后的意义机制、符号行动、发生场域、实践模式等。小规模图像识别任务采用人工编码更为高效和精准,大规模的图像识别任务则需采用谷歌、IBM、腾讯、阿里云等知名厂商提供的接口进行自动化识别和人工核验。
仿真建模,对复杂现实的高度抽象与数字化模拟方法,允许人们以时空并行的方式去推演各种可能发生的情况。这种方法适用于数字社会实验,例如模拟传播者的个体或群体状态、还原传播过程、预测传播趋势等任务。目前最为常用的是基于代理的仿真,它聚焦环境、个体与群体三者之间复杂交互及涌现现象,然而如何构建真实数据与模型参数之间的关联,以及如何提高模型预测结果的准确性和适用性是当下的热点和难点。
网络分析,一种常用的计算社会科学研究范式,从源流角度可进一步分为社会网络理论与复杂网络方法。社会网络理论根植于社会学传统中的结构化思想,最早可追溯至格奥尔格·齐美尔(Georg Simmel)提出的形式社会学和1930年代雅各布·莫雷诺(Jacob Levy Moreno)提出的社会计量学。1960-1970年代,哈里森·怀特(Harrison Colyar White)用代数来表达和分析由“位置和角色”构成的社会网络系统,形成相对完善的社会网络分析方法论。复杂网络方法起源于1998年代物理学家们提出的小世界理论和无标度网络,以及采用数学图论的方法来系统描述复杂网络特征。目前,两类分析正呈现合流的趋势。
时空分析,特指面向时间序列数据或地理空间位置信息的统计分析方法,常见于社交媒体研究。社交媒体数据多为自带时间戳的动态流数据,对历史数据的时序分析可辅助挖掘事件异常点及转折点,预判事件未来走势。空间分析则主要面向带经纬度的地理位置数据,借助可视化技术,直观展示传播人群的空间分布。空间信息还可结合时序数据呈现信息的时空动态演变。
(三)实践路径:计算“地基”,人文“屋瓴”,多域“视角”
中国本土传播现象的背景复杂、群体多元、要素众多。面对同样的传播议题,存在两种截然不同的研究取向:一种是启发式的、人文取向的,另一类是程式的、计算取向的。人文取向的研究能够最大限度地“因地制宜”,剖析本土现象的底层逻辑与运行机制,具有较好的灵活性和问题适应性,但对知识经验的高度依赖导致可迁移性不足。中国作为人口大国,有庞大的人际传播数据与处理需求,计算取向的研究通过程式化计算可高效提取有价值信息、输出稳定可靠的结果,能较好地应对大数据分析的挑战,但面对复杂传播议题时常陷入“技术精致、但意义受限”的困境。
综合两种研究取向,本文提出两条实践路径:一条是“自底向上”的实证分析与意义建构,另一条是“自顶向下”的意义贯彻与分而治之。两条路径已有诸多实践案例。第一条路径先通过实证分析找出规律,再通过人文理论及思想阐释意义,解决计算研究意义不足的问题。例如,哈佛大学学者通过招募48家小型媒体机构在Twitter展开真实线上随机实验,发现通过施加干预可使得政策讨论区增加约62.7%,表明新媒体可以激活公众表达进而影响国家议程,从而将研究结果提升至人民民主的高度。第二条路径先根据人文经验选择有意义议题,再通过实证研究逐个检验,弥补传统人文研究证据缺位问题。例如,斯坦福大学研究者围绕群体智慧理论研究中“社会影响是否会破坏群体智慧”这一经典议题,构建了社会影响力的理论模型,并招募1306名互联网志愿者展开线上控制实验,得出“社会学习能够放大优秀个体的影响力,使得其他人和集体获得更好的智慧”这一结论。
研究视角的切换有助于进一步理解这两条路径。中文语境下的“传播”一词对应多种英文表达,每种表达背后对应一种研究视角。最经典的“沟通式传播”(communication)泛指人类社会中的一切沟通和交流行为,覆盖主流传播学理论及知识,是构筑人文意义的诸多基石之一。例如,从源流角度划分出的经验学派、批判学派、媒介技术学派,从传播类型角度覆盖的人内传播、人际传播、群体传播、组织传播、大众传播范式,从传播框架角度包含的控制研究、内容研究、媒介研究、受众研究、效果研究,从传播理论角度涉及的沉默螺旋、议程设置、涵化理论、知识鸿沟、意见领袖、传播效果等经典理论。传播动力学领域的“扩散式传播”(diffusion)和“繁衍式传播”(propagation)也是常见的范式,用于实证分析与预测。“扩散式传播”指信息从浓度较高的区域自然扩散至浓度较低区域的过程,包含信息级联模型和线性阈值模型两种经典信息扩散模型。繁衍式传播泛指信息或物质在网络化社会中的繁衍、变异式增长,例如病毒传播、观点动力学模型、多代理模型等。电信领域的“通信”(communication)、数字信号领域的“传输”(transmission)、政治领域的“宣传”(propaganda)等名词也有传播的含义,但均有专门的中文措辞,此处不再展开。
六、结语
本文通过国内外文献的实证分析,归纳出本土计算传播研究的显著特点。这些特点的产生与本土语言及文化背景密切相关。从语言学角度看,现代《新华词典》收录的汉字有十万多个,所能生成的词汇组合数众多,在不同语境下的语义差异较大,当研究者所能使用的术语无法完全匹配时,会呈现个性化的特点。历史角度看,中国古代哲学对思辨的重视由来已久,由此启发的儒、道、法学皆保留这一传统,扎根传统的人文研究强调传承与发展,社会与人文环境培育下的传播学研究也承接这一特色。从学科角度看,传播学研究难以脱离社会环境而独立存在,本学科知识和本土议题是滋养其发展的丰沃土壤,国内外研究皆如此。
在深入理解这些特点存在合理性的基础上,本文构思了适合国内外计算传播研究的通用实证框架。首先通过规范性的研究设计,为实证分析与理论思辨留出充分空间,并结构性区分实证结果与思辨讨论。接着构建广义计算传播研究的方法体系,理清传统量化研究与新型计算方法的关联,并概述了目前缺乏系统整理的新型计算方法。最后归纳出自顶向下和自底向上两条实践路径,探讨多领域传播视角,丰富计算传播研究的知识范畴。
载《新闻与传播研究》2023年第3期
转自:“新闻与传播学术前沿”微信公众号
如有侵权,请联系本站删除!