阅读: 2023/6/1 14:52:49
原文信息:
Al-Haschimi, Alexander and Apostolou, Apostolos and Azqueta-Gavaldon, Andres and Ricci, Martino, Using Machine Learning to Measure Financial Risk in China (January, 2023). ECB Working Paper No. 2023/2767.
原文链接:
http://dx.doi.org/10.2139/ssrn.4338206.
01
引言
自全球金融危机以来,中国的金融风险不断积累,非金融部门的信贷占GDP的比重增速快于其他新兴市场和主要发达经济体(图1a)。房地产行业杠杆率尤其高,企业和家庭部门的债务水平也在不断攀升(图1b)。一些行业对短期资金的过度依赖、影子银行的高不透明度以及传统银行业务的隐含风险同样是风险的来源。此外,国际贸易争端、COVID-19疫情、地缘政治紧张、对中国未来增长模式的政策不确定性以及关键领域的规制变化等其他因素也给金融市场参与者带来了更大的不确定性。
在这样的环境下,中国金融系统的风险会周期性地出现。近年来的案例包括:2015年的股票价格崩盘、2019-2020年包商银行的破产问题和随后的违约事件以及2021年几家重要房地产开发商的违约事件。2022年初,中国股市出现了一波调整,同时资本外流也创下了历史新高。这一轮事件是由快速增长的科技行业的监管加强和俄乌战争等地缘政治风险上升而导致的。这些事件表明,中国金融市场仍然存在波动性,而风险的潜在触发因素也是多样的。
然而,监测中国金融风险仍然是一项具有挑战性的任务。影子银行的崛起和科技公司涉足支付和信贷服务等金融中介活动意味着风险源迅速变化,且金融规制和财务报告也在不断变化。而由于缺乏具有足够时期长度且可进行标准时间序列分析的一致的金融数据,因此,使用传统方法量化经济系统中的各方面金融风险存在巨大挑战。
本文试图利用机器学习方法对大量报纸文章进行文本分析,开发一种测度金融风险的指数,从而扩充现有的风险指数集合。具体而言,本文借助文本分析技术,识别出中国金融风险的主要事件,量化这些事件并对金融风险的不同来源进行分解。本文使用潜在狄利克雷分配(LDA)算法进行主题建模,并使用结构向量自回归(SVAR)模型来量化金融风险上升对中国和全球经济的影响。结果发现,金融风险指数的增加对中国和全球的宏观和金融变量均具有显著的负向影响。
数据及方法
02
2.1 文本数据
数据来源:Dow Jones Factiva 数据库提供的《华尔街日报》(WSJ)和《南华早报》(SCMP)的印刷版。
需要注意的是,此处与许多国内的现有类似研究不同,本文使用外媒报道的文本数据,因为作者认为外媒对于中国金融风险的报道相对于中国国内媒体的报道更加客观和翔实。另一个原因是,已有近期的主流研究基于这些数据构建了中国的其他风险或不确定性的指数(Davis et al., 2019; Huang and Luk, 2020)。
本文选择印刷版而不是网络版报纸,其原因是网络版报纸通常会因为转载和多平台发布而重复报道许多相同内容,而印刷版报纸的编辑过程会减少现有文章的重复或更新,从而使本文的文本数据样本更具准确性和代表性。
词语筛选:为了识别与金融风险相关的文章,本文筛选了一组包含在文章中的词语。为了获取这个词语列表,本文从“risk”和“financial”这两个词以及其变形如risks、riskiness开始,利用Word2Vec算法生成了一个语义相似的单词列表(该算法的具体技术细节可参考本推文最后提供的技术附录进行学习)。该算法产生了100个与“risk”和“financial”最相似的词,本文进一步通过人工判断将这个列表进行缩减,只保留那些在含义和情感上与这两个词均相关的词(表1)。
2.2 主题建模
本文对选定数量的新闻文章应用潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)算法。该算法通过研究文章中单词的共同出现情况来将每个主题作为一个单词分布进行构建,每个单词都有一个特定的概率属于给定的主题。而每篇文章则被表示为一个主题分布。主题的分类采用无监督学习方法进行,即该算法在没有对文章进行任何预先标记的情况下计算出两个潜在分布(由于推文篇幅限制,该方法繁琐的技术细节不在此赘述,感兴趣的读者可下载论文原文或参考本推文最后提供的技术附录进行学习)。
下图3展示了利用LDA模型识别出的六个核心主题,其标签是通过单词的频率及阅读确定主题的代表性文章来给定的。
03
金融风险指数
3.1 金融风险指数的构建
为构建综合金融风险指数,本文采取了三个步骤:(1)选择在捕捉中国金融风险方面最相关的关键主题;(2)将与所选主题相关的时间序列加总,构建一个单一的金融风险指数;(3)通过两家报纸在样本期内发表的有关中国的文章总数来对该指数进行比例缩放。
具体而言,在第一步中,为了选择最终的主题集合,本文采用以下方法进行判断:(1)考虑主题的主要焦点;(2)阅读最能代表该主题的文章,即属于该主题概率最大的文章;(3)观察主题的邻近性以判断主题的识别程度和它们之间的相互作用。由此,本文确定了六个主题:(1)公司盈利能力(corporate profitability);(2)公司投资(corporate investment);(3)银行业(banking);(4)金融市场(financial markets);(5)汇率(exchange rates);(6)房地产(real estate)。
下图4展示了这六个主题所对应的金融风险指数的时间序列。
进一步地,本文将上述六个单一指数聚合为一个综合指数,结果如图5所示。将该指数与一些重要的全球和中国的特定事件进行对比,可以发现:在金融领域遭受动荡的重大事件期间,该指数会急剧上升。特别值得注意的是,该指数在2015-2016年的股市大幅调整和人民币贬值期间达到历史最高水平,并在近年来因住宅市场动荡引发的对金融稳定和增长的担忧期间逐渐上升。2008-2009年全球金融危机期间,该风险指数也出现了急剧上升,但随后不久又下降。这与中国政府从2008年第四季度到2009年和2010年实施的大规模财政刺激计划(即“四万亿计划”)密切相关。
因为本文是通过将各个主题的指数加总来构建金融风险指数的,所以可以将该指数进一步分解为每个单一主题的贡献,以此揭示中国经济金融风险上升的主要原因,进而能够随时间追踪特定风险来源(图6)。
3.2 金融风险指数的验证
在这一小节,为了证明构建的指数能够捕捉中国经济中金融风险的真实水平,本文将其与一系列广泛用于衡量中国经济和金融部门的风险、不确定性或压力的指标进行比较,说明了它们之间的相关性和差异性,阐述了本文提出的指数的有用性(图7)。
实证分析
04
本文使用结构向量自回归(SVAR)模型探究该综合金融风险指数与各种宏观和金融变量之间的关系。具体而言,本文将模型估计为p阶VAR:
其中yt表示一个q×1维的内生变量向量,ut表示一个维的误差向量,B1,...,BP是滞后内生变量的系数矩阵,而是协方差矩阵。为解决可能存在的“过拟合”问题,本文采用贝叶斯估计技术,使用正态-逆Wishart先验和超参数的标准值(SVAR模型具体的技术细节在论文原文中并未呈现,感兴趣的读者可以参考本推文最后提供的技术附录进行学习)。
4.1 基准结果
由于本文是通过使用VAR的简约形式残差的协方差矩阵的Cholesky分解得到的递归(recursive)识别过程来识别金融风险冲击的,因此本文在基准模型设定中要将变量按最外生到最内生的顺序排序。因为全球变量相对而言具有较强的外生性,所以本文将其排在VAR模型变量的前几位,而其余的国内变量都排在变化较快的金融市场相关变量之后。由此按表2中第一列的顺序纳入8个变量。
下图8展示了模型中的变量对金融风险指数增加一个标准差的脉冲响应。可以看出,在中国金融风险的冲击下,全球工业生产(不包括中国)显著下降了约0.2个百分点,油价下降了约2个百分点。相反,EMBI利差增加了约7个基点,表明新兴市场的金融条件在收紧。中国的股票价格在大约4至6个月后下降了约3个百分点,而在大约一年后恢复到以前的水平。中国消费者价格指数的下降与金融风险加剧的影响相吻合,类似于负面需求冲击的影响。同时,中国的回购利率在冲击后下降,表明货币政策的宽松是为了抵消金融风险的增加。
4.2 稳健性检验
本文进行了如下两方面的稳健性检验:
替代指数构建方法:由于缺乏一个构建金融风险指数的客观可靠策略,本文采用替代方法进行对比。具体来说,本文构建了三个替代指标。第一个基于主成分分析(PCA),而第二个和第三个则是利用回归分析。相比之下,基于PCA构建的金融风险指数不能很好地捕捉经济事件的影响和金融风险的冲击,而本文构建的金融风险指数与后两个基于回归分析构建的指数具有较强的相似性,由此证明了本文结果的稳健性。
拓展SVAR模型:本文分别在SVAR模型中纳入广泛使用的风险和不确定性的衡量指标,观察在分别控制波动率指数(VIX)和中国经济政策不确定性指数(EPU)后宏观金融变量对综合金融风险指数冲击的脉冲响应函数。结果发现该冲击对国外和国内变量的影响与之前基本一致。
结论
05
本文通过应用机器学习方法对媒体报道文本数据进行分析,开发出了一种衡量中国金融风险的综合指数。该方法使用特定的风险相关关键词选择相关报纸文章,并使用无监督机器学习算法(LDA)进行主题建模,且将金融风险分解为其主要主题的驱动因素。这种方法可以识别中国整体金融风险的重大事件,而这些事件通常不能通过常见金融数据一致地捕捉到。与传统方法相比,该方法更加全面、准确地反映了中国金融市场中存在的各种风险因素,并且能够及时识别和预警重大事件。此外,本文SVAR模型的结果表明金融风险的冲击对中国和国外的宏观经济和金融变量均产生了显著影响。
技术附录
下表总结了本文涉及到的方法/技术的相关学习资料,希望为感兴趣的初学者提供帮助,以便更好地理解本文内容。
Abstract
In the mid-2000s, the production of hearing aids shifted almost entirely to 3D printing. Using difference-in-differences and synthetic control methods, this paper examines the effects of this shift on trade flows. Exploiting variation in the timing of adoption of the new technology by different producers to identify the causal effects of 3D printing, the analysis finds that exports of hearing aids increased by roughly 80% following the introduction of the new technology. There is no evidence of a localization effect, as overall trade in hearing aids expanded by a similar amount. As a robustness check, the paper examines 35 products that are partially 3D printed and finds positive and significant effects on trade. These effects are stronger for more complex and lighter goods. The results counter widespread views that 3D printing will shorten supply chains and reduce trade.
推文作者简介:孙乐轩,中山大学岭南学院2022级应用经济学硕士生,研究兴趣:文本数据计量分析、货币政策、宏观经济学。电子邮箱:sunlx7@mail2.sysu.edu.cn。欢迎来信交流与批评指正!
转自:“香樟经济学术圈”微信公众号
如有侵权,请联系本站删除!