学术资讯 » 学界研圈

  • 首 页
  • 期刊选题
  • 期刊点评
  • 期刊大全
  • 学人博客
  • 编辑征稿
  • 投稿选刊
  • 万维群组
  • 学术会议
  • 万维读书
  • SCI/E期刊
  • SSCI期刊
  • AHCI期刊
  • 断点回归设计RDD介绍

    阅读: 2023/5/22 14:53:15

    1 断点回归介绍

    1.1 断点回归的产生

    因果推导与政策评估是经济分析最受到关注和追捧的核心问题,然而我们运用计量模型进行因果分析的总是碍于模型的内生性问题(遗漏变量)。

    常用的解决原理是借助准自然实验 (quasiexperiment) 的思想评估不同政策的处理效应, 试图获得一致 (consistent) 或者无偏 (unbiased) 估计量。

    进而发展出的方法有固定效应(fixed effects)、工具变量 (Instrumental variables) 、匹配和加权估计法 (matching and reweighting) 、倍差法 (difference-in-difference) 和断点回归设计 (regression discontinuity design)。

    对于断点回归(RDD),和其他方法相比, 学术界普遍认为运用断点回归设计更接近准自然实验, 估计的结果更加准确,原因在于其设计思想。

    设计思想:其基本思想是存在一个连续变量, 该变量能决定个体在某一临界点两侧接受政策干预的概率, 由于X在该临界点两侧是连续的, 因此个体针对X的取值落入该临界点任意一侧是随机发生的, 即不存在人为操控使得个体落入某一侧的概率更大, 则在临界值附近构成了一个准自然实验。

    例子:在一条河流随机设置一个检测断面,设置水质监测点25公里范围内的以上为上游,以下为下游。可以以RDD研究在检测断面的上下游对企业TFP的影响。因为在25公里范围内,可以默认为企业的其他因素相似,并且这些因素是我们观察不到的。那么,通过上下游组别的一次差分可以消除这些观察不到的因素,从而解决遗漏变量问题(当然也会控制时间,监测站、企业内部等固定效应)

    1.2 断点回归的模型设计

    断点回归的基本思想是基于连续变量X随机划定组别,因而一般将该连续变量X称为分组变量 (assignment variable) 。

    精确断点回归设计(Sharp):特征是在断点 X=c处, 个体受到干预的概率从0跳跃到1; 糊断点回归设计(Fuzzy):在断点X=c处, 个体受到干预的概率从A变为B, 其中A≠B。

    下面具体解释精确断点回归

    1.2.1 精确断点回归设计

    (1) 模型讲述

    考察大学学历对未来工资收入的影响。假设大学的分数录取线是500分,那么上大学与否(Di)完全取决于由高考成绩xi是否超过500分:

    (1)Di 是关于x的确定函数,与其他无关,完全独立于工资收入。

    (2)无法采用propensity scores matching,因为两组个体并没有重叠部分,所有处理组都大于500分,所有控制组都小于500分。

    (3)对于高考成绩为498,499,500,或501,502的考生,可以认为他们在各方面(包括可观测变量和不可观测变量)都没有系统差异。因为,他们高考成绩的细微差异只是由于“上帝”对其随机抽样的结果(譬如,一道很难的数学选择题,他们都进行随机选择,从而使得他们的分数在500分左右随机分配),导致成绩为500或501的考生上大学(进入处理组),而成绩为498或499的考生落榜(进入控制组)。

    (4)因此,由于特殊的高考制度原因,对高考成绩在小领域500-s,500+s]之间的考生进行了随机分组,故可视为准实验( quasiexperiment)。由此,由于存在随机分组,故可一致地估计在x=500附近的局部平均处理效应(Local Average Treatment Effect,LATE)

    (2)模型设计

    利用上述监测站进行举例,该文来源于He, Wang and Zhang(2020)发表在QJE上的关于环境规制和企业生产率。该文设置监测站为断点,然后通过对每一个国控监测站断面(人工)或国控水质监测站(自动)创造一个10km缓冲区,然后来区分缓冲区内企业的上下游关系,如下图所示:

    该文假设断点为水质监测站的位置x=0,而分组规则如下:

    即监测站下游的企业纳入处理组,上游企业纳入控制组。

    假设在实验之前,结果变量TFP与分配变量Dist之间存在如下线性关系:

    假设处理效应为正,则TFP与Dist之间的线性关系(非线性)在x=0处就存在一个向上跳跃(jump)的断点。

    由此,断点回归可视为“局部随机试验”(Local randomized experiment);可通过考察协变量在断点两侧的分布是否有差异来检验随机性。注意:但断点回归仅推断在断点处的因果关系,不能推广到其他样本值,故外部有效性受局限。

    存在问题:

    1)使用精确断点回归,如果回归函数包含高次项,比如二次项(x-c)*(x-c), 则会导致遗漏偏差()。

    2)存在内生分组(自选择问题)危险。如果个体知道分组规则,可能会通过自身努力而完全控制分组变量。因而,我们常用的解决方法是在断点处观察x的分布是否均匀。除此,也可检验协变量的连续分布。

    常用汇报操作:

    1)分别汇报三角核kernel(tri)、矩形核kernel(uni)和Epanechikov核kernel(epa)的局部线性回归结果

    2)分别汇报使用不同带宽的结果(比如,最优带宽100%及其50%或200%带宽)

    3)进行模型设定检验,包括检验分组变量与协变量的条件密度是否在断点处连续(如果不连续则存在样本选择的问题,非常非常严重)

    转自:“PPdata Academy”微信公众号

    如有侵权,请联系本站删除!


    浏览(165)
    点赞(0)
    收藏(0)
  • 上一篇:没有一篇论文,成功录取博士生

    下一篇:断点回归RDD介绍 II

  • 首页

  • 文章

  • 期刊

  • 帮助

  • 我的

版权所有 Copyright@2023    备案号:豫ICP备2021036211号