学术资讯 » 学界研圈

  • 首 页
  • 期刊选题
  • 期刊点评
  • 期刊大全
  • 学人博客
  • 编辑征稿
  • 投稿选刊
  • 投稿群聊
  • 学术会议
  • 万维读书
  • SCI/E期刊
  • SSCI期刊
  • AHCI期刊
  • 有趣的辛普森悖论:同一个数据集是如何证明两个完全相反的观点的?

    阅读: 2024/1/23 11:00:51

    以下文章来源于SPSS学堂 ,作者helloiamx

    溯源

    “横看成岭侧成峰,远近高低各不同”苏轼的这首诗形象的描写了庐山各个角度和距离的模样。

    今天我们所讨论的辛普森悖论便和这“远近”有关。

    我们在研究两组数据时,有时会陷入这样的一种困境。

    当我们“远看”,即合并的看两组数据时,往往会得出一种貌似可靠的结论,但当我们“近看”,即分别讨论两组数据时,又发现结论正好相反,这种有趣的现象便是辛普森悖论。

    20世纪初,就有人讨论这种现象,但辛普森悖论被正式阐述是在1951年,由E.H.辛普森以论文形式描述。这便是辛普森悖论的由来。

    性别歧视?

    以下辛普森悖论的一个典型事例:

    某学校在统计录取率时,发现全校男生的录取率高于女生的录取率(见图1),貌似存在一定的性别歧视。

    表1 分性别录取率

    性别

    报名人数(个)

    录取率(%)

    男

    2691

    45

    女

    1835

    30

    在这种情况下,该学校立即进行调查研究,却发现不同专业的分性别录取率呈现出相反的现象,如图2所示。

    表2 不同专业的分性别录取率

    专业

    男

    女

    报名人数(个)

    录取率(%)

    报名人数(个)

    录取率(%)

    A

    825

    62

    108

    82

    B

    560

    63

    25

    68

    C

    325

    37

    593

    34

    D

    417

    33

    375

    35

    E

    191

    28

    393

    24

    F

    373

    6

    341

    7

    从图中我们可以看到,在各个专业中,男女的录取率相差不大,在专业A中,女生的录取率甚至高出男生20个百分点,之前的结论被颠覆了。

    A or B?

    再看一组例子:

    某医院现有两种肾结石治疗方案,方案A包括所有开放式外科手术,方案B仅涉及小的穿刺,为了比较两种方案的成功率(成功率=成功案例数/治疗总案例数),从方案A和B现有治疗案例中分别抽取350个样本进行抽样调查,调查结果如表3所示。

    表3 两方案成功率

    方案

    成功案例(个)

    成功率(%)

    A

    273

    78

    B

    289

    83

    从表3中可以看出,在两种治疗方案中方案B的成功率高于方案A,那这是否意味着方案B是最佳选项呢?

    表4 不同结石大小的两方案成功率

    结石大小

    方案A

    方案B

    成功案例(个)

    治疗总案例(个)

    成功率(%)

    成功案例(个)

    治疗总案例(个)

    成功率(%)

    大结石

    192

    263

    73

    55

    80

    69

    小结石

    81

    87

    93

    234

    270

    87

    果不其然,反转又一次出现,当增加一层“结石大小”变量时,我们发现不论是大结石还是小结石,选用方案A时的治疗成功率都大于方案B,方案A似乎又成了最佳选择。

    Android or IOS ?

    再看最后一组事例:

    据统计,某产品用户中有10000人使用Android设备,5000人使用IOS设备,现需研究使用两种设备的用户付费转化率(普通用户转化为付费用户的比例)大小,研究结果见表5。

    表5 Android和IOS用户付费转化率


    付费用户(人)

    付费转化率(%)

    Android

    550

    5.5

    IOS

    200

    4.0

    如表5所示,使用Android的用户付费转化率要高于IOS的,对于研发人员而言,这是否说明该产品的研发团队应该将研发方向转向Android呢?

    表6 分设备端Android和IOS用户付费转化率

    设备端

    Android

    IOS

    付费用户(人)

    注册用户(人)

    付费转化率(%)

    付费用户(人)

    注册用户(人)

    付费转化率(%)

    手机

    50

    2000

    2.5

    100

    3500

    2.9

    平板

    500

    8000

    6.25

    100

    1500

    6.67

    但在表6中我们可以看到,当我们细化分析,增加“设备端”这一变量后,无论是在手机端还是平板端都是IOS的用户付费转化率较高,似乎研发方向又应该趋向IOS。

    注:文中所有数据来自网络

    尾语

    通过以上三个事例,我们对辛普森悖论有了一个初步的了解,但其实辛普森悖论普遍存在我们的生活及谚语里,比如著名的田忌赛马就是辛普森悖论的绝妙应用,虽然田忌并不是知道这个悖论才去应用的,但道理相通。

    辛普森悖论就像一个警钟后,当我们处理简单二元列联表时,都会在我们心中轻轻敲打一下,提醒我们去分析所得结论的正确性,督促我们去思考反转的可能。

    那么,当我们进行描述性统计时,辛普森悖论究竟能带给我们什么样的启发和讯息呢?

    且听下回分解!

    转自:“量化研究方法”微信公众号

    如有侵权,请联系本站删除!


    浏览(216)
    点赞(0)
    收藏(0)
  • 上一篇:数字人文的诞生——传统人文与计算技术碰撞出火花

    下一篇:数据思维是什么?1+1>2的数据思维分享

  • 首页

  • 文章

  • 期刊

  • 帮助

  • 我的

版权所有 Copyright@2023    备案号:豫ICP备2021036211号