层次结构数据的分析方法及SPSS实现_学术资讯

层次结构数据的分析方法及SPSS实现

阅读： 2022/7/11 15:24:32

中华老年医学杂志, 2020,39(10) 程锦, 程文炜, 刘晓芳, 等.
摘要
医疗卫生领域研究中常见的层次结构数据适用的3种统计模型包括混合线性模型(MLM)、广义估计方程(GEE)和广义线性混合模型(GLMM)。在IBM SPSS Statistics中，"混合模型"分析菜单下的"线性"和"广义线性"选项可分别实现MLM和GLMM，"广义线性模型"菜单下的"广义估计方程"可实现GEE。以IBM SPSS Statistics自带数据为例，展示在IBM SPSS Statistics 20.0中的实现并对主要结果进行解释，IBM SPSS Statistics可以简单地实现MLM、GEE和GLMM，3种方法考虑数据的聚集性并将误差分解到相应的层次水平，可以得到更为科学合理的结果，有利于广大医学研究者快速掌握并使用。
老年人群常由多种因素造成多病共存，且老年医学关注的疾病现象往往要从宏观和微观层面去解释，因而层次结构数据(hierarchically structured data)在老年医学研究中较为常见。层次结构数据是指数据具有多个层级或多个水平，如卫生服务或流行病学调查，研究对象常常嵌套于地区、城乡、医院等不同级别中；纵向研究中，可把时间视为水平1单位，每个研究对象视为水平2单位；多中心临床试验或动物实验中，常将患者或动物视为水平1单位，试验中心或动物窝别视为水平2单位。层次结构数据中同一层级的个体间往往不具备独立性，若采用传统分析方法可能忽略高水平单位间变异，残差标准误被高估，且忽略了高水平单位对结局变量的影响[]。本文旨在介绍老年医学研究中层次结构数据适用的3种统计模型，这些模型通过拟合与数据层次结构相适应的复杂误差结构，并估计相应的残差方差及协方差，提高了模型估计的准确度[]。本文采用IBM SPSS Statistics自带数据展示其在IBM SPSS Statistics 20.0中的实现过程和结果呈现，以期为医学科研人员正确运用此法提供便捷可行的途径。

一、层次结构数据统计模型简介

1．混合线性模型(mixed linear model，MLM)：
将单一的随机误差项分解到与数据层次结构对应的各水平上，估计相应的残差方差及协方差。借此，模型既可解释个体变异，也可估计高水平随机效应，提供高水平单位潜在的总体特征信息[]。
2．广义估计方程(general estimation equation，GEE)：
在模型中引入作业相关矩阵，计算各次测量值两两之间的相关性，得到稳健的参数估计值，亦适用于处理观察次数不等、观察时间间隔不等的非平衡设计数据[]。
3．广义线性混合模型(general linear mixed model，GLMM)：
基于混合线性模型发展而来，若因变量是离散型的，如是否患病、疾病的严重程度等，则混合线性模型即不再适用，通过连接函数衍生出适合处理此类层次结构数据的广义线性混合模型[]。
3种模型适用情况见表1。
表13种模型适用情况

二、实例及软件实现
1．混合线性模型：
例1：16例患者接受为期6个月的新饮食，测量其对有心脏疾病家族史患者体重的影响，干预前和干预后共测量5次体重[]，该数据来自SPSS安装目录下的Samples\English文件夹内的dietstudy.sav，为拟合混合线性模型，更改其数据格式见表2，其中测量次数为1、2、3、4、5分别代表第5次、第4次、第3次、第2次以及第1次测量，SPSS实现步骤如表3。其中，第②步选的是非结构化，表示对观测值之间的相关性不做任何限定，让模型根据资料特征自动估计。
表2例1部分数据形式
表3混合线性模型SPSS实现
表4例1模型的参数估计结果
表4为参数估计结果，可以看出相对于第1次测量，每次测量的体重变化均有统计学意义。且任意2次测量间都是有相关性的，即数据具有层次结构。
2．广义估计方程：
例2：一项空气污染对儿童健康影响的纵向研究，旨在分析儿童年龄和母亲吸烟情况对儿童喘鸣的影响[]，收集俄亥俄州儿童在7、8、9和10岁的喘鸣症状及母亲在研究第1年吸烟情况。该数据来自SPSS安装目录下的Samples\English文件夹内的wheeze_steubenville.sav，包含如下变量：(1)id：儿童编号；(2)age：测量时儿童的年龄；(3)wheeze：测量时儿童喘鸣状况，0为无，1为有；(4)smoker：母亲在研究第1年的吸烟情况，0为不吸烟，1为吸烟；SPSS实现步骤见表5。表6给出了参数估计结果，无足够理由表明母亲吸烟影响儿童喘鸣发生(P＝0.143)，低年龄组(7～9岁组)相对于10岁组而言，喘鸣发生概率更高。作业相关矩阵是对观测值之间相关性的设定，可通过准似然独立准则(Quasi likelihood under independence model criteria，QIC)优选合适的作业相关矩阵，QIC值越小模型越合适[]，此外，在SPSS中广义估计方程无法对残差进行深入分解[]。
表5重复测量数据的广义估计方程的SPSS实现
表6广义估计方程的参数估计
3．广义线性混合模型：
例3：某地为了解某新教学方法能否有效提升学生成绩，采用简单随机抽样选取23所学校，并随机抽取不同班级分为试验组和对照组，在新学年分别应用新教学法和常规教学法进行教学，学生在学年初和学年末各考试1次[]；此数据有3个层次：学校、班级和学生(本数据为IBM SPSS Statistics自带数据，名为test_scores.sav，文件位置同例1)。SPSS实现步骤见表7。广义线性混合模型的输出结果需要双击阅读详细内容。
表7例3模型的SPSS实现
本模型输出结果包括：(1)模型摘要，包括设定的连接函数、残差概率分布和拟合信息标准等；(2)数据结构；(3)模型预测值和实际值的比较；(4)固定效应的估计值，默认以图形的方式给出结果，如需具体结果，可将"样式"框下拉切换为"表"；(5)固定效应的系数估计和检验结果；(6)协方差矩阵；(7)协方差参数和随机效应估计值的结果；(8)拟合模型的设定摘要。固定效应和随机效应参数估计结果及解释同案例1和2，故此处不赘述。表8为整合后的结果，残差被分解到学校和班级水平后，仍有统计学意义，学校水平组内相关系数(intra-class correlation coefficent，ICC)即组间方差与总方差之比[]，ICC＝×100%=52.4%，班级水平的组内相关系数ICC＝×100%-23.7%，分别表示学校水平和班级水平组内成绩的相似程度，表明学生年末成绩在学校和班级水平有聚集性，即数据有层次结构，采用混合模型更为合适，结果表明新教学方法较常规教学方法更好地提高成绩(P<0.001)。
表8例3的参数估计结果

三、讨论与小结
通常，MLM中"混合"主要是指模型中既包含固定效应也包含随机效应[]，而GEE和GLMM中"广义"是指该类模型通过联接函数将因变量和线性预测值关联起来克服了线性模型要求因变量服从正态分布的限制[]。从模型选择来看，MLM和GLMM可以通过随机效应的设置，描述和分析个体变化趋势的特征，而GEE是从人群的视角进行分析。从软件选择来看，与SAS、R、Stata、Mplus，以及专门用于多水平分析的MlwinN等软件比较，IBM SPSS Statistics具有简便易操作、更易掌握的优势。

转自：医学科研与管理空间
如有侵权，请联系本站删除！

浏览(762)

点赞(0)

收藏(0)
上一篇：学术期刊 | 《中国德育》目录：2022年第12期

下一篇：《资本论》是怎样一部关系人类命运的伟大著作