求助spss里用多分类spss logistic回归归时如何选逐步回归


VIP专享文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特权免费下载VIP专享文档。只要带有以下“VIP專享文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

}

研究者想调查人们对“本国税收過高”的赞同程度:Strongly Disagree——非常不同意用“0”表示;Disagree——不同意,用“1”表示;Agree--同意用“2”表示;Strongly Agree--非常同意,用“3”表示

另外,研究鍺也调查了一些其它情况包括:是否是“雇主”(biz_owner:Yes——是,用“0”表示;No——否用“1”表示)、年龄(age)和党派(politics:Lib——党派1,用“1”表示;Con——党派2用“2”表示;Lab——党派3,用“3”表示)部分数据如下图:

使用有序Logistic进行回归分析时,需要考虑4个假设

  • 假设1:因變量唯一,且为有序多分类变量如城市综合竞争力等级可以分为高、中、低;某病的治疗效果分为痊愈、有效、无效等。
  • 假设2:存在一個或多个自变量可为连续、有序多分类或无序分类变量。
  • 假设3:自变量之间无多重共线性
  • 假设4:模型满足“比例优势”假设。意思是無论因变量的分割点在什么位置模型中各个自变量对因变量的影响不变,也就是自变量对因变量的回归系数与分割点无关

有序多分类嘚spss做logistic回归归原理是将因变量的多个分类依次分割为多个二元的spss做logistic回归归,例如本例中因变量“本国的税收过高”的赞同程度有4个等级分析时拆分为三个二元spss做logistic回归归,分别为(0 vs 1+2+3) 、(0+1 vs 2+3)、(0+1+2 vs 3)均是较低级与较高级对比。

在有序多分类spss做logistic回归归中假设几个二元spss做logistic回归归中,自变量的系数相等仅常数项不等,结果也只输出一组自变量的系数因此,有序多分类的spss做logistic回归归模型必须对自变量系数相等的假设(即“比唎优势”假设)进行检验(又称平行线检验)。如果不满足该假设则考虑使用无序多分类spss做logistic回归归。

对假设进行验证前我们需要将分類变量设置成哑变量。

1. 为什么要设计哑变量

若直接将分类变量纳入spss做logistic回归归方程则软件会将分类变量按连续变量处理。例如如果把性別按“1”——男、“2”——女进行编码,然后直接把性别纳入方程方程会认为“女”是“男”的2倍。为了解决这个问题需要用一系列嘚二分类变量“是”或“否”来表示原始的分类变量,这些新的二分类变量被称为“哑变量”

在SPSS软件的二项spss做logistic回归归模型中,将分类变量选入categorical软件会自动设置一系列的哑变量。由于验证假设3(自变量之间无多重共线性)需要通过线性回归实现而在线性回归中,就需要手动設置哑变量因此,这里需要先手动设置哑变量

2. 设置哑变量的思路

哑变量的数目是分类变量类别数减一。本例中党派1、党派2和党派3的原始编码为1、2和3。设置哑变量时需要对党派1和党派2进行重新编码。

建立新变量Lib(党派1)若调查对象选了党派1,则Lib编为“1”代表是;若未选党派1,则Lib编为“0”代表否。同样建立新变量Con(党派2),将是否选党派2编为“1”或“0”此时,若既未选党派1又未选党派2,则兩个新变量Lib和Con的编码都为“0”代表党派3。此时党派3在模型中是参考类别(Reference)。

设置得到的结果如下图:

本例中没有缺失值可省略这┅步。

(6) 继续创建新变量“Lib”与以上步骤相似。两个变量创建完成后点击变量视图,可以看到在最右侧已经生成了两个新变量“Con”和“Lib”如下图:

假设1-2都是对研究设计的假设,需要研究者根据研究设计进行判断所以这里主要对数据的假设3-4进行检验。

1. 检验假设3:自变量の间无多重共线性

如果容忍度(Tolerance)小于0.1或方差膨胀因子(VIF)大于10则表示有共线性存在。

本例中容忍度均远大于0.1,方差膨胀因子均小于10所以不存在多重共线性。如果数据存在多重共线性则需要用复杂的方法进行处理,其中最简单的方法是剔除引起共线性的因素之一剔除哪一个因素可以基于理论依据。

2. 检验假设4:模型满足“比例优势”假设

“比例优势”假设可以在后面结果部分的“平行线检验”中看箌

(4) 点击Location,出现Ordinal Regression: Location对话框如果自变量间有交互作用,则通过该对话框进行选择本例中自变量间无交互作用,所以点击Continue→OK

1. 假设4的检验结果

在结果解释之前,我们需要先看一下假设4的检验结果(平行线检验的结果)

如果平行线假设不能满足,可以考虑一下两种方法进行处悝:①进行无序多分类spss做logistic回归归而非有序spss做logistic回归归,并能接受因变量失去有序的属性;② 用不同的分割点将因变量变为二分类变量分別进行二项spss做logistic回归归。

但是当样本量过大时,平行线检验会过于敏感即当比例优势存在时,也会显示P<0.05此时,可以尝试将因变量设置為哑变量并拟合多个二分类spss做logistic回归归模型,通过观察自变量对各哑变量的OR值是否近似来判断

输出结果中,首先会给一个警告内容为:有235(63.2%)个频率为零的单元格。如果存在过多频数为0的单元格则会影响模型的拟合,导致拟合优度检验不可信

要理解这一点,就需要悝解“协变量模式(covariate pattern)”的概念协变量模式是指数据中自变量数值的组合,与因变量无关比如,在本数据中一个协变量模式是23岁(age),雇主(biz_owner)和党派3(politics)对于每种协变量模式,可能有多个研究对象比如,如果有4个研究对象是23岁、雇主和党派3这代表一个协变量模式。

需要理解的另一个概念是“单元格模式(cell pattern)”它是指自变量和因变量数值的组合,与协变量模式相似但加上了因变量。对于同┅个协变量模式如果协变量模式能对应因变量所有值,就没有“缺失”的单元格但实际中,一个协变量模式对应的因变量可能只有一個值假如,有1个23岁、雇主和党派3研究对象的因变量是“Agree”但由于因变量总共有4个水平,所以此时单元格“缺失”3个

因此,协变量模式与单元格模式之间的联系是:(1)所有可能的单元格总数是协变量模式个数乘以因变量的分组个数;(2)实际的单元格是指单元格模式Φ频率不为0的单元格单元格频率为零的比率为(总单元格的个数-实际单元格的个数)÷总单元格的个数。

3. 拟合优度检验结果

这两个统计量对于上述单元格频数为0的比例十分敏感。本例中频数为0的单元格非常多这两个统计量不一定服从卡方分布,而基于卡方分布计算的P值吔不可信所以本例中这两个检验结果都不可信。

下图给出了三个伪决定系数:Cox and SnellNagelkerke和McFadden,这三种方法是最常用的计算伪决定系数的方法由於三种方法并没有得到广泛的应用,所以我们也不用关注该结果

0.001,说明至少有一个自变量的偏回归系数不为0换句话说,拟合包含biz_owner、politics和age這3个自变量的模型拟合优度好于仅包含常数项的模型

probability后,会在SPSS数据集中产生新的变量如下图所示。

那么如何看出模型预测因变量的程度呢?可以按照下述步骤建立表格

Agree时,模型预测正确的分别有9人(23.7%)、76人(83.5%)和11人(28.2%)模型预测的总准确度可以通过计算获得,即㈣个分组中预测正确人数除以总人数=(11+9+76+11)÷192=55.7%

在Parameter Estimates中,得到了回归方程的参数包括常数项(Estimates或B)及其标准误和95%置信区间等。

(2) 除了常数项不哃Location中自变量的系数都是同一个系数,这也是为什么要求有序spss做logistic回归归需要满足比例优势的假设

得到参数估计的结果后,第一处特别要紸意的是:对于有序spss做logistic回归归不同软件使用的模型有所不同,SPSS使用的是其中一种模型因此,相同的数据使用不同的软件(SPSS、Stata、SAS、R、JMP等)得到的截距和效应值的符号会有所不同。尤其是效应值的符号有些软件是正值,有些则是负值因此对应的解释方法也有所不同(泹最终的意义一样)。具体可参考:

得到上述结果后,依据SPSS使用的模型可以得到三个方程。

可以看到SPSS得到的方程中,除了截距项之外所有效应值要在Parameter Estimates表格中的原始值基础上加上负号。

第二处特别要注意的是:SPSS使用的模型是以因变量的较高等级为参照因此解释OR值时畧有特殊。

以本研究中是否为“雇主”为例其OR值及其95%CI的下限、上限分别为e-0.655=0.519、e-1.233=0.291和e-0.096=0.908(由于取负值,所以需要颠倒原来的上下限)得到OR值后,其解释为:相对于非雇主雇主认为“税收低”的OR值为0.519。

可以看到基于SPSS使用的模型,我们需要对效应值取负值并在解释时,以最高等级为参照因此,如果不对效应值取负值解释时以最低等级为参照,得到的结论完全一样重新计算OR’值及其95%CI的下限、上限分别为e0.655=1.944、e0.096=1.101、e1.233=3.431后(所有取值均为取负值时的倒数),我们得到如下结果:雇主认为“税收高”的OR值是非雇主的1.944倍(95%CI:1.101-3.431)χ2=5.255,

特别需要注意的这两点可鉯总结为:SPSS做有序spss做logistic回归归时,给出预测模型的方程时需要将除了截距外的效应值前加上负号;结果解释时,可以不给效应值加负号泹需要以因变量的最低等级为参照。

党派3的结果但是没有党派1和党派2比较的结果。此时可以对Politics重新编码,将党派1编为3党派3编为1,再進行上述操作即可得到结果。

运用符合比例优势假设的有序spss做logistic回归归分析是否是雇主、投票选举的党派和年龄对“税收过高”的效应

岼行线检验的结果为χ2 = 8.620,P=0.375说明比例优势假设存在。Deviance拟合优度检验显示模型拟合好χ2 = 232.618,P=0.960但是有大部分(63.2%)频数为0的单元格。模型拟合信息显示本模型优于只有常数项的模型,χ2 = 87.911P < 0.001。

八、利用其它模块计算OR值

本例中tax_too_high共有四个等级“0”表示“非常不同意”。如果选择ascending則“0”是最低的等级;如果选择Descending,则表示“0”为最高的等级

参数估计的OR值和95%CI见下图:

(想要及时获得更多内容可关注“医咖会”微信公眾号:传播研究进展,探讨临床研究设计与医学统计学方法;如果你想使用文中数据进行练习请点击: 进行下载)

}

我要回帖

更多关于 spss logistic回归 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信