【应用笔记1】spss24.0一般线性模型-数据挖掘详解
一般线性模型方程式:Y=bX+a+e (Y=因变量,X=自变量,b=相关系数,a=常量/截距,
一般线性模型(也称为方差分析)应用场景:因变量为连续型(数值型)变量,用于预测的自变量以分类变量居多 一般线性模型方程式:Y=bX+a+e (Y=因变量,X=自变量,b=相关系数,a=常量/截距,e=残差) 从模型的角度讲,建模完成后可以通过残差分析来考察适用条件(是否符合正态和方差齐性),如绘制残差分布图,如果残差呈随机上下对称分布,且均值不随预测值波动,则可知模型适合适用条件。 适用条件: 1)独立性,各观察值是来自于所研究因素的各个水平之下的独立随机抽样 2)正态性,每个水平下的应变量应当服从正态分布--可以用“探索”输出直方图,P-P图(正态性得不到满足时,方差分析的结论并不会受到太大的影响,方差分析对于正态性的要求是稳健的) 3)方差齐性,各水平下的总体具有相同的方差(选项中可选折齐性检验) 目录: 一、一元方差分析--1个因变量 1. 单因素方差分析:因变量为连续型变量,只有1个自变量,对比不同组 示例:对比四组品牌地板的磨损深度 1)单因素方差分析: 菜单-【分析】-【一般线性模型】-【单变量】 a. ”因变量“列表框选入磨损深度,”因子列表"选入“固定因子” b. “选项”对话框,勾选“描述统计”、“齐性检验”、“残差图”--输出四组样本的均值、标准差、方差齐性检验结果(了解数据的正态性和方差齐性)、残差图用作残差分析诊断模型是否吻合 c. "事后比较”(两两比较)对话框,将“品牌”选入希望进行两两比较检验列表,勾选SNK复选框--进行品牌间的两两比较 d.拓展:"保存“对话框,可以保存到原始数据中的值:预测值(用于存储因变量的预测值一级预测值的标准误)、残差(用于存储预测值和实测值之差) 2)结果解释: a. 描述统计:各个样本的均值和标准差,观察各组集中趋势和离散趋势 b. 方差齐性检验:P值=0.311>0.05,接受原假设,认为各组间方差是齐性的 c. 主体间效应检验(对模型进行方差分析的结果): ①修正模型--对整个方差分析模型的检验(原假设H0为模型中所有因素均对因变量无影响),此处P值(本例中只有1个品牌因素,结论等价于品牌间有差异) ②截距(常量):(原假设H0为当不考虑因素影响时,因变量的平均水平为0)本例P ③第三行开始是对模型中各因素的检验:本例只有1个品牌因素,P值 d.事后检验(两两检验):SNK检验结果(首先将各组按均值大小排序,随后在横向上分成若干组,同组间均数两两无差别P值>0.05,不同组间均数有差异P值 本例中4个品牌被分成3组,C磨损程度最小,D磨损程度最大,B、A磨损程度居中 PS:其他两两检验方法:scheffe雪费--当各组人数不相等或者进行复杂的比较时,用次方法较为稳妥。 方差不齐时,最好使用非参数检验法 e. 残差图:诊断模型,一般看以预测值为横轴,以标准化残差为纵轴的图形 2.1 两因素方差分析:因变量为连续型变量,2个自变量(分类变量) 常用术语: 因素/因子:可能对因变量有影响的变量 水平:因素/因子的不同取值等级,比如性别有男、女两个水平 协变量:指对因变量可能有影响应用分析,需要在分析时对其作用加以控制的连续型变量 WLS权重:加权最小二乘法变量,用于多元线性回归中, 交互作用:如果一个因素的效应大小在另一个因素不同水平下明显不同,则两个因素间存在交互作用,此时单纯研究某个因素的作用没有意义,必须分另一个因素的不同水平研究该因素的作用大小。 方差分析模型的检验层次: 1)对总模型进行检验 2)对模型中各交互效应、主效应进行检验 示例1:商品销量(因变量)与超市规模(3个分类水平)、货架位置(4个分类水平)两个自变量的关系 原始数据表: 1)初步拟合模型: 菜单-【分析】-【一般线性回归】-【单变量】 a. “因变量”列表框选入“销量”,”固定因子“列表框选入“超市规模”、“摆放位置” b. “选项”对话框选入“描述统计”、“齐性检验”--如果要在考虑交互作用的模型中进行方差齐性检验,每个单元格内至少要有3个样本(本例输出描述统计3*4=12个单元格,有单元格不满足3个个案,所以无法得到方差分析)所以,多因素方差分析时一般不考虑方差齐性问题 结果解释: a.描述统计、方差齐性检验:如果要在考虑交互作用的模型中进行方差齐性检验,每个单元格内至少要有3个样本(本例输出描述统计3*4=12个单元格,有单元格不满足3个个案,所以无法得到方差分析)所以,多因素方差分析时一般不考虑方差齐性问题 b. 主体间效应检验(对模型进行方差分析的结果): ①修正模型--对整个方差分析模型的检验(原假设H0为模型中所有因素均对因变量无影响),此处P值 ②截距(常量):(原假设H0为当不考虑因素影响时,因变量的平均水平为0)本例P ③第三行开始是对模型中各因素的检验: 本例中size*position P值>0.05,没有统计学意义,说明超市规模和货架位置之间没有交互作用,下一步对模型进行简化,把交互项这个多余的参数去掉,再进行两个因素间的两两比较 2)进一步简化模型 a. "模型"选项框,将”指定模型”选项组切换为“定制” b. 将“超市规模"size"和"摆放位置position"选入”模型“列表框 c. 构建项类型改为”主效应“ 结果解释: 下图为去除交互项后的方差分析模型,与前一步相同 超市规模和货架位置的P值均 3)影响因素具体水平间的两两比较 a. "事后比较”选项框,将要比较的因素“超市规模和货架位置”选入检验列表 b. 选择S-N-K检验 结果解释: a. 超市规模两两比较结果:超市规模越大,周销售量越大 b. 货架位置两两比较结果:C位置销量最大,其次为B,A和D位置销量最小 以上差异不受另一个因素水平取值的应,两者间无交互作用 4)残差分析诊断模型 a. “选项”对话框,勾选“残差图” b. 只看选中部分的残差图:显示窗口属性--变量--元素类型改为“标记图”--将预测值改为X轴,残差改为Y轴 结果解释: 由图可知,残差没有明显偏离正态性和方差齐性的趋势,且残差不随预测值有趋势波动,认为模型符合适用条件。 2.2 两因素方差分析:因变量为连续型变量,2个自变量(一个为分类变量,一个为随机变量) 示例2:研究广告宣传效果(广告带来的销售额)与广告类型(4个类别:店内、广播、传单、推销员)的关系,随机抽取了18个渠道 1)初步拟合模型: 菜单-【分析】-【一般线性回归】-【单变量】 a. “因变量”列表框选入“销量额”,”固定因子“列表框选入“广告类型”、,随机因子选入“销售点”--本研究的结论希望在所有的网点中均适用,但是18个网点是从几百个候选网点中随机抽取出来的,因此网点应当设定为随机因素 b. “选项”对话框选入“描述统计”、“齐性检验”--如果要在考虑交互作用的模型中进行方差齐性检验,每个单元格内至少要有3个样本(本例输出描述统计4*18=72个单元格,有单元格不满足3个个案,所以无法得到方差分析)所以,多因素方差分析时一般不考虑方差齐性问题 结果解释: a. 主体间效应检验(对模型进行方差分析的结果): 当模型中含有随机因素时,不再进行总模型的检验,而是分别进行每个因素的单独检验。 ①截距(常量):(原假设H0为当不考虑因素影响时,因变量的平均水平为0)本例P ②对模型中各因素的检验: 本例中adstype*area P值>0.05,没有统计学意义,说明广告类型和网点之间没有交互作用,下一步对模型进行简化,把交互项这个多余的参数去掉,再进行两个因素间的两两比较 2)进一步简化模型 a. "模型"选项框,将”指定模型”选项组切换为“定制” b. 将“超市规模"size"和"摆放位置position"选入”模型“列表框 c. 构建项类型改为”主效应" 结果解释: 下图为去除交互项后的方差分析模型,与前一步相同 广告类型和网点的P值均 3)影响因素具体水平间的两两比较 a. "事后比较”选项框,将要比较的因素“广告类型”选入检验列表,随机因子不进行比较 b. 选择S-N-K检验 结果解释: a. 店内展示销售额均值最低 b. 广播广告同时被分到2个组,从2组组内P值看出0.058 以上差异不受另一个因素水平取值的应,两者间无交互作用 4)残差分析诊断模型 a. “选项”对话框,勾选“残差图” b. 只看选中部分的残差图:显示窗口属性--变量--元素类型改为“标记图”--将预测值改为X轴,残差改为Y轴 结果解释: 由图可知,残差没有明显偏离正态性和方差齐性的趋势,且残差不随预测值有趋势波动,认为模型符合适用条件。 二、多元方差分析:多个因变量 两组或多组因变量之间的对比分析 基本分析思路: 方法一:先使用因子分析,对各组因变量对应的(自变量)进行浓缩,提取公因子,然后再做一元方差分析 方法二:多元方差分析--解释过于复杂,实用价值不大 spss菜单-【分析】-【一般线性模型】-【多变量】 操作方式与一元方差分析类似,不再赘述 (编辑:威海站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |