一、GLM模型是什么
广义线性模型(Generalized Linear Models,缩写为GLM)是传统线性模型的扩展,广泛用于解决不同种类的数据分析问题。它通过将响应变量和预测变量之间的关系转化为一个数值分布的形式,从而可以用于对不满足线性模型假设的响应变量进行建模。GLM模型将响应变量的概率分布与一类广义线性模型联系在一起,从而提供了一种灵活的建模框架。
GLM模型的基本假设是响应变量Y是一个某种已知的概率分布(例如正态分布、泊松分布、伽马分布)的一次随机结果,其均值μ是一个由预测变量X所决定的非线性函数。由于概率分布的不同,GLM模型的形式也因此应运而生。例如,将响应变量定义为二项分布,我们可以构建逻辑回归模型;将响应变量定义为泊松分布,则可以构建泊松回归模型。
二、GLM模型使用的前提
在使用GLM模型之前,我们必须确保响应变量满足几个重要的前提假设:随机样本、线性内在形式(对数意义)、同方差以及独立性。其中随机性和独立性是统计建模的基本前提,而线性内在形式和同方差则是广义线性模型的特殊要求。
三、GLM模型简化
GLM模型的简化可以表示为:假设我们有一个只有最基本的显式偏差项(无预测变量)的模型。在这种情况下,响应变量的均值等于具有恒定值的预测变量(常数)。另外还可以建立一个只有一个单一的预测变量的模型,即一个在线性预测上等价的常数效应模型。此时,预测变量的关系被假定为恒定的,即预测变量的斜率为常数。
四、GLM模型假设
GLM模型依赖于一些前提和假设。其中最重要的是
(1)响应变量是独立随机变量
(2)我们可以通过指定一个数值分布来描述响应变量的概率分布
(3)对于对数意义的线性预测方程,响应变量的期望与预测变量之间存在固定的函数关系,即均值为某个函数关系
五、GLM模型操作
在实际应用中,建立GLM模型大致需要以下几个步骤:
(1)选择正确的响应变量和预测变量
(2)选择恰当的GLM模型(确定概率分布、关系函数等)
(3)对数据进行清理和转换
(4)拟合模型,并评估模型的状态和性能
(5)进行模型选择,选择最适合数据的模型
六、GLM模型和逻辑回归
逻辑回归是广义线性模型的一种特殊形式,它是用于建立分类模型的一种常见方法。逻辑回归模型将事件的概率(二项分布)与一个线性组合联系在一起,从而将预测变量的值映射到一个0到1之间的概率值。逻辑回归模型是GLM模型的一种,其中响应变量是二元分类,而预测变量可以是连续或分类变量。逻辑回归模型在生物统计学和医疗统计学中广泛应用,用于预测患病率和治疗效果等问题。
七、MLM模型
多级模型(Multilevel Models, 缩写为MLM)也称分层模型,是广义线性模型的一种扩展形式。MLM模型中包含两个或多个可以归类为“层级”的变量,这些变量可能是群体、区域、机构或时间等。通过将个体和群体之间的方差分解为两个部分——“一个来自群体间变异,一个来自个体内变异”,MLM模型可以用于研究个体与群体之间的关系,并明确个体和群体之间的这种关系如何影响结果变量。MLM模型广泛应用于教育学、社会科学、心理学和医学等领域。
八、GAM模型选取
广义相加模型(Generalized Additive Models,缩写为GAM)于1986年提出,是线性模型的扩展形式之一。GAM模型适用于响应变量为连续变量,而预测变量可以使连续变量、分类变量或混合类型,GAM模型通过添加非线性平滑函数来扩展线性模型,从而解决了线性模型对非线性关系的灵活性不足的问题。GAM模型广泛应用于气象学、环境科学、地球物理学、经济学、金融学和医学等领域中,这些领域的数据常常具有复杂的非线性关系。
#GLM模型使用示例
#加载数据
data(mtcars)
#定义变量
dependent_var <- mtcars$mpg
independent_var <- mtcars$wt
#创建GLM模型
model <- glm(dependent_var~independent_var, family = gaussian(link = "identity"))
#输出模型概述
summary(model)