数学之路-数据分析进阶-广义线性模型,数据分析进阶


统计学上, 广义线性模型 (Generalized linear model) 是一种受到广泛应用的线性回归模式。此模式假设实验者所量测的随机变量的分布函数与实验中系统性效应(即非随机的效应)可经由一链结函数(link function)建立起可资解释其相关性的函数。

广义线性模型(generalized linear model, GLM)是简单最小二乘回归(OLS)的扩展,在广义线性模式中,假设每个资料的观测值\mathbf Y来自某个指数族分布。 该分布的平均数 \boldsymbol\mu 可由与该点独立的X解释:

\operatorname{E}(\boldsymbol{y}) = \boldsymbol{\mu} = g^{-1}(\mathbf{X}\boldsymbol{\beta})

其中E(\boldsymbol y)\boldsymbol y期望值\mathbf X\boldsymbol\beta是由未知待估计参数\boldsymbol\beta与已知变量\mathbf X构成的线性估计式,g则为链结函数。

在此模式下,\boldsymbol y的方差V可表示为:

 \operatorname{Var}(\boldsymbol{y}) = \operatorname{V}( \boldsymbol{\mu} ) = \operatorname{V}(g^{-1}(\mathbf{X}\boldsymbol{\beta})).

一般假设V可视为一指数族随机变量函数

未知参数\boldsymbol\beta通常会以最大概似估计量殆最大概似估计量, 或以贝氏方法来估计。

链结函数[编辑]

链结函数解释了线性预测子与分布期望值的关系。链结函数的选择可视情形而定。通常只要符合链结函数的值域有包含分布期望值的条件即可。

当使用具正则参数θ的分布时,链结函数需符合XTY 为β充份统计量此一条件。这在θ与线性预测子的链结函数值相等时方成立。下面列出若干指数族分布的典则链结函数及其反函数(有时称为均值函数):

典则链结函数
分布名称链结函数均值函数
正态恒等\mathbf{X}\boldsymbol{\beta}=\mu\,\!\mu=\mathbf{X}\boldsymbol{\beta}\,\!
指数倒数\mathbf{X}\boldsymbol{\beta}=\mu^{-1}\,\!\mu=(\mathbf{X}\boldsymbol{\beta})^{-1}\,\!
Gamma
逆高斯二次倒数\mathbf{X}\boldsymbol{\beta}=\mu^{-2}\,\!\mu=(\mathbf{X}\boldsymbol{\beta})^{-1/2}\,\!
泊松自然对数\mathbf{X}\boldsymbol{\beta}=\ln{(\mu)}\,\!\mu=\exp{(\mathbf{X}\boldsymbol{\beta})}\,\!
二项式Logit\mathbf{X}\boldsymbol{\beta}=\ln{\left(\frac{\mu}{1-\mu}\right)}\,\!\mu=\frac{\exp{(\mathbf{X}\boldsymbol{\beta})}}{1 + \exp{(\mathbf{X}\boldsymbol{\beta})}}\,\!
多项式

广义线性回归适合以下2种情况:

 1、因变量的条件平均数为回归参数的非线性函数
2、因变量为非正态分布的数据 




相关内容

    暂无相关文章