比较线性回归模型和广义线性模型两类方法的异同

作者&投稿:能维 (若有异议请与网页底部的电邮联系)
广义线性模型和一般线性模型的区别~

广义线性模型(GLM)。这种模型是把自变量的线性预测函数当作因变量的估计值。在机器学习中,有很多模型都是基于广义线性模型的,比如传统的线性回归模型,最大熵
模型,Logistic回归,softmax回归。
广义线性模型GLM很简单,举个例子,物的疗效和物的剂量有关。这个相关性可能是多种多样的,可能是简单线性关系(发烧时吃一片退烧0.1度,两片退烧0.2度,以此类推;这种情况就是一般线性模型),也可能是比较复杂的其他关系,如指数关系(一片退烧0.1度,两片退烧0.4度),对数关系等等。这些复杂的关系一般都可以通过一系列数学变换变成线性关系,以此统称为广义线性模
而对于广义线性混合模型GLMM比较复杂,GLM要求观测值误差是随机的,而GLMM则要求误差值并非随机,而是呈一定分布的。举个例子,我们认为疗效可能与服时间相关,但是这个相关并不是简简单单的疗效随着服时间的变化而改变。更可能的是疗效的随机波动的程度与服时间有关。比如说,在早上10:00的时候,所有人基本上都处于半饱状态,此时吃,相同剂量物效果都差不多。但在中午的时候,有的人还没吃饭, 有的人吃过饭了,有的人喝了酒,结果酒精和物起了反应,有的人喝了醋,醋又和物起了另一种反应。显然,中午吃会导致物疗效的随机误差非常大。这种疗效的随机误差(而非疗效本身)随着时间的变化而变化,并呈一定分布的情况,必须用广义线性混合模型了。

1、不同点
多元线性回归中的古典假定比简单线性回归时多出一个无多重共线性假定。
假定各解释变量之间不存在线性关系,或各个解释变量观测值之间线性无关。解释变量观测值矩阵X列满秩(k列),这是保证多元线性回归模型参数估计值有解的重要条件。
2、相同点
基本假定包括
(1)零均值假定;
(2)同方差假定;
(3)无自相关假定;
(4)随机扰动项与解释变量不相关假定;
(5)正态性假定。
扩展资料
建立多元线性回归模型时,为了保证回归模型具有优良的解释能力和预测效果,应首先注意自变量的选择,其准则是:
(1)自变量对因变量必须有显著的影响,并呈密切的线性相关;
(2)自变量与因变量之间的线性相关必须是真实的,而不是形式上的;
(3)自变量之间应具有一定的互斥性,即自变量之间的相关程度不应高于自变量与因变量之因的相关程度;
(4)自变量应具有完整的统计数据,其预测值容易确定。
参考资料来源:百度百科--多元线性回归
参考资料来源:百度百科--简单线性回归

  • logistic回归:

Logistic回归的应用条件是:
① 独立性。各观测对象间是相互独立的;
② LogitP与自变量是线性关系;
③ 样本量。经验值是病例对照各50例以上或为自变量的5-10倍(以10倍为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似然估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多,且变量分类不能太多;
④ 当队列资料进行logistic回归分析时,观察时间应该相同,否则需考虑观察时间的影响(建议用Poisson回归)。
logistic回归一般是用来解决二元分类问题,它是从贝努力分布转换而来的

  hθ(x) = g(z)=1/1+e-z ;z=θTx

  最大似然估计L(θ) = p(Y|X;θ)

           =∏p(y(i)|x(i);θ)

           =∏(hθ(x))y(i)(1-hθ(x))1-y(i)

     l(θ) = logL(θ)

           =Σy(i)loghθ(x(i))+(1-y(i))log(1-hθ(x(i)))

   θ的优化目的就是让最大似然估计最大,用梯度上升法求θ

  θj=θj+α∂l(θ)/∂θj=θj+α(y(i)-hθ(x(i)))x(i)j

  logistic回归用梯度上升法求得的θ的迭代公式看起来跟线性回归很像,但这跟线性回归是有本质区别的

  1.线性回归是由高斯分布推导而来,而logistic回归是由贝努力分布推导而来

  2.二种回归的最大似然估计是不一样的,只不过求完导后的结果看似相同

      3.二种回归hθ(x)是不同的


  • 广义线性模型:

广义线性模型是线性模型的扩展,其特点是不强行改变数据的自然度量,数据可以具有非线性和非恒定方差结构[59],主要是通过联结函数g()(link function),建立响应变量Y的数学期望值 与线性组合的预测变量P之间的关系:。与线性模型相比,GLM模型中Y的分布可以是任何形式的指数分布(如高斯分布、泊松分布、二项式分布),联结函数可以是任何单调可微函数(如对数函数logarithm 或逻辑函数logit)。Y的方差通过方程函数 依赖于其数学期望值 ,这里 ,为比例(或者称为离差)参数[57-58,60]。这些优点使得GLM模型可以处理非正态分布的响应变量,同时可包含定性、半定量的预测变量;Y通过连接函数g(E(Y))与线性预测因子P建立联系,不仅确保线性关系,且可保证预测值落在响应变量的变幅内,并可解决数据过度离散的问题,从而使GLM逐渐成为植被-环境关系研究的重要模型,并得到越来越多的关注。

  之前已经写了线性回归和logistic回归,基本的形式都是先设定hθ(x),然后求最最大似然估计L(θ),然后求出l(θ)=logL(θ),然后用梯度上升法或其它方法求出θ,二种回归如此想你的原因就是在于它都都是广义线性模型里的一员。

  如果一个概念分布可以表示成p(y;η)=b(y)exp(ηTT(y)-a(η))时,那么这个概率分布可以称之为指数分布

  贝努力分布转换为指数分布:p(y;ø)=øy(1-ø)1-y

                   =exp(log(øy(1-ø)1-y))

                   =exp(ylogø+(1-y)log(1-ø))

                   =exp((log(ø/(1-ø)))y+log(1-ø))

  根据上面指数分布的公式可得出:

                 b(y)=1

                 η=logø/(1-ø);ø=1/(1+e-η)

                 T(y) = y

                 a(η)=-log(1-ø)

  高斯分布转换为指数(因为σ的取值对最后的结果没影响,所以设σ2=1):p(y;μ)=(1/2π)exp(-1/2(y-μ)2);2π上有根号

                                          =(1/2π)exp(-1/2y2).exp(μy-1/2μ2)

  根据上面指数分布的公式可得出:

                b(y)=(1/2π)exp(-1/2y2);2π上有根号

                                           η=μ

                                           T(y) = y

                                           a(η)=1/2μ2

  广义线性模型的三步是:
        1.将y|x;θ变换成以η为参数的指数分布的形式

          2.因为h(x)=E[y|x],所以能过第1步的变换可以得到E[y|x]与η的对应关系(对于logistic回归,期望值是ø,ø与η的关系是ø=1/(1+e-η);对于线性回归,期望值是μ,μ与η的关系是η=μ)

        3.设定η=θTx(如果η是一个向量值的话,那么ηi=θiTx)




什么是线性回归模型
回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。 在线性回归中,数据使用线性预测函数来建模,并且未知的模型参数也是通过数据来估计。这些模型被叫做...

线性回归有几种?区别是什么?
一、性质不同。1、逻辑回归:是一种广义的线性回归分析模型。2、线性回归:利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。二、应用不同。1、逻辑回归:常用于数据挖掘,疾病自动诊断,经济预测等领域。2、线性回归:常运用于数学、金融、趋势线、经济学等领域...

帝国理工统计学硕士专业的课程设置是怎样的?
1.概率论与数理统计:这门课程将介绍概率论的基本概念,包括随机变量、分布函数、期望值、方差等。此外,还将讨论数理统计的基本方法,如最大似然估计、贝叶斯推断等。2.线性回归模型:这门课程将介绍线性回归模型的基本概念和应用,包括最小二乘法、假设检验、置信区间等。此外,还将讨论如何应用线性回归...

GLM和普通线性回归模型的联系与区别
而 GLMMgeneralized linear mixed model )是广义线性混合模型。广义线性模型 GLM 很简单,举个例子,药物的疗效和服用药物的剂量有关。这个相关性可能是多种多样的,也可能是简单线性关系。而线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分...

logit模型和logistic模型有什么区别啊!
2、特点不同logit模型:因变量不是常规的连续变量,而是对数发生比率,尽管每个自变量的估计系数含义与一般线性回归一样,数的经济学含义,较方便的做法是将Logit进行转换后再进行解释,而不是直接解释系数本身,即将回归模型等式两侧取自然指数。logistic模型:如果已经建立了logistic回归模型,则可以根据模型,...

什么是回归问题
4.工程学:用于预测材料的性能、设计可靠性等。5.自然科学:用于分析地震数据、气象数据等。三、回归模型 回归问题使用的模型通常基于线性或非线性关系。其中,线性回归是最简单和最常见的回归模型之一。它假设自变量与因变量之间存在线性关系,并试图拟合一条直线来表示这种关系。非线性回归模型则用于处理更...

逻辑回归是线性回归吗
是的,他是一种广义的线性回归分析模型 当logistic回归模型能够较好地拟合数据时,我们便可以对模型的系数进行解释了,类似于线性回归系数。Logistic回归系数也可以被解释为对应自变量一个单位的变化所导致的因变量上的变化。在logistic回归系列(二)中,我们把logistic回归因变量转化成了比数对数后进行回归,...

统计学习方法之回归
逻辑回归尽管名为回归,但它本质上是一种二分类模型,通过Logistic函数将线性回归的输出映射到[0,1]区间。其参数估计基于最大后验概率,利用对数似然函数进行优化。线性回归模型的推广,如广义线性模型(GLM),允许联系函数引入非线性,比如指数族分布,如伯努利分布和高斯分布的特殊情况,使得模型能够处理更...

回归写一句话
回归写一句话,示例如下:1、机器学习中的回归算法是一种用于预测连续值的方法。2、回归分析是一种用于探索变量之间关系的统计方法。3、在金融领域,回归模型常被用来预测股票价格的涨跌。4、通过回归分析,我们可以了解自变量对因变量的影响程度。5、多元线性回归模型可以同时考虑多个自变量对因变量的影响。...

线性回归和逻辑回归的区别
一、性质不同 1. 逻辑回归:逻辑回归是一种广义的线性回归分析模型,主要用于处理因变量为分类变量的情形,例如二分类或多分类问题。2. 线性回归:线性回归是利用数理统计中的回归分析方法,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。它适用于因变量为连续性数据变量的情况。二、...

琼结县18020423058: 广义线性模型和一般线性模型的区别 -
桓肤迈格: 答: 是广义线性模型(英文generalized linear model的缩写).

琼结县18020423058: 广义线性模型和广义线性混合模型怎么区分使用 -
桓肤迈格: 广义线性模型(GLM).这种模型是把自变量的线性预测函数当作因变量的估计值.在机器学习中,有很多模型都是基于广义线性模型的,比如传统的线性回归模型,最大熵 模型,Logistic回归,softmax回归.广义线性模型GLM很简单,举个...

琼结县18020423058: 如何检验同一样本下两个回归方程中的变量系数差异 -
桓肤迈格: ?为此,我总结了回归系数 的比较方法,如下. 回归系数的比较通常可以分为两类,线性回归模型回归系数比较和非线性回归模型回归系数比较. 我们先谈谈线性回归模型回归系数比较,而本帖只针对上面的文献讲解两组回归系数之间的比较.多组线性回归模型的回归系数比较与两组之间比较类似,只是多了几个虚变量,而非线性回归系统比较则使用的是残差平方和简化测验(sum of square reduction test, SSRT),你可以参考”不同株型小麦干物质积累与分配对氮肥响应的动态分析“. 我们虚构

琼结县18020423058: 如何检验两组回归系数之间的差异显著性?(转) -
桓肤迈格:[答案] 随后作者比较了两个生育时期线性回归模型的回归系数(斜率)和截距,作者发现两个生育时期回归系数(斜率)差异不显著,而截距差异显著.这种两组或多组回归系数之间的差异性如何检验?如何在R软件中实现?为此,我总结了回归系数 的比较...

琼结县18020423058: 连续型变量如何分组使得两组之间差异最显著 -
桓肤迈格: 随后作者比较了两个生育时期线性回归模型的回归系数(斜率)和截距,作者发现两个生育时期回归系数(斜率)差异不显著,而截距差异显著.这种两组或多组回归系数之间的差异性如何检验?如何在R软件中实现?为此,我总结了回归系数...

琼结县18020423058: 广义线性模型的介绍 -
桓肤迈格: 《广义线性模型》由四本介绍线性模型的小册子组成,它们分别是《广义线性模型导论》、《应用logistic回归分析》、《定序因变量的logistic回归模型》以及《logit与probit:次序模型和多类别模型》.《广义线性模型》集中介绍了社会学研究分析方法中的一个非常有效且重要的数据分析方法,即线性模型.作者通过阐释广义线性模型的概念、基本原则,探讨了从线性模型推广至其他模型的可能路径,并举例比较了不同模型的拟合优度,为读者全面掌握线性模型分析法提供了一个可行的指南.

琼结县18020423058: 什么是线性回归模型 -
桓肤迈格: 实验数据是离散的,用一线性方程式逼近数据,此线性方程式就是线性回归模型.

琼结县18020423058: 怎么判断用线性回归还是非线性回归? -
桓肤迈格: 优先选择线性回归,因为线性回归容易处理.也可以选择非线性回归.非线性回归很复杂,而线性回归的方法基本上前人已经完善的差不多了. 处理可线性化处理的非线性回归的基本方法是,通过变量变换,将非线性回归化为线性回归,然后用...

琼结县18020423058: 多元线性回归模型与一元线性回归模型有哪些区别? -
桓肤迈格: 多元线性回归模型与一元线性回归模型区别表现在如下几个方面:一是解释变量的个数不同;二是模型的经典假设不同,多元线性回归模型比一元线性回归模型多了个“解释变量之间不存在线性相关关系”的假定;三是多元线性回归模型的参数...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网