在统计学中为什么要对变量取对数

作者&投稿：局钞（若有异议请与网页底部的电邮联系）

在统计学中为什么要对变量取对数~

我能想到的有两点
作用1：对有些存在异常大的观测值的变量，取对数可以减小方差
作用2：对只有取正值才有意义的变量，例如重量，如果直接进行线性回归，那么可能产生没有意义的负的预测值，所以有时会考虑对对数值进行回归分析而不是原始的观测值，这样就不会产生没有意义的预测值。

对数变换是数据变换的一种常用方式，数据变换的目的在于使数据的呈现方式接近我们所希望的前提假设，从而更好的进行统计推断。但需要注意的是，数据是离散变量时进行对数变换要额外小心！
(Why)为什么需要做数据变换？
从直观上讲，是为了更便捷的发现数据之间的关系（可以理解为更好的数据可视化）。举个栗子，下图的左图是各国人均GDP和城市人口数量的关系，可以发现人均GDP是严重左偏的，并且可以预知在回归方程中存在明显的异方差性，但如果对GDP进行对数变换后，可以发现较明显的线性关系。为什么呢？因为我们度量相关性时使用的Pearson相关系数检验的是变量间的线性关系，只有两变量服从不相关的二元正态分布时，Pearson相关系数才会服从标准的t-分布，但如果变量间的关系是非线性的，则两个不独立的变量之间的Pearson相关系数也可以为0.

对数据做一些变换的目的是它能够让它符合我们所做的假设，使我们能够在已有理论上对其分析。

对数变换(log transformation)是特殊的一种数据变换方式，它可以将一类我们理论上未解决的模型问题转化为已经解决的问题。我将说两类比较有代表性的模型。

理论上：随着自变量的增加，因变量的方差也增大的模型。

先给个很经典的例子，如分析美国每月电力生产数。

左边是正常数据，可以看到随着时间推进，电力生产也变得方差越来越大，即越来越不稳定。这种情况下常有的分析假设经常就不会满足（误差服从独立同分布的正态分布，时间序列要求平稳）。
这必然导致我们寻求一种方式让数据尽量满足假设，让方差恒定，即让波动相对稳定。而这种目的可以通过对数转换做到。

理论上，我们将这类问题抽象成这种模型，即分布的标准差与其均值线性相关。

from：http://www.zhihu.com/question/22012482

为什么统计学中要对数据做变异分析?
统计学中有个基本概念“基线”（baseline），所谓基线是指研究措施执行前，被研究对象的基本特征。具体到文章中涉及到的问题，因素有很多，实际上，同一个研究方法或者同一种处理措施，在不同的研究中，得到不同的结果，往往是由于被研究对象之间的基线资料差别所致。在研究中一定要对得到的数据作进一步的...

在统计学中为什么要对变量取对数
如果变量之间存在对数线性关系，取对数之后就可以用线性模型处理这种关系，计算简便，而且准确度高

在统计学中为什么要对变量取对数
这涉及到数学方面的问题更多些，形如y＝e∧x,y＝x∧a,y＝a×b∧x等等，这些可以化简变量取对数后得出的数据更直观，在统计学上做模型图的时候，非线性函数直接作图是比较困难的，它分为了本质线性函数和非本质非线性函数，像上面那些指数函数，幂函数之类的是本质线性函数，用参数稍加改下，即y1＝...

为什么研究中需对结果进行显著性水平的判断?
需要注意的是，显著性水平并不代表着结果的重要性。一个结果即使达到了1%的显著性水平，也并不一定具有实际意义。因此，在研究中，我们需要综合考虑显著性水平和结果的实际意义，才能得出准确的结论。总之，1%、5%、10%显著是统计学中常见的三个显著性水平，我们需要根据研究的具体情况来选择合适的显著性...

为什么要对统计数据进行误差修正?
误差的降低有助于提高数据的可比性。统计数据的比较和分析通常需要考虑各种可能的误差来源，以确定不同数据之间的差异是否具有统计学意义。当误差降低时，不同数据之间的差异更可能反映真实的差异，从而增强了数据的可比性。误差的降低可以增加统计数据的可信度。对于数据的使用者来说，统计数据的可信度是评估...

在统计学中为什么要对变量取对数
通常是防过小或过大，比如2^-30这样，我们只要知道变化幅度或差距，不需要知道具体值时就可以去对数

为什么要对方差作统计分析?
原因如下：1、首先工作量太大；2、无统一的误差，试验误差估计的精确度和检验的灵敏度低；3、容易犯Ⅰ型错误，推断的可靠性低。方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个：1、实验条件，即不同的处理造成的差异，称为组间差异。用变量在各组的均值与总均值之偏差平方和的总和...

为什么要对方差进行修正?
在统计学中，方差是用来衡量一组数据的离散程度的指标。方差的计算涉及到对数据与其均值之差的平方进行求和。在计算样本方差时，常常使用除以n-1的修正因子，而不是除以n。这是因为样本方差是用来估计总体方差的。当我们从总体中取出一个样本时，样本的方差通常会低估总体方差。这是因为样本中的数据之间的...

在统计学中为什么要对变量取对数
有的回归数学模型，不是线性，需要取对数，曲线化直！

在统计学中为什么要对变量取对数
你是在用最小二乘法拟合吗？拟合后的曲线为了让他形如y=kx+b的形式，我们要采取一些变换，如指数形式可以采取取对数

长宁县13284224222： 在统计学中为什么要对变量取对数 - ？
成王储瑞科： 我能想到的有两点作用1: 对有些存在异常大的观测值的变量,取对数可以减小方差作用2: 对只有取正值才有意义的变量,例如重量,如果直接进行线性回归,那么可能产生没有意义的负的预测值,所以有时会考虑对对数值进行回归分析而不是原始的观测值,这样就不会产生没有意义的预测值.

长宁县13284224222： 计量经济学中为什么要对变量取对数,差分以及对数差分 - ？
成王储瑞科： 因为一般做回归分析,会用到线性回归,如果不取对数或其他形式,你的自变量不能和因变量有线性关系,那么你的分析模型就是不完全合适的.并且有时候取对数或其他形式是因为,原来的数据不服从随机正态分布,但是可能它的log形式服从随机正态分布.

长宁县13284224222： 为什么要对原始数据取对数 - ？
成王储瑞科： 首先根据原始数据画出草图来,看草图的形状先大致猜测函数的类型如果看到图中曲线上升很快,类似于y=ax^b的函数形式取对数(适当的底数)lny=lna+blnx 这样将指数函数化成一次线性函数,更方便画图和处理数据

长宁县13284224222： 为什么在进行空间统计分析时,对于空间滞后模型和空间误差模型进行参数估计时,需要对数据取自然对数?？
成王储瑞科： 因为人们对比如声音,光,等跨越不同空间的事物的感受是 Logarithmically. 所以对数衡量相比简单衡量更可靠. 物理学里面都是这样的吧,好像.

长宁县13284224222： 计量经济学模型为什么要取对数 - ？
成王储瑞科： 计量经济学模型通常是为避免伪回归,消除异方差,在不改变时间序列的性质及相关性的前提下,为获得平稳数据,通常会对时间序列取自然对数.对数据进行平稳性检验是研究中不可或缺的步骤,因为时间序列分析法只适用于平稳的数据. ...

长宁县13284224222： meta分析为什么要将比值取对数 - ？
成王储瑞科： 多对数模型的解释变量与应变量都是对数形式,它的斜率系数可以衡量应变量Y关于解释变量X的弹性..也就是当X每变动百分之一时,应变量Y的均值变动的百分比、、、、

长宁县13284224222： 在做eviews计量经济实验时,数据GDP为什么要取对数?和不取对数有什么区别? - ？
成王储瑞科： 好问题!! 1. 主要清除outlier.数据中有时会出现所谓的异常点,因为某些原因和预想差别非常大的点.当你用log后,这些异常点会变得比较小,会缩回期望范围内.2. 同时可以把数据的数量级,调下来.不过这不是主要目的,毕竟你把数...

长宁县13284224222： 为什么经济学表述中要对所取的数据取对数呢?比如说为什么要取log of 国内产出.取对数的意义究竟是什么呢? 对数究竟有什么用呢? - ？
成王储瑞科：[答案] log是非常重要地特别是在计量之中经常会用到细说如下: y=x 是说 x增长1单位 Y也增长一个单位 y=logx 是说 x 增长一个单位 y增长百分之多少有个这么个意思

长宁县13284224222： 在统计学中为何要对数据进行变量变换 - ？
成王储瑞科： 没明白你的意思,我理解的是,在统计学当中由于要对多指标进行综合分析,而指标的核心就是均值和标准差,那如果想要将均值和标准差结合起来一起分析,那就需要进行数据的标准化处理,从而消除变量分布不同的影响,然后在综合分析的时候才具有统计意义.不知道解释明白没.

长宁县13284224222： eviews为什么要取对数 - ？
成王储瑞科： 因为为了减少异方差

你可能想看的相关专题

星空见康网

在统计学中为什么要对变量取对数

你可能想看的相关专题