为什么有些数据要取对数

作者&投稿：曲梁（若有异议请与网页底部的电邮联系）

~ 告诉你为什么数据要取对数

平时在一些数据处理中，经常会把原始数据取对数后进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数，取对数后不会改变数据的相对关系，取对数作用主要有：
1. 缩小数据的绝对数值，方便计算。例如，每个数据项的值都很大，许多这样的值进行计算可能对超过常用数据类型的取值范围，这时取对数，就把数值缩小了，例如TF-IDF计算时，由于在大规模语料库中，很多词的频率是非常大的数字。

2. 取对数后，可以将乘法计算转换称加法计算。

3. 某些情况下，在数据的整个值域中的在不同区间的差异带来的影响不同。例如，中文分词的mmseg算法，计算语素自由度时候就取了对数，这是因为，如果某两个字的频率分别都是500，频率和为1000，另外两个字的频率分别为200和800，如果单纯比较频率和都是相等的，但是取对数后，log500=2.69897, log200=2.30103, log800=2.90308 这时候前者为2log500=5.39794, 后者为log200+log800=5.20411，这时前者的和更大，取前者。因为前面两个词频率都是500,可见都比较常见。后面有个词频是200,说明不太常见，所以选择前者。

从log函数的图像可以看到，自变量x的值越小，函数值y的变化越快，还是前面的例子，同样是相差了300,但log500-log200>log800-log500，因为前面一对的比后面一对更小。

也就是说，对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。这也是符合生活常识的，例如对于价格，买个家电，如果价格相差几百元能够很大程度影响你决策，但是你买汽车时相差几百元你会忽略不计了。
4. 取对数之后不会改变数据的性质和相关关系，但压缩了变量的尺度，例如800/200=4, 但log800/log200=1.2616，数据更加平稳，也消弱了模型的共线性、异方差性等。

5. 所得到的数据易消除异方差问题。

6. 在经济学中，常取自然对数再做回归，这时回归方程为 lnY=a lnX+b ，两边同时对X求导，1/Y*(DY/DX)=a*1/X, b=(DY/DX)*(X/Y)=(DY*X)/(DX*Y)=(DY/Y)/(DX/X) 这正好是弹性的定义。

当然，如果数据集中有负数当然就不能取对数了。实践中，取对数的一般是水平量，而不是比例数据，例如变化率等。

eviews做面板数据要要对数据取对数吗
不对ln(y) = log（y）\/log(e)

数据分析的方法有哪些
(1)现状分析并建立假设:分析业务数据,确定当前最关键的改进点,作出优化改进的假设,提出优化建议;比如说我们发现用户的转化率不高,我们假设是因为推广的着陆页面带来的转化率太低,下面就要想办法来进行改进了 (2)设定目标,制定方案:设置主要目标,用来衡量各优化版本的优劣;设置辅助目标,用来评估优化版本对其他方面的影...

目前人工智能发展的瓶颈是什么?
1. 数据瓶颈：人工智能的进步依赖于大量数据的训练，但获取这些数据往往面临挑战。数据可能难以获取，尤其是对于某些敏感领域，数据获取成本高昂。此外，数据隐私和安全问题亟待法律法规的规范，以避免潜在的严重后果。同时，数据质量对AI性能至关重要，错误或有偏差的数据可能导致AI学习到错误信息，影响其准确...

取货数据是什么意思啊?
随着消费市场的不断扩大和物流技术的不断升级，取货数据也得到了更广泛的应用。基于大数据分析，运营商可以更好地了解物流网络的瓶颈和优化方案，进一步提高物流的速度和准确性。同时，取货数据的透明度和真实性也受到了更多的关注和追求，有助于提高消费者对电商平台和物流公司的信任度。

数据预处理在什么情况下采取哪种方法最合适?
数据标准化的方法有很多种，常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。经过上述标准化处理，原始数据均转换为无量纲化指标测评值，即各指标值都处于同一个数量级别上，可以进行综合测评分析。一、Min-max 标准化 min-max标准化方法是对原始数据进行线性变换。设minA...

电子数据取证规则是什么
第二节扣押、封存原始存储介质第十条在侦查活动中发现的可以证明犯罪嫌疑人有罪或者无罪、罪轻或者罪重的电子数据,能够扣押原始存储介质的,应当扣押、封存原始存储介质,并制作笔录,记录原始存储介质的封存状态。勘验、检查与电子数据有关的犯罪现场时,应当按照有关规范处置相关设备,扣押、封存原始存储介质。第十一条对...

在excel中怎么对一整列数据取对数???急!!!
1、电脑打开Excel表格。2、打开Excel表格后，例如A列要以2为底数，求A列的对数，输入公式=LOG(A1,2)。3、输入公式后，回车就可以得到A1的对数，然后双击右下角的填充点。4、就可以自动填充B列的公式。

科学实验数据应取众数还是中位数
众数着眼于对各数据出现的次数的考察, 是一组数据中的原数据，其大小只与这组数据中的部分数据有关,当一组数据中有不少数据多次重复出现时,其众数往往是我们关心的一种统计量；注意：一组数据中的众数有时不只一个，如数据2、3、-1、2、l、3中，2和3都出现了2次，它们都是这组数据的众数．...

网络在线提取时需要注意的事项包括
网络在线提取的数据需要进行有效的分析和应用，以实现数据的价值。可以通过数据挖掘、机器学习、人工智能等技术手段对数据进行分析，发现其中的规律和趋势，为决策提供支持。同时，可以将分析结果应用于实际场景，如商业智能、金融风控、市场营销等，实现数据的价值。总之，在网络在线提取时，需要注意数据来源、...

请问数据源没有取对是什么意思,可以说的详细点吗?
数据源一般是指数据库，也可以是电脑上的任何文件，通俗来讲就是程序对文件的执行，当文件不符合程序所需要的格式，或者路径不对的时候，就是数据源没有取对。个人见解，仅供参考。

山东省18927292203： 在统计学中为什么要对变量取对数 - ？
浑秀维宏： 有很多原因啊.(1)减弱模型中数据的异方差性,只能是减弱,并不能彻底消除(2)模型形式的需要,利用线性回归模型的前提是解释变量和被解释变量之间的线性关系,但是在实际中这一点很难满足,很多的时候需要对多个变量或者是单一变量做对数变换,让模型的形式变为线性(3)取对数,再配合差分变化,把绝对数变成相对数,这样,数据更能表示变动的相关性.(4)对取对数以后的经济数据进行线性回归,其前面的参数表示的就是百分比变化率(dlnx=dx/x),也就是弹性(5)有时候变量不符合正态分布的假定,取了对数可以渐近正态分布………………

山东省18927292203： 计量经济学模型为什么要取对数 - ？
浑秀维宏： 计量经济学模型通常是为避免伪回归,消除异方差,在不改变时间序列的性质及相关性的前提下,为获得平稳数据,通常会对时间序列取自然对数.对数据进行平稳性检验是研究中不可或缺的步骤,因为时间序列分析法只适用于平稳的数据. ...

山东省18927292203： 为什么经济学表述中要对所取的数据取对数呢?比如说为什么要取log of 国内产出.取对数的意义究竟是什么呢? 对数究竟有什么用呢? - ？
浑秀维宏：[答案] log是非常重要地特别是在计量之中经常会用到细说如下: y=x 是说 x增长1单位 Y也增长一个单位 y=logx 是说 x 增长一个单位 y增长百分之多少有个这么个意思

山东省18927292203： 为什么取对数,为什么会有对数 - ？
浑秀维宏： GDP取对数是为了避免过度异常波动的影响.数据中有时会出现所谓的异常点,比如价格因素、季节因素,因为某些原因和预想差别非常大的点,当你用log后,这些异常点会变得比较小,会缩回期望范围内.

山东省18927292203： 流体力学实验沿程阻力系数与雷诺数的关系实验曲线为什么要取对数表示 - ？
浑秀维宏：[答案] 在沿程阻力系数与雷诺数的关系实验中,雷诺数的数值范围很大(0.001~10^6),如果使用原数值进行作图,一方面会影响单位长度的选取,另一方面会使得所作图的坐标轴长度过长,出现图像失真情况,不利于数据分析. 在对数值取对数之后,...

山东省18927292203： 为什么要对原始数据取对数 - ？
浑秀维宏： 首先根据原始数据画出草图来,看草图的形状先大致猜测函数的类型如果看到图中曲线上升很快,类似于y=ax^b的函数形式取对数(适当的底数)lny=lna+blnx 这样将指数函数化成一次线性函数,更方便画图和处理数据

山东省18927292203： 计量经济学中为什么要对变量取对数,差分以及对数差分 - ？
浑秀维宏： 因为一般做回归分析,会用到线性回归,如果不取对数或其他形式,你的自变量不能和因变量有线性关系,那么你的分析模型就是不完全合适的.并且有时候取对数或其他形式是因为,原来的数据不服从随机正态分布,但是可能它的log形式服从随机正态分布.

山东省18927292203： 微生物计数的时候为什么要取对数 - ？
浑秀维宏： 因为使用对数(一般使用自然对数)却能方便的进行一些高等数学方法的统计与分析. 对数值和实际值呈正相关,便于绘制函数曲线,也能准确反映微生物生长规律.

山东省18927292203： 机器学习中为什么要对概率取对数 - ？
浑秀维宏： 防止下溢概率原本就是很小的一些数,似然估计相乘后难免不出现下溢,取对数可以有效的防止下溢,取对数后的似然成为对数似然.

山东省18927292203： 请问为什么在计算信息熵的时候要取对数呢? - ？
浑秀维宏： 看看定义信息熵的想法:设对于某个事件 x, 发生的概率是 p(x), 对应的＂信息量＂是 I(x). 性质 1. p(x) = 0 => I(x) = +\inf (正无穷大) 2. p(x) = 1 => I(x) = 0 3. p(x)>p(y) => I(x)含义是概率为 0 的事件对应的信息量大, 反之信息量少. 我们概率老师...

你可能想看的相关专题

星空见康网

为什么有些数据要取对数

你可能想看的相关专题