数据分析必备的统计学基础,数据分析必备的统计学知识大梳理?

作者&投稿:唐非 (若有异议请与网页底部的电邮联系)
~ 除了熟悉业务、掌握业务分析思维和工具外,数据分析专家必备技能堆栈还有一个特别重要的知识点:统计学。 无论是简历的技能描述还是实际面试中,统计学都是必须的基础知识。
为什么统计学对数据分析师来说那么重要? 其实答案很明显。 数据分析的价值在于,通过数据洞察业务背后的信息,避免以往“决定拍脑袋,保证拍胸部,拍屁股就走人”的主观误判,一切用数据说话。 数据怎么能说话? 算出一个数据,怎么知道那个数据好不好? 有多好? 两组数据出现在你面前,如何判断这两组数据是否有明显的差异? 要回答这些问题,你需要运用统计学知识,而不是相信自己的眼睛。 因为眼睛有时会说谎,所以你看到的“好”不一定都是好的。 你看到的“没有区别”并不意味着没有区别。
但是,许多刚入门的数据分析师在学习统计学知识时都很头疼。 统计学的书籍里写了很难理解的公式,不是一般人能理解的。
其实,对大多数数据分析师来说,我们不需要掌握得那么全面和深入。 我们只能掌握一部分知识,理解不了理论。 但是,你只要知道在什么场合使用就可以了。 用了之后,慢慢就能理解了。
因此,为了便于学习统计学的基础知识,这里整理一下数据分析工作中最常见的统计学基础知识,并尽量以简单的白字形式进行讲解,以便在面试和以后的工作中都能运用统计学知识。
数据分析中的统计学
问题1、辛普森悖论是什么? 细分后的结果与整体结果相矛盾,人们常说这就是辛普森的悖论。
辛普森悖论主要是因为两组样本不平衡,采样不合理。
在正确的实验实施方案中,除被测试变量外,可能影响结果的变量比例必须一致,流量必须均匀合理划分。
例如:
如果原来的男性是20人,点击1人; 点击女性100人、99人,总点击率为100/120。
现在男性100人,点击6人; 女性20人,点击量20人,总点击率26/120。
男女点击率都有所提高,但点击率更高的女性所占比例太小,无法提高整体点击率。
Q2、协方差与相关系数的差异和联系协方差:
协方差表示两个变量的整体误差,这与只表示一个变量误差的方差不同。
如果两个变量的变化趋势一致,即一个大于自己的期望值,另一个也大于自己的期望值,则两个变量之间的协方差为正值。
如果两个变量的变化趋势相反,一个大于自己的期望值,另一个小于自己的期望值,则两个变量之间的协方差为负值。
相关系数:
研究变量之间的线性相关程度的量,取值的范围为[-1,1 ]。
相关系数也可以认为是协方差。 消除了两个变量维数的影响的标准化特殊协方差。
Q3、AB测试的统计很显眼,实际上不显眼是什么原因? 这可能是因为我们在AB测试中选择的样本量太大,与总体数据量的差距很小。 这样的话,即使我们发现了微小的差异,这在统计上也是明显的,在实际案例中可能会变得不明显。
举个例子,为了应对我们互联网产品的实践,我们做了改变。 APP启动时间优化为0.001秒。 这个数字在统计学上对应的p值可能很小。 也就是说,虽然在统计学上很显著,但实际上无法感知用户0.01秒的差异。
这样显著的统计差异,其实对我们来说没有什么实际意义。
因此,统计学显著性并不意味着实际效果的显著性。
Q4、如何理解中心极限定理? 中心定理的定义:
(1)任一样本的平均值与其所在整体的平均值大致相等。
)无论总体是什么样的分布,任一总体的样本平均值都围绕在总体平均值的周围,呈正态分布。
中心定理的作用:
)1)在无法获得总体数据的情况下,可以用样本来估计总体。
)根据总体均值和标准差,判断某个样本是否属于总体。
Q5、如何向孩子解释正态分布? 拿出孩子班级的成绩单,按每2分统计人数,画出钟的形状。
然后说这是正态分布,很多人都集中在中间。 只有少数非常好的人和坏的人。 拿出隔壁班的成绩单,让孩子们自己画画,发现是这样的现象,拿出班级的身高表一看,是这样的。
大多数人之间差别不大,但只有少数人有特别好的人和特别坏的人。 这是生活中普遍出现的现象,这就是正态分布。
Q6、什么是聚类? 聚类算法有几种? 选择一个详细介绍(1)聚类分析是一种无监督学习方法,在一定条件下将比较同质的样品归为一类(俗称人在班里聚会,物在班里分组)。
正式地说,集群就是对点集合进行考察,根据一定的距离测度将他们归纳成多个“集群”的过程。
聚类的目标是缩短同一个集群中点之间的距离并增加不同集群中点之间的距离。
)2)聚类方法主要有:
a .分层聚类
分层法( hierarchical methods )是在满足某些条件之前对给定数据集进行分层分解的方法。
具体分为“自下而上”和“自上而下”两个方案。
b .聚类划分:(经典算法为k均值) ) )。
分区给出具有n个组或记录的数据集。 分裂法构建k个组,每个组表示一个集群。
c .密度聚类
基于密度的方法( density-based methods ) (基于密度的方法与其他方法的一个根本区别在于基于密度,而不是基于各种距离。
这样,可以克服基于距离的算法只能发现“类圆形”聚类的缺点。
经典算法: DBSCAN:DBSCAN算法是典型的基于密度的聚类算法。 该算法利用空间索引技术搜索对象邻域,引入“核心对象”和“密度可达”等概念,从核心对象中将所有密度可达对象聚集成一个簇。
d .网格聚类
基于网格的方法( grid-based methods )首先将数据空间分割为有限个单元( cell )的网格结构,所有处理都以单个单元为对象。
此类处理的一大优点是处理速度快。 通常,这与将数据空间划分为多少个单元无关,与目标数据库中记录的数量无关。
经典算法: STING :利用网格单元存储数据统计信息,实现多分辨率聚类。
)3) k-means容易介绍,开始选取k个点作为聚类中心,剩下的点根据距离分类为类,找到新的类中心,重新分配点; 重复直到达到收敛条件或重复次数。
优点是快; 缺点是先指定k,同时对异常值敏感。
Q7、线性回归和逻辑回归的区别是什么? 以线性回归为对象的目标变量为区间型,逻辑回归为对象的目标变量为类别型,
假定线性回归模型的目标变量和自变量之间的关系是线性相关的,逻辑回归模型的目标变量和自变量是非线性的。
线性回归中通常使用假设,对应自变量x的某个值,目标变量y的观测值服从正太分布。
逻辑回归中的目标变量y服从二项分布的0和1或多项分布
逻辑回归中不存在线性回归中常见的残差。
参数评估采用线性回归最小二乘法,逻辑回归采用最大似然法。
Q8、为什么朴素的贝叶斯是“朴素”的? 朴素贝叶斯是一种简单但非常强大的预测建模算法。
之所以称为朴素贝叶斯是因为它假定每个输入变量都是独立的。
这是一个强硬的假设,实际上并不一定,但这项技术对大多数复杂问题仍然非常有效。
Q9、k均值和KNN的区别是什么? 首先,这两种算法解决了数据挖掘中的两类问题。
k均值是聚类算法,KNN是分类算法。
其次,这两种算法分别是两种不同的学习方式。
k均值是非监督学习,即不需要提前进行分类标记,而KNN有监督学习,需要对训练数据进行分类标记。
最后,k值的含义不同。
K-Means的k值表示k类。
KNN的k值表示最近的k个邻居。
Q10、逻辑回归和线性回归的区别? 线性回归要求因变量必须是连续性数据变量; 逻辑回归需求因变量必须为分类变量、二分类或多分类; 例如,要分析性别、年龄、身高和饮食习惯对体重的影响,请通过线性回归来分析体重是实际重量,还是连续性数据变量。 对体重进行分类,作为因变量分为高、中、低3种体重类型时,采用logistic回归。
两者的不同还体现在以下几点。
一、性质不同
1、逻辑回归:是一个广义线性回归分析模型。
2、线性回归:一种利用数理统计中的回归分析,确定两个或多个变量之间相互依存的定量关系的统计分析方法。
二、应用不同
1、逻辑回归:常用于数据挖掘、疾病自动诊断、经济预测等领域。
2、线性回归:常用于数学、金融、趋势线、经济学等领域。
以上是【几分面试宝典】系列——统计学基础知识第一篇文章的内容。 历史文章的一部分请恢复为公众号。 更多数据分析面试笔试文章持续更新,敬请期待。 觉得好的话,就分享,点赞,也欢迎收藏~

自考/成考有疑问、不知道自考/成考考点内容、不清楚当地自考/成考政策,点击底部咨询官网老师,免费领取复习资料:https://www.87dh.com/xl/


统计学专业是学什么的?
另外特别建议我们在大二时如果有机会参加全国大学生市场调研大赛的比赛,一定要报名。因为它不仅是我们专业最权威的比赛,而且对我们个人能力的提升会起到一定的作用。❥❥统计学就业前景有哪些?统计学的就业方向还是比较广泛的,不管是进国家的统计局当公务员,还是去公司当数据分析师,又或...

统计分析问题及分析思路?
并进行模型训练和评估,得到模型的参数和预测能力。5. 进行显著性分析,确定模型的预测结果是否具有统计学上的意义。6. 最后对模型的预测结果进行解释和应用,为决策提供支持和参考。需要注意的是,以上步骤和分析思路仅供参考,具体的分析方法和步骤可能会因问题的不同而有所差异。

统计学指标的名词解释
1. 统计学:作为应用数学的一个分支,统计学通过概率论构建数学模型,搜集观察系统的数据,进行量化的分析、总结,进而进行推断和预测,为决策提供依据和参考。2. 相关名词解释:1) 统计:是一种科学方法,从数量角度认识事物的特征和规律,包括统计工作、统计资料和统计学三个层面。2) 统计总体:是统计...

"统计学的基本研究方法"
统计学中的统计分组法有传统分组法、判别分析法和聚类分析法等。(三)、综合指标法 统计研究现象的数量方面的特征是通过统计综合指标来反映的。所谓综合指标,是指用来从总体上反映所研究现象数量特征和数量关系的范畴及其数值,常见的有总量指标、相对指标,平均指标和标志变异指标等。综合指标法在统计学、...

统计师分哪些
统计师是一种专门从事数据收集、整理、分析和解读的专业人员。根据不同的工作内容和职责,统计师主要分为以下几个类别:1. 数据分析统计师。这类统计师主要负责收集、整理和分析各种数据,通过运用统计学方法和模型,挖掘数据的内在规律和趋势,为决策提供科学依据。他们通常具备扎实的统计学知识和数据分析...

关于统计学的小论文。
统计学在现实生活中的应用 一、答案:统计学是一门关于数据收集、分析、解释和决策的学科。它在现实生活中的应用广泛而重要,为各个领域提供了决策支持和科学依据。本文将从统计学的实际应用角度出发,探讨其在社会、经济、医学等领域的具体应用及其重要性。二、解释:统计学的定义及其重要性:统计学是一...

如何自学成为数据分析师
2.数据获取 数据获取的方式有很多种:一是直接从企业数据库调取,需要SQL技能去完成数据提取等的数据库管理工作。二是获取公开数据,政府、企业、统计局等机构有。三是通过Python编写网页爬虫。3.数据预处理 对残缺、重复等异常数据进行清洗。4.数据分析与建模 这个部分需要了解基本的统计分析方法、数据挖掘...

统计学中 b se χ2 p or 95%ci分别代表什么意思
卡方值是非参数检验中的一个统计量,主要用于非参数统计分析中,它是卡方检验中的一个主要测试指标,卡方检验是一种用途很广的计数资料的假设检验方法,它属于非参数检验的范畴。主要是比较两个及两个以上样本率( 构成比),以及两个分类变量的关联性分析,其根本思想就是在于比较理论频数和实际频数的...

统计学的主要作用
统计学:统计学的学习课程有,数学分析、几何代数、数学实验、常微分方程、复变函数、实变与泛函、概率论、数理统计、抽样调查、随机过程、多元统计、计算机应用基础、程序设计语言、数据分析及统计软件、回归分析、可靠性数学、实验设计与质量控制、计量经济学、经济预测与决策、金融数学、证券投资的统计分析...

实用多元统计分析内容简介
特别值得一提的是,书中包含大量实际问题的数据实例,通过分析这些实例,读者能够学习如何将实际问题转化为适合统计处理的形式,从而选择合适的分析方法。总之,这是一本实用且全面的多元统计分析参考书,无论你是初次接触还是希望深化理解,都能从中找到所需的知识和技能。

文昌市17197917068: 数据分析需要掌握哪些知识?
点堂葫芦: 1、数学知识.数学知识是数据分析师的基础知识.对于初级数据分析师,了解一些描述统计相关的基础内容,有一定的公式计算能力即可,了解常用统计模型算法则是加分.对于高级数据分析师,统计模型相关知识是必备能力,线性代数(主...

文昌市17197917068: 数据分析需要掌握些什么知识?
点堂葫芦: 数据分析所需要掌握的知识:数学知识对于初级数据分析师来说,则需要了解统计相关的基础性内容,公式计算,统计模型等.当你获得一份数据集时,需要先进行了解数据集的质量,进行描述统计.而对于高级数据分析师,必须具备统计模型...

文昌市17197917068: 数据分析需要掌握些什么知识?
点堂葫芦: 数据分析所需要掌握的知识:数学知识对于初级数据分析师来说,则需要了解统计相关的基础性内容,公式计算,统计模型等.当你获得一份数据集时,需要先进行了解数据集的质量,进行描述统计.而对于高级数据分析师,必须具备统计模型...

文昌市17197917068: 数据分析需要掌握哪些知识?
点堂葫芦: 首先,从知识体系的角度来看,当前学习数据分析需要学习三大块知识,其一是数学和统计学知识、其二是大数据知识、其三是行业知识.数学和统计学是数据分析的基础,在大数据时代,要想在数据分析领域走得更远,一定要重视数学和统计...

文昌市17197917068: 数据分析需要掌握些什么知识?
点堂葫芦: 数据分析所需要掌握的知识:数学知识对于初级数据分析师来说,则需要了解统计相关的基础性内容,公式计算,统计模型等.当你获得一份数据集时,需要先进行了解数据集的质量,进行描述统计.而对于高级数据分析师,必须具备统计模型...

文昌市17197917068: 数据分析需要掌握些什么知识?
点堂葫芦: 数据分析所需要掌握的知识:数学知识对于初级数据分析师来说,则需要了解统计相关的基础性内容,公式计算,统计模型等.当你获得一份数据集时,需要先进行了解数据集的质量,进行描述统计.而对于高级数据分析师,必须具备统计模型...

文昌市17197917068: 数据分析需要掌握些什么知识?
点堂葫芦: 数据分析所需要掌握的知识:数学知识对于初级数据分析师来说,则需要了解统计相关的基础性内容,公式计算,统计模型等.当你获得一份数据集时,需要先进行了解数据集的质量,进行描述统计.而对于高级数据分析师,必须具备统计模型...

文昌市17197917068: 数据分析需要掌握些什么知识?
点堂葫芦: 数据分析所需要掌握的知识:数学知识对于初级数据分析师来说,则需要了解统计相关的基础性内容,公式计算,统计模型等.当你获得一份数据集时,需要先进行了解数据集的质量,进行描述统计.而对于高级数据分析师,必须具备统计模型...

文昌市17197917068: 数据分析需要掌握些什么知识?
点堂葫芦: 数据分析师需要学习的内容1、统计学我看一些人推荐了不少统计学的专业书籍,很多人读《概率论与数理统计》,其他统计相关的内容也没怎么看过.对于互联网的数据分析来说,并不需要掌握太复杂的统计理论.所以只要按照本科教材,学...

文昌市17197917068: 数据分析需要掌握些什么知识?
点堂葫芦: 数据分析师需要学习的内容1、统计学我看一些人推荐了不少统计学的专业书籍,很多人读《概率论与数理统计》,其他统计相关的内容也没怎么看过.对于互联网的数据分析来说,并不需要掌握太复杂的统计理论.所以只要按照本科教材,学...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网