如何快速成为数据分析师

作者&投稿:赞斌 (若有异议请与网页底部的电邮联系)
~

诚然,任何一门技术都不可能一蹴而就,更不可能一夜成才。这世上,没有什么牛逼的事情是能够速成的,越是专业、越是基层、收益周期越长的技能越是这样,数据分析师也不例外。但这并不代表,我们不能通过一些有效的方法,把学习的过程变得高效而有趣,让自己的数据分析师学成之旅起到事半功倍的作用。倘若真的想一口吃成一个胖子,到时去面试去工作,你会被自己的好不扎实的专业基底伤害得遍体鳞伤。

学习数据分析师之前,你必须清楚自己想要达成什么目标。也就是说,你想通过这门技术来解决哪些问题或实现什么计划。有了这个目标,你才能清晰地开展自己的学习规划,并且明确它的知识体系。只有明确的目标导向,学习必备也是最有用的那部分,才能避免无效信息降低学习效率。

1、明确知识框架和学习路径

数据分析这件事,如果你要成为数据分析师,那么你可以去招聘网站看看,对应的职位的需求是什么,一般来说你就会对应该掌握的知识架构有初步的了解。你可以去看看数据分析师职位,企业对技能需求可总结如下:

SQL数据库的基本操作,会基本的数据管理;

会用Excel/SQL做基本的数据提取、分析和展示;

会用脚本语言进行数据分析,PythonorR;

有获取外部数据的能力加分,如爬虫或熟悉公开数据集;

会基本的数据可视化技能,能撰写数据报告;

熟悉常用的数据挖掘算法:回归分析、决策树、分类、聚类方法;

按照上面的流程,我们分需要获取外部数据和不需要获取外部数据两类分析师,总结学习路径如下:

1.需要获取外部数据分析师:

python基础知识

python爬虫

SQL语言

python科学计算包:pandas、numpy、scipy、scikit-learn

统计学基础

回归分析方法

数据挖掘基本算法:分类、聚类

模型优化:特征提取

数据可视化:seaborn、matplotlib

2.不需要获取外部数据分析师:

SQL语言

python基础知识

python科学计算包:pandas、numpy、scipy、scikit-learn

统计学基础

回归分析方法

数据挖掘基本算法:分类、聚类

模型优化:特征提取

数据可视化:seaborn、matplotlib

接下来我们分别从每一个部分讲讲具体应该学什么、怎么学。

数据获取:公开数据、Python爬虫

如果接触的只是企业数据库里的数据,不需要要获取外部数据的,这个部分可以忽略。

外部数据的获取方式主要有以下两种。

第一种是获取外部的公开数据集,一些科研机构、企业、政府会开放一些数据,你需要到特定的网站去下载这些数据。这些数据集通常比较完善、质量相对较高。

另一种获取外部数据费的方式就是爬虫。

比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市的租房信息,爬取豆瓣评分评分最高的电影列表,获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据,你可以对某个行业、某种人群进行分析。

在爬虫之前你需要先了解一些Python的基础知识:元素(列表、字典、元组等)、变量、循环、函数(链接的菜鸟教程非常好)以及如何用成熟的Python库(urllib、BeautifulSoup、requests、scrapy)实现网页爬虫。如果是初学,建议从urllib和BeautifulSoup开始。(PS:后续的数据分析也需要Python的知识,以后遇到的问题也可以在这个教程查看)

网上的爬虫教程不要太多,爬虫上手推荐豆瓣的网页爬取,一方面是网页结构比较简单,二是豆瓣对爬虫相对比较友好。

掌握基础的爬虫之后,你还需要一些高级技巧,比如正则表达式、模拟用户登录、使用代理、设置爬取频率、使用cookie信息等等,来应对不同网站的反爬虫限制。

除此之外,常用的的电商网站、问答网站、点评网站、二手交易网站、婚恋网站、招聘网站的数据,都是很好的练手方式。这些网站可以获得很有分析意义的数据,最关键的是,有很多成熟的代码,可以参考。

数据存取:SQL语言

你可能有一个疑惑,为什么没有讲到Excel。在应对万以内的数据的时候,Excel对于一般的分析没有问题,一旦数据量大,就会力不从心,数据库就能够很好地解决这个问题。而且大多数的企业,都会以SQL的形式来存储数据,如果你是一个分析师,也需要懂得SQL的操作,能够查询、提取数据。

SQL作为最经典的数据库工具,为海量数据的存储与管理提供可能,并且使数据的提取的效率大大提升。你需要掌握以下技能:

提取特定情况下的数据:企业数据库里的数据一定是大而繁复的,你需要提取你需要的那一部分。比如你可以根据你的需要提取2018年所有的销售数据、提取今年销量最大的50件商品的数据、提取上海、广东地区用户的消费数据,SQL可以通过简单的命令帮你完成这些工作。

数据库的增、删、查、改:这些是数据库最基本的操作,但只要用简单的命令就能够实现,所以你只需要记住命令就好。

数据的分组聚合、如何建立多个表之间的联系:这个部分是SQL的进阶操作,多个表之间的关联,在你处理多维度、多个数据集的时候非常有用,这也让你可以去处理更复杂的数据。

数据预处理:Python(pandas)

很多时候我们拿到的数据是不干净的,数据的重复、缺失、异常值等等,这时候就需要进行数据的清洗,把这些影响分析的数据处理好,才能获得更加精确地分析结果。

比如空气质量的数据,其中有很多天的数据由于设备的原因是没有监测到的,有一些数据是记录重复的,还有一些数据是设备故障时监测无效的。比如用户行为数据,有很多无效的操作对分析没有意义,就需要进行删除。

那么我们需要用相应的方法去处理,比如残缺数据,我们是直接去掉这条数据,还是用临近的值去补全,这些都是需要考虑的问题。

对于数据预处理,学会pandas的用法,应对一般的数据清洗就完全没问题了。需要掌握的知识点如下:

选择:数据访问(标签、特定值、布尔索引等)

缺失值处理:对缺失数据行进行删除或填充

重复值处理:重复值的判断与删除

空格和异常值处理:清楚不必要的空格和极端、异常数据

相关操作:描述性统计、Apply、直方图等

合并:符合各种逻辑关系的合并操作

分组:数据划分、分别执行函数、数据重组

Reshaping:快速生成数据透视表

概率论及统计学知识

数据整体分布是怎样的?什么是总体和样本?中位数、众数、均值、方差等基本的统计量如何应用?如果有时间维度的话随着时间的变化是怎样的?如何在不同的场景中做假设检验?数据分析方法大多源于统计学的概念,所以统计学的知识也是必不可少的。需要掌握的知识点如下:

基本统计量:均值、中位数、众数、百分位数、极值等

其他描述性统计量:偏度、方差、标准差、显著性等

其他统计知识:总体和样本、参数和统计量、ErrorBar

概率分布与假设检验:各种分布、假设检验流程

其他概率论知识:条件概率、贝叶斯等

有了统计学的基本知识,你就可以用这些统计量做基本的分析了。通过可视化的方式来描述数据的指标,其实可以得出很多结论了,比如排名前100的是哪些,平均水平是怎样的,近几年的变化趋势如何

你可以使用python的包Seaborn(python包)在做这些可视化的分析,你会轻松地画出各种可视化图形,并得出具有指导意义的结果。了解假设检验之后,可以对样本指标与假设的总体指标之间是否存在差别作出判断,已验证结果是否在可接受的范围。

python数据分析

如果你有一些了解的话,就知道目前市面上其实有很多Python数据分析的书籍,但每一本都很厚,学习阻力非常大。但其实真正最有用的那部分信息,只是这些书里很少的一部分。比如用Python实现不同案例的假设检验,其实你就可以对数据进行很好的验证。

比如掌握回归分析的方法,通过线性回归和逻辑回归,其实你就可以对大多数的数据进行回归分析,并得出相对精确地结论。比如DataCastle的训练竞赛“房价预测”和“职位预测”,都可以通过回归分析实现。这部分需要掌握的知识点如下:

回归分析:线性回归、逻辑回归

基本的分类算法:决策树、随机森林

基本的聚类算法:k-means

特征工程基础:如何用特征选择优化模型

调参方法:如何调节参数优化模型

Python数据分析包:scipy、numpy、scikit-learn等

在数据分析的这个阶段,重点了解回归分析的方法,大多数的问题可以得以解决,利用描述性的统计分析和回归分析,你完全可以得到一个不错的分析结论。

当然,随着你实践量的增多,可能会遇到一些复杂的问题,你就可能需要去了解一些更高级的算法:分类、聚类,然后你会知道面对不同类型的问题的时候更适合用哪种算法模型,对于模型的优化,你需要去学习如何通过特征提取、参数调节来提升预测的精度。这就有点数据挖掘和机器学习的味道了,其实一个好的数据分析师,应该算是一个初级的数据挖掘工程师了。

系统实战

这个时候,你就已经具备了数据分析的基本能力了。但是还要根据不同的案例、不同的业务场景进行实战。能够独立完成分析任务,那么你就已经打败市面上大部分的数据分析师了。

如何进行实战呢?

上面提到的公开数据集,可以找一些自己感兴趣的方向的数据,尝试从不同的角度来分析,看看能够得到哪些有价值的结论。

另一个角度是,你可以从生活、工作中去发现一些可用于分析的问题,比如上面说到的电商、招聘、社交等平台等方向都有着很多可以挖掘的问题。

开始的时候,你可能考虑的问题不是很周全,但随着你经验的积累,慢慢就会找到分析的方向,有哪些一般分析的维度,比如top榜单、平均水平、区域分布、年龄分布、相关性分析、未来趋势预测等等。随着经验的增加,你会有一些自己对于数据的感觉,这就是我们通常说的数据思维了。

你也可以看看行业的分析报告,看看优秀的分析师看待问题的角度和分析问题的维度,其实这并不是一件困难的事情。

在掌握了初级的分析方法之后,也可以尝试做一些数据分析的竞赛,比如DataCastle为数据分析师专门定制的三个竞赛,提交答案即可获取评分和排名:

员工离职预测训练赛

美国KingCounty房价预测训练赛

北京PM2.5浓度分析训练赛

种一棵树最好的时间是十年前,其次是现在。现在就去,找一个数据集开始吧!!



快速成为数据分析师需要具备以下几个方面的能力和知识:1. 学习数据分析的基础知识:包括统计学、数学、计算机科学等方面的知识。可以通过自学、参加培训班或者在线课程来学习。2. 掌握数据分析工具和技术:熟悉常用的数据分析工具和技术,如Excel、Python、R等。可以通过实践项目、参加数据分析竞赛等方式来提升技能。3. 实践数据分析项目:通过实践项目来锻炼自己的数据分析能力,可以选择一些开放的数据集进行分析,或者参与一些实际的数据分析项目。4. 不断学习和提升:数据分析领域发展迅速,需要不断学习新的技术和方法,保持对行业的了解和跟进。八爪鱼采集器可以帮助数据分析师快速获取所需的数据,提高数据分析的效率和准确性。它提供了多种数据采集功能,支持智能识别和灵活的自定义采集规则设置,帮助用户快速抓取互联网上的各种数据。了解更多八爪鱼采集器的功能与合作案例,请前往官网了解更多详情。


如何快速成为数据分析师? 看这里
思考能力 当我们拿到一份数据报表的时候,整个数据就摆在面前,它不会主动开口告诉你。这就需要我们去推演和分析,从中找到规律,迅速评估问题的关键属性和决定因素,形成自己的独有见解,总结报告。所谓心思缜密,滴水不漏,没有思考逻辑,就没有分析思维。我们培养思考能力,可以通过跨领域的知识来带给我们...

如何快速成为数据分析师?
你要掌握基础的、成熟的数据建模方法、数据挖掘方法。例如:多元统计:回归分析、因子分析、离散等,数据挖掘中的:决策树、聚类、关联规则、神经网络等。但是还是应该关注一些博客、论坛中大家对于最新方法的介绍,或者是对老方法的新运用,不断更新自己知识,才能跟上时代,也许你工作中根本不会用到,但是...

如何快速成为一名数据分析师?
第一方面是数学基础,第二方面是统计学基础,第三方面是计算机基础。要想在数据分析的道路上走得更远,一定要注重数学和统计学的学习。数据分析说到底就是寻找数据背后的规律,而寻找规律就需要具备算法设计能力,所以数学和统计学对于数据分析是非常重要的。而要想快速成为数据分析师,则可以从计算机知识开...

如何快速成为数据分析师?
2、技能二:掌握数据整理、可视化和报表制作。数据整理,是将原始数据转换成方便实用的格式,实用工具有DataWrangler和R。数据可视化,是创建和研究数据的视觉表现,实用工具有ggvis,D3,vega。数据报表是将数据分析和结果制作成报告。也是数据分析师的一个后续工作。这项技能是做数据分析师的主要技能。可以...

如何才能快速成为一名数据分析师?
数据分析师需要的技能大致有这些:Excel、SQL、统计学及SPSS、Python\/R等。建议从Excel开始,因为Excel是使用最多,也是最强大的数据分析工具,入门简单,因为大部分人都接触过Excel。Excel Excel分为四块:公式+技巧+数据透视表+图表。先从Excel公式开始,通过公式感受Excel的强大与神奇。Excel常用公式分为...

如何快速成为数据分析师
第二阶段:升级你的技能 第一个月只是让你对数据分析有一个初步的认识,你已经可以秒杀20%左右的人了(我瞎猜的)这个月就是要升级你的技能,在对已有的知识基础上做一个升华。本月任务较重,小伙伴需要动脑和动手的地方比较多。第 一个星期:《数据挖掘导论》这本书绝对是一本良心教材。拿到手从...

怎样成为一门优秀的数据分析师?
1、首先,你必须具备相关的统计知识,大多数数据分析师岗位都会倾向于招数学专业出身的人,因为学数学的人基本都系统的学过数据的分析算法、或者说具备逻辑性很强,能快速的成长为一名数据分析师。2、数据处理能力,要想成为一名合格的数据分析师,必须具备基本的数据处理能力,如EXCEL\/SPSS或者R语言以及SAS...

如何快速成为数据分析师
数据分析这件事,如果你要成为数据分析师,那么你可以去招聘网站看看,对应的职位的需求是什么,一般来说你就会对应该掌握的知识架构有初步的了解。你可以去看看数据分析师职位,企业对技能需求可总结如下: SQL数据库的基本操作,会基本的数据管理; 会用Excel\/SQL做基本的数据提取、分析和展示; 会用脚本语言进行数据分析,...

要想迅速成长成为一名数据分析师,要怎么做呢?
说来我正式接触数据分析也快一年,对速成还是有一些心得。优秀的数据分析师是不能速成的,但是零经验也有零经验的捷径。以上的前提针对入门,目的是达到数据分析师的门槛,顺利拿到一份offer,不涉及数据挖掘等高级技巧。我的方法倾向互联网领域,不论是分析师这个职位,还是运营、产品的能力发展都是适用的...

如何入行数据分析师
作为数据分析师的核心工具,具体学习内容有Excel函数技巧(查找函数、统计函数、逻辑函数)、Excel快速处理技巧(格式调整、查找定位、快捷键技巧等)和Excel可视化技巧(组合图、条形图、数据气泡地图)等。 (2) Mysql SQL同样是零基础学习数据分析的核心内容。因为作为数据分析师,你首先要解决的问题就是你要有数据来做分析...

和田市15747434517: 如何快速成为一名数据分析师知乎 -
双苗安谱: 第一、对数据要有一定的敏感度.第二、熟悉数据相关的各种公式和规律,能熟练地对数据进行归类总结.第三、了解数据分析师的主要工作内容,围绕该内容深入了解.满意请采纳,谢谢!

和田市15747434517: 如何快速成为数据分析师 -
双苗安谱: 1、熟知行业与业务2、理解业务中产生的数据3、能提取数据4、分析数据5、解读数据6、展示数据1,2主要是你的商业敏感度,3主要是你的数据库及SQL水平,4,主要是你掌握数据分析工具及数据模型的能力,5主要是你的数据敏感度,6主要是你的PPT能力 PS:数据分析是工具,是手段,一切要以问题(目的)为导向.

和田市15747434517: 如何才能成为一个数据分析师?????? -
双苗安谱: 数据分析师职位要求 :1、计算机、统计学、数学等相关专业本科及以上学历;2、具有深厚的统计学、数据挖掘知识,熟悉数据仓库和数据挖掘的相关技术,能够熟练地使用SQL;3、三年以上具有海量数据挖掘、分析相关项目实施的工作经...

和田市15747434517: 成为一名优秀数据分析师流程是怎样的?会不会太辛苦?? -
双苗安谱: 一名合格的数据分析师在企业工作中要懂得针对“理论基础”、“软件要求”、“分析方法”、“业务能力”、“结果展现”五个方面的不同要求而采用不同的分析方法和软件要求进行专业化的解决问题,由此我们必须要按照数据分析师的不同程度的等级划分一级一级地去学习和攻克,我们才能一步一个脚印地从业务数据分析师上升到建模分析师或大数据分析师,再者成为顶级的数据分析专家.按照这个流程走下去,成为一名优秀的CDA数据分析师就指日可待啦,哈哈哈~~~~ 不过说得容易,做起来难,坚持下来更难,所以如果你真的有心想成为一名优秀的数据分析师,就要耐得住寂寞和枯燥了.所谓“吃得苦中苦,方为人上人”!!加油,希望你早日学有所成,梦想成真!

和田市15747434517: 如果想成为一名数据库分析师,需要具备哪些 -
双苗安谱: 有以下几点:1、熟知行业与业务2、理解业务中产生的数据3、能提取数据4、分析数据5、解读数据6、展示数据1,2主要是你的商业敏感度,3主要是你的数据库及SQL水平,4,主要是你掌握数据分析工具及数据模型的能力,5主要是你的数据敏感度,6主要是你的PPT能力

和田市15747434517: 怎样成为一名优秀的数据分析师?
双苗安谱: 对于一个零基础的学员需要做到以下的步骤来进行系统性的规划:一、自身检查:是否适合数据分析岗位.什么样的人适合做数据分析师?1.对数据敏感:对数字不恐惧...

和田市15747434517: 如何成为一个数据分析师?需要具备哪些技能 -
双苗安谱: 一、 软件要求 软件要求主要包括态度、思维模式等,这些决定了一个人在一个较长的时间段内能达到怎样的高度.而一个人的思维模式、态度往往是很难改变的.主要的软件要求有以下五点: 1. 态度严谨负责 从企业角度来说,数据分析师可以...

和田市15747434517: 如何转型成一名数据分析师? -
双苗安谱: 1、你需要有应用数学、统计学、数量经济学专业本科或者工学硕士层次水平的数学知识背景.2、至少熟练SPSS、STATISTIC、Eviews、SAS等数据分析软件中的一门.3、至少能够用Acess等进行数据库开发;4、至少掌握一门数学软件:matalab,mathmatics进行新模型的构建.5、至少掌握一门编程语言;6,当然还要其他应用领域方面的知识,比如市场营销、经济统计学等,因为这是数据分析的主要应用领域.

和田市15747434517: 如何成为一名合格数据分析师 -
双苗安谱: 如今随着数据越来越收到人们的重视,数据分析师这一职位也越来越收到青睐,尤其是在北上广等一线城市,对数据分析师的更是呈现供不应求的局面,但想成为一名合格的数据分析师,却是一个不断累积沉淀的过程. 1、首先,你必须具备相...

和田市15747434517: 数据分析师怎么入门? -
双苗安谱: 1、懂业务.从事数据分析工作的前提就会需要懂业务,即熟悉行业知识、公司业务及流程,最好有自己独到的见解,若脱离行业认知和公司业务背景,分析的结果只会是脱了线的风筝,没有太大的使用价值.2、懂管理.一方面是搭建数据分...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网