大数据怎么学习

作者&投稿:拔庾 (若有异议请与网页底部的电邮联系)
怎样学习大数据?~

首先我们要了解Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。

Java :只要了解一些基础即可,做大数据不需要很深的Java 技术,学java SE 就相当于有学习大数据基础。
Linux:因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,能少踩很多坑,学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。
Hadoop:这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapReduce是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完,但是时间可能不是很快所以它叫数据的批处理。
Zookeeper:这是个万金油,安装Hadoop的HA的时候就会用到它,以后的Hbase也会用到它。它一般用来存放一些相互协作的信息,这些信息比较小一般不会超过1M,都是使用它的软件对它有依赖,对于我们个人来讲只需要把它安装正确,让它正常的run起来就可以了。
Mysql:我们学习完大数据的处理了,接下来学习学习小数据的处理工具mysql数据库,因为一会装hive的时候要用到,mysql需要掌握到什么层度那?你能在Linux上把它安装好,运行起来,会配置简单的权限,修改root的密码,创建数据库。这里主要的是学习SQL的语法,因为hive的语法和这个非常相似。
Sqoop:这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个,直接把Mysql数据表导出成文件再放到HDFS上也是一样的,当然生产环境中使用要注意Mysql的压力。
Hive:这个东西对于会SQL语法的来说就是神器,它能让你处理大数据变的很简单,不会再费劲的编写MapReduce程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。
Oozie:既然学会Hive了,我相信你一定需要这个东西,它可以帮你管理你的Hive或者MapReduce、Spark脚本,还能检查你的程序是否执行正确,出错了给你发报警并能帮你重试程序,最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的,不然你看着那一大堆脚本,和密密麻麻的crond是不是有种想屎的感觉。
Hbase:这是Hadoop生态体系中的NOSQL数据库,他的数据是按照key和value的形式存储的并且key是唯一的,所以它能用来做数据的排重,它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。
Kafka:这是个比较好用的队列工具,队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理,这样与你协作的其它同学不会叫起来,你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来,你别怪他因为他不是搞大数据的,你可以跟他讲我把数据放在队列里你使用的时候一个个拿,这样他就不在抱怨了马上灰流流的去优化他的程序去了,因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS,这时你可以与一个叫Flume的工具配合使用,它是专门用来提供对数据进行简单处理,并写到各种数据接受方(比如Kafka)的。
Spark:它是用来弥补基于MapReduce处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它,因为它们都是用JVM的。


如今大数据发展得可谓是如日中天,各行各业对于大数据分析和大数据处理的需求也是与日俱增,越来越多的决策、建议、规划和报告,都要依靠大数据的支撑,学习大数据成了不少人提升或转行的机会。因此,入门大数据开始成为很多人的第一步,下面给大家讲讲,究竟大数据入门,首要掌握的知识点有哪些,如何一步一步进阶呢?
首先我们要了解Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。楼主是JAVA毕业的,这无疑是极好的开头和奠基啊,可谓是赢在了起跑线上,接收和吸收大数据领域的知识会比一般人更加得心应手。
Java :只要了解一些基础即可,做大数据不需要很深的Java 技术,学java SE 就相当于有学习大数据。基础
Linux:因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,能少踩很多坑,学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。
好说完基础了,再说说还需要学习哪些大数据技术,可以按我写的顺序学下去。
Hadoop:这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapReduce是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完,但是时间可能不是很快所以它叫数据的批处理。

记住学到这里可以作为你学大数据的一个节点。
Zookeeper:这是个万金油,安装Hadoop的HA的时候就会用到它,以后的Hbase也会用到它。它一般用来存放一些相互协作的信息,这些信息比较小一般不会超过1M,都是使用它的软件对它有依赖,对于我们个人来讲只需要把它安装正确,让它正常的run起来就可以了。
Mysql:我们学习完大数据的处理了,接下来学习学习小数据的处理工具mysql数据库,因为一会装hive的时候要用到,mysql需要掌握到什么层度那?你能在Linux上把它安装好,运行起来,会配置简单的权限,修改root的密码,创建数据库。这里主要的是学习SQL的语法,因为hive的语法和这个非常相似。
Sqoop:这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个,直接把Mysql数据表导出成文件再放到HDFS上也是一样的,当然生产环境中使用要注意Mysql的压力。
Hive:这个东西对于会SQL语法的来说就是神器,它能让你处理大数据变的很简单,不会再费劲的编写MapReduce程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。
Oozie:既然学会Hive了,我相信你一定需要这个东西,它可以帮你管理你的Hive或者MapReduce、Spark脚本,还能检查你的程序是否执行正确,出错了给你发报警并能帮你重试程序,最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的,不然你看着那一大堆脚本,和密密麻麻的crond是不是有种想屎的感觉。
Hbase:这是Hadoop生态体系中的NOSQL数据库,他的数据是按照key和value的形式存储的并且key是唯一的,所以它能用来做数据的排重,它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。
Kafka:这是个比较好用的队列工具,队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理,这样与你协作的其它同学不会叫起来,你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来,你别怪他因为他不是搞大数据的,你可以跟他讲我把数据放在队列里你使用的时候一个个拿,这样他就不在抱怨了马上灰流流的去优化他的程序去了,因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS,这时你可以与一个叫Flume的工具配合使用,它是专门用来提供对数据进行简单处理,并写到各种数据接受方(比如Kafka)的。
Spark:它是用来弥补基于MapReduce处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它,因为它们都是用JVM的。

第一方面是数学基础,第二方面是统计学基础,第三方面是计算机基础。要想在数据分析的道路上走得更远,一定要注重数学和统计学的学习。数据分析说到底就是寻找数据背后的规律,而寻找规律就需要具备算法的设计能力,所以数学和统计学对于数据分析是非常重要的。

而想要快速成为数据分析师,则可以从计算机知识开始学起,具体点就是从数据分析工具开始学起,然后在学习工具使用过程中,辅助算法以及行业致死的学习。学习数据分析工具往往从Excel工具开始学起,Excel是目前职场人比较常用的数据分析工具,通常在面对10万条以内的结构化数据时,Excel还是能够胜任的。对于大部分职场人来说,掌握Excel的数据分析功能能够应付大部分常见的数据分析场景。

在掌握Excel之后,接下来就应该进一步学习数据库的相关知识了,可以从关系型数据库开始学起,重点在于Sql语言。掌握数据库之后,数据分析能力会有一个较大幅度的提升,能够分析的数据量也会有明显的提升。如果采用数据库和BI工具进行结合,那么数据分析的结果会更加丰富,同时也会有一个比较直观的呈现界面。

数据分析的最后一步就需要学习编程语言了,目前学习Python语言是个不错的选择,Python语言在大数据分析领域有比较广泛的使用,而且Python语言自身比较简单易学,即使没有编程基础的人也能够学得会。通过Python来采用机器学习的方式实现数据分析是当前比较流行的数据分析方式。

对大数据分析有兴趣的小伙伴们,不妨先从看看大数据分析书籍开始入门!B站上有很多的大数据教学视频,从基础到高级的都有,还挺不错的,知识点讲的很细致,还有完整版的学习路线图。也可以自己去看看,下载学习试试。



近期,经常听到这样一句特别豪气的话“我家里有矿”!对于数据而言,没有大数据技术的数据一无是处,但经过大数据技术处理的数据,就是金矿,价值连城!
面临能将“矿”玩弄于股掌之间的大数据技术,谁能坐怀不乱?谁又能忍心放弃这个难得的机遇呢?那么问题来了,该如何学习大数据技术呢?学习是一项很好的技能,但也需要循序渐进!
学习大数据的头一步:打好基础,比高逼格的大数据技术更重要!而基础知识就是:编程语言和linux操作系统。
我们以java编程为例,当然了你所擅长的编程语言也可以是python、Scala等!

Java:只需要学习Java的标准版JavaSE就可以了,像Servlet、JSP、Tomcat、Struts、Spring、Hibernate,Mybatis都是JavaEE方向的技术在大数据技术里用到的并不多,只需要了解就可以了,当然Java怎么连接数据库还是要知道的,像JDBC一定要掌握一下,有同学说Hibernate或Mybites也能连接数据库啊,为什么不学习一下,我这里不是说学这些不好,而是说学这些可能会用你很多时间,工作中也不常用,我还没看到谁做大数据处理用到这两个东西的,当然你的精力很充足的话,可以学学Hibernate或Mybites的原理,不要只学API,这样可以增加你对Java操作数据库的理解,因为这两个技术的核心就是Java的反射加上JDBC的各种使用。
Linux:因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,能少踩很多坑,学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。

接下来就是大数据技术的两大生态系统:Hadoop生态系统和spark生态系统。
Hadoop:这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapReduce是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完,但是时间可能不是很快所以它叫数据的批处理。YARN是体现Hadoop平台概念的重要组件有了它大数据生态体系的其它软件就能在hadoop上运行了,这样就能更好的利用HDFS大存储的优势和节省更多的资源比如我们就不用再单独建一个spark的集群了,让它直接跑在现有的hadoop yarn上面就可以了。

Spark:它是用来弥补基于MapReduce处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它,因为它们都是用JVM的。
以上很多都是必须的理论技术知识,想要成功就业,光纸上谈兵不行,还需要一定的实战经验才行,寻找一些大数据相关的项目进行练练手,巩固一下自己的技术。

以上就是对如何学习大数据的简单总结,如果学完之后仍有余力,自然也是可以学习机器学习、人工智能等技术知识吗,对你以后的就业会有很大的优势!

大数据开发技术所涵盖的技术体系是比较庞大的,小伙伴想要学好大数据开发技术知识,是需要具有一定的编程基础知识的沉淀,而且还需要有一定的数学和统计学基础。
1.相关基础知识的学习积累
小伙伴初学大数据开发技术主要以基础知识为主,涉及到操作系统(Linux)、数据库、编程语言(Java、Python、Scala)、算法设计基础以及统计学基础知识。这一过程虽然内容比较多,还好所学到知识都不是很难。对于零基础小伙伴在这一阶段的学习过程中,最好是能够写一些相关的小项目,同时通过大数据培训班老师的指导,相信很快能够达到入门的阶段性学习。
2.大数据平台开发学习
接下来学习的内容主要以大数据平台为主,对于初学大数据开发技术的小伙伴来说最好选择开源的大数据平台,比如Hadoop、Spark就是不错的选择,而且大数据培训班都会有相关的案例为你提供一些学习资料,让小伙伴更容易上手学习。
3.项目实战案例的练习
小伙伴想要学好大数据开发技术知识,除了理论基础知识的积累,还需要结合相关的项目实战案例的练习来深入学习理解大数据开发技术知识,实践的内容主要分为三个大的任务,分别是大数据应用开发、大数据分析和大数据运维,由于不同的岗位往往需要掌握不同的实践能力,所以掌握更多的实践知识能够在一定程度上提升自己的岗位适应能力。

兴趣是第一老师。选择学习一门课程和技能时,个人兴趣是至关重要,对于学习像大数据这样抽象的技能更是如此。

学习Java语言和Linux操作系统,这两个是学习大数据的基础。

最关键的是学习Hadoop+spark,掌握大数据的收集、生成、调用工具。

树立大数据思维,创造性开发、使用大数据。

深度了解大数据的意义、价值、市场、开发及运用前景。

到大数据管理中心、运用企业实习实践,掌握开发、运用技能。




零基础如何学习大数据?
三、大数据的相关课程 在开始的时候学习编程语言,后期就需要进入大数据的知识学习。一般情况下,学习大数据的时间会比学习Java的时间短。北京电脑培训发现大数据的部分课程主要包括大数据技术的引入,海量数据高级分析语言,海量数据存储分布式存储,海量数据分析等分布式计算,Linux,Hadoop,Scala,HBase,Hive...

我想学习数据分析,但是0基础,看什么书可以快速入门啊?
Linux体系、Hadoop离线计算大纲、分布式数据库Hbase、数据仓库Hive、数据迁移工具Sqoop、Flume分布式日志框架 这章是基础课程,帮大家进入大数据领域打好 Linux基础,以便更好地学习Hadoop、hbase、NoSQL、Spark、Storm、docker、kvm、openstack等众多课程。因为企业中无一例外的是使用 Linux来搭建或部署项目。H...

怎样学习数据挖掘?
系统地学习数据挖掘 数据挖掘:What?Why?How? 这个问题思考了很久,作为过来人谈一谈,建议先看下以前的一些回答。 什么是数据挖掘? 怎么培养数据分析的能力? 如何成为一名数据科学家?磨刀不误砍柴工。在学习数据挖掘之前应该明白几点: 数据挖掘目前在中国的尚未流行开,犹如屠龙之技。 数据初期的...

什么是数据分析?如何学习数据分析?
【导读】无论是从薪资待遇还是未来的发展前景,数据分析师都是屈指可数的稀缺人才,那么什么是数据分析?如何学习数据分析呢?下面跟着小编一起来分析一下吧!什么是数据分析?对于数据分析的概念,我们需要有一个深刻的理解。数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解...

如何学习数据分析?
学习数据分析工具往往从Excel工具开始学起,Excel是目前职场人比较常用的数据分析工具,通常在面对10万条以内的结构化数据时,Excel还是能够胜任的。对于大部分职场人来说,掌握Excel的数据分析功能能够应付大部分常见的数据分析场景。在掌握Excel之后,接下来就应该进一步学习数据库的相关知识了,可以从关系型...

大数据初学者应该怎么学?
还能让你对以后新出的大数据技术学习起来更快。好说完基础了,再说说还需要学习哪些大数据技术,可以按我写的顺序学下去。Hadoop:这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文...

0基础如何学习大数据?
第一阶段:Java语言基础,只需要学习Java的标准版JavaSE就可以了,做大数据不需要很深的Java 技术,当然Java怎么连接数据库还是要知道。第二阶段:Linux精讲(因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop...

数据分析需要学哪些
R语言则专注于数据分析方面的问题,包括图形化表示、统计分析等方面。掌握编程语言可以帮助数据分析师更方便地进行数据读取、清理和处理工作,使得在实践工作中的效率和准确度更加高。3、数据库:数据库是许多企业关键的存储和组织数据的核心,因此数据分析师需要学习数据库,了解如何使用SQL语言管理和查询数据...

超级菜鸟怎么学习数据分析
其实无论是小白或者超级菜鸟,又或者已经具备一定的数理统计或计算机编程基础,对于学习数据分析师来说,都是从头开始。虽然拥有一定的学资背景,会让你在刚开始学习时比较容易上手,但都是基本性的东西,不具备明显的优势。个人的努力和兴趣,以及自觉学习和自主思考的能力也非常重要。不要因为自己是菜鸟而...

数据分析需要重点学习什么?
首先说的是数据挖掘,所谓数据挖掘就是去寻找数据、挖掘数据,从大量的数据中学会寻找出自己需要的数据,这样才能够为数据分析做好前提准备。所以我们在学习数据挖掘的时候一定要注重基本功,这样才能成为一个出色的数据挖掘师。然后说数据可视化,在前面我们提到了Python和r语言,掌握了其中的基础,我们还需要...

克什克腾旗13393364631: 大数据怎么入门学习好呢?
长兴杭洁尔: 零基础学习大数据一般有以下几步:1、了解大数据理论2、计算机编程语言学习3、大数据相关课程学习4、实战项目 (1)了解大数据理论 要学习大数据你至少应该知道什么是大数据,大数据一般运用在什么领域.对大数据有一个大概的了解...

克什克腾旗13393364631: 大数据云计算怎么去学习呢?
长兴杭洁尔: 自己买自学就可以了.大数据的基础知识,自己去买本书就可以学.现在是大数据时代,有很多介绍的大数据的书.而且大数据的技术,如数据采集,数据存取,模型预测,结果呈现等都比较好学.当然一些大数据的一些基础知识,比如java和...

克什克腾旗13393364631: 如何自学大数据?在网上学可以吗 -
长兴杭洁尔: 大数据要学的东西很多,其中统计概率是基础,是需要系统学习的,网上课程的质量参差不齐,能通过网课学成的人不多,建议去大学学.自学会一直摸不着门路.假如你有基础的话,就去了解算法,编程.

克什克腾旗13393364631: Java软件开发者,如何学习大数据?
长兴杭洁尔: 正常来讲学习大数据之前都要做到以下几点1.学习基础的编程语言(java,python)2.掌握入门编程基础(linux操作,数据库操作、git操作)3.学习大数据里面的各种框架(hadoop、hive、hbase、spark)这是正常学习大数据必须要做到的三个步骤,如果有了java基础再去学习基本上已经成功了一半,起码不用为了基础语言的学习而恼火了.真正的大数据的学习不能仅仅停留在理论的层面上,比如现在经常用到的spark框架目前支持两种语言的开发java或者Scala,现在python语言也能支持了.大数据的方向的切入是全方位的基础语言的学习只是很小的一个方面,编程落实到最后到编程思想,有了指导思想学习起来就能方便很多.

克什克腾旗13393364631: 零基础怎样学习大数据
长兴杭洁尔: 零基础学习大数据有点困难,不过只有努力和方法正确也是可以学好的.1、首先学好数据基本功是重中之重.大数据这方面,现在的在校学生如果有意愿在毕业从事这方面的工作,其实在学校里现在可以选修一些与此相关的课程.2、从过去的...

克什克腾旗13393364631: 如何进入大数据领域,学习路线是什么?
长兴杭洁尔: 大数据学习的路线分为8个阶段,按照顺序学习就可以了.

克什克腾旗13393364631: 怎么学习大数据 - 怎么学习大数?怎么学习大数据
长兴杭洁尔: 现在的市场模式是商场一般是在人居住最多的附近开,这样大家会集中去一个地方购... 再通过销售中用户的意见进一步改进 而大数据的来临,我们可以通过互联网非常方便...

克什克腾旗13393364631: 自学大数据该怎么入手? -
长兴杭洁尔: 想要自学大数据,知道如何下手的小伙伴有福利了,本文专门为你准备的学习计划,这些技术知识梳理、其中的定义、关系以及作用,对你以后的学习会有很大的帮助!大数据本质也是数据,但是又有了新的特征,包括数据来源广、数据格式多...

克什克腾旗13393364631: 小白怎么学习大数据? -
长兴杭洁尔: 1: ssm的开发流程,要知道,不要开发具体的业务,例如增删改查的业务,只需要知道流程,代码实现不要知道2: html 要知道到底怎么回事3: Restful 不要求4: 数据库必须学习,而且是精通,更多的是数据的sql语句(如何连接数据库不重要),数据库调优,如何做主从,如何配置一些东西等等5: 最好用window系统,而不是mac6: 还需要知道互联网通用的架构,就是需要部署到服务器上面,需要有一套分布式的架构,是针对前段的,只需要半天的时间就可以学会了

克什克腾旗13393364631: 如何进行大数据学习,有什么学习思路呢? -
长兴杭洁尔: Hadoop:这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的.Hadoop里面包括几个组件HDFS、MapReduce和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapReduce是对数...

你可能想看的相关专题

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网