hadoop+hive+spark

作者&投稿：傅常（若有异议请与网页底部的电邮联系）

银卸17041168719问： Hadoop,Hive,Spark 之间是什么关系 - ？
江陵县桂克回答： hadoop包含以下组件:hdfs,mapreduce,yarn.hive是数据仓库:用于管理结构化数据,数据存于hdfs上.spark是一个分布式计算框架:区别于hadoop的另一种mapreduce的计算框架.基于RDD的分布式内存计算引擎.

银卸17041168719问： Spark - Hadoop,Hive,Spark 之间是什么关系 - ？
江陵县桂克回答： spark是一种分布式内存计算模型 hadoop是一种大数据分布式处理方案,包括hdfs(分布式存储系统),mapreduce(分布式计算框架),yarn(资源调度系统) hive是基于hadoop的一个数据仓库,构建成类似传统关系型数据库.能够用sql执行mr任务 spark与hadoop关系,spark是内存计算框架,意味着他主要是用来进行计算,用来取代hadoop的mapreduce任务效率太低.但是计算结果,数据源,最终还是存在hadoop上的

银卸17041168719问： 什么是Hive on Spark - ？
江陵县桂克回答： hive默认计算引擎是mapreduce,hive on spark是搞hive的开发者将计算引擎换成spark 对应的有spark sql,这是spark的开发者写的访问hive数据的sql引擎.两者开发者不同. 如果你搞hive的话,建议可以再了解下hive on tez,又叫Stinger

银卸17041168719问： 实时数据处理用什么分布式框架 - ？
江陵县桂克回答： 在我看来,一个完整的大数据平台应该提供离线计算、即席查询、实时计算、实时查询这几个方面的功能.hadoop、spark、storm 无论哪一个,单独不可能完成上面的所有功能.hadoop+spark+hive是一个很不错的选择.hadoop的HDFS毋庸置...

银卸17041168719问： 怎么看待Hadoop Summit 2016 和 Spark summit 2016 - ？
江陵县桂克回答： 1,Sqoop+Hive+Spark的方式会比MR的方式更快,根据实际需求的计算分析时间决定;2,Hive部分要有明确的数据层次结构;例如抽取过来的原始数据为一层,经过预处理的为第二层,可以形成宽表用于后续的挖掘分析用;3,Zepplin目前也是一个不错的可视化项目,可以在其上使用Shell/Spark/Hive/Pig/Kylin等各种工具进行数据分析结果的可视化,现在用得最多的是和Kylin配合使用.

银卸17041168719问： 现有系统基于hadoop+hive框架设计的,现在想换成spark,有什么最快的方式,且之前在hive的数据还能用? - ？
江陵县桂克回答： spark+shark ,可以直接用hive原来的表.

银卸17041168719问： 如何配置hive,使hive能使用spark引擎 - ？
江陵县桂克回答： 1、为了让Spark能够连接到Hive的原有数据仓库,我们需要将Hive中的hive-site.xml文件拷贝到Spark的conf目录下,这样就可以通过这个配置文件找到Hive的元数据以及数据存放. 在这里由于我的Spark是自动安装和部署的,因此需要知道CDH...

银卸17041168719问： 怎么查看spark与hive集成成功 - ？
江陵县桂克回答： Hadoop: hadoop-2.3.0-cdh5.0.0 Hive: apache-hive-0.13.1-bin Spark: spark-1.4.0-bin-hadoop2.3 SparkSQL与Hive的整合 1. 拷贝$HIVE_HOME/conf/hive-site.xml和hive-log4j.properties到 $SPARK_HOME/conf/ 2. 在$SPARK_HOME/conf/目录中,修改spark-env.sh,添加 export HIVE_HOME=/usr/local/apache-hive-0.13.1-bin

银卸17041168719问： 与 Hadoop 对比,如何看待 Spark 技术? - ？
江陵县桂克回答： 我本人是类似Hive平台的系统工程师,我对MapReduce的熟悉程度是一般,它是我的底层框架.我隔壁组在实验Spark,想将一部分计算迁移到Spark上.年初的时候,看Spark的评价,几乎一致表示,Spark是小数据集上处理复杂迭代的交互系...

银卸17041168719问： spark SQL和hive到底什么关系 - ？
江陵县桂克回答： Hive是一种基于HDFS的数据仓库,并且提供了基于SQL模型的,针对存储了大数据的数据仓库,进行分布式交互查询的查询引擎. SparkSQL并不能完全替代Hive,它替代的是Hive的查询引擎,SparkSQL由于其底层基于Spark自身的基于内存...

星空见康网

hadoop+hive+spark

相关链接