MapReduce是什么?有什么作用?

作者&投稿:机红 (若有异议请与网页底部的电邮联系)
Hadoop和MapReduce究竟分别是做什么用的~

Hadoop是用来开发分布式程序的架构,是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。
MapReduce是用来做大规模并行数据处理的数据模型。方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。


扩展资料
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。主要有以下几个优点 :
1、高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖 。
2、高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中 。
3、高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快 。
4、高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
5、低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

参考资料来源:百度百科-MapReduce
参考资料来源:百度百科-Hadoop

概念"Map(映射)"和"Reduce(化简)",和他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。他极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(化简)函数,用来保证所有映射的键值对中的每一个共享相同的键组。  映射和化简  简单说来,一个映射函数就是对一些独立元素组成的概念上的列表(例如,一个测试成绩的列表)的每一个元素进行指定的操作(比如前面的例子里,有人发现所有学生的成绩都被高估了一分,他可以定义一个“减一”的映射函数,用来修正这个错误。)。事实上,每个元素都是被独立操作的,而原始列表没有被更改,因为这里创建了一个新的列表来保存新的答案。这就是说,Map操作是可以高度并行的,这对高性能要求的应用以及并行计算领域的需求非常有用。   而化简操作指的是对一个列表的元素进行适当的合并(继续看前面的例子,如果有人想知道班级的平均分该怎么做?他可以定义一个化简函数,通过让列表中的元素跟自己的相邻的元素相加的方式把列表减半,如此递归运算直到列表只剩下一个元素,然后用这个元素除以人数,就得到了平均分。)。虽然他不如映射函数那么并行,但是因为化简总是有一个简单的答案,大规模的运算相对独立,所以化简函数在高度并行环境下也很有用。编辑本段分布和可靠性  MapReduce通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性;每个节点会周期性的把完成的工作和状态的更新报告回来。如果一个节点保持沉默超过一个预设的时间间隔,主节点(类同Google File System中的主服务器)记录下这个节点状态为死亡,并把分配给这个节点的数据发到别的节点。每个操作使用命名文件的原子操作以确保不会发生并行线程间的冲突;当文件被改名的时候,系统可能会把他们复制到任务名以外的另一个名字上去。(避免副作用)。   化简操作工作方式很类似,但是由于化简操作在并行能力较差,主节点会尽量把化简操作调度在一个节点上,或者离需要操作的数据尽可能近的节点上了;这个特性可以满足Google的需求,因为他们有足够的带宽,他们的内部网络没有那么多的机器。用途  在Google,MapReduce用在非常广泛的应用程序中,包括“分布grep,分布排序,web连接图反转,每台机器的词矢量,web访问日志分析,反向索引构建,文档聚类,机器学习,基于统计的机器翻译...”值得注意的是,MapReduce实现以后,它被用来重新生成Google的整个索引,并取代老的ad hoc程序去更新索引。   MapReduce会生成大量的临时文件,为了提高效率,它利用Google文件系统来管理和访问这些文件。   

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",和它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。
瑭锦TANJURD总结在Google,MapReduce用在非常广泛的应用程序中,包括“分布grep,分布排序,web连接图反转,每台机器的词矢量,web访问日志分析,反向索引构建,文档聚类,机器学习,基于统计的机器翻译...”值得注意的是,MapReduce实现以后,它被用来重新生成Google的整个索引,并取代老的ad hoc程序去更新索引。


现在最成熟的开源nosql是什么?分别有什么优缺点
NoSQL,泛指非关系型的数据库。随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数...

现在最成熟的开源nosql是什么?分别有什么优缺点
主从服务器设计一般能更好的strong consistent,属于CAP理论中的CP类型。 CouchDB和Cassandra一般认为都是eventual consistent,属于CAP理论中的AP类型。但其实MongoDB和Cassandra都可以设置成strong consistent或者eventual consistent。以上所提到的数据库都支持MapReduce。好像出了HyperTable都支持非主键索引。HBase...

云技术是什么意思
云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。它的特点与普通计算机的区别:1.分布式新型体系结构,多种廉价计算资源并行计算,大幅度提高IT基础设施的计算速度和存储能力。2.支持海量结构化...

英语动词列表
en-, enslave, enable, enrich ad-, ac-, af-, ag-, an-, ap-, ar-, as-, at-, adapt, accord, affix, aggression, arrive, assist, attend, attract, arrange, assign(委派) 11. 表示数量关系的前缀 1)表示“单一”,“一” mon-, mon-, monotone(单调),monopoly, monarch uni-, un-, unifo...

什么是云技术云技术的特性
Reduce是一种编程模型和任务调度模型。主要用于数据集的并行运算和并行任务的调度处理。在该模式下,用户只需要自行编写Map函数和Reduce函数即可进行并行计算。其中,Map 函数中定义各节点上的分块数据的处理 方法 ,而Reduce函数中定义中间结果的保存方法以及最终结果的归纳方法。5、云计算平台管理技术 ...

商务英文memo范文
Subject: Results of test designed to reduce dust levels at the Sacramento Plant This memo reports the results of the results of an experimental test conducted at the Sacramento oat cereal production plant on January 18,2004.The test was conducted to evaluate the effect of adding water to the ...

因子分析中参数估计的方法?正交因子模型需要满足的条件?有斜交因子模...
主成分分析一般很少单独使用:a,了解数据.(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化.(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共...

高分求英语大师翻译!!感激不尽!!
it can reduce the loneliness of one's inner heart, and also they can communicate with other old pet keepers to exchange each other's new experience. and make many new friends at the same time.很乐意能够帮到你,希望会对你有助。若不明白请继续问,如满意敬请采纳,O(∩_∩)O谢谢...

CAD命令失效怎么办
AP, *APPLOADAR, *ARRAY-AR, *-ARRAYATT, *ATTDEF-ATT, *-ATTDEFATE, *ATTEDIT-ATE, *-ATTEDITATTE, *-ATTEDITB, *BLOCK-B, *-BLOCKBC, *BCLOSEBE, *BEDITBH, *HATCHBO, *BOUNDARY-BO, *-BOUNDARYBR, *BREAKBS, *BSAVEBVS, *BVSTATEC, *CIRCLECAM, *CAMERACH, *PROPERTIES-CH, *CHANGECHA,...

兴安区15366781043: Hadoop和MapReduce究竟分别是做什么用的 -
长孙钥康力: 1、hadoop是一种分布式系统的平台,通过它可以很轻松的搭建一个高效、高质量的分布系统,而且它还有许多其它的相关子项目,也就是对它的功能的极大扩充,包括Zookeeper,Hive,Hbase等. 2、MapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式文件系统hdfs,一部是分布式计算框,就是mapreduce,缺一不可,也就是说,可以通过mapreduce很容易在hadoop平台上进行分布式的计算编程. 再详细的话,你得多看些文档.

兴安区15366781043: 什么是MapReduce -
长孙钥康力: 概念"Map(映射)"和"Reduce(化简)",和他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性.他极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上. 当前的...

兴安区15366781043: mapreduce处理什么任务 -
长孙钥康力: 摘要:MapReduce是Hadoop的又一核心模块,从MapReduce是什么,MapReduce能做什么以及MapReduce的工作机制三方面认识MapReduce.关..

兴安区15366781043: 大数据的Hadoop是做什么的? -
长孙钥康力: 提供海量数据存储zd和计算的.需要java语言基础.Hadoop实现了一个分布zd式文件系统(Hadoop Distributed File System),简称HDFS.有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供专高吞吐量来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序.Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算属回.

兴安区15366781043: mapreduce和spark的区别是什么 -
长孙钥康力: Mapreduce中的每个Task分别在自己的进程中运行,当该Task运行完的时候,该进程也就结束了.和Mapreduce不一样的是,Spark中多个Task可以运行在一个进程里面,而且这个进程的生命周期和Application一样,即使没有Job在运行. 这个模型有什么好处呢?可以加快Spark的运行速度!Tasks可以快速地启动,并且处理内存中的数据.但是这个模型有的缺点就是粗粒度的资源管理,每个Application拥有固定数量的executor和固定数量的内存.

兴安区15366781043: 能不能解释一下hadoop中的mapreduce -
长孙钥康力: MapReduce是一种数据处理思想,最早由Google的Jeff Dean等人发明,论文公开后,由Yahoo!的Doug Cutting实现了开源版本的MapReduce实现,发展为后来的Hadoop Hadoop包含一个开源的MapReduce计算框架,和一个分布式...

兴安区15366781043: 什么是Map/Reduce - Mapreduce - about云开发 -
长孙钥康力: 什么是Map/Reduce,看下面的各种解释:(1)MapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式文件系统hdfs,一部是分布式计算框,就是mapreduce,缺一不可,也就是说,可以通过mapreduce很容易在...

兴安区15366781043: 为什么会有mapreduce和spark
长孙钥康力: MapReduce从出现以来,已经成为Apache Hadoop计算范式的扛鼎之作.它对于符合其设计的各项工作堪称完美:大规模日志处理,ETL批处理操作等. 随着Hadoop使用范围的不断扩大,人们已经清楚知道MapReduce不是所有计算的最佳框...

兴安区15366781043: hadoop用什么模型做用 -
长孙钥康力: MapReduce模型,在并行计算领域最著名的就是MPI模型,MPI是一种消息传递编程模型,在大规模科学计算领域已经成功应用了数年,而MapReduce则是一种近几年出现的相对较新的并行编程技术,但是MapReduce计算模型也是建立在数学...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网