大数据热门词汇汇总

作者&投稿:龚鸦 (若有异议请与网页底部的电邮联系)
~ 大数据热门词汇汇总
可以说,大数据是如今IT行业最热门的趋势之一,它催生出了处理大数据的一批全新技术。而新技术带来了新的热门词汇:首字母缩略词、专业术语和产品名称等。连"大数据"这个短语本身都让人犯晕。许多人一听到"大数据",觉得是指"大量数据",而大数据的涵义绝不仅仅涉及数据量的多寡。

下面是我们认为你要熟悉的几个热门词汇,按字母顺序排列。
ACID
ACID的全称是原子性、一致性、隔离性和持久性,这其实是一组需求或属性:如果这四个方面都得到遵守,就能在处理过程中确保数据库事务的数据完整性。虽然ACID问世已有一段时日,但是事务数据量的急剧增长把更多的注意力投向在处理大数据时需要满足ACID的规定。
大数据三要素
如今的IT系统在生成数量、速度和种类都很"庞大"的数据。
数量:IDC公司估计,今年全球信息总量将达到2.7泽字节(这相当于27亿太字节),而且每两年就翻一番。
速度:让IT管理人员们头痛的不仅仅是数据数量,还有数据从金融系统、零售系统、网站、传感器、无线射频识别(RFID)芯片以及Facebook和推特等社交网络源源而来的速度越来越快。
种类:如果回到5年前或可能10年前,IT人员处理的主要是字母数字数据,它们很容易存储在关系数据库中整齐排列的行和列中。现在不再是这样了。如今,推特和Facebook上的帖子、各种文档及网页内容等非结构化数据都是大数据组合的一部分。
列式(或列型)数据库
一些新一代数据库(如开源Cassandra和惠普的Vertica数据库)被设计成了按列存储数据,而不是像传统的SQL数据库那样按行存储数据。这种设计提供了更快的磁盘访问速度,提高了处理大数据时的性能。对数据密集型业务分析应用系统而言,列式数据库尤其受到欢迎。
数据仓库
数据仓库这个概念存在至今已有大概25年了,具体指将数据从多个操作IT系统复制到面向业务分析应用系统的辅助离线数据库
但是随着数据量急剧增长,数据仓库系统正在迅速改变。它们需要存储更多的数据以及更多种类的数据,因而数据仓库管理成为一大难题。10年或20年前,数据可能每周或每月复制到数据仓库系统中;而如今,数据仓库的更新要频繁得多,有的甚至实时更新。
ETL
将数据从一个数据库(比如支持银行应用事务处理系统的数据库)转移到另一个数据库(比如用于业务分析的数据仓库系统)时,就要用到提取、转换和加载(ETL)软件。数据从一个数据库传送到另一个数据库时,常常需要对数据进行重新格式化和清理操作。
由于数据量急剧增长,数据处理速度大大加快,对ETL工具的性能要求也大大提高了。
Flume
Flume是属于Apache Hadoop大家族(其他技术包括HBase、Hive、Oozie、Pig和Whirr)的一项技术,这种框架用于为Hadoop填充数据。该技术使用散布于应用服务器、Web服务器、移动设备及其他系统上的软件代理,收集数据,并将数据传送到Hadoop系统。
比如说,公司可以使用在Web服务器上运行的Apache Flume,收集来自推特帖子的数据,以便分析。
地理空间分析
推动大数据潮流的一个趋势是,由如今的IT系统生成和收集的地理空间数据越来越多。常言道,一幅图片的信息量抵得上1000个单词;所以难怪越来越多的地图、图表、照片及其他基于地理位置的内容是导致如今大数据呈爆炸式增长的主要动因。
地理空间分析是一种特殊形式的数据可视化(参阅下面的"可视化"条目),在地理地图上覆盖数据,以帮助用户更清楚地理解大数据分析的结果。
Hadoop
Hadoop是一种开源平台,用于开发分布式、数据密集型的应用程序。它由Apache软件基金会控制。
Hadoop的发明者是雅虎公司的开发者道格o卡廷(Doug Cutting),他在谷歌实验室的MapReduce概念这个基础上开发出了Hadoop,以他儿子的玩具象命名。
另外,HBase是一种非关系数据库,它是作为Hadoop项目的一部分开发而成的。Hadoop分布式文件系统(HDFS)是Hadoop的一个关键组成部分。Hive则是建立在Hadoop基础上的数据仓库系统。
内存中数据库
计算机在处理事务或执行查询时,一般从磁盘驱动器获取数据。但是当IT系统处理大数据时,这个过程可能实在太慢。
内存中数据库系统利用计算机的主内存来存储经常使用的数据,因而大大缩短了处理时间。内存中数据库产品包括SAP HANA和甲骨文Times Ten内存中数据库。
Java
Java是一种编程语言,由现隶属甲骨文公司的Sun开发,于1995年发布。Hadoop和其他许多大数据技术都是使用Java开发而成的,它仍是大数据领域一种主要的开发技术。
Kafka
Kafka是一种高吞吐量的分布式消息传送系统,最初是在LinkedIn开发而成,用于管理该服务网站的活动流(关于网站使用情况的数据)和操作数据处理流水线(关于服务器组件的性能)。
Kafka在处理大量流式数据时很有效,而流式数据是许多大数据计算环境的一个关键问题。由推特开发的Storm是另一种大行其道的流处理技术。
Apache软件基金会已将Kafka列为一个开源项目。所以,别以为这是有缺陷的软件。
延迟时间
延迟时间是指数据从一个点传送到另一个点过程中的延迟,或者是某个系统(如应用程序)响应另一个系统的延迟数量。
虽然延迟时间不是什么新术语,但是随着数据量不断增长,IT系统竭力跟上步伐,如今你更常听到这个术语。简单地说,"低延迟"是好事,"高延迟"是坏事。
映射/化简
映射/化简(Map/Reduce)这种方法是指把一个复杂的问题分解成多个较小的部分,然后将它们分发到多台计算机上,最后把它们重新组装成一个答案。
谷歌的搜索系统用到了映射/化简概念,这家公司有一个品牌名为MapReduce的框架。
谷歌在2004年发布的一份白皮书描述了它使用映射/化简的情况。Hadoop之父道格o卡廷充分认识到了其潜力,开发出了同样借用映射/化简概念的第一个版本的Hadoop。
NoSQL数据库
大多数主流的数据库(如甲骨文数据库和微软SQL Server)基于关系型体系结构,使用结构化查询语言(SQL)用于开发和数据管理。
但是名为"NoSQL"(有些人现在称NoSQL表示"不是只有SQL")的新一代数据库系统基于支持者们认为更适合处理大数据的体系结构。
一些NoSQL数据库是为提高可扩展性和灵活性设计的,另一些NoSQL数据库在处理文档及其他非结构化数据方面比较有效。典型的NoSQL数据库包括Hadoop/HBase、Cassandra、MongoDB和CouchDB,而甲骨文等一些知名开发商已推出了各自的NoSQL产品。
Oozie
Apache Oozie是一种开源工作流引擎,用于帮助管理面向Hadoop的处理工作。使用Oozie,一系列工作可以用多种语言(如Pig和MapReduce)来加以定义,然后彼此关联起来。比如说,一旦从操作应用程序收集数据的作业已完成,程序员就可以启动数据分析查询任务。
Pig
Pig是Apache软件基金会的另一个项目,这个平台用于分析庞大的数据集。就其本质而言,Pig是一种编程语言,可用于开发在Hadoop上运行的并行计算查询。
定量数据分析
定量数据分析是指使用复杂的数学或统计模型,解释金融和商业行为,或者甚至预测未来的行为。
由于如今收集的数据量急剧增加,定量数据分析已变得更加复杂。但是如果公司知道如何利用海量数据,获得更好的可视性,深入了解公司业务,并且洞察市场发展趋势,那么更多的数据也有望在数据分析方面带来更多的机会。
一个问题是,拥有这种分析技能的人才严重匮乏。知名咨询公司麦肯锡表示,光美国就需要150万名拥有大数据分析技能的分析员和管理员。
关系数据库
关系数据库管理系统(RDBM)是如今使用最广泛的一种数据库,包括IBM的DB2、微软的SQL Server和甲骨文数据库。从银行应用系统、零售店的销售点系统到库存管理应用软件,大多数的企业事务处理系统都在RDBM上运行。
但有些人认为,关系数据库可能跟不上如今数据量和种类都呈爆炸式增长的形势。比如说,RDBM当初在设计时着眼于处理字母数字数据,处理非结构化数据时不是同样有效。
分片
随着数据库变得越来越庞大,处理起来也变得越来越困难。分片(sharding)是一种数据库分区技术,把数据库分成了更小、更容易管理的部分。具体来说,数据库被横向分区,以便单独管理数据库表中的不同行。
分片方法让庞大数据库的片段可以分布在多台服务器上,从而提高数据库的整体运行速度和性能。
另外,Sqoop是一种开源工具,用于将来自非Hadoop来源(如关系数据库)的数据转移到Hadoop环境。
文本分析
导致大数据问题的因素之一是,从推特和Facebook等社交媒体网站、外部新闻源,甚至公司内部收集而来以便分析的文本数量越来越多。由于文本是非结构化数据(不像通常存储在关系数据库中的结构化数据),主流的业务分析工具面对文本时常常束手无策。
文本分析采用了一系列方法(关键字搜索、统计分析法和语言研究法等),从基于文本的数据中获得洞察力。
非结构化数据
就在不久前,大部分数据还是结构化数据,这种字母数字信息(如来自销售交易的财务数据)很容易存储在关系数据库中,并由商业智能工具来分析。
但是如今共计2.7泽字节的存储数据中很大一部分是非结构化数据,比如基于文本的文档、推特消息、发布在Flickr上的照片、发布在YouTube上的视频,等等。(颇有意思的是,每分钟有长达35个小时的视频内容上传到YouTube。)处理、存储和分析所有这些凌乱的非结构化数据常常是如今的IT系统面临的难题。
可视化
随着数据量的增长,人们使用静态的图表和图形来理解数据越来越困难了。这就导致开发新一代的数据可视化和分析工具,能够以新的方式呈现数据,从而帮助人们理解海量信息。
这些工具包括:标以色码的热图,三维图形,显示一段时间内变化的动画可视化,以及在地理地图上覆盖数据的地理空间呈现。今天的先进数据可视化工具还具有更强的互动性,比如允许用户放大某个数据子集,进行更仔细的检查。
Whirr
Apache Whirr是一组Java类库,用于运行大数据云服务。更确切地说,它可以加快在亚马逊弹性计算云(EC2)和Rackspace等虚拟基础设施上开发Hadoop集群的过程。
XML
可扩展标记语言(XML)用来传输和存储数据(别与HTML混为一谈,后者用来显示数据)。借助XML,程序员们就可以创建通用的数据格式,并通过互联网共享信息和格式。
由于XML文档可能非常庞大、复杂,它们往往被认为导致IT部门面临大数据挑战。
尧字节
尧字节(yottabyte)是一种数据存储度量指标,相当于1000泽字节。据知名调研机构IDC公司估计,今年全球存储的数据总量预计将达到2.7泽字节,比2011年增长48%。所以,我们离达到尧字节这个大关还有很长一段路,不过从目前大数据的增长速度来看,那一天的到来可能比我们想象的要快。
顺便说一下,1泽字节相当于1021字节的数据。它相当于1000艾字节(EB)、100万拍字节(PB)和10亿太字节(TB)。
ZooKeeper
ZooKeeper是由Apache软件基金会创建的一项服务,旨在帮助Hadoop用户管理和协调跨分布式网络的Hadoop节点。
ZooKeeper与HBase紧密集成,而HBase是与Hadoop有关的数据库。ZooKeeper是一项集中式服务,用于维护配置信息、命名服务、分布式同步及其他群组服务。IT管理人员用它来实现可靠的消息传递机制、同步流程执行及实施冗余服务。


计算机专业英语词汇F
在计算机专业领域中,掌握一些基础的英语词汇至关重要。首先,fax machine 是用于发送和接收文档的通信工具;Field 指的是计算机程序或数据结构中的特定区域,用于存储和处理特定信息。Find 功能在计算机中用于搜索和定位信息,帮助用户快速定位所需的内容。连接设备的接口也非常重要,如FireWire port,这是一...

常用数据类型总结
深入探索:数据类型大揭秘 在编程世界中,数据类型如同语言的词汇,精确地定义了信息的存储和处理方式。让我们一起探索PLC中最常用的几种数据类型,它们像拼图的基石,构建出程序的逻辑结构。1. 精悍的位(BOOL)如同电路中的开关,位(BOOL)仅占用1比特,只有两种状态——0或1。在PLC中,这种简单但...

计算机专业英语词汇P
在计算机专业领域,掌握特定的词汇对于理解和交流至关重要。以下是其中一些重要术语的解释:首先,掌上电脑(Palmtop computer)是指轻便的便携式计算机,便于随身携带和使用。并行端口(Parallel ports)是计算机上的接口,允许数据同时双向传输,对于连接多个设备非常有用。被动矩阵(Passive-matrix)是指一种...

求统计专业英语词汇?
Exploratorydataanalysis,探索性数据分析ExploreSummarize,探索-摘要Exponentialcurve,指数曲线Exponentialgrowth,指数式增长EXSMOOTH,指数平滑方法Extendedfit,扩充拟合Extraparameter,附加参数Extrapolation,外推法Extremeobservation,末端观测值Extremes,极端值\/极值Fdistribution,F分布Ftest,F检验Factor,因素\/因子Factoranalysis,因子...

2023科技十大词汇
2023科技十大词汇有:预测分析的发展、大型语言模型、信息安全、推出更好的自主系统、通过NFT进行艺术创作、数字化身、人工智能伦理、军用武器、过程发现、嵌入式应用。1、预测分析的发展 人工智能的一个主要趋势是发展预测分析,以便更好地进行研究。它基于数据、统计算法和机器学习技术的使用,依靠历史数据来...

网络或电脑专用词语
例如,当用户通过浏览器访问一个网站时,该网站的服务器会响应请求并发送相应的网页数据到用户的计算机上。服务器在云计算和大数据领域扮演着至关重要的角色,保证了网络的稳定运行和数据的处理安全。这些只是计算机网络中的一些常见术语,随着技术的不断进步和发展,还有许多其他专业词汇不断涌现和应用。学习...

网络专业英语词汇
网络专业英语词汇account(帐号):一个有指定的用户名和口令的用于访问计算机或网络的表格,它通常带有一个主目录,一个e-mail信箱和一系列访问权限。address(地址):1、某台计算机(也称网上主机或internet节点

网络营销行业常用的十大词汇
“颠覆”这个词并不只有公关经常用,网络营销行业也是必用词汇之一,早期的网络营销从业者忽悠土豪的利器就是颠覆,诸如“网络营销行业即将颠覆建筑业”、“你不去颠覆网络营销,就等着被网络营销颠覆”等带有“恐吓性”的内容实属常事。 现在充斥较多的是“XXX颠覆式网络营销”、“XXX如何用网络营销颠覆XXX”、“如何学...

谁能告诉我计算机常用英语术语、词汇表
Words for "Network"ADSL: Asymmetric Digital Subscriber Line,不对称数字订阅线路 AH: Authentication Header,鉴定文件头 AMR(Audio\/Modem Riser,音效\/数据主机板附加直立插卡)ARP(Address Resolution Protocol,地址解析协议)ATM(Asynchronous Transfer Mode,异步传输模式)BOD(Bandwidth On Demand,弹性...

外码数据库词汇
在数据库的架构中,"外码"与"主码"有着不同的角色。外键,实质上是一列或多列,它们的存在是为了在两个表之间建立并强化关联。不同于主码,即关系模式R的主键,如果某个属性或属性组合X虽然不是R的主键,但它是另一个关系模式的主键,那么我们称X为R的外部码,也称为外码。外码的重要性在于...

天峻县17817254019: 2015年互联网上热门词语有哪些? -
应钢万敏: 大数据,移动互联网,云计算,物联网,这些都是十三五内容高频词汇,也是国际上近几年热门词汇

天峻县17817254019: 大数据分析是啥意思? -
应钢万敏: 大数据分析是指对规模巨大的数据进行分析.大数据可以概括为5个V, 数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)、真实性(Veracity). 大数据作为时下最火热的IT行业的词汇,随之而来的数据仓库、数...

天峻县17817254019: 热门单词:“大数据”用英文怎么说 -
应钢万敏: “大数据” Big data"

天峻县17817254019: 互联网的出现带来了哪些新词语? -
应钢万敏: 这样新出现的词语还有:大数据、视频流、潜水、窗口、桌面、充电、放水、绿色、亮点、登陆、接轨.1、大数据IT行业术语,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决...

天峻县17817254019: 大数据的英文是什么? -
应钢万敏: 译文:big data重点词汇:data英['deɪtə] 释义:n.数据;资料n.(Data)(日)驮太(姓);(印、葡)达塔(人名)短语:Big Data大数据;海量资料;海量数据扩展资料: 词语使用变化:big adj.(形容词)1、big作“大”解时,形容物...

天峻县17817254019: 大数据是什么?
应钢万敏: 大数据只是一个空洞的商业术语,就跟所谓的商业智能一样空洞无物.当然,这并不是说大数据没有意义,只是对于不同的人有不同的含义.A.对于投资人和创业者而言,大数据是个热门的融资标签.就和前几年流行的 SoLoMo,这几年火爆的 ...

天峻县17817254019: 大数据是啥?
应钢万敏: 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合.大数据的五大特征:1、大量;2、高速;3、多样;4、低价值密度;5、真实性.

天峻县17817254019: 数据开发是什么?
应钢万敏: 大数据作为时下火热的IT行业的词汇,随之而来的数据开发、数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点.随着大数据时代的来临,大数据开发也应运而生.大数据开发其实分两种,第一类是编写一些Hadoop、Spark的应用程序,第二类是对大数据处理系统本身进行开发.第一类工作感觉更适用于data analyst这种职位吧,而且现在Hive Spark-SQL这种系统也提供SQL的接口.第二类工作的话通常才大公司里才有,一般他们都会搞自己的系统或者再对开源的做些二次开发.这种工作的话对理论和实践要求的都更深一些,也更有技术含量.

天峻县17817254019: 什么是大数据产业 -
应钢万敏: 大数据”[2]作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点. 早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网