BAT三巨头开始挖掘大数据

作者&投稿:丘兴 (若有异议请与网页底部的电邮联系)
~ BAT三巨头开始挖掘大数据
阿里巴巴CTO即阿里云负责人王坚博士说过一句话:云计算和大数据,你们都理解错了。
实际上,对于大数据究竟是什么业界并无共识。大数据并不是什么新鲜事物。信息革命带来的除了信息的更高效地生产、流通和消费外,还带来数据的爆炸式增长。“引爆点”到来之后,人们发现原有的零散的对数据的利用造成了巨大的浪费。移动互联网浪潮下,数据产生速度前所未有地加快。人类达成共识开始系统性地对数据进行挖掘。这是大数据的初心。数据积累的同时,数据挖掘需要的计算理论、实时的数据收集和流通通道、数据挖掘过程需要使用的软硬件环境都在成熟。
概念、模式、理论很重要,但在最具实干精神的互联网领域,行动才是最好的答案。国内互联网三巨头BAT坐拥数据金矿,已陆续踏上了大数据掘金之路。
BAT都是大矿主,但矿山性质不同
数据如同蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。
百度拥有两种类型的大数据:用户搜索表征的需求数据;爬虫和阿拉丁获取的公共web数据。
阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现,挖掘出商业价值。除此之外阿里巴巴还通过投资等方式掌握了部分社交数据、移动数据。如微博和高德。
腾讯拥有用户关系数据和基于此产生的社交数据。这些数据可以分析人们的生活和行为,从里面挖掘出政治、社会、文化、商业、健康等领域的信息,甚至预测未来。
下面,就将三家公司的情况一一扫描与分析。
一、百度:含着数据出生且拥有挖掘技术,研究和实用结合
搜索巨头百度围绕数据而生。它对网页数据的爬取、网页内容的组织和解析,通过语义分析对搜索需求的精准理解进而从海量数据中找准结果,以及精准的搜索引擎关键字广告,实质上就是一个数据的获取、组织、分析和挖掘的过程。
除了网页外,百度还通过阿拉丁计划吸收第三方数据,通过业务手段与药监局等部门合作拿到封闭的数据。但是,尽管百度拥有核心技术和数据矿山,却还没有发挥出最大潜力。百度指数、百度统计等产品算是对数据挖掘的一些初级应用,与Google相比,百度在社交数据、实时数据的收集和由数据流通到数据挖掘转换上有很大潜力,还有很多事情要做。
2月底在北京出差时,写了一篇《搜索引擎的大数据时代》发在虎嗅。创造了零回复的记录。尽管如此,仍然没有打消我对搜索引擎在大数据时代深层次变革的思考。 搜索引擎在大数据时代面临的挑战有:更多的暗网数据;更多的WEB化但是没有结构化的数据;更多的WEB化、结构化但是封闭的数据。这几个挑战使得数据正在远离传统搜索引擎。不过,搜索引擎在大数据上毕竟具备技术沉淀以及优势。
接下来,百度会向企业提供更多的数据和数据服务。前期百度与宝洁、平安等公司合作,为其提供消费者行为分析和挖掘服务,通过数据结论指导企业推出产品,是一种典型的基于大数据的C2B模式。与此类似的还有Netflix的《纸牌屋》美剧,该剧的男主角凯文·史派西和导演大卫·芬奇都是通过对网络数据挖掘之后,根据受欢迎情况选中的。
百度还会利用大数据完成移动互联网进化。核心攻关技术便是深度学习。基于大数据的机器学习将改善多媒体搜索效果和智能搜索,如语音搜索、视觉搜索和自然语言搜索。这将催生移动互联网的革命性产品的出现。尽管百度已经出发,其在大数据上可做的事情还有很多。
在数据收集方面,百度需要聚合更多高价值的交易、社交和实时数据。例如加强自己贴吧知道的社交能力、尽快让地图服务与O2O结合进而掌握交易数据,以及推进移动App、穿戴式设备等数据收集系统。
在数据处理技术上,百度成立深度学习研究院加强自己在人工智能领域的探索,在多媒体和中文自然语言处理领域已经有一些进展;云存储、云计算的基础设施建设也在逐步完善。但深度学习仍然是一个巨大的挑战,百度等探索者还有很多待解问题,如:无监督式学习、立体图像识别。
在数据变现方面,百度需将数据挖掘能力、数据内容聚合和提取等形成标准化的服务和产品,进而开拓大数据领域的企业和开发者市场。而不仅仅是颇为个性化、定制化地为大型企业提供解决。
百度的优势体现在海量的数据、沉淀十多年的用户行为数据、自然语言处理能力和深度学习领域的前沿研究。在技术人才方面百度是聚集国内最多大数据相关领域顶尖人才的公司。听说百度前段时间花五千万挖了数据挖掘、自然语言处理、深度学习领域的十来位大牛,包括一些学者和教授。例如Facebook科学家徐伟。
在挖人上,舍得花钱不够,还得用心。对于真正的大牛来说,钱只是一个影响因素。能否实现自己的梦想,公司的资源能否帮助自己的研究至关重要。徐伟在回国前就曾问过其他从硅谷回国工程师的意见,得到答案是积极的,最终促成他作出决定。
总体来看,百度拥有大数据也具备大数据挖掘的能力,并且正在进行积极地准备和探索。在加强面向未来的研究和人才布局的同时,也注重实用性的技术产出。
二、腾讯:数据为产品所用,自产自销
微创新提出者金错刀有个关于腾讯的故事。 1999年腾讯公司刚刚成立不久,天使投资人刘晓松决定向其注资的一个主要原因就是因为他发现,“当时虽然他们的公司还很小,但已经有用户运营的理念,后台对于用户的每一个动作都有记录和分析。”而另一个投资人却因为马化腾在公司很小时就花钱在数据上表示不满。此后腾讯的产品生产及运营、腾讯游戏的崛起都离不开对数据的重视。
腾讯拥有社交大数据,在企鹅帝国完成数据的制造、流通、消费和挖掘。 腾讯大数据目前释放价值更多是改进产品。据腾讯Q1财报,增值服务占总收入的78.7%;电子商务业务占14.1%;网络广告收入占6.3%。从广告收入比例可以看出腾讯的大数据在精准营销领域暂时还未大量释放出价值。与其产品线对应的GMAIL、Google+的Google以及社交巨头Facebook则通过广告赚得盆满钵满。
在笔者看来,腾讯的思路主要是补齐产品,注重QZONE、微信、电商等产品的后端数据打通。例如最近腾讯微博利用“大数据技术”实现好友关系自动分组、低质量信息自动过滤、优质信息分类阅读等智能化功能。明显的用数据改进产品的思路。 那么如果腾讯要深入大数据挖掘缺少什么呢?笔者认为其只需马化腾“摁下启动按钮”。数据已经准备好了,就差模式,也就是找到需求或者能更深层次驱动大数据利用的产品,而不是用大数据改进自己的产品。腾讯还在观望,等其他人去试错验证出一套模式或者产品后,自己可以“站在巨人肩上”。这是腾讯的典型思维。
在人才方面,腾讯很早便开始重金挖人。尤其是2010年在Google宣布退出中国后,Google图片搜索创始人朱会灿、Google中国工程研究院副院长颜伟鹏、Google中日韩文搜索算法的主要设计者,《浪潮之巅》及《数学之美》作者吴军相继加入腾讯。搜搜花了很多钱,但被认定为一款无法承载腾讯重托的产品,最后这些大牛都走了。大都回Google了。
腾讯在大数据领域也缺少技术带头人。其对公关也不重视。技术大牛很少出来做报告,更不会向百度、阿里那样主动包装宣传技术大牛。其技术虽然低调,但执行力很强。据腾讯的程序员朋友说封闭开发、集体加班是常有的事情。但配套的重金激励也能跟上。重金之下必有勇夫、腾讯用制度保障技术产出。另外腾讯在高校合作领先一步,在2010年便与清华大学合作成立了清华腾讯联合实验室。这么看腾讯的技术人才这块似乎有短板。会不会到时候马化腾按下启动按钮,发现没数据挖掘能力呢?不会,腾讯搞不定数据挖掘,到时候依然可以挖到大牛,甚至读论文来搞定这事儿。数据挖掘已较为成熟。数据挖掘实际是数据库、统计学、机器学习三个领域的融合。在学术界已经发展多年。不过自然语言识别和深度学习等方面要赶上百度,就难了。除非将百度的数据和众大牛一起倒腾过来。
总体来看,腾讯目前的大数据策略是先将产品补全,产品后台数据打通,形成稳定生态圈。本阶段先利用大数据挖掘改进自己的产品。后期有成熟的模式合适的产品,则利用自家的社交及关系数据时,开展对大数据的进一步挖掘。
三、阿里巴巴:坐拥金数据,尝试做面向未来的数据集市
阿里巴巴B2B出身,在外贸蓬勃的大环境下,依靠服务中小企业发家。淘宝、支付宝等toC的产品出生前,阿里并不依赖也不擅长技术。业界普遍认为阿里没有技术基因。直到淘宝、支付宝以及天猫三个产品后,对海量用户大并发量交易、海量货架数据的管理、安全性等方面的严苛要求,阿里完成进化,在电商技术上取得不菲的成绩。在一段时期阿里仍然浪费了手里掌握的大量数据。这些数据还是“最值钱”的金数据。
数据挖掘无非是从原始数据提取价值。阿里现有的数据产品例如数据魔方、量词统计、推荐系统、排行榜以及时光倒流相对来说是比较简单的BI(商业智能),没到大数据的阶段。“大数据”浪潮袭来,阿里提出“数据、金融和平台”战略。前所未有地重视起对数据的收集、挖掘和共享。马云在“退居”前动不动都对外提“数据”。有位阿里朋友甚至开玩笑说,马云英文名可以从Jack Ma改为Data Ma。阿里现CEO陆兆禧曾做过CDO,首席数据官。为了用数据来驱动阿里电商帝国,阿里还成立了横跨各大事业部的“数据委员会”。
阿里的各项投资案也显示其整合、利用和完善数据的野心:新浪微博的社交及媒体数据、高德的地图数据和线下数据以及友盟的移动应用数据,都是其数据及平台战略的一部分。数据战略正在首席人工智能官(CBO)车品觉领头下逐步落地,王坚的云为其提供基础设施、基础技术支撑。
就在马云退休之后,王坚对外透露其跟马云开玩笑说的一句话:阿里巴巴对数据的理解深度,不会超过苏宁对电子商务的理解。估计马云不一定认同他这话。马云对大数据已经有着自己的理解和考量。马云曾经说过其对大数据的思考。大致意思是:现在从信息时代进入数据时代了。区别是信息时代更多的是精英玩的游戏。我比别人聪明,我能提取出信息出来;数据时代,别人比我聪明,将数据开放给更聪明的人处理,数据即资产,分析即服务。
计算机发展的过程是从象牙塔、到平民到草根。大数据也是这样,一开始在象牙塔阶段,少数精英公司才能玩;但到后面只要有数据就有价值。数据也有所有权,产生数据、流通数据、挖掘数据的都会获得相应的价值。而阿里擅长的便是“建立市场”,建立一个数据交易市场。届时任何个人和企业都可以将数据和挖掘服务拿上去,交易。初期阿里会将自己珍藏的电商和信用数据逐步放到上面。 有数据的人,拿上去卖,或者让别人分析,分析即服务。没有数据的人,即可以去买,也可以去帮别人挖掘,做矿工。
阿里并不是技术驱动,而是业务驱动的。因此在技术层面我们看到,基于前面提到的阿里大数据思路,其技术重心主要在系统层面。阿里拥有LVS(Linux Virtual Server,Linux虚拟服务器)开源软件创始人章文嵩,Linux Kernal、文件系统、大牛DBA等领域的大牛。从人才布局可以看到阿里擅长的技术领域,体现在对于并发访问、电信级别的电商业务的支撑方面的得心应手。在去年双十一期间,支撑了单日过亿的订单量。铁道部奇葩网12306在日均40万时已经不行了。
总体来看,阿里更多是在搭建数据的流通、收集和分享的底层架构。自己并不擅长似乎也不会着重来做数据挖掘的活儿。而是将自己擅长的“交易”生意扩展到数据。让天下没有难做的“数据生意”。
总结一下
移动互联网浪潮下,现实世界正在加速数字化,每个人,每个物体、每件事情、每一个时间节点,都在向网上映射。空间和时间两个维度的联网,使得数字世界正在接近一步步模拟现实世界。历史、现在和未来都会映射到网上。对大数据的挖掘正是对世界的二次发现和感知。BAT三巨头已经出发。


发掘雅典的地下世界
1997年10月的一个下午,一名电视记者采访了雅典市中心一个街边报亭的老板,内容是关于该市新地铁挖掘引起的交通混乱。当店主说话时,他的售货亭开始在他身后下沉:就像一些干码头的香烟、报纸和包装零食的泰坦尼克号一样,这个小摊位消失在地下世界。隧道掘进机或隧道掘进机又来了。没有人认为在希腊首都...

THRASH的代表
在与SAVATAGE,WRATHCHILD AMERICA一道进行完全美巡回演出后,乐队再次回到录音室录制了第四张专辑Souls of Black。这张专辑的制作人由以前的Alex Perialas换成了Michael Rosen,而乐队内部的矛盾也似乎在其音乐中有所反映。之后是与SLAYER, MEGADETH ,SUICIDAL TENDENCIES进行了名为Clash Of The Titans的欧洲...

MyTimeAtPortia-波西亚时光-1年3月
起床出门,明特一大早就过来有事,说他们挖掘的隧道一直在发生小地震,希望我作为工坊主也去看看。今天下午的时候就去了隧道那边,还没等我进去,地震就造成了坍塌,将阿尔洛、明特和三姐困在了里面。据他们调查,隧道内出现了旧世界的门,应该是和旁边的遗迹英格尔矿井连接的。我还没去过英格尔矿井,并且...

A2300型 挖掘机
地面最大挖掘半径 MAX digging radius at ground lever 5.420 mm 最大挖掘深度 MAX digging depth 3.405 mm 最大垂直挖掘深度 MAX vertical wall digging depth 2.900mm 最大挖掘高度 MAX digging height 5.030 mm

挖掘机用英语怎么说?
挖掘机的英语说法是excavator。一、发音英:[\/ˈekskəˌveɪtər\/];美:[\/ˈekskəˌveɪtər\/]二、中文翻译n. 挖掘机 三、形式复数形式:excavators 四、短语搭配operate an excavator 操作挖掘机 五、双语例句1. The excavator is ...

传统重金属黄金时期有哪些辉煌的表现?
在德国,被乐迷公认为是德国鞭激三巨头的DESTRUCTION,SOMOD,KREATOR三支乐队先后发行了他们的经典专辑,这时的德国已经位于欧洲的金属强国之列,很多乐手都在为重金属的突破实验,他们的激流金属和美式的有所不同,几乎没有选律可言,而且演奏的速度快的惊人,也不像别的乐队那样沉重,好像好多把轻如柳叶的小刀在你身上划过...

牧场物语攻略
1 在泉之 石场 60 层挖掘2 在泉之 石场 102 层挖掘3 在泉之 石场 123 层挖掘4 在泉之 石场 152 层挖掘5 在泉之 石场 155 层挖掘6 在泉之 石场 171 层挖掘7 在泉之 石场 190 层挖掘8 在泉之 石场 202 层挖掘9 在泉之 石场 222 层挖掘农作方面:---去杂货屋可以买到种子,但是种子除了牧草之外...

日立EX系列挖掘机-1 -2 -3 -5 分别是哪年开始生产的?
1系列基本是上个世纪80年代的产品,2、3系列为90年代不同时期产品,5系列产品基本是94年以后的产品了。日立EX1200-6BH矿山型挖掘机。发动机功率高达567kW(760HP),工作重量112.28T,斗容5.8m3岩石斗;铲斗挖掘力达569kN。动臂起升力提高约8%。日立EX1200-6LD正\/反铲挖掘机。发动机功率高达567kW(...

急需翻译,大家辛苦了
1748年,一个意大利农民在自家田里挖掘时,发现了一部分古城墙。不久,人们在这个区域开始挖掘。渐渐地,古城大部分被发掘出来。死去的人中多数保留完好。现在大家看到他们,就可以想象火山突然爆发时,这些人正在做什么。如今,全世界各地的游客都来看著名的庞培城废墟。

模拟挖掘机配置要求
模拟挖掘机游戏配置要求最低配置要求:系统: Windows Vista\/7\/8处理器: AMD\/Intel quad-core processor running at 3.2 GHz内存: 4 GB RAM显卡: ATI\/NVIDIA dedicated or mobile graphic card with at least 1GB of dedicated VRAM and with at least DirectX 9.0c and Shader Model 4.0 ...

镇原县13979403790: 19大之后中国46个变化 -
郸品氯普: 第一部分:个人篇1、对于每个中国人来说,传统奋斗的五大关键词:背景、学历、资源、人脉、资历;今后奋斗的五大关键词:知识、创新、独立、个性、理想.以前是学好数理化不如有个好爸爸,现在有个好爸爸,不如自己有文化,中国的...

镇原县13979403790: 深思考人工智能公司是做什么的? -
郸品氯普: 人工智能AI是时下最热门的研究课题,也将会是下一轮全球科技以及经济发展的大方向.这期间有中国三大巨头BAT(百度、阿里巴巴和腾讯),更不乏有像华为、英飞拓,后起之秀快速崛起,大力发展人工智能.一、巨头BAT人工智能领域1...

镇原县13979403790: 谁是互联网三大巨头?
郸品氯普: 互联网三大巨头(BAT)是中国互联网公司百度公司(Baidu)、阿里巴巴集团(Alibaba)、腾讯公司(Tencent)三大巨头首字母缩写. B 百度公司(Baidu):是全球最大的中文搜索引擎、最大的中文网站.2000年1月由李彦宏创立于北京中...

镇原县13979403790: 咨询台式机和工作站的区别 -
郸品氯普: 尊敬的联想用户您好.差别一:至强、多核CPU,实现更强劲的运算能力工作站和PC的一个重要区别在于芯片组和处理器的选择上,前者往往采用工作站级芯片组和性能更加强劲的多核处理器、或者支...

镇原县13979403790: 如何成为一个大数据开发工程师 -
郸品氯普: 数学及统计学相关的背景 BAT三家互联网大公司来说,对于大数据工程师的要求都是希望是统计学和数学背景的硕士或博士学历.沈志勇(来自百度)认为,缺乏理论背景的数据工作者,更容易进入一个技能上的危险区域(DangerZone)—一...

镇原县13979403790: 中国互联网三巨头bat分别在什么领域有领先地位 -
郸品氯普: 百度搜索引擎与大数据 阿里巴巴在于电子商务领域 腾讯在社交与游戏领域

镇原县13979403790: bat三巨头是什么意思 -
郸品氯普: B - 百度 A - 阿里巴巴 T - 腾讯以上三间公司的第一个字的第一个字母,合称BAT.在国内基本上是处于各自领域的领军者.

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网