google mapreduce原理 用什么语言开发

一种改进的MapReduce并行编程模型--《科协论坛(下半月)》2009年02期
一种改进的MapReduce并行编程模型
【摘要】:MapReduce是一种并行编程模型,它通常用于处理大型的数据集的程序设计中。基于这种功能的程序能够在大规模的普通机器上自动并发的执行。本文提出了一种改进型的MapReduce编程模型,该模型继承了传统的MapReduce模型对map函数和reduce函数的定义,对map和reduce过程进行了改进优化。实验表明,改进后的MapReduce模型具有更好的执行效率。
【作者单位】:
【关键词】:
【分类号】:TP311.11【正文快照】:
1引言MapReduce是Google提出的一个编程模型和处理、产生大数据集的相关实现[1]。用户指定一个map函数处理一个key/value对,从而产生中间的key/value对集。然后再指定一个reduce函数合并所有的具有相同中间key的中间value。以这种方式写的程序能自动的在大规模的普通机器
欢迎:、、)
支持CAJ、PDF文件格式,仅支持PDF格式
【引证文献】
中国期刊全文数据库
李鑫;张鹏;;[J];电脑知识与技术;2012年01期
耿昌兴;孟少卿;张辰;廖晓娜;鹿凯宁;;[J];电子测量技术;2012年07期
李成华;张新访;金海;向文;;[J];计算机工程与科学;2011年03期
王晟;赵壁芳;;[J];通信技术;2011年12期
中国硕士学位论文全文数据库
李波;[D];华东师范大学;2011年
杨丽婷;[D];中北大学;2011年
郗洋;[D];南京邮电大学;2011年
曹挹芬;[D];湖南大学;2009年
张文峰;[D];华中科技大学;2010年
盘隆;[D];哈尔滨工业大学;2011年
黄大川;[D];华中科技大学;2011年
何荣波;[D];北京化工大学;2011年
于治海;[D];哈尔滨工程大学;2011年
陈承收;[D];长春工业大学;2011年
【同被引文献】
中国期刊全文数据库
蔡颖琨,谢昆青,马修军;[J];北京大学学报(自然科学版);2004年03期
贲进;张永生;童晓冲;;[J];测绘技术装备;2005年02期
陈涛;;[J];重庆交通大学学报(社会科学版);2009年04期
陆建江,徐宝文;[J];东南大学学报(自然科学版);2003年04期
尹国定,卫红;[J];东南大学学报(自然科学版);2003年04期
吉根林;凌霄汉;杨明;;[J];东南大学学报(自然科学版);2007年04期
黄祥建;田怀文;;[J];电脑知识与技术(学术交流);2007年02期
危烽;;[J];电脑知识与技术;2009年03期
马洪堂;;[J];电脑知识与技术;2009年13期
唐箭;;[J];电脑知识与技术;2009年20期
中国博士学位论文全文数据库
魏迎梅;[D];中国人民解放军国防科学技术大学;2000年
王天柱;[D];吉林大学;2006年
王祎;[D];吉林大学;2009年
赵伟;[D];吉林大学;2009年
中国硕士学位论文全文数据库
王欣;[D];大连理工大学;2011年
张敏;[D];南京邮电大学;2011年
曹风兵;[D];重庆大学;2011年
尹建杰;[D];黑龙江大学;2011年
谢成枫;[D];东北师范大学;2011年
董朝;[D];浙江大学;2005年
刘新凯;[D];天津大学;2004年
罗伟刚;[D];广东工业大学;2006年
苏智勇;[D];南京理工大学;2006年
郭鸿志;[D];哈尔滨工业大学;2006年
【二级引证文献】
中国期刊全文数据库
李鑫;张鹏;;[J];电脑知识与技术;2012年01期
高飞;张琦;李泽强;;[J];广播与电视技术;2012年07期
江小平;李成华;向文;张新访;;[J];计算机应用;2011年09期
吴琪;;[J];计算机测量与控制;2012年06期
丁振;项颖;;[J];计算机与现代化;2012年08期
朱长江;郭念;;[J];科技视界;2012年20期
朱蔷蔷;张桂芸;刘文龙;;[J];哈尔滨师范大学自然科学学报;2012年01期
李艳平;徐雅斌;陈俊伊;;[J];华中科技大学学报(自然科学版);2012年S1期
赵菲;王强;;[J];信息安全与通信保密;2012年03期
马媛;;[J];信息安全与通信保密;2012年06期
中国硕士学位论文全文数据库
徐东丽;[D];大连海事大学;2011年
徐忠明;[D];广东工业大学;2011年
任萱萱;[D];天津师范大学;2011年
余正祥;[D];云南大学;2011年
龚真平;[D];西南交通大学;2011年
陈勃;[D];华中科技大学;2011年
陈宁;[D];南京邮电大学;2012年
刘杰;[D];北京邮电大学;2012年
刘彤;[D];北京邮电大学;2012年
刘永;[D];山东师范大学;2012年
【相似文献】
中国期刊全文数据库
褚人乾,蒋兴才,李永稀;[J];无线电工程;1998年04期
刘贤梅,李从信,梁久祯,任庆东;[J];大庆石油学院学报;1999年02期
田宗军,李小林,张建华,赵剑锋,黄因慧;[J];航空制造技术;2000年04期
曹建文,潘峰,姚继锋,孙家昶,赵国忠;[J];计算机研究与发展;2002年08期
黄杰,陈琳,贾焰,邹鹏;[J];计算机工程与应用;2004年04期
沈旭昆,王双全,赵沁平;[J];计算机研究与发展;1998年05期
梁煜,李基凯,张林波,李玉成,卢慧琼;[J];计算机研究与发展;1999年10期
黄干平,陈洛资;[J];计算机应用与软件;1997年02期
覃征,魏宝刚;[J];西北工业大学学报;1998年01期
周一萍,郑守淇,白英彩;[J];小型微型计算机系统;1998年08期
中国重要会议论文全文数据库
朱江;;[A];中国地理信息系统协会第三次代表大会暨第七届年会论文集[C];2003年
田松;刘皓;李少谦;;[A];2006中国西部青年通信学术会议论文集[C];2006年
吴瑞安;何颖波;郝志明;范宣华;;[A];中国力学学会学术大会'2009论文摘要集[C];2009年
董五洲;郝俊磊;熊丽霞;;[A];招生考试科研论文集[C];2005年
李龙;李雷;;[A];第20届测控、计量、仪器仪表学术年会论文集[C];2010年
栾鸾;李云;盛艳;;[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
郭磊;王大志;李政;汤晓东;陈小龙;吴建成;;[A];中国力学学会学术大会'2009论文摘要集[C];2009年
谢能刚;潘创业;李锐;王璐;;[A];结构及多学科优化工程应用与理论研讨会’2009(CSMO-2009)论文集[C];2009年
梁巧凤;冯亮;任俊芳;;[A];第十一届全国自动化应用技术学术交流会论文集[C];2006年
沈天光;葛卫芳;;[A];中国通信学会第五届学术年会论文集[C];2008年
中国重要报纸全文数据库
南京邮电学院 李建忠;[N];计算机世界;2002年
沈筱敏;[N];农民日报;2001年
赵之俊;[N];中国工商报;2002年
;[N];网络世界;2005年
王静媛;[N];国际经贸消息;2002年
金石;[N];厂长经理日报;2000年
边歆;[N];网络世界;2007年
吴逸;[N];检察日报;2000年
陈文光;[N];中国电子报;2008年
王企;[N];中国图书商报;2000年
中国博士学位论文全文数据库
陈榕;[D];复旦大学;2011年
金晶;[D];北京邮电大学;2012年
唐滔;[D];国防科学技术大学;2012年
罗赛;[D];中国科学技术大学;2006年
李波;[D];华中科技大学;2011年
王颖;[D];复旦大学;2009年
李毅;[D];国防科学技术大学;2007年
朱浩波;[D];天津大学;2007年
罗飞;[D];华中科技大学;2008年
彭和平;[D];西北工业大学;2006年
中国硕士学位论文全文数据库
万玮;[D];西北工业大学;2006年
伊君翰;[D];复旦大学;2008年
王洪翠;[D];中国科学院研究生院(计算技术研究所);2006年
周一可;[D];上海交通大学;2011年
王涛;[D];哈尔滨工程大学;2002年
王晓华;[D];西北工业大学;2005年
霍洪鹏;[D];复旦大学;2012年
刘召煜;[D];湖南大学;2010年
张浩;[D];成都理工大学;2012年
胡根;[D];西北工业大学;2006年
&快捷付款方式
&订购知网充值卡
400-819-9993
《中国学术期刊(光盘版)》电子杂志社有限公司
地址:北京清华大学 84-48信箱 知识超市公司
出版物经营许可证 新出发京批字第直0595号
同方知网数字出版技术股份有限公司
订购热线:400-819-82499
在线咨询:
传真:010-
京公网安备74号Google(谷歌)有哪些逆天的黑科技?
联动微软和苹果的
按票数排序
Google Ngram Viewer
Google在2005年开始项目,试图囊括自现代印刷术发明以来的全世界所有的书刊。至2012年,已完成超过520万本书,包含5千亿个单词。Google Books Library Project与Google's Partner Program共同组建成广为人知的 。Google对书籍的处理不仅是扫描,还进行了数字化()与数据化(),这样就巧妙地避开大多版权问题。庞大的数据库甚至孕育了一个新学科()的成立。Ngram就是借用这个庞大的数据库开发的小工具,它有什么功能呢?----------------------------比如,想知道thrive的过去式应写作thrived还是throve,在Ngram里输入这两个词,得到下图。看图的最左端,1900年出版的书刊中,throve出现的个数占该年全部书刊的词汇总量的0.00006%,而thrived是0.00004%,岁月流逝,thrived越来越受到亲睐。今天,书刊中基本见不到throve了。试一下Influenza (流感),发现在1920年、1930年、1960年出现了三个波峰。这与“1918大流感”、“亚洲流感”等历史事件吻合。看一下全球气候,发现sea levels (海平面)、atmospheric CO2(大气中二氧化碳), global temperature(全球气温)这三个词的热度在近50年飞速增长。各个行业的热度呢?发现制造业在走下坡路,这说明社会在进步,不是吗?我们可以发掘地更深些。举一个例子。限定英文书籍数据库,搜索一位名为Marc
Chagall的艺术家,是一条上升的曲线,知名度越来越高,是正常的。但是,德语书籍数据库中的曲线在年出现了异常的低谷。为什么呢?原来Marc是犹太人,在特殊的年代他的名字被和谐了。再来一个例子,拿下图最右边绿色的这条线来说,人们到80年代末才开始疯狂地谈论“1990”,过了90年代中期,热度慢慢降低。对比不同的曲线,越后期的曲线在过了峰值后下降得越快,说明什么?社会节奏加快,人们更快地失去对过去的兴趣。当然,Google也扫描了英文外的很多语言,包括简体中文。--------------------------------补充信息------------------------------Ngram源自计算机语言目前收录的语种包括但不限于:美式英语,英式英语,法语,德语,西班牙语,俄罗斯语,希伯来语,汉语。Ngram Viewer收录的单词或短语需满足一项要求:该词或短语在某年出版的超过40本书中出现过,才会有该年该词的数据点。数据进行了标准化处理来削弱某些年份某些书印数过多对结果的影响。Culturomics这个词第一次出现是2010年,一篇刊登在Science的文章Quantitative
Analysis of Culture Using Millions of Digitized Books,作者是哈佛大学的Jean-Baptiste Michel 与 Erez
Lieberman Aiden。而这两位也参与了Google
Labs的Google
Ngram Viewer项目。Culturomics(文化组学)这个新词来源于Genomics(基因组学),后者研究人类基因组,文化组学通过定量分析数字化文本研究人类行为和社会文化发展,研究者大量数字化信息,探寻反映在语言和文字中的社会文化现象。在一个名为Culturomics
2.0的项目中,Kalev
H. Leetaru分析包含印刷品和媒体信息的数据库,限定透露出语气、情感和地理信息的词汇。该项研究追溯性预测到2011年阿拉伯之春事件,并成功地预测Osama
Bin Laden的生前所在地,误差在124英里以内。Alexander M. Petersen在其2012年所著的一篇论文中声称,他们发现了“词汇的产生和消亡的显著变化”:消亡得更快,产生得更慢。作者还发现了一个普适的新词生命周期的“临界点”:在其产生的30到50年之后,要么写入字典,要么消亡。---------------------------第一次得知Ngram是来自于一个TED演讲,以上诸多案例也来源于此。其他参考文献
自己回答一个:曾经听说过一个说法,google的谷歌文件系统(GFS)和谷歌MapReduce(GMR)是领先业内近10年的黑科技,在公开了部分技术内容后,衍生出了开源的Hadoop项目,也就是现在阿里、amazon等用的分布式文件系统。但即便现在类似Amazon、阿里、百度、facebook等全球各大IT公司聚合在一起完善和开发hadoop项目,可该系统的整体表现还是比google自家的差了一大截。而现在google甚至已经开始淘汰MapReduce等主流公司才开始刚刚使用的技术,开始研发、使用起了新一代的技术,从这个角度而言,google以一家之力干翻了全球几大最牛逼IT公司。
说到底终究是把很多本是黑科技的东西转换成了实际上能用好用需要用的商品。1,Google的基本业务,搜索,某种意义上重新定义了最近十多年的互联网。Google Now是它的最新进展之一。当然,如果佩奇与布林选择继续念书而没有这个google的话,另一个elgoog也会出现,只是时间问题2,Google Maps/Earth,它组合出了全世界的地图/卫星图像,探索出了(以广告/用户信息收集为代价,作为其它业务的基础)免费使用在线地图服务的模式3,Gmail,重新定义了网页邮箱,到今天,Google收购而来的Sparrow团队推出了Inbox,是它的进一步演进4,Android,它的创造性比不过iPhone,终究是后者重新定义了智能手机,但Android将这样的手机推广到了全世界的每个角落5,Chrome,它与mobile Safari将全世界的网页标准从IE切换到了webkit。在这一系列项目中,Google倡导了浏览器进程的沙盒化(直接目的是为了安全,进一步地为Chrome的操作系统化/平台化打好基础),通讯协议/标准的发展(HTML5,spdy--&HTTP2.0标准,TLS的演进、HSTS/TLS false start,quic---用udp承载HTTP),以及javascript引擎性能的极大提升(网页变得应用程序化的基础)。现在的javascript引擎往往用两级JIT,新代码先用最慢(但没有编译开销)的解释执行,当它有一定程度的重复使用后,便由第一级JIT(编译速度快,生成代码性能高于解释执行)编译成本地代码跑,更热的代码则交给第二级JIT(编译速度慢,生成性能最高的代码)iOS8/Yosemite的safari甚至把LLVM拿来做第三级JIT6,GAE是最早的公共云之一7,Glass等让人感到WTF的移动设备,还记得2012 Google I/O keynote的通过Glass与hanghout服务协作拍摄的跳伞直播吗?
永远忘不了初二的时候第一次在Google Earth上找到自己家时的震撼...
Google 文化学院 很帅气,大概就是把人类的文化遗产数字化的一个项目,最开始是通过艺术计划了解到的,可以免费看到世界名画。艺术计划里现在有了越来越多的画作和文物。逆天的分辨率:三星堆:现在在艺术计划里,有的画作还提供了讲解:有的还支持馆内全景图,身临其境的观看感受。。。。。还有很多很多的玩法,恕不一一列举。算是比较逆天吧。
呃,我觉得能叫黑科技的,至少得是一眼看上去更像是魔法的东西吧…… Google 的技术特色一向是简单粗暴有效,不崇尚黑科技的东西,所以才能一篇论文说清楚然后大家对着复制就行。在我的标准里Google能跟黑科技沾点边的,一是 ,Jeff Dean大神领衔的一个大规模深度学习系统,确实挑战了我们所认为的人工智能的极限。不过这说到底还是简单传统技术的超大规模堆砌,更黑科技的是,Google 正在制造量子计算机 ()。就算是这个,也是先用的 D-Wave 的技术,渐进式发展。哦对,Google真正的黑科技应该是Jeff Dean, 这可能是整个公司唯一会受到崇拜的人。Google内部有一个Jeff Dean Facts网站给大家编这位神人的笑话,比如早年Google搜索系统曾经宕机了几个小时,这段时间是他手工响应所有搜索请求,后来发现那段时间搜索结果质量提高了N倍。这里有一些公开的
谷歌已经完成对世界著名军用机器人生产商波士顿动力的收购。这家坐落于波士顿的机器人公司背后,是一群来自MIT的疯子科学家,在他们的努力下,机器人技术已经从科幻电影走向了现实。这足以称为未来黑科技,甚至是未来战场的主力!
1) Atlas 这款用古希腊巨人命名的机器人是一款人形搜索和救援机器人,它在今年夏天参与了美国国防部先进研究计划局的机器人挑战赛,并证明了自己在崎岖地形上如履平地的强大行走和平衡能力。它还可以在跑步机上健步如飞,而且在收到外界的突然袭击时,可以利用一只脚保持平衡,其自动平衡中枢强大到让人害怕。 Atlas还装备了带有激光测距仪的双镜头3D视觉系统和十分灵活的铝钛合金四肢和双手,这些装备赋予了Atlas在极端危险的环境中执行复杂任务的能力。而它也将作为6个备选方案中的一个参与美国国防部先进研究计划局的侦查和救援机器人竞标。 2) Cheetah 就如它的名字一般,这台机器人的法宝就是它的速度。就在不久前,它刚刚创造了有腿机器人的速度纪录:45.3km/h,这一速度对于轮式机器人而言是都属于创纪录的速度,更何况有腿机器人。Cheetah是在美国国防部先进研究计划局最高运动性和可操作性课题资助下进行的项目,它的仿生学“老师”是猎豹,波士顿动力的工程师们将猎豹的身体结构优势,利用仿生学原理进行了放置,从而在Cheetah身上实现了极高的运动速度。 3) WildCat 虽然上述两种机器人具有极强的能力,但是由于还处于研发阶段,因此都必须使用外接的电源来获得能量。WildCat就不同,它是一台为实战而生的机器人,Cheetah身上携带有一台小型汽油机,从而可以在野外自由行动。 虽然附加的重量会减慢它的速度,而且汽油机工作时会发出可怕的噪音,但是带来的任务灵活性和续航里程让他的竞争力大幅提升。WildCat为机器人如何有效利用现有成熟技术做出了表率。
简单来说就是,Google 允许一些公司或者 ISP 提供商存有一部分 Google 服务内容的本地备份,并且关联 Google 总的 Data base 实时更新服务内容。从而为本地用户提供最佳的用户体验。所以,在除了大陆以外的绝大部分地区。访问 Google 以及旗下相关服务和网站(包括 Youtube,DoubleClick 等等)都是差不多的速度。只要你的网足够好,在世界任何除了封锁 Google 之外的地方 ping
永远都是 10ms 以内。而且,同样是因为 Google Global Cache 的原因,使得大陆无法访问 Google 的情况不太能被赶净杀绝。因为
的 IP 至少有数十万个,全球各地除了大陆及一些地区以外的各类教育机构,ISP 提供商以及大部分公司都有 Google Global Cache。说到 Google 的服务器,山景城的 Google 服务器大面积采用了 Bloom Energy 的固体氧化物燃料电池供电,说来其实也算一种黑科技了。最后用一个反科技的东西作为结尾:原先是在 Quora 的 原先是在 Quora 的
上看到的此问题的回答精彩程度要比知乎这题目前的状况精彩太多,就不搬运了。
Google search(没有它不知道的)android( 报告显示,目前Android操作系统的全球市场份额已达84%,绝壁无人能敌)Gmail(革新了人类看邮件的方式)Google chrome(以简约快速征服了每个人)Google Driverless Car(将来不需要买汽车了,可以像租用公共自行车那样随取随用)Google earth(恐怖分子都说好)Google glassGoogle goggles(图片搜索、OCR)YouTube(汇聚大量高质量视频,且没有广告!)Google AppEngine(配合goagent你就自由了)
憋了好久,终于忍不住滚来答题。作为一个物流专业的商业地产从业者,厚着这么大的脸皮上来答题确实是需要很大勇气,但作为一个伪Google粉,看到最高楼怒得1000多个赞确实也很是羡慕。下面我的回答请各位大神轻拍。1、你以为谷歌的地图只是给你拿来放大和缩小的吗?Too young
Too naive!它还可以完成下面的功能。1.1 移动实时的晨昏线以及全球灯光图首先将Google Maps缩小到最小,然后点击左下方的红色方框。然后你就会看到下面这张逼格图。然后你就会看到下面这张逼格图。现在是东八区的20:18,你还记得上面那条线是晨线还是昏线吗?现在是东八区的20:18,你还记得上面那条线是晨线还是昏线吗?南极洲现在已是极昼,不知企鹅们现在是不是在享受日光浴呢?南极洲现在已是极昼,不知企鹅们现在是不是在享受日光浴呢?中国东部和岛国日本一片灯火通明,咦咦,我们的邻居怎么没有出来凑热闹?中国东部和岛国日本一片灯火通明,咦咦,我们的邻居怎么没有出来凑热闹?1.2
地下景观图你是不是以为Google Maps只能提供地面的景观图,哈哈,它还能上天入地。秋芳洞作为日本三大名洞之一,现在已经加入谷歌的豪华逼格套餐。请点击。1.3 1.3 模拟你的城市遭到原子弹或者小行星的袭击依据Google Maps的框架和一点的Javascript,你可以看到,如果核弹在你的城市爆炸或者遭到小行星撞击后会有什么后果。选择核弹或者小行星。搜索地点为:广州(Guangzhou),核弹为“Little Boy”,核弹介绍为(1945, US, The uranium Hiroshima bomb was the 1st device used in war)选择核弹或者小行星。搜索地点为:广州(Guangzhou),核弹为“Little Boy”,核弹介绍为(1945, US, The uranium Hiroshima bomb was the 1st device used in war)这是模拟“Little Boy”广州的热力图。这是模拟“Little Boy”广州的热力图。这是模拟“Little Boy”广州的压力图。这是模拟“Little Boy”广州的压力图。模拟“模拟“asteroid impact”,上图为广州遭遇“asteroid impact”的热力图。模拟“模拟“asteroid impact”时广州压力图。但愿这些都不会发生。2、谷歌趋势又名Google Trends ,主要通过对一段时间内的关键词搜寻量进行统计,得出当下时段的热门内容。阿黛尔·阿德金斯和麦当娜·西科尼的搜索热度。2012年阿黛尔·阿德金斯凭借专辑《21》和单曲《Rolling In The Deep》拿下第54届格莱美六项奖项,这与谷歌趋势中阿黛尔的搜索热度在2012年达到最大值完全符合。同时你也可以查看这两个歌手在不同国家和城市的搜索热度。同时你也可以查看这两个歌手在不同国家和城市的搜索热度。3、Google Search Google Search是如何简单粗暴和逼格满满请浏览我的回答。通过这两天我学习,我发现我之前的东西都弱爆了。3、1 即时显示各个国家的GDP增长率、人口增长率、人口死亡率、失业率下面以美帝为例。上图为美帝的上图为美帝的GDP增长率、人口增长率、人口死亡率、失业率。这里我们不和百度做对比了。百度只有美帝的GDP增长率能够给出和谷歌的结果,其他的都不能让人满意。3、2 程序员表白的利器利用Google Search搜索“(sqrt(cos(x))*cos(200x)+sqrt(abs(x))-0.7)*(4-x*x)^0.01, sqrt(9-x^2), -sqrt(9-x^2)”,你将得到一个爱心!Fromhttp://如果这个还不够诚意的话,请试试这个如果这个还不够诚意的话,请试试这个3D旋转爱心!搜索“5 + (-sqrt(1-x^2-(y-abs(x))^2))*cos(30*((1-x^2-(y-abs(x))^2))), x is from -1 to 1, y is from -1 to 1.5, z is from 1 to 6”。
Fromhttp://如果你是个Chrome浏览器使用者的话,也可以浏览我关于Chrome的回答以上完。
:建筑方案设计的“键鼠铅笔”。祭出苏珊女神:
Adwords.真的太牛了,这个东西做的。我每天心甘情愿为它掏几百块。你说除了我根本不会去沾的大宝剑还有啥能这么利索让人掏钱。
黑科技就是通过大把的金钱收购start up然后把自己描述成能够拯救世界的科学狂人。事实上,怎么可能呢?钱是很多,做的东西可并不是最专业,最好,最有价值的。现在应该认识到,办公软件还是office专业消费者软/硬件还是apple牛逼科学技术比不过stanford mit前瞻性不如小的start up。
google是一个自己能做到50,向外夸耀自己能做到100甚至500的公司。google真的有那么多先进技术吗?其实在google发布这些技术之前很多年,这些技术都已经存在了。但是一般大众不知道,为什么?其实这个和谷歌的发展策略有关系。谷歌的发展策略是什么呢?就是在自己的广告业务赚大钱的前提下,因为自己不差钱,就靠免费耍流氓,大面积的摧毁很多成熟的或者正在发展中的领域。比如n-gram,在google之前没有类似的项目吗?当然有,但是是要收费的,因为开发人员不可能光干活不吃饭吧。google一出手,一下免费了,看似方便了很多人。可是一般用户有多少人真的使用它呢?相反的,以前做类似工作的中小公司受到这个冲击很多就倒掉了。其实仔细看看google大部分的项目都具有上面的特征:靠免费来搅局。短时间来看,似乎大部分人都从中受益,但是长期来看,谷歌的行为其实摧毁了相关领域的经济基础,没有钱怎么向下发展?但是大部分人都是短视的,所以才有那么多人对谷歌的技术惊叹。
来歪个楼。难道不是穿越搜索吗??
现在大数据行业运用最广泛的Hadoop/Spark,其核心思想Map-Reduce,就是来源于Google曾经公布的一篇论文。Hadoop文件系统HDFS(Hadoop File System)就是来源于Google文件系统GFS(Google Gile System)。当包括中国政府在内的其他人还在对自家的超级计算机洋洋得意之时,人家google早已玩起了分布式存储计算。单个大量叠加上千的CPU/GPU确实大幅提升计算性能,但是多台计算机组建集群,跨机房调度协同来提升计算能力更为便宜。分布式计算基于普通商用服务器协同计算来提高计算能力,是可扩展、容错性强、可开放且相对廉价的弹性计算。性价比方面已经完胜了超级计算机。从这个层面上讲,Google在大数据领域已经大幅领先所有人。
个人觉得过google最牛的是他的商业模式,依靠搜索广告累计的巨额财富,干着改变世界的事情,在每个细分领域都会刷一个存在感,社交、办公、操作系统、云服务、地图、清洁能源、街景、艺术馆……
Google Search...
黑科技是指远远领先于当前时代的,让人觉得不可思议的科学技术。简单来说,你可以认为是刷新了你的世界观的技术。所以它是一个相对概念,和每个人的知识水平有关。对于在知乎上的各位朋友,我想可能很少有能称之为黑科技的东西了吧。
Google trends和Google Zeitgeist,不知道算不算。特别是Zeitgeist一年一度的总结视频,每次看它都能把我震撼成狗。MapReduce与SQL会发生怎样美妙的化学反应?
发表于 22:22|
来源CSDN编译|
摘要:Google在2004年创造了MapReduce,MapReduce集群可包括数以千计的并行操作的计算机。同时MapReduce允许程序员在如此庞大的集群中快速的转换数据并执行数据。 从MapReduce到Hadoop,这其中经历了一个有趣的转变。MapReduce最初是帮助搜索引擎公司应对万维网所带来的创建索引时产生的大量数据。Google最初也招募了一些...
Google在2004年创造了MapReduce,MapReduce集群可包括数以千计的并行操作的计算机。同时MapReduce允许程序员在如此庞大的集群中快速的转换数据并执行数据。
从MapReduce到Hadoop,这其中经历了一个有趣的转变。MapReduce最初是帮助搜索引擎公司应对万维网所带来的创建索引时产生的大量数据。Google最初也招募了一些硅谷的精英,并雇用了大批的工程师来完善MapReduce。并快速将技术应用在相关的行业之中,如金融、零售等。Goolge曾拿出MapReduce的部分相关信息与Nutch团队分享,以开发开源版本&Hadoop&。但Yahoo则将Nutch收入到旗下。Yahoo在2007年将其发展成Hadoop开源项目。Hadoop现在越来越多的用于大数据的大规模并行数据处理引擎。
现今大家都热衷于大数据领域。开源的项目如Apache Hive、Pig。以及像MapR和Hadapt这样的创业公司。众所周知,如果MapReduce和Hadoop中用来进行数据分析的应用编写起来过于复杂的话,那么就需要优秀程序员处理,这并不利于MapReduce技术的发展。所以现今所有Hadoop供应商都亟待解决的一个问题就是如何将MapReduce变得更易于使用。
企业大数据与敏捷大数据
从IT角度来看,信息结构类型大致经历了三次浪潮。必须注意这一点,新的浪潮并没取代旧浪潮,它们仍在不断发展,三种数据结构类型一直存在,只是其中一种结构类型往往主导于其他结构:
结构化信息&&这种信息可以在关系数据库中找到,多年来一直主导着IT应用。这是关键任务OLTP系统业务所依赖的信息,另外,还可对结构数据库信息进行排序和查询;
半结构化信息&&这是IT的第二次浪潮,包括电子邮件,文字处理文件以及大量保存和发布在网络上的信息。半结构化信息是以内容为基础,可以用于搜索,这也是谷歌存在的理由;
非结构化信息&&该信息在本质形式上可认为主要是位映射数据。数据必须处于一种可感知的形式中(诸如可在音频、视频和多媒体文件中被听或被看)。许多大数据都是非结构化的,其庞大规模和复杂性需要高级分析工具来创建或利用一种更易于人们感知和交互的结构。
而面对网络中三种类型信息的挑战,大数据的发展趋势逐渐明朗。在今年9月于纽约召开的O&Reilly Strata大会上就将发展趋势概括为企业大数据和敏捷大数据。企业大数据是最具挑战性的问题,也是企业盈利的需要解决的问题。而敏捷大数据是另外一个需要关注的问题。如Greenplum和Aster等在企业BI领域都有涉足。
如果事实证明大数据必须购买企业级的产品,那么就意味着大数据会花大本钱。但这并非绝对,通过使用大数据敏捷技术,各种规模的企业都可以控制成本,从大数据中获益。至关重要的是尽可能降低成本并最大化的了解大数据集,一旦数据被转化为可用便具有对业务的洞察力,然后以各种方式将问题汇总,并发挥企业技术的优势解决问题。
MapReduce易用性是其发展最大障碍
MapReduce系统获得成功的原因之一是它为编写需要大规模并行处理的代码提供了简单的编程模式。它受到了Lisp的函数编程特性和其他函数式语言的启发。MapReduce和云计算非常相配。MapReduce的关键特点是它能够对开发人员隐藏操作并行语义 & 并行编程的具体工作方式。
但现今,MapReduce很难成为商务人士讨论大数据的方式。因为要使用MapReduce至少需要以下四种技能。
1.将商业问题转换为可分析解决的问题
2.将可分析解决的问题转换为MapReduce模型
3.调试、编码、优化MapReduce以处理数据的能力
4.具备Hadoop和MapReduce的丰富经验,并具备调试部署在Hadoop上代码的能力
在大数据时代下,使用传统的数据库进行查询、排序、定义、和提取数据时显得有些力不从心。而处理大数据业务的本质(如MapReduce)需要更多的技能。但大批雇佣这些高技能人才是不现实的。
SQL与MapReduce 传统与现代的结合
SQL对于编程专家和业务分析师用来查询数据来说是非常熟悉的模式。而MapReduce的魅力在于有能力处理程序方案中相对复杂的搜索查询。如果将两者结合起来会带来什么样的变化?
Aster已经提供了一种被称为SQL-MapReduce的框架,这个框架可以使数据科学家和商业分析师对复杂的信息进行快速调查分析,允许一组关联计算机(计算机群集)使用软件语言(如 Java、C#、Python、C++ 和 R)并行进行程序表达,然后通过标准SQL 激活(调用)使用。
而Greenplum提供支持SQL和MapReduce并行处理功能,并能以较低的成本处理TB量级到PB量级企业数据。Greenplum整合了MapReduce和SQL技术,并且将直接在Greenplum的并行数据流引擎(位于Greenplum数据引擎的中心)内部直接执行MapReduce和SQL。Greenplum MapReduce可以使程序员对储存在Greenplum数据引擎内部和外部的PB量级规模的数据集进行分析。带来的好处是应对不断增长的标准编程模型来满足关系数据库的可靠性和熟悉性。
同时像微软这样的领导厂商也参与其中。微软已经推出了Hadoop与SQL Server的连接工具,客户将能够在Hadoop、SQL Server和并行数据仓换环境下相互交换数据。与此同时,微软还与Hortonworks展开深度合作。其目的就是为了将Hortonworks在Hadoop领域的专长以及微软产品易用化的特性有机的结合起来,并简化下载、安装和配置等几个Hadoop的相关技术。
未来随着SQL和MapReduce技术结合的不断完善,MapReduce将变得更容易使用,并广泛的受到关注。相信我,时间会证明一切。
推荐阅读相关主题:
网友评论有(0)
CSDN官方微信
扫描二维码,向CSDN吐槽
微信号:CSDNnews
相关热门文章}

我要回帖

更多关于 mapreduce原理 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信