学校宽带电信宽带 套餐好还是联通好

做数据分析不得不看的书有哪些? | 知乎精选
我的图书馆
做数据分析不得不看的书有哪些? | 知乎精选
【老豚晕糖的回答(28票)】:
一直在自学和用的东西。因为不是本专业,所以随便讨论一下,仅作参考。
补充一下我了解的数据挖掘经典教材,
1《数据挖掘概念与技术》,作者:[加]Jiawei Han/Micheline Kamber 译: 范明/孟小峰 等
2《数据挖掘导论》,作者: [美]Pang-Ning Tan,Michael Steinbach,Vipin Kumar 著
3《数据挖掘技术——市场营销、销售与客户关系管理领域应用》作者: (美)贝瑞(Berry.M.J.A.),(美)莱诺夫(Linoff.G.S.) 著,别荣芳,尹静,邓六爱 译
三本都有中文版,前两本范明教授的翻译看起来不流畅,可能的话还是去看英文原版。
相关的知识模型,主要应该是多元统计方面的。有的学校只用自己的影印版书做教材。可参考英文书很多,就不一一列举。中文的可以看清华的《实用多元统计分析》
的确,数据挖掘不只是电商的,也不只是数据仓库,学术型的讨论更多在各种模型,如:分类、回归预测、相关性分析等。
如果要做模型做得实用可行,一是用更高级更复杂的模型,本科教材级别的估计不够;二是更巧妙地定义问题、简化问题。不过无论怎样,只要能解决问题,就是好方法。
【董友良的回答(42票)】:
说实话,干互联网那么久,没有看过网站分析方面特别好的中文书,给楼主一些链接吧,里面有一些清单:
中文的补充一本
《精通Web Analytics 2.0——用户中心科学与在线统计艺术》
以网站分析为主,作者是Avinash Kaushik,译者是郑海平,邓天卓,两位作者是国内网站分析领域比较有经验的牛人,翻译是比较专业的。
附录:网站分析可以读的几本书(但是千万不要扎进去爬不出来了!)
全部是英文的
1. Sybex – Advanced Web Metrics with Google Analytics. Mar 2008。虽然是2008年的书,但是里面有一些关于网站分析的基本实现方法和网站分析工具的基本原理,值得一读。如果你觉得学习了GCU还不过瘾,那么你也可以通读这本书。
2. Google Analytics by Justin Cutroni (O'Reilly shortcuts)。这本书不错,内容精练,可以全部读完。
3. Wiley-Web Analytics For Dummies (2007)。 闲得无聊可以翻翻。
4. Avinas的两本,读英文版的。不过,不建议初学者读。
5. Sybex – Landing Page Optimization – The Definitive Guide to Testing and Tuning for Conversions – Jan 2008。值得读,随便翻阅,会有收获。
6. Don’t make me think,跟网站分析不直接相关,但值得读。
纯数据分析和数据挖掘方面的,下面2本偏理论的,属于“道”这个层面,适合有几年工作经验以后再看
数据仓库(原书第4版)
数据挖掘概念与技术(原书第2版)
偏工具使用的,SAS和SPSS的书,市面上很多,说实话,都是把帮助文件翻译成中文,加一些实验示例,只能让你会使用工具,让你入门,至于说提高,主要靠工作经验的积累。
【喻欣的回答(24票)】:
数据分析的基础是统计学,复杂点的理论是数据挖掘,这两个是基础,是分析过程中使用的工具而已,个人能力的提升并不能体现在这两个方面的知识有精通,更重要的是个人思维以及与别人沟通展示自己的想法。这两个基础可以推荐两本书,《爱上统计学》,《数据挖掘概念与技术》,需要了解出现什么问题,用什么方法能解决即可。
思维方面的书推荐:《批判性思维》,《黑天鹅》,《数据会撒谎》,《博弈论》,《麦肯锡方法》《思考的技术》等等
数据展示方面:《用图表说话》,《excel演绎之道》,《演示之禅》,《餐巾纸的背面》,《视觉化思维》
数据分析与产品运营是离不开的,为此多学习产品、营销方面的知识是有利无弊的。
【茉茉的回答(4票)】:
推荐一本不错的理论书:
《The elements of statistical learning: data mining, inference, and prediction 》
作者:Trevor Hastie,Robert Tibshirani,Jerome H. Friedman
这本书在google books 上也能找到,你可以试着看下部分章节,是不是你想要找的那种:
【段曼妮的回答(2票)】:
没有啥不得不看的吧,只有看了更好的。有一本:m.bishop 的 Pattern recognition and Machine Learning. 不错。比较深入浅出。
【丁利的回答(4票)】:
199IT网站有一个读书频道,里面有一些数据分析、数据挖掘、消费者研究、新媒体类的图书。
【常博的回答(3票)】:
推荐一本《数据之美》,里面的案例比较杂,覆盖数据分析的方方面面。
【知乎用户的回答(5票)】:
热诚推荐看过的几本经典。
《Head First Data Analysis》链接:电子工业出版社的经典书目系列,从数据分析基本步骤开始、实验方法、最优化方法、假设检验方法、贝叶斯统计方法、主观概率法、启发法、直方图法、回归法、误差处理、相关数据库、数据整理技巧一一讲到。图比较多,适合入门。
《Head First Statistics》链接:推荐理由同上,适合入门者的经典教材。
《R in Action-Data Analysis and Graphics with R》链接:
R是属于GNU系统的一个自由、免费、源代码开放的软件,用于统计计算和统计制图。这本书从实用的统计研究角度逐例分析R在数据处理、模型构建、以及图形操作上的由浅入深的结合,堪称经典。
《数据之魅-基于开源工具的数据分析》链接:作者是华盛顿大学理论物理学博士。这本书是数据分析的经典之一,包含大量的R语言模拟过程及结果展示,例举了很多数据分析实例和代码。
《数据挖掘-市场营销、销售与客户关系管理领域应用》链接:作者是Data Miners的创办人,有二十多年的营销和客户关系管理结合数据挖掘的经验。详细介绍了作为一个数据挖掘团队需要的知识体系,包括数据库、SAS使用、统计学、机器学习、数据可视化、如何访问用户收集需求、如何写论文与沟通等等。有条件的建议看英文原版。
先把这些花时间啃啃,数据分析的理论部分就基本入门了,根据实际情况还需要结合你的业务需求来进行系统的学习。
以上,有时间再来更新。
【赵智的回答(4票)】:
工具书没有绝对的好坏,关键是适合自己吸纳知识的方式,可以高效率的学习。
思想性的和展示交流的应该多看看,因为很多做分析的不擅长将自己了解的东西告诉别人。
展现交流思路方面推荐麦肯锡的 《用图表说话》,《演示之道》大数据集展现推荐一些数据可视化的书籍,例如《可视化数据挖掘》,《数据之美》这方面的书好像不太多。展示技巧方面:《excel图表之道》。
思想性的《统计思想》《黑天鹅》。
【黄恩的回答(2票)】:
推荐一本《超级数字天才》
里面基本上都是数据挖掘和数据分析的思想和思路,看过之后受益匪浅。
【zhoubuer的回答(3票)】:
数据分析的基础是统计学。统计学的内容就那么点,为什么精通的不多?问题在于,是否能够能够真正理解统计学的内涵。
举个例子,为什么在统计应用中,人们更加习惯使用平均数,而不是中位数,尽管他俩都是描述性统计量。
我的理解是平均数的形成涉及到加法和除法,而中位数的形成只涉及到不等式符号。平均数的运算符比中位数的运算符更高级,这就导致了平均数对总体的描述信息量比中位数的描述信息量要更加大一些,故平均数的应用更加广泛一些,而中位数则出现在对总体信息量要求少一点的统计方法中,如秩和检验什么的。(值得注意的是,俺的这段分析相当民科,纯属一家之言,本段分析的漏洞在于,运算符的优先性是指在电脑中运行的优先顺序,在统计学中,并没有这样的说法,所以大家谨慎思考)
数据分析的核心思想是什么,基本原理是什么,我觉得更为重要,是一些数据工具书难以提供的,需要去慢慢领悟的
【thinkind的回答(1票)】:
重温大学时的微积分、统计等教材,巩固基础;精选三本书,读透;
关注牛人的博客和微博。
【武国仁的回答(1票)】:
《深入浅出数据分析》,我推荐这本~其中的分析和论证方法很有价值,包括全书身临其境的般的发现-分析-解决问题,再反馈的情境~看过之后,再去看其他那些书吧~如果是网站分析,就可以再看看《 精通Web Analytics 2.0——用户中心科学与在线统计艺术 》这本书~然后,再看什么应该有眉目了~
至于更高深的数学模型和理论,应用层面的好像没太大用处,数据分析的目的是得出可操作性的结论和措施,没必要深究那种显得高深莫测的东西吧~
【知乎用户的回答(1票)】:
黑白 ,在互联网世界攻城略地,等待在某领域一手遮...
听说《深入浅出数据分析》可以。
一般。入门的话,还不如谁说菜鸟不会数据分析呢。
【知乎用户的回答(0票)】:
《精通Web Analytics 2.0——用户中心科学与在线统计艺术》
以网站分析为主,作者是Avinash Kaushik,译者是郑海平,邓天卓。翻译还是比较专业的。
【陈静的回答(0票)】:
要打好基础,基本的数据挖掘技术与数据统计、分析方法是一定要懂的,此外,要找好自己偏向的数据分析领域,专注于哪方面的分析,再尽量多地了解此领域的一些专业知识,这样,在做具体的数据分析时,不会觉得自己是个门外客。
【何涛的回答(0票)】:
推荐:《精通Web Analytics 2.0——用户中心科学与在线统计艺术》
【涵灵的回答(0票)】:
"精通Web Analytics 2.0"这本好像最近经常被人推荐。
【宋立志的回答(0票)】:
《深入浅出数据分析》这本的确不错。
【林小徐的回答(0票)】:
如果你是菜鸟,推荐可以看下 谁说菜鸟不会数据分析,从基础开始讲,挺好的。
TA的最新馆藏[转]&淘宝数据分析方法图文讲解
  首先,我先说一下自己用excel等工具做的分析,跟使用这些现成数据平台的区别。  1丶会用工具自己做分析,不单单局限在淘宝,这个时代什么行业都有数据,如果掌握了,你做什么都能应用到。用淘宝指数或者阿里指数只能局限在淘宝这一块。  2丶用现成的数据平台,只要求能看懂数据,几乎不需要自己动手分析数据。可能100个人里面有10个人能看懂这些数据并应用这些数据,如果要自己动手分析,100人里面可能只有2-3个有这种能力。往往能自己分析的机会会比别人多一点点。  我们回到主题,这一篇是送给小卖家或者准卖家,准卖家就是即将成为卖家的朋友。因为我们这个时候没有数据魔方,没有生e经,但是不用怕,依旧做得了分析。  提出一个概念:【风险把控】  其实无论什么时候,商业都需要控制风险,把商业活动的风险降到最低。但这4个字,特别对于小卖家或者准卖家而言,却异常重要,因为,我们经不起风险。犹如大海中的一叶孤舟,一个海浪打过来,就消失不见,这种案例我看得太多了。  因此,要学会风险把控,把风险降到最低。  那么,接下来,就跟我一起看数据吧。  淘宝指数:  先进去排行榜。注意这里面的信息,比如统计时间,还有排名类型,下面是搜索排行  【这里可以找到在暴增的关键词,关键词跟产品有关系,这个是一个入口。比如风衣,增长了约5倍,我们选择一个在增长中的产品,借助这个产品需求的增长,就相对容易做一些。】  看到的东西都要去搜索验证一下,因为,我们必须排除人为刷起的市场,如果我误入这种市场,可能会蒙受损失。原来,【风衣】这个词是淘宝的扶植词。没什么问题。  大家要注意,首先看到的是搜索排行,数据是对比上一周的涨幅。统计时间在右上角,这个要注意。  如果勤快的话,可以定期来收集数据,把数据贴到excel表格里面。步骤我演示一下,先把数据选起来,然后右击复制  到excel中,右击,选择性粘贴  然后,就会看到结果,但是结果不是我们想要的格式。我们就在数据――分列把数据变换一下。  这样就可以了。以下很多数据,勤快的朋友可以把数据拿下来。  成交排行里面多了个热销指数,还有一个地域选择,根据自己的地域,可以优先选择一下。这里是品类排行,品类就是产品类别。  最近7天,排名前三的品类分别是打底衫丶连衣裙和外套。  这里是品牌排行,代销的朋友可以相对找个好一点的品牌来代理。但有时候是品牌选择你,而不是你选择品牌。所以,找相对好一点的就行。  最后一个是行业排行。就是淘宝上面的类目排行。同样要注意这个统计时间。  我随便找一个看看,就家居服套装吧。  点一下,就可以跳转到这里,默认是搜索指数,但是我一般习惯搜索和成交两个指数一起来参考,可以看出一个行业的淡季和旺季,这个是必须了解的,不要傻到淡季杀入市场。。统计时间记得看,底下可以调统计时间段。  这里看的出是有增长趋势的。但是要注意这个是针对搜索的。  为什么要搜索和成交都参考呢?因为搜索代表了需求,但是可能还不到真正的需求点,可能是买家先在了解,时机到了就会成交。成交指数就不用多说了,针对买家人群多的地方,可以进行相应的促销策略,比如用到烂掉的包邮,思路大家自己拓展。  性别和年龄很重要,跟我们选择产品丶做详情页都有很大的关系。特别服装类的,卖萌装跟成熟装人群明显不同,选择优质人群可能做起来会容易很多。可以看出,女性买家居多,35岁以上的,成交喜好度挺高(成交喜好度(TGI)= 搜索词成交的该人群占比 全网成交的该人群占比 100 ),占比也不小  对于下面的星座,适合特别适用在年轻一族,有时候,打上星座幸运物/幸运款,转化率会异常高。  可以看出摩羯丶处女丶射手丶天蝎丶白羊的占比比较多  买家爱好在详情页上面可以利用。投其所好,提高转化率。比如,我们看到运动一族,那我可以在详情页上适当加入运动元素,或者送一些运动用品。  不同的买家等级会有不同的特点,比如新手买家,他们可能不会看销量,不懂看评价,不懂DSR丶只要能展现在他面前,他感觉不错就下单了,甚至不会付款。我比较喜欢新手买家,只要我们能耐心教他付款购物,跟他真诚交流,非常容易发展成铁杆粉丝。一般而言,高等级的买家要精明很多,评价丶销量,甚至会看DSR。  这里以新手和初级买家为主。  柱形是这个词的消费基数,线型全网的消费基数。基本上都是中层消费等级居多。  接着,我们看一下市场细分  这里的类目分布,非常重要,关系到关键词的类目匹配度。这里毋庸置疑,搜索家居套装服的时候默认展现不会出现儿童内衣裤这个类目的宝贝。  我们往下看,依旧要注意统计时间,和字段。这里有趋势,热销指数和均价。是相关品牌的情况。  点一下展开可以看到相关的宝贝,这里的款式可以参考。  下面,我使用人群筛选器,看一下我的目标人群的情况。不同的人群,在选款和定价策略上面会有差别。这里我根据前面看到的性别丶年龄和买家等级来筛选。这里会发现不同的人群喜好是不同的。  这里是相关商品,系统根据产品的型号或者品类来区分。  这里是相关属性,属性跟款式是直接挂钩的,也是细分市场的一个维度,所以要仔细看。淘宝可能会优先推荐人气属性的宝贝哦。  【单看不想是没用的,很多朋友反映说看不懂这些数据,每个人从数据里面读取出来的信息是不同的,这点很难统一。如果我想做低价的,我看到这个均价,我就会知道,我定价要低于这个价格才会有优势。如果我想做中端或以上的,就要高于这个价格。大家不要轻信别人的结论,一定要结合自己的资源和想法来读懂这些数据。没有什么捷径,多练习即可。】  接着,到阿里指数/  这里是行业大盘,选择相应的类目后就可以看到。可以看到这个行业8月底就开始活跃了。因为淘宝采购指数上升,后面没有填充颜色的部分是对未来的预测。那么,要做的得赶紧。。现在可能已经慢人家一步了。依然注意看统计时间。  阿里指数连数据解读都给出来了。  1.未来一个月,睡衣丶家居服丶睡袍丶浴袍行业在淘宝市场:市场需求小幅上升。  2.建议采购商关注市场行情,保持备货。  这个是相关行业,或许可以拓展发现某些商机。  1.最近30天在睡衣丶家居服丶睡袍丶浴袍相关行业中,成人袜在淘宝的市场需求最大。  2.预测未来一个月,保暖上衣丶套装市场需求有较大增长。预测结果仅供大家参考,建议采购商结合自身实际情况,在关注所选行业之外,可以重点关注保暖上衣丶套装。  下面进一步看一下属性细分。这里统计的是30天数据。个人觉得这里非常强大,可以给卖家们参考,结合目标人群,选择符合市场的产品。这样可以大大降低风险。  浅蓝色的条形图代表淘宝在架的宝贝数,宝贝数越多,竞争越大。相应的,宝贝数越少,竞争就越小。  这里我注意到蝴蝶结,蝴蝶结应该是一个流行元素。  下面看一下价格,阿里给出的解读是  1.最近30天,所有面料的睡衣丶家居服丶睡袍丶浴袍,淘宝市场成交最多的商品价格带为&=78.1元,您的同行在1688市场采购最多的商品价格带为31.2~46.9元。  2.建议采购商根据自身情况,控制采购成本。  淘宝成交最多的是&=78.1元的产品,这个信息可以指导我们的定价。  下面看下阿里排行,这个是产品排行榜,可以选择统计时间是7天或者30天,还可以选择交易或者流量维度,流量维度就是看的人多的产品。  这个产业基地可以了解各行业各的产业分布哦。也是非常不错的!花不了多少时间,就可以知道各个地方有哪些产业,说不定你还可以发现自己所在的地方有不少优质产业。  整套认认真真,仔仔细细研究个1-2天,相信对整个市场的理解会上一层楼。  一直有人跟我说,看这些没用。其实有没有用真心是看自己,数据都是参考,几乎没有100%的数据。  其实,一些分析的思路,适用于很多领域。只是现在这个工具只适合淘宝这块。任何的东西都需要自己去理解消化,不能生搬硬套。  数据可以说是我们了解市场的唯一渠道,了解市场后才能做出相应的决策,但一定是结合我们自身来做决策的。
阅读本文后您有什么感想? 已有
人给出评价!
04-10-0704-10-0704-10-0704-10-0704-10-0704-10-0704-10-0704-10-07
注:您的评论需要经过审核才会显示出来
Copyright &
PC6下载().All Rights Reserved
备案编号:湘ICP备号【绝对干货】60款顶级大数据开源工具,总有一款适合你!_数据分析精选_传送门
【绝对干货】60款顶级大数据开源工具,总有一款适合你!
数据分析精选
导读:说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。弗雷斯特调研公司的分析师Mike
Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hadoop。Market
Research的一份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长;到2020年,市场产值会超过10亿美元。IBM更是非常看好开源大数据工具,派出了3500名研究人员开发Apache
Spark,这个工具是Hadoop生态系统的一部分。这回我们推出了最新的顶级开源大数据工具排行榜。这个领域最近方兴未艾,许多新项目纷纷启动。许多最知名的项目由Apache基金会管理,与Hadoop密切相关。请注意:本文不是要搞什么排名;相反,项目按类别加以介绍。与往常一样,要是你知道另外的开源大数据及/或Hadoop工具应该榜上有名,欢迎留言交流。一、Hadoop相关工具1. HadoopApache的Hadoop项目已几乎与大数据划上了等号。它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算。支持的操作系统:Windows、Linux和OS X。相关链接:http://hadoop.apache.org2. Ambari作为Hadoop生态系统的一部分,这个Apache项目提供了基于Web的直观界面,可用于配置、管理和监控Hadoop集群。有些开发人员想把Ambari的功能整合到自己的应用程序当中,Ambari也为他们提供了充分利用REST(代表性状态传输协议)的API。支持的操作系统:Windows、Linux和OS X。相关链接:http://ambari.apache.org3. Avro这个Apache项目提供了数据序列化系统,拥有丰富的数据结构和紧凑格式。模式用JSON来定义,它很容易与动态语言整合起来。支持的操作系统:与操作系统无关。相关链接:http://avro.apache.org4. CascadingCascading是一款基于Hadoop的应用程序开发平台。提供商业支持和培训服务。支持的操作系统:与操作系统无关。相关链接:http://www.cascading.org/projects/cascading/5. ChukwaChukwa基于Hadoop,可以收集来自大型分布式系统的数据,用于监控。它还含有用于分析和显示数据的工具。支持的操作系统:Linux和OS X。相关链接:http://chukwa.apache.org6. FlumeFlume可以从其他应用程序收集日志数据,然后将这些数据送入到Hadoop。官方网站声称:“它功能强大、具有容错性,还拥有可以调整优化的可靠性机制和许多故障切换及恢复机制。”支持的操作系统:Linux和OS X。相关链接:https://cwiki.apache.org/confluence/display/FLUME/Home7. HBaseHBase是为有数十亿行和数百万列的超大表设计的,这是一种分布式数据库,可以对大数据进行随机性的实时读取/写入访问。它有点类似谷歌的Bigtable,不过基于Hadoop和Hadoop分布式文件系统(HDFS)而建。支持的操作系统:与操作系统无关。相关链接:http://hbase.apache.org8. Hadoop分布式文件系统(HDFS)HDFS是面向Hadoop的文件系统,不过它也可以用作一种独立的分布式文件系统。它基于Java,具有容错性、高度扩展性和高度配置性。支持的操作系统:Windows、Linux和OS X。相关链接:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html9. HiveApache Hive是面向Hadoop生态系统的数据仓库。它让用户可以使用HiveQL查询和管理大数据,这是一种类似SQL的语言。支持的操作系统:与操作系统无关。相关链接:http://hive.apache.org10. HivemallHivemall结合了面向Hive的多种机器学习算法。它包括诸多高度扩展性算法,可用于数据分类、递归、推荐、k最近邻、异常检测和特征哈希。支持的操作系统:与操作系统无关。相关链接:/myui/hivemall11. Mahout据官方网站声称,Mahout项目的目的是“为迅速构建可扩展、高性能的机器学习应用程序打造一个环境。”它包括用于在Hadoop
MapReduce上进行数据挖掘的众多算法,还包括一些面向Scala和Spark环境的新颖算法。支持的操作系统:与操作系统无关。相关链接:http://mahout.apache.org12. MapReduce作为Hadoop一个不可或缺的部分,MapReduce这种编程模型为处理大型分布式数据集提供了一种方法。它最初是由谷歌开发的,但现在也被本文介绍的另外几个大数据工具所使用,包括CouchDB、MongoDB和Riak。支持的操作系统:与操作系统无关。相关链接:http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html13. Oozie这种工作流程调度工具是为了管理Hadoop任务而专门设计的。它能够按照时间或按照数据可用情况触发任务,并与MapReduce、Pig、Hive、Sqoop及其他许多相关工具整合起来。支持的操作系统:Linux和OS X。相关链接:http://oozie.apache.org14. PigApache Pig是一种面向分布式大数据分析的平台。它依赖一种名为Pig Latin的编程语言,拥有简化的并行编程、优化和可扩展性等优点。支持的操作系统:与操作系统无关。相关链接:http://pig.apache.org15. Sqoop企业经常需要在关系数据库与Hadoop之间传输数据,而Sqoop就是能完成这项任务的一款工具。它可以将数据导入到Hive或HBase,并从Hadoop导出到关系数据库管理系统(RDBMS)。支持的操作系统:与操作系统无关。相关链接:http://sqoop.apache.org16. Spark作为MapReduce之外的一种选择,Spark是一种数据处理引擎。它声称,用在内存中时,其速度比MapReduce最多快100倍;用在磁盘上时,其速度比MapReduce最多快10倍。它可以与Hadoop和Apache
Mesos一起使用,也可以独立使用。支持的操作系统:Windows、Linux和OS X。相关链接:http://spark.apache.org17. TezTez建立在Apache Hadoop
YARN的基础上,这是“一种应用程序框架,允许为任务构建一种复杂的有向无环图,以便处理数据。”它让Hive和Pig可以简化复杂的任务,而这些任务原本需要多个步骤才能完成。支持的操作系统:Windows、Linux和OS X。相关链接:http://tez.apache.org18. Zookeeper这种大数据管理工具自称是“一项集中式服务,可用于维护配置信息、命名、提供分布式同步以及提供群组服务。”它让Hadoop集群里面的节点可以彼此协调。支持的操作系统:Linux、Windows(只适合开发环境)和OS X(只适合开发环境)。相关链接:http://zookeeper.apache.org二、大数据分析平台和工具19. DiscoDisco最初由诺基亚开发,这是一种分布式计算框架,与Hadoop一样,它也基于MapReduce。它包括一种分布式文件系统以及支持数十亿个键和值的数据库。支持的操作系统:Linux和OS X。相关链接:http://discoproject.org20. HPCC作为Hadoop之外的一种选择,HPCC这种大数据平台承诺速度非常快,扩展性超强。除了免费社区版外,HPCC
Systems还提供收费的企业版、收费模块、培训、咨询及其他服务。支持的操作系统:Linux。相关链接:21. LumifyLumify归Altamira科技公司(以国家安全技术而闻名)所有,这是一种开源大数据整合、分析和可视化平台。你只要在Try.Lumify.io试一下演示版,就能看看它的实际效果。支持的操作系统:Linux。相关链接:http://www.jboss.org/infinispan.html22. PandasPandas项目包括基于Python编程语言的数据结构和数据分析工具。它让企业组织可以将Python用作R之外的一种选择,用于大数据分析项目。支持的操作系统:Windows、Linux和OS X。相关链接:http://pandas.pydata.org23. StormStorm现在是一个Apache项目,它提供了实时处理大数据的功能(不像Hadoop只提供批任务处理)。其用户包括推特、美国天气频道、WebMD、阿里巴巴、Yelp、雅虎日本、Spotify、Group、Flipboard及其他许多公司。支持的操作系统:Linux。相关链接:https://storm.apache.org三、数据库/数据仓库24. BlazegraphBlazegraph之前名为“Bigdata”,这是一种高度扩展、高性能的数据库。它既有使用开源许可证的版本,也有使用商业许可证的版本。支持的操作系统:与操作系统无关。相关链接:/bigdata25. Cassandra这种NoSQL数据库最初由Facebook开发,现已被1500多家企业组织使用,包括苹果、欧洲原子核研究组织(CERN)、康卡斯特、电子港湾、GitHub、GoDaddy、Hulu、Instagram、Intuit、Netfilx、Reddit及其他机构。它能支持超大规模集群;比如说,苹果部署的Cassandra系统就包括75000多个节点,拥有的数据量超过10
PB。支持的操作系统:与操作系统无关。相关链接:http://cassandra.apache.org26. CouchDBCouchDB号称是“一款完全拥抱互联网的数据库”,它将数据存储在JSON文档中,这种文档可以通过Web浏览器来查询,并且用JavaScript来处理。它易于使用,在分布式上网络上具有高可用性和高扩展性。支持的操作系统:Windows、Linux、OS X和安卓。相关链接:http://couchdb.apache.org27. FlockDB由推特开发的FlockDB是一种非常快、扩展性非常好的图形数据库,擅长存储社交网络数据。虽然它仍可用于下载,但是这个项目的开源版已有一段时间没有更新了。支持的操作系统:与操作系统无关。相关链接:/twitter/flockdb28. Hibari这个基于Erlang的项目自称是“一种分布式有序键值存储系统,保证拥有很强的一致性”。它最初是由Gemini Mobile
Technologies开发的,现在已被欧洲和亚洲的几家电信运营商所使用。支持的操作系统:与操作系统无关。相关链接:http://hibari.github.io/hibari-doc/29. HypertableHypertable是一种与Hadoop兼容的大数据数据库,承诺性能超高,其用户包括电子港湾、百度、高朋、Yelp及另外许多互联网公司。提供商业支持服务。支持的操作系统:Linux和OS X。相关链接:http://hypertable.org30. ImpalaCloudera声称,基于SQL的Impala数据库是“面向Apache
Hadoop的领先的开源分析数据库”。它可以作为一款独立产品来下载,又是Cloudera的商业大数据产品的一部分。支持的操作系统:Linux和OS X。相关链接:/content/cloudera/en/products-and-services/cdh/impala.html31. InfoBright社区版InfoBright为数据分析而设计,这是一种面向列的数据库,具有很高的压缩比。提供基于同一代码的收费产品,提供支持服务。支持的操作系统:Windows和Linux。相关链接:bright.org32. MongoDBmongoDB的下载量已超过1000万人次,这是一种极其受欢迎的NoSQL数据库。上提供了企业版、支持、培训及相关产品和服务。支持的操作系统:Windows、Linux、OS X和Solaris。相关链接:http://www.mongodb.org33. Neo4jNeo4j自称是“速度最快、扩展性最佳的原生图形数据库”,它承诺具有大规模扩展性、快速的密码查询性能和经过改进的开发效率。用户包括电子港湾、必能宝(Pitney
Bowes)、沃尔玛、德国汉莎航空公司和CrunchBase。支持的操作系统:Windows和Linux。相关链接:http://neo4j.org34. OrientDB这款多模型数据库结合了图形数据库的一些功能和文档数据库的一些功能。提供收费支持、培训和咨询等服务。支持的操作系统:与操作系统无关。相关链接:http://www.orientdb.org/index.htm35. Pivotal Greenplum DatabasePivotal声称,Greenplum是“同类中最佳的企业级分析数据库”,能够非常快速地对庞大的海量数据进行功能强大的分析。它是Pivotal大数据库套件的一部分。支持的操作系统:Windows、Linux和OS X。相关链接:http://pivotal.io/big-data/pivotal-greenplum-database36. RiakRiak“功能完备”,有两个版本:KV是分布式NoSQL数据库,S2提供了面向云环境的对象存储。它既有开源版,也有商业版,还有支持Spark、Redis和Solr的附件。支持的操作系统:Linux和OS X。相关链接:/riak-0-10-is-full-of-great-stuff/37. RedisRedis现在由Pivotal赞助,这是一种键值缓存和存储系统。提供收费支持。要注意:虽然该项目并不正式支持Windows,不过微软在GitHub上有一个Windows派生版。支持的操作系统:Linux。相关链接:http://redis.io四、商业智能38. Talend Open StudioTalend的下载量已超过200万人次,其开源软件提供了数据整合功能。该公司还开发收费的大数据、云、数据整合、应用程序整合和主数据管理等工具。其用户包括美国国际集团(AIG)、康卡斯特、电子港湾、通用电气、三星、Ticketmaster和韦里逊等企业组织。支持的操作系统:Windows、Linux和OS X。相关链接:/index.php39. JaspersoftJaspersoft提供了灵活、可嵌入的商业智能工具,用户包括众多企业组织:高朋、冠群科技、美国农业部、爱立信、时代华纳有线电视、奥林匹克钢铁、内斯拉斯加大学和通用动力公司。除了开源社区版外,它还提供收费的报表版、亚马逊网络服务(AWS)版、专业版和企业版。支持的操作系统:与操作系统无关。相关链接:40. PentahoPentaho归日立数据系统公司所有,它提供了一系列数据整合和业务分析工具。官方网站上提供了三个社区版;访问,即可了解收费支持版方面的信息。支持的操作系统:Windows、Linux和OS X。相关链接:41. SpagoBISpago被市场分析师们称为“开源领袖”,它提供商业智能、中间件和质量保证软件,另外还提供Java
EE应用程序开发框架。该软件百分之分免费、开源,不过也提供收费的支持、咨询、培训及其他服务。支持的操作系统:与操作系统无关。相关链接:http://www.spagoworld.org/xwiki/bin/view/SpagoWorld/42. KNIMEKNIME的全称是“康斯坦茨信息挖掘工具”(Konstanz Information
Miner),这是一种开源分析和报表平台。提供了几个商业和开源扩展件,以增强其功能。支持的操作系统:Windows、Linux和OS X。相关链接:http://www.knime.org43. BIRTBIRT的全称是“商业智能和报表工具”。它提供的一种平台可用于制作可以嵌入到应用程序和网站中的可视化元素及报表。它是Eclipse社区的一部分,得到了Actuate、IBM和Innovent
Solutions的支持。支持的操作系统:与操作系统无关。相关链接:http://www.eclipse.org/birt/五、数据挖掘44.DataMelt作为jHepWork的后续者,DataMelt可以处理数学运算、数据挖掘、统计分析和数据可视化等任务。它支持Java及相关的编程语言,包括Jython、Groovy、JRuby和Beanshell。支持的操作系统:与操作系统无关。相关链接:http://jwork.org/dmelt/45. KEELKEEL的全称是“基于进化学习的知识提取”,这是一种基于Java的机器学习工具,为一系列大数据任务提供了算法。它还有助于评估算法在处理递归、分类、集群、模式挖掘及类似任务时的效果。支持的操作系统:与操作系统无关。相关链接:http://keel.es46. OrangeOrange认为数据挖掘应该是“硕果累累、妙趣横生”,无论你是有多年的丰富经验,还是刚开始接触这个领域。它提供了可视化编程和Python脚本工具,可用于数据可视化和分析。支持的操作系统:Windows、Linux和OS X。相关链接:http://orange.biolab.si47. RapidMinerRapidMiner声称拥有250000多个用户,包括贝宝、德勤、电子港湾、思科和大众。它提供一系列广泛的开源版和收费版,不过要注意:免费的开源版只支持CSV格式或Excel格式的数据。支持的操作系统:与操作系统无关。相关链接:48. RattleRattle的全称是“易学易用的R分析工具”。它为R编程语言提供了一种图形化界面,简化了这些过程:构建数据的统计或可视化摘要、构建模型以及执行数据转换。支持的操作系统:Windows、Linux和OS X。相关链接:49. SPMFSPMF现在包括93种算法,可用于顺序模式挖掘、关联规则挖掘、项集挖掘、顺序规则挖掘和集群。它可以独立使用,也可以整合到其他基于Java的程序中。支持的操作系统:与操作系统无关。相关链接:http://www.philippe-/spmf/50. Weka怀卡托知识分析环境(Weka)是一组基于Java的机器学习算法,面向数据挖掘。它可以执行数据预处理、分类、递归、集群、关联规则和可视化。支持的操作系统:Windows、Linux和OS X。相关链接:http://www.cs.waikato.ac.nz/~ml/weka/六、查询引擎51. Drill这个Apache项目让用户可以使用基于SQL的查询,查询Hadoop、NoSQL数据库和云存储服务。它可用于数据挖掘和即席查询,它支持一系列广泛的数据库,包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亚马逊S3、Azure
Blob Storage、谷歌云存储和Swift。支持的操作系统:Windows、Linux和OS X。相关链接:http://drill.apache.org七、编程语言52. RR类似S语言和环境,旨在处理统计计算和图形。它包括一套整合的大数据工具,可用于数据处理、计算和可视化。支持的操作系统:Windows、Linux和OS X。相关链接:http://www.r-project.org53. ECL企业控制语言(ECL)是开发人员用来在HPCC平台上构建大数据应用程序的语言。HPCC
Systems官方网站上有集成开发环境(IDE)、教程以及处理该语言的众多相关工具。支持的操作系统:Linux。相关链接:/download/docs/ecl-language-reference八、大数据搜索54. Lucene基于Java的Lucene可以非常迅速地执行全文搜索。据官方网站声称,它在现代硬件上每小时能够检索超过150GB的数据,它含有强大而高效的搜索算法。开发工作得到了Apache软件基金会的赞助。支持的操作系统:与操作系统无关。相关链接:http://lucene.apache.org/core/55. SolrSolr基于Apache
Lucene,是一种高度可靠、高度扩展的企业搜索平台。知名用户包括eHarmony、西尔斯、StubHub、Zappos、百思买、AT&T;、Instagram、Netflix、彭博社和Travelocity。支持的操作系统:与操作系统无关。相关链接:http://lucene.apache.org/solr/九、内存中技术56. Ignite这个Apache项目自称是“一种高性能、整合式、分布式的内存中平台,可用于对大规模数据集执行实时计算和处理,速度比传统的基于磁盘的技术或闪存技术高出好几个数量级。”该平台包括数据网格、计算网格、服务网格、流媒体、Hadoop加速、高级集群、文件系统、消息传递、事件和数据结构等功能。支持的操作系统:与操作系统无关。相关链接:https://ignite.incubator.apache.org57. TerracottaTerracotta声称其BigMemory技术是“世界上数一数二的内存中数据管理平台”,声称拥有210万开发人员,250家企业组织部署了其软件。该公司还提供商业版软件,另外提供支持、咨询和培训等服务。支持的操作系统:与操作系统无关。相关链接:http://www.terracotta.org58. Pivotal GemFire/Geode今年早些时候,Pivotal宣布它将开放其大数据套件关键组件的源代码,其中包括GemFire内存中NoSQL数据库。它已向Apache软件基金会递交了一项提案,以便在“Geode”的名下管理GemFire数据库的核心引擎。还提供该软件的商业版。支持的操作系统:Windows和Linux。相关链接:http://pivotal.io/big-data/pivotal-gemfire59. GridGain由Apache
Ignite驱动的GridGrain提供内存中数据结构,用于迅速处理大数据,还提供基于同一技术的Hadoop加速器。它既有收费的企业版,也有免费的社区版,后者包括免费的基本支持。支持的操作系统:Windows、Linux和OS X。相关链接:60. Infinispan作为一个红帽JBoss项目,基于Java的Infinispan是一种分布式内存中数据网格。它可以用作缓存、用作高性能NoSQL数据库,或者为诸多框架添加集群功能。支持的操作系统:与操作系统无关。来源:数据科学自媒体版权声明:本公众号的内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请联系我们。官方微信:数据分析精选(sjfxjx),关注后每天收货干货。
觉得不错,分享给更多人看到
数据分析精选 微信二维码
分享这篇文章
11月15日 14:05
数据分析精选 最新头条文章
数据分析精选 热门头条文章}

我要回帖

更多关于 电信宽带 套餐 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信