hadoop单机环境搭建模式可以研究存储方法吗

点击联系发帖人 时间：2016-04-19 04:05

hadoop单机环境搭建

您所在的位置： &
浅析Hbase中的Hadoop单机环境配置
浅析Hbase中的Hadoop单机环境配置
今天我们要介绍的是Hbase中的Hadoop单机环境配置，系统为Ubuntu10.04。希望对大家有所帮助。
HBase是一个分布式的、面向列的开源数据库，该技术来源于Chang et al所撰写的Google论文&Bigtable：一个结构化数据的分布式存储系统&。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.另一个不同的是HBase基于列的而不是基于行的模式。HBase使用和Bigtable非常相同的数据模型。用户存储数据行在一个表里。一个数据行拥有一个可选择的键和任意数量的列。表是疏松的存储的，因此用户可以给行定义各种不同的列。HBase主要用于需要随机访问，实时读写你的大数据（Big Data）。
本文主要介绍在Ubuntu10.04环境下安装配置单机版原生的HBase。在网络上找到的文章要么语焉不详，要么ungeliable.于是记录一下自己的安装配置过程，做个STEP BY STEP的图文并茂的教程，谨防自己以后忘记。
51CTO向您推荐《》
安装Hbase其实主要是配置好java环境以及Hadoop与Hbase的配置文件。
1.安装并配置Java环境。在Ubuntu10.04默认的源使用的OpenJDK，在某些应用上OpenJDK并不被支持(如abicloud等).我们为了省事还是安装sun java ，打开终端，输入以下命令：
sudo&add-apt-repository&&deb&/&lucid&partner&& &sudo&apt-get&update&& &sudo&apt-get&install&sun-java6-jre&sun-java6-plugin&sun-java6-fonts&& &sudo&apt-get&install&sun-java6-jdk&sun-java6-plugin&sun-java6-fonts&&
查看是否安装成功
$&java&-version&&
(2) 设置默认的java解释器。
sudo&update-alternatives&--config&java&&
会出现下列图面：
498)this.width=498;' onmousewheel = 'javascript:return big(this)' alt="" src="/files/uploadimg/0450.png" />
输入你想选择的编号。
(3)编辑java环境变量
sudo&gedit&/etc/environment&&
在弹出的environment文件中添加下列两行：
CLASSPATH=.:/usr/lib/jvm/java-6-sun/lib &JAVA_HOME=/usr/lib/jvm/java-6-sun
保存退出，行文至此，java环境已经配置好。
2.安装并配置Hadoop。虽说我安装的是单机版的Hbase，但是由于Hadoop本来就是分布系统，使用SSH通讯。
(1)安装ssh
sudo&apt-get&install&ssh&&
(2)设置不用登录密码
&class=wiki$&ssh-keygen&-t&rsa&-f&~/.ssh/id_rsa&-P&&&&& &&class=wiki$&cp&~/.ssh/id_rsa.pub&~/.ssh/authorized_keys&&
完成后登录不用输入密码，第一次需要输入回车键。&&&&&&&&
$&ssh&localhost&& &$&exit&& &$&ssh&localhost&& &$&exit&&
(3)下载解压Hadoop，到http://hadoop.apache.org/common/releases.html#Download下载stable版本0.20.2.并解压到/Home路径
(4)修改hadoop-env.sh 。在本人机器上解压路径是/home/viki/hadoop-0.20.2，进入刚才所解压的文件夹，修改之(需要root权限)。
cd&hadoop-0.20.2& &gedit&conf/hadoop-env.sh&&
将以下java环境copy进去。
export&JAVA_HOME=/usr/lib/jvm/java-6-sun-1.6.0.22&&
(5)设置xml文件，需要设置conf文件夹下的三个文件core-site.xml, hdfs-site.xml, mapred-site.xml。
gedit&&conf/core-site.xml&&
将下面内容copy进该文件中：
&& &&& &fs.default.name&& &&hdfs://localhost:9000&& &&&& &&&& &&hadoop.tmp.dir&& &&&/var/hadoop/hadoop-\${user.name}&& &&& &&&&
保存退出，继续修改另外一个文件hdfs-site.xml
gedit&&conf/hdfs-site.xml&&
将下面内容copy进该文件
&& &&& &&&&dfs.replication&& &&1&& &&&& &&&
保存退出，修改最后一个文件&
gedit&mapred-site.xml&&
将下面内容copy进该文件
&& &&&&& &&&&&mapred.job.tracker&& &&&&localhost:9001&& &&&&& &&&&
经历以上步骤，所有文件修改完毕，已经设置好Hadoop单机测试环境，下面将是启动Hadoop服务。
3.格式化Namenode并开启所有Hadoop服务，查看服务状态。
(1)格式化Namenode
bin/hadoop&namenode&-format&&
会出现下面画面：
(2)启动所有Hadoop服务
bin/start-all.sh&&
会出现下面画面：
498)this.width=498;' onmousewheel = 'javascript:return big(this)' alt="" src="/files/uploadimg/0451.png" />
(3)查看服务状态。
管理页面：http://localhost:50030/jobtracker.jsp
原文链接：/ventlam/archive//hadoop.html
【责任编辑： TEL：（010）】
【编辑推荐】
关于&&的更多文章
本周，搜狗浏览器被爆存在重大漏洞的消息被炒得沸沸扬扬，“安全
数据库产品
数据库综合
数据库新闻
维基百科将切换到另外一款开源数据库MariaDB
MariaDB是一个向后兼容、替代MySQL的数据库服务器。它
暮春三月，京师草长，杂花生树，群莺乱飞。ChinaHadoo
MySQL 5.6.10已经发布，Oracle将其称之为MySQL 5.6正
本书是一本真正意义上的网络系统设计图书，从网络系统设计角度全面介绍了整个网络系统设计的思路和方法，而不是像传统网络集成类
51CTO旗下网站零基础学习hadoop生态系统到上手工作线路指导（HBASE篇） - 推酷
零基础学习hadoop生态系统到上手工作线路指导（HBASE篇）
问题导读：
1.hbase是什么？
2.hbase原理是什么？
3.hbase使用中会遇到什么问题？
4.如何通过eclipse，操作hbase？
5.hbase经常和哪些软件一起使用？
。。。。。。。。。。
hbase从入门到编程
1.hbase简介
hbase我们或许已经知道了它是nosql，但是什么是nosql，我们不太清楚，nosql是一种基于列的数据库，而我们的传统数据库则是基于行的数据库。想对nosql进一步了解，参考Nosql数据库入门分享
HBase– Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
HBase是GoogleBigtable的开源实现，类似Google Bigtable利用GFS作为其文件存储系统，HBase利用HadoopHDFS作为其文件存储系统；Google运行MapReduce来处理Bigtable中的海量数据，HBase同样利用Hadoop MapReduce来处理HBase中的海量数据；Google Bigtable利用 Chubby作为协同服务，HBase利用Zookeeper作为对应。更多内容参考： Hbase简介
2.hbase应用场景
我们知道了hbase是什么，那么我们什么时候使用。
当我们对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的数据适合用使用什么数据库？答案是什么，如果我们使用的传统数据库，肯定留有多余的字段，10个不行，20个，但是这个严重影响了质量。并且如果面对大数据库，pt级别的数据，这种浪费更是严重的，那么我们该使用是什么数据库？hbase数个不错的选择。更多内容参考： hbase常识及habse适合什么场景
3.hbase与传统数据的区别
我们整体了解了hbase，那么hbase与传统数据库到底有哪些区别，我们的增删改查，nosql有没有增删改查，答案是有的。下面我们以两个图来表示：图1，是我们经常见到的传统数据，图2则是nosql数据库，从这个图中，或许我们知道了，nosql为什么被称之为基于列的数据库了。想了解更多参考下面内容图解Nosql（hbase）与传统数据库的区别
hbase与传统数据的区别
图1传统数据库
图2：hbase数据库
4.hbase与hadoop的关系
我们了解的越多，有时候问题就越多，hbase与hadoop是什么关系，有了hadoop，我们为什么使用hbase.这个有点像我们的磁盘与数据库，比如我们的把mysql或则sqlserver放到D盘一样。hadoop提供了介质，hbase存储在hdfs上，同理hive也是如此，对于hive这里不在详述，可以参考
。hbase与hive及hadoop的关系，更详细参考下面帖子：
hive与hbase的十大区别与联系
5.hbase术语及原理
hbase中出现了Region，RegionServer，ROOT- 和.META表， Region是HBase数据存储和管理的基本单位。一个表中可以包含一个或多个Region。每个Region只能被一个RS（RegionServer）提供服务，RS可以同时服务多个Region，来自不同RS上的Region组合成表格的整体逻辑视图。 HBase中有两张特殊的Table，-ROOT-和.META. META.：记录了用户表的Region信息，.META.可以有多个regoin ROOT-：记录了.META.表的Region信息，-ROOT-只有一个region 当我们执行添加、删除数据的时候，相应的hbase的META，ROOT都会有相应的改变。更多内容参考： HBase 各部件的作用
hbase中什么是Region，什么是RegionServer？
HBASE原理简述
我们掌握理论知识，并不是真正的认识，因为计算机是一门实践学科，下面我们开始部署hbase，什么是部署，这里是安装的意思，因为Linux的安装软件与window有所区别的，所以对于刚接触Linux的同学，在部署方面还需要花不少功夫的。 hbase的部署分为单机部署及集群部署，建议采用集群部署，在部署hbase之前，需要安装hadoop。部署文档可以参考： hbase 0.96整合到hadoop2.2三个节点全分布式安装高可靠文档
在部署的时候，需要注意hadoop版本与hbase的版本匹配。
更多内容，可参考下面： HBASE分布式安装视频下载分享
Hbase单节点部署及其基础使用
HBASE分布式安装视频下载分享
hadoop、hbase、hive版本对应关系
hbase与zookeeper可以说是不可分离的，因此hbase有自带的zookeeper，如果不使用自带zookeeper，可以禁用zookeeper，使用外部zookeeper。 Hbase禁用自带ZooKeeper，使用已经安装的ZooKeeper
上面我们完成基本的配置，在后面的使用过程中，我们对集群的要求增高，所以我们就会需要了解更多的配置项的作用，下面帖子可以参考。
hbase配置项说明
HBase 默认配置说明（收藏版）
Hbase配置项粗解（1）
Hbase配置项粗解（2）
Hbase配置项粗解（3）
hbase-0.94.10.tar.gz包下载
hadoop_HBase安装，数据分析与建模，实战案例剖析
Ganglia监控Hadoop及Hbase集群性能(安装配置)
更多的jar包、安装包
hbase不是单独存在的，hbase可以与hive、Impala、Flume整合。我们为什么要整合？比如我们hbase、hive整合之后，当我们将数据插入hbase之后，hive随之同步，我们无须操作hive，这就是整合的好处。对于flume整合，当flume整合搜集到数据之后，会自动发送到hbase，这样省去了我们很多的功夫去编程。我们只需要关心我们的业务逻辑即可。
hive与hbase整合原理介绍
1.Hive与hbase整合的原理？
2.Hive与hbase整合后的使用场景？
3.Hive与hbase整合后的使用方法？
hive为什么与hbase整合
1.hive为什么与hbase整合？
2.hive整合hbase的优缺点是什么？
hbase 0.96整合到hadoop2.2三个节点全分布式安装高可靠文档（推荐）
此文档详细介绍了hbase 0.96整合到hadoop2.2整合的步骤及遇到的相关问题
Impala与HBase整合实践
编译和使用hive与HBase通信包--hive-hbase-handler.jar及下载
1.hive与hbase对应版本
2.hive-hbase-handler.jar在于hbase、hive中起的作用是什么？
3.hive-hbase-handler.jar是否有版本之分，不同版本是否都能使用这个包来整合hbase与hive？
4.整合过程中hive-hbase-handler.jar应该放在hive的哪个文件夹中？
hbase0.96与hive0.12整合高可靠文档及问题总结
阐述下面问题：
1.hive安装是否需要安装mysql？
2.hive是否分为客户端和服务器端？
3.hive的元数据库有哪两种？
4.hive与hbase整合的关键是什么？
5.hive的安装是否必须安装hadoop?
6.hive与hbase整合需要做哪些准备工作？ 7.hive元数据库启动卡住代表的含义是什么？
Flume-ng将数据插入hdfs与HBase-0.96.0
阐述下面问题：
1.如何配置分布式flume
2.master与node之间该如何配置，有什么异同？
3.启动命令是什么？
4.flume把数据插入hbase，该如何配置？
hive0.13调整hbase 0.96.2 hadoop2.2.0 问题总结
阐述下面问题：
1.hive.aux.jars.path参数的作用是什么？
2.Job Submission failed with exception 'java.io.FileNotFoundException'这个问题该如何解决？
Flume-1.4.0和Hbase-0.96.0整合实践
阐述下面问题：
1.需要修改那些文件？
2.如何测试整合成功？
3.兼容问题该如何解决？
Flume-0.9.4和Hbase-0.96整合实践
阐述下面问题：
1.都需要修改那些文件？
2.为什么修改这些文件？
3.代码有的地方需要改动，猜测原因什么？
上面讲了很多，从理论到实践安装，我们终于可以使用了，我们很想尝试增删改查到底是什么样子的？我们可以安装下面格式，来操作：
命令表达式
create '表名称', '列名称1','列名称2','列名称N'
put '表名称', '行名称', '列名称:', '值'
get '表名称', '行名称'
查看表中的记录总数
count&&'表名称'
delete&&'表名' ,'行名称' , '列名称'
删除一张表
先要屏蔽该表，才能对该表进行删除，第一步 disable '表名称' 第二步
drop '表名称'
查看所有记录
scan &表名称&
查看某个表某个列中所有数据
scan &表名称& , ['列名称:']
就是重写一遍进行覆盖
这里举个具体例子： 1. 创建一个表
hbase(main):011:0&create 'member','member_id','address','info'& &
0 row(s) in 1.2210seconds
2.drop 一个表
hbase(main):029:0&disable 'temp_table'
0 row(s) in 2.0590seconds
更详细参考下面帖子： HBase Shell常用命令
上面是基本的操作，使用的时间越长，我们的需求就会越多，比如删除数据会遇到region不释放，我们想备份数据、定期删除数据，压缩数据、查询优化等更详细内容查看下面帖子： HBase如何实现多条件查询
开启hadoop和Hbase集群的lzo压缩功能
阐述问题：
1.如何启动hadoop、hbase集群的压缩功能？
2.lzo的作用是什么？
3.hadoop配置文件需要做哪些修改？
HBase实现记录定期定量删除
阐述问题：
1、如何定期删除数据？
2、如何在数据超过阈值时删除数据？
hbase数据删除不释放region解决办法
阐述问题：
1.删除hbase数据有几种方法？
2.删除数据，region不释放，你认为该如何解决？
HBase 利用Coprocessor实现聚合函数
阐述问题：
1、HBase默认不支持聚合函数，那我们该用什么来实现呢？
2、怎么用编程的方式去实现呢？
大数据应用之HBase数据插入性能优化之多线程并行插入测试案例
阐述问题：
1、单线程下HBase的插入性能如何？
2、如何在多线程下了解HBase的性能？
hbase与hadoop2.X在CentOS6.4下源码编译
阐述问题：
hadoop2.2.0编译需要注意什么问题？
HBase部署的时候需要注意什么问题？
HBase0.96.0编译前需要使用什么为相应的版本生成pom文件？
hbase meta表修复方式总结
阐述问题：
1.hbase hbck -fixMeta的作用是什么？
2.如何重新将hbase meta表分给regionserver？
3.出现region的hole该如何修复?
优化hbase的查询优化-大幅提升读写速率
阐述问题：
1.本文通过什么方法优化查询效率的？
2.如何增大RPC数量？
3.如何调整hbase内存？
hadoop及hbase的超时设置阐述问题：
1.hadoop超时，该如何设置超时时间？
2.hbase超时时间限制，该如何设置？
优化hbase的查询提升读写速率优化案例及性能提升的几种方法
阐述问题：
1.完全发挥不出hbase的效率的原因是什么？
--------------------------------
2.使用bloomfilter和mapfile_index_interval如何提升性能？
3.如何设置hbase的内存？
4.如何增大RPC的数量？
5.为什么HBase是基于列模式的存储？
Hbase数据备份和恢复
所谓工具就是帮助我们的，hbase工具，则是帮助我们使用hbase，phoenix的作用是什么？
phoenix的操作sql是通过jdbc发送到HBase的。phoenix的查询语句会转化为hbase的scan操作和服务器端的过滤器。如果我们手工使用HBase的api去写这些代码，也会得到相同的运行结果和执行速度。但是，使用phoenix的效果却会带来更快的开发效率。更多详细内容，见下面帖子： hbase的sql操作的框架-phoenix
hbase有哪些可视化工具,图形界面管理工具
phoenix实战（hadoop2、hbase0.96）
Phoenix介绍：实现向HBase发送标准SQL语句
hbase设计这个是一个比较大的话题，很多都是根据自己项目的具体情况来设计，这里只是简单说一下设计中需要注意的问题 1.防止数据倾斜 2.性能提升防止数据倾斜，rowkey的设计还是比较关键的。性能提升，在设计之初，将要查询的字段组合到rowkey中，否则后期可能查询是一个问题。更多详细内容参考下面帖子。 Hbase初步入门-- 表该如何构造和设计
hbase之rowkey的设计讨论
HBase的rowkey设计
hbase数据快速备份：HBase snapshot分析
修复hbase元数据.meta.表空洞的问题
hbase Balancer 源码分析-负载均衡
HBase Bug 知多少
hbase分为两种是一种开发API，就是所谓的二次开发，一种是客户端API，也就是我们使用hbase来完成一些事情。对于hbase源码获取，我们需要具备maven知识，同hadoop获取源码的方式是一样的，具体可以参考：
通过eclipse获取源码之后，我们会看到一些maven语法错误，如果遇到execution错误，可以参考下面帖子。 hbabise、hadoop通过eclipse m2e maven插件获取源码产生execution错误解决方案
我们获取源码是为了查看更好的使用hbase，hbase的基本操作，在shell中能够完成，我们通过Java API eclipse环境同样能完成。除了增删改查、分页之外，我们还可以开发插件。首先hbase开发，我们需要搭建开发环境：
开发环境有了，后面的操作参考：
hbase-0.90.2中创建表、插入数据，更新数据，删除数据实例
Java操作hbase编程
spark使用java读取hbase数据做分布式计算
hbase编程：通过Java api操作hbase
hbase HTable之Put、delete、get等源码分析
Hbase Java编程实现增删改查
总结Eclipse 远程连接 HBase问题及解决方案大全
HBase中如何开发LoadBalance插件
Hbase与eclipse集成的第一个例子
hbase分页应用场景及分页思路与代码实现
HBase MapReduce排序Secondary Sort
CDH4源码搭建hbase开发环境
Thrift了解4：C#通过Thrift操作HBase实战
hadoop2.2.0帮助手册下载API及HBase 0.98.1-hadoop2 API
HBase数据迁移（1）-使用HBase的API中的Put方法
hbase编程：Java API连接Hbase进行增删改查讲解实例
hbase使用和开发过程中会遇到各种问题，比如插入数据越来越慢，master启动之后又挂掉，hbase如何存储图片，线上regionserver无缘无故下线，这里整理了一下。
hive-hbase整合后查询缓慢
hbase插入数据，为什么速度越来越慢
hbase排错:be reached after 1 tries, giving up.
hbase master启动了又挂了
hbase配置、运行错误总结
hbase删除数据的问题
hbase和hive整合问题
HBase如何把图片存进去呢？
hbase编写自定义count功能的问题
请问hbase如何设置region大小啊
hbase regionserver下线
hbase伪分布式是不是没有regionserver啊
hbase的“-ROOT-”表所在的block丢失,该如何恢复
hbase插入数据，出现java.lang.OutOfMemoryError
hive0.13与hbase0.98.2通过向Hbase表中导数据出现的错
hbase编程如何获取动态列
获取源码遇到问题解决方案：
hbase、hadoop通过eclipse m2e maven插件获取源码产生execution错误解决方案
解决问题的根本
Hadoop和Hbase重要日志位置
hbase在大企业应用
我们在使用hbase的过程中，我们所遇到的问题，走过的路，或许别人已经遇到并且解决，对于阿里、360、Facebook等大公司是走在我们前面的，下面的一些经验可以借鉴。 hbase在360的应用及使用过程中遇到的问题及解决方案
阐述问题：
1.360为什么使用hbase?
2.调用Put接口写入数据，写入性能丌高效的原因是什么？该如何解决？
3.bulkImport的数据导入阶段较慢原因是什么？
4.bulkImport后，compaction操作会产生大量IO原因是什么？该如何解决？
HBase在淘宝主搜索的Dump中的性能调优
阐述问题：
1.hbase在运用中，如何有效降低延时？
2.如何对Dump进行性能调优？
淘宝搜索分析系统Pora2的应用之HBase高并发读写性能优化
阐述问题：
1、如何理解淘宝的搜索分析系统Pora？
2、redis超时的原因有哪些？
Facebook使用HBase构建实时信息系统：能每月存储1350亿条信息
阐述问题：
1.Facebook为什么选择hbase?
2.hbase为什么被称之为面向列的数据库？
3.hbase为什么能能承受如此多的数据？
淘宝之HBase MapReduce实例分析
阐述问题：
1.hbase MapReduce那么它和hadoop的MapReduce有什么异同？
2. hbase MapReduce基本模型是什么？
3.对于InputFormat和OutputFormat二者的作用是什么？ 4.HBase通过对哪些类的扩展（继承）来方便MapReduce任务来读写HTable中的数据？
5.HBase中Mapper类继承哪个类？
6.HBase中Reducer类继承哪个类？
7.HBase在提交作业时设置inputFormat成什么？outputFormat设置成什么？
8.HBase中TableMapReduceUtil类的作用是什么？
淘宝hbase业务实践
阐述问题：
1.HTablePool与传统数据块连接池那个对应？
2.通过那个函数可以释放连接池？
3.habse在什么情况下会比较慢？
4.RowKey该如何设计？
HBase在内容推荐引擎系统中的一些问题
阐述问题：
1.随机读取性能成倍下降的原因是什么？
2.Snappy压缩是为解决hbase什么问题？
3.原生HBase最大的问题之一就是数据随机读写速度太慢，该如何解决这个问题？
4.一个服务器宕机，其服务器的数据，做如何处理？
5.HBase需要通过Compaction解决什么问题？
6.Region Server假死或则退出，会造成什么情况？
淘宝为什么使用HBase及如何优化的
阐述问题：
1.大数据量，而且数据增量不可预测，采用什么方案比较合适？ 2.hbase有什么优点和缺陷？ 3.hbase采用什么模型保证数据不丢失？ 4.hbase的Meta表损坏以及split方面的bug会造成什么情况？
5.什么情况下会关闭jobtracker？
6.淘宝为了保障服务从结果上的可用，都采取了什么措施？
7.hbase中split为什么存在风险？
HBase工程师线上工作经验总结----HBase常见问题及分析
阐述问题：
1.HBase遇到问题，可以从几方面解决问题？
2.HBase个别请求为什么很慢？你认为是什么原因？
3.客户端读写请求为什么大量出错？该从哪方面来分析？
4.大量服务端exception，一般原因是什么？
5.系统越来越慢的原因是什么？
6.Hbase数据写进去，为什么会没有了，可能的原因是什么？
7. regionserver发生abort,遇到最多是什么情况？
8.从哪些方面可以判断HBase集群是否健康？
9.为了加强HBase的安全性，你会采取哪些措施？
HBase在搜狐内容推荐引擎系统中的应用
Facebook针对hbase的优化方案分析
用户api HBase 0.99.0-SNAPSHOT API
相关篇章推荐：
已发表评论数()
已收藏到推刊！
请填写推刊名
描述不能大于100个字符!
权限设置：公开
仅自己可见
正文不准确
标题不准确
排版有问题
没有分页内容
图片无法显示
视频无法显示
与原文不一致众所周知,R 在解决统计学问题方面无与伦比。但是 R 在数据量达到 2G 以上速度就很慢了，于是就催生出了与 Hadoop 相结合跑分布式算法这种解决方案，但是，python+Hadoop 这样的解决方案有没有团队在使用？R 这样起源于统计学的计算机包与 Hadoop 相结合会不会出问题？
因为他们在不懂R和Hadoop的特征应用场景的情况下，恰好抓到了一根免费，开源的稻草。R：R的应用场景不在于无与伦比的统计学习能力，而在于结构化数据下无与伦比的单位代码产出量。神经网络，决策树等基于结构化数据的算法一行代码搞定，预测又只是一行代码。这样，商业数据库（如包括Oracle，Netezza，Teradata，SAP HANA等）提供了R接口供统计分析人员进行高效实施。同样的，SAS和IBM SPSS也做到了一部分高效实施能力，他们没有的是R独有的庞大cran packages群。但相似的一点是，R的package群也把它的用户惯坏了，惯坏到这些人只是觉得这是一个SAS或者SPSS的免费版，而不是去通过代码学习如何做机器学习哪怕一点点核心原理。你要做的，就是高效的最新结构化数据算法的实施。最重要的是，从Hadoop上的数据加载到这些库，不仅保证了数据本身的正确性和结构化，也已经保证了数据模型的第二、第三范式化（CAErwin的第一课），想做任何一个分析，你手边的数据库简单的join就形成了你需要的分析宽表。想想SQL里sum over的设计含义：为什么它要制造数据的冗余？那一定是为了BI或者分析存在的。Hadoop：Hadoop的应用场景不在于给统计分析软件提供强力的支持，而只是提供了一个分布式数据的泛用免费框架，基于键值对（key value pair）高效的对原始非结构化数据进行存储。传统方式下目测可以做到对连续型数值、离散型数值、字符串、大型字符串BLOB、地理信息（二维点，多边形）的存储，Hadoop相当于直接把很多功能扩展：比如Hive作为一个基本工具，直接提供了更广泛的数据类型存储方案：数组(array)，结构体(struct)，键值对(map)等。业务场景：我存储一篇文章不再需要一坨文字灌进去，先做NLP解析，然后形成 (词,词性)的元组，再组成长数组(Array)即可方便的存储、分析，以及利用内置UDF、自写UDF对复杂结构行转列，提取信息。（当然，将NLP解析本身整合在UDF甚至算法中都是可行的，如PySpark）------------------------*2014.8改进说明：如果你至今觉得非结构化数据，键值对是一种卖弄概念，我就换一个至简的说法：一个只有两列的数据表。两列的mn*2和多列m*n数据表是可以在一定加工代价下互转的。这种数据结构被大量应用于Java，C++，Python甚至JavaScript中，当你看见类似Hashmap，Hashtable，dict，map等字眼，那就是这货没跑了：经过设计，用于存储的键(key)被散列后决定了它能够被均匀地分布式存储，值(value)是键的跟班，随着键被存储。对于非结构化数据而言，元数据和数据不像方表，极其容易抽象出来（无非就是列名和方表的内容）。初看一个半结构化的Json/XML，元数据出现在键(key)中，数据出现在值(value)中，容易理解。但在解析其他类型数据，(如网络日志Url)，键里的所谓元数据才是要分析的对象(一个用户反复的使用price=xxx做查询条件，说明价格敏感，有可能xxx取了好多值甚至所有可能值，key却很少，可能只有price和brand；此时用户行为模式出现在key里了。)------------------------结构化和非结构化数据库结合的R+Hadoop看起来很美，实则困难重重。我的看法是，任何一家在数据分析领域（文本挖掘暂时除外，理由在业务场景里描述过）决定以一个稳健的态度涉足的企业，都无一例外的基于数据强一致性的考虑，选择传统的结构化数据库作为后续结构化分析的依托—— 哪怕他们是收费的。如果习惯代码开发，Hadoop+python自己做初步的数据处理，而后使用基于java的Mahout是一个很自然的选择：其提供的矩阵计算（SVD），迭代式聚类算法(如Kmeans)，基于图的迭代模型（一个例子是PageRank算法，值中存的也是Key），以及集成决策树等模型，在分布式场景下是顺理成章完成的，而R则会像一个跟班，很难找到它的应用场景。一样具有较高编码效率的Python可以更加灵活、优美（缩进的意义上）的继承mrjob类完成相应功能，在数据尝试性探索这一步，matplotlib产出报告恐怕是不如R+knitr+ggplot2更能取悦老板，但一旦需要阶段性的测试，Python这种胶水语言或者一步到位的使用Java开发显得更接地气，更容易落地。（关于落地性，再小小吐槽一下R在Windows和Linux两个平台下能够使用的包范围是不同的，尤其是使用Rcpp或者并行包的时候。Python和Java则不常见到这种问题）R+Hadoop的幻觉：不管什么和Hadoop结合，都喜欢以word count这种典型的键值对开始。事实上R可以做这件事，但是觉得R做的无与伦比，就有点进入误区。还是那句R的美在于结构化数据下无与伦比的单位代码产出量。一旦你发现你作为专注于数据的分析师，同时也是一个并不骨灰的代码开发者，开始用R操作列表和数据结构，开始用R重写Mapper和Reducer，你就会产生一个疑问：为嘛不学Java、Python？这种分析“不传统”，就算你不想学吧，为嘛不找懂它们的人来干？Python基于键值对存储，也具有相当高的单位代码产出量，也有很多科学计算包。从这个意义上你可以做出一个白箱，单机缩水版的mahout，而且适合处理有增量算法的大数据学习（看看NumPy,SciPy,）。一样免费。数据挖掘的幻觉：数据挖掘是什么，很难吗？广义的数据挖掘，包括数据分析和机器学习，只说最核心的数学概念的话，估计就几句话；恰好R的简洁性也是能用几句话做完这几句话的：0 数据清洗，标准化。和1-4，理解真实世界是相辅相成的1 最先学的数学技巧是空间分解：LL'，PCA，SVD，一般回归以及L2/L0惩罚变种；从信息论角度讲信息流压缩（有名如LZ及变种LZO）；SVM用到的RBF也算基提取技巧。2 再学最优化算法：L1惩罚回归，SVM（使用的Newton-Raphson/Gauss-Newton/Levenberg-Marquadt（还是1的内容！）；MonteCarlo Markov Chain3 数据结构：决策树（列表类），词频统计（键值对或者字典类），FP-growth（一个树的加强版）。学到这，所谓“贝叶斯”根本就不能叫算法，只能叫一个无处不在的指导思想。4 模型集成：Adaboost，神经网络，bootstrap。集成时，权重技巧和惩罚技巧我的理解是不可割裂。但这个思想对方法，对模型参数都能集成，大杂烩。1个超级精妙的模型不如200个良好理解了问题性质的土鳖模型更实用。任何一个听起来很装逼的算法，逃不过被解析成这4类方法组合的命运。参数调优这种不提纲挈领的问题，确实需要结合时间成本人力成本看（研究者，学生，码农的成本和投入量完全不一样）可以看到，大数据分析的瓶颈在哪？第0步，和曾经的大Boss讨论过，传统行业数据仓库实施起码还能打10年，而"实体-关系"概念和"键-值"概念这两种抽象起码还能打30年，数据的组织，过滤，元数据维护都是数据产生价值的必经之路，这方面的工作很枯燥但是很基础，大数据和传统数据都需要；第1步是最基本最重要的分析手段，也最容易在大数据语境下导致单机无法分析的亿阶稀疏大矩阵产生：例1，用户User对商品SKU的购买记录；例2，在特定的经纬度，特定的时间，特定的用户发生了动作；这两个例子是典型的“查询简单分析难，汇总还不如不汇总”的情况，必须要有分布式稀疏矩阵处理技术；第2步，序贯MCMC的串行性可以通过并行集成方法模拟，但是收敛性还仍然较低，需要暴力并行堆FLOPS；对应的，因为SVM/Lasso都有增量算法、分布式算法方案，核心思想在于“世界的真实，模型的本质，都是稀疏的”，锁少量资源，分布式地更新模型系数或者是梯度，这些算法在理论上得到突破后，往往依赖分析型数据库或者大数据平台灵活的并发调度，灵活的行列混合存储模式，这一点是单机、小集群、传统数据库难以企及的；第3、4步，这里虽然举了很简单的例子，但这些是在数学模型和数据模型上是最没有开发压力的，需要关心的只是资深程序员的功底了。举例说明，文本挖掘（NLP）统计完词频你还是得会空间里做PCA（或者其他形式的大矩阵加工）；如果不然，只引入HMM模型和基础字典树的话，学习成本就只有学习贝叶斯理论了，并且仍然可以高效并行的解决NLP问题，有兴趣的可以参考Viterbi算法和CRF算法。大数据的幻觉：存储和计算的冲突大数据处理，多大算大？像我说的，在3,4步出来的数据，原始数据很大，加工汇总完了很小，或者处理起来是高度独立的。分布式存储不影响分析，说是大数据，其实和小数据处理没差别。需要随时交换资源的聚类，回归，SVD，PCA，QR，LU等关系到矩阵分解的计算甚至是高效访问，更进一步还有热数据在内存上而不是物理存储上的多次迭代，这才是大数据真正的挑战。那些有监督的分类树，把数据集切成1000份并且有冗余的给500台机器每台3-5份数据最后得到集成的分类结果，我很难称其为“大数据计算技术”，它的本质和挖矿机每秒能做无数个高度同质化的hash计算一样，不需要资源交换，不需要大量通信，它只是“小数据+独立运算后直接能够整合结果”的范围内打转。------------------------*2014.8改进说明：数据在物理存储、内存、甚至显存的原地迭代会带来数据重分布；在传统数仓领域数据，重分布其实是对未来效率提高预期的妥协，且里面含有比较多对传统业务稳定数据架构的理解。大数据时代明显不存在什么数据仓库ER模型稳定性，不知道大家有没有这种体验：一个新需求，一个全新的不着边际的研究性问题的场景下，就能建个新库来进行探索与数据加工整理，数据挖掘。各自为政，实验容易，落地与整合困难。—— 这个情况下如果要频繁走物理存储的话，基于key的重新分布会让数据像煮沸的一锅粥大量占用网络与IO写入带宽，与传统数据库性能的巨大鸿沟是无法回避的问题。因此在这个场景下，Spark、Storm、GPU计算火起来，如Scala、Clojure、Python等含有FP概念的语言走得越来越靠近开发工程师的视线，较高级的封装工具如图模型计算的GraphSQL等组件也浮出水面。而且说句实话，Map（映射）和Reduce（规约）在这些语言中，已经是老的掉了好多年牙的概念了。（FP：Functional Programming我反对翻译成函数式编程，这明明是泛函编程）------------------------大数据概念引入这件事儿是大炮打蚊子——内存内的分析和数据探索，展现（单节点）：*从数据记录条数讲：百万级，R的上限；千万级-亿级，SAS的上限；千万级，Python的上限；*我的使用经验，从数据占用内存的效率讲：加载400M数据会使得Python（Numpy列存）占用内存500MR（我谨慎猜测是行存列存和二维表三样都存一份）加载占内存2GSAS（行存）占用600M，经过表级压缩（依然是行存）150M*后续的原始处理尤其是字符串操作这种数据清洗，R几乎不能做，精通shell及regexp的人又做的太容易。若想用R，这就需要你输入到R的数据几乎就能直接开始跑分析了。若不信邪，我推荐你用readLines加上strsplit来操作读入R的文件，看看他数据清洗的效率和read.delim，和SAS proc import 以及 Python的with as语法相差多少。*展现方案：只要数据量低于刚才提到的限度，R又提供了最好的展现方案，因为“展现方案是专用而非泛用”的：a. Hadley最著名的R包之一ggplot2未来会引入SVG等可交互元素。一个具有d3.js可视化特性的绘图包还不让你震惊吗？b. 百度echarts团队项目被taiyun包装成recharts放在了github上c. 已经加入RStudio的R统计达人Yihui Xie的作品knitr，能够使用markdown语法动态将数据挖掘结果，图片，视频生成打包放进html或者pdf文档。说说对手：a. R要比Python现有的可视化包（以matplotlib和pygame为主）更友好，更易于操作。b. 虽然让从来没接触过前端的人沉浸在用Chrome即可调试的JavaScript里面不太科学，但我爱不释手，而且其核心的展现方式确实未来会加入R。c. Java风格的Processing，无缝调用java库，封装大量java图形函数、视频相关API、鼠标响应API，可以导出java applet或port成js代码；搞大数据的人必然熟悉java开发，可以几乎0成本又高效快速的使用它。这几种工具确实各有所长，我个人无法取舍，但平心而论，R是学习门槛、编码效率和产出效果同时最出色的（个人经历原因无法对SAS VA，Tableau，Flex或更一般的BI展现工具置评，其受众因为软件成本，落地性不够等原因，我缺乏使用它们的经验，它们也缺乏对我的吸引力）归纳下我的理解，R的产出报告类似html+javascript+CSS一样，是适合轻量分析，轻量展现的。大数据干这件事儿是正道——非结构化大数据批量或者迭代处理：你的算法已经走到了“万事俱备，只差跑全量” 这样一个对手中的数据很了解的地步了。Wiki 对Revolution Analytics的介绍讲：R didn't natively handle datasets larger than main memory，这么灵活小巧的工具做个抽样数据分析明明是很好的。非结构化大数据应用的场景只能是：-你很懂数据分布的细节（也许是项目经验，也许是R上已经做过抽样探索）-问题适合的算法你了然于胸；增量算法存在；暴力并行计算（矩阵计算，图迭代）没问题-你觉得把类似Mahout计算的步骤经过代码包装交付给R来做没问题-你完全不care交互式探索这是你需要的R应用场景么？或者换一种说法，这种应用场景R有什么优势？调用编译好的cpp库，fortran库是R发挥优势的地方吗？要知道算法效率排名上R&java&C++。算法月内要上线，自己看着办。说下前鄙team（一个不是专业做数据挖掘的数据部门）的经验：讲了半天R+Hadoop，不上Mahout，随便搞搞RSnow，准备买SAS。因为我会SAS（少量用Macro，没用过矩阵，因为没必要）和R（没有学习成本），Python的并行包pp使用中，考虑mahout。更新：当大数据平台用户不满足于存储，简单加工以及成型算法实施，也开始关注最小查询、交互式探索效率了，诸如Spark的内存解决方案将会更合适。现team是一个同事至少是硕士（统计/金融/计算机），专做金融行业数据挖掘的小团队。能力和业务场景可以供参考。* SAS能力覆盖面95%（具备核心价值的数据在服务器上能够处理的量很少超过上亿，主推SAS）* Python和R覆盖面都在70%+* Hadoop/大数据概念淡：客户有足够的Teradata、Oracle、SAS服务器* Hive/Spark：Hive做辅助、灵活仓储，PySpark作为一个可以预期、稳定的数据挖掘平台的接点结束语：顺便也给数学系、统计系的数据分析师，以及他们的领导们提醒一句：如果员工A有员工B没有的代码开发能力，R又完全替员工B把数学的事情做完了，形成了依赖，那员工B存在的意义是什么？强调数学理论这么一点点优势也都不复存在了。机器学习算法在不同的阶段适合使用不同的工具，研究和使用接不上也就算了，千万别连工具适合的环境都不懂，作为互联网从业者，这就太盲从了。精英的研究者是自己做开发的——这话也可以这么说，精英的开发者们自己做研究。每一个模型都不完美，何况新问题涌现的越来越快，现存的模型很可能不满足你的分析需要。所以才要一边扎实理论，以最少的尝试嗅到最适合问题的算法，一边以开放的心态接纳和理解新技术的应用场景，深入发展数据挖掘研究，从代码优化改造（山寨）走向技术原创。 ------------------------*2014.8改进说明：一个不好的消息是，不管是从职位Post、搜索还是行业生命周期研究看，大数据这几个字正在迅速退掉金色，其名字的价值泡沫正在逐步被挤出。抓住技术的重点与技术适合的场景，对个人以及对行业都是磨刀不误砍柴工的事情。------------------------*2015.11改进说明：2年左右的时间里并没有新技术的涌现，但是有成熟技术的沉淀以及轮子化。我之前认为的Spark只管分发数据，启动Python跑脚本（跑CUDA C程序或者别的什么东西方法大同小异）的这种我一开始认为其实有些不伦不类，追求速度的尝试模式，现在竟然已经绕过了Hadoop自成一种模式了。而且，Spark的功能进一步从分发数据退化到了分发算法参数？！（有个例外，Spark跑图模型算法无法仅仅分发参数）PySpark机制：这几乎已经说明了数据科学只要快。几乎无法容忍I/O，勉强容忍大量的分布式内存数据交换，要是拿到GPU上去，数据频繁的通过PCIE交换，早晚也是要被否。伴随着我个人在数据科学上的认知逐渐脱离浅薄、Follow很多深度学习大神（我认为DL已经形成了新的框架了，本文所述的机器学习就当作基础入门来讨论吧）的工作以及对架构设计更有兴趣之后，我觉得现在大家可以直接看Continuum Analytics这家公司Anaconda的平台产品布局了。自行观看
这个链接中的Platform Data Sheet。反过来看我这篇回答其实很可笑，2年的时间就能够让当时不少我认为存在迷雾的东西变得清晰很多。 R现在的定位是什么？科学计算领域好玩的玩具Julia,Lua满地都是，愿意砸时间的人随时随地都能用轮子搞出东西来。—— 但你别忘了很多提供轮子的大神是写着C++给你们造玩具的。玩具对技术模式变革的作用就是拉动性的，能不能拉动那要看老板玩心重不重。脱离好玩上升到企业战略发展层面，大量草根初创的CTO带着最守旧的方案和最守旧的那一批开发者受到动荡的新业务冲击，旧有模式其不经济性逐渐被发现，并且有了模块化的替代方案。身边有很多并不大神，但接地气儿的开发者。这里面，很难有人Python/JavaScript/GoLang 三者都一窍不通。追求经济性对技术模式变革的作用是推动性的。大家都在沉淀，玩票都在失去空间。不推就死。参考内容：的中Platform Data Sheet链接。《Program Clojure》《R ggplot2：数据分析与图形艺术》《Machine Learning in Action》
没啥神秘的&br&&br&Hadoop用来Aggregate数据，然后扔给R去运行就好了。根据你自己的口味，你也可以扔给python去做，都是可以的。其实去瞅瞅那些大公司发的paper，这个思路其实相当普遍，内存白菜价的现在，何必劳什子在没有摸清状况之前搞什么分布式。&br&&br&同意最高票答案，数据量大并不意味着你的计算量很大。现在所谓的大数据，狭义一点Hadoop相关的东西，还很初级，不过是传统关系型数据库的撑不下去的之后的替代品，最后炒作半天发现原来还是在Hadoop上面又搭了一个SQL，还不见得比原来方便，真是胸闷。这不，列存储的关系型数据库来势汹汹，大数据绕了一转，发现其实也没怎么前进。
没啥神秘的Hadoop用来Aggregate数据，然后扔给R去运行就好了。根据你自己的口味，你也可以扔给python去做，都是可以的。其实去瞅瞅那些大公司发的paper，这个思路其实相当普遍，内存白菜价的现在，何必劳什子在没有摸清状况之前搞什么分布式。同意最高票答…
首先一点就是SAS太贵。&br&其次，R的图形展示比Java、python都更方便好用而且效果很不错，对于给不懂数据挖掘又想沾上大数据光的领导作报告比较方便忽悠。&br&再次，现在互联网公司带领着各行各业的IT技术，但是说实话，BAT的数据挖掘优势在于可以处理的数据量更大，传统金融行业既没那么大的数据量也没精力去折腾，而且传统金融企业更加在意对数据的分析、对数据挖掘结论的分析，R可以直接生成各种各样的分析指标和图表，在同样的精力下直观性比mahout高出很多。&br&再补充一个因素，技术实力不怎么强的公司不想自己写算法也不想用mahout（mahout本身还不完善、很多算法未实现），甚至很多情况下经过ETL处理过的数据需要用分布式算法的可能性微乎其微，用R是一个很有性价比的选择
首先一点就是SAS太贵。其次，R的图形展示比Java、python都更方便好用而且效果很不错，对于给不懂数据挖掘又想沾上大数据光的领导作报告比较方便忽悠。再次，现在互联网公司带领着各行各业的IT技术，但是说实话，BAT的数据挖掘优势在于可以处理的数据量更大…
已有帐号？
无法登录？
社交帐号登录
天赋大多点在数据上/搞业务/写代码}

51无线网