美恐第七美恐第5季百度云盘盘资源,求求求。。

最近在研究nutch 在Ubuntu系统上安装部署nutch,nutch安装步骤如下:1、先 安装ANT (ant下载安装包就不写了 百度一大把)//解压 antsudo tar -zxvf /usr/test/soft/apache-ant-1.9.7-bin.tar.gz -C /usr//移动ant (这里只是把安装的文件放到一目录下,方便管理。)sudo mv /usr/test/apache-ant-1.9.7 /usr/test/ant1.9修改/usr/test/ant1.9/bin/ant文件,添加如下内容export JAVA_HOME=/usr/jdk1.7 这里需要修改在ant文件中添加java_home 的路径2、安装nutch//解压nutchsudo tar -zxvf /usr/test/soft/apache-nutch-2.3.1-src.tar.gz -C /usr//移动nutchsudo mv /usr/test/apache-nutch-2.3.1/usr/test/nutch2.3修改/usr/jiankongyun/nutch2.3/ivy/ivy.xml文件,添加如下内容default" />//这里用的是mongodb3.2 安装步骤后面的会有详细的文章 特别注意的一点就是 gora 的版本一定要对应,版本太高或者太低都会出现不兼容的问题,还是尽量使用官方的推荐版本//编译nutchcd /usr/test/nutch2.3/usr/test/ant1.9/bin/ant runtime编译nutch的过程中 你可能会得到如下错误:Trying to override old definition of task javac[taskdef] Could not load definitions from resource org/sonar/ant/antlib.xml. It could not be found.ivy-probe-antlib:ivy-download:[taskdef] Could not load definitions from resource org/sonar/ant/antlib.xml. It could not be found.解决方法:下载sonar-ant-task-2.1.jar,将其拷贝到nutch2.3/lib 目录下面修改build.xml,引入上面添加的jar包: 添加完成后再次运行 编译nutch 就可以了。当然有什么不懂的 可以留言我们www.jiankongyun.net可以多多交流
最新教程周点击榜
微信扫一扫java 搜索引擎(3)
nutch简介:
目前nutch主要有1.x版本和2.x版本,两个的主要区别在于它们的底层数据库的存储形式不一样,1.x版本是基于hadoop架构的,底层存储使用的是HDFS(Hadoop式分布式存储),而2.x版本采用的是Apache Gora,使得nutch可以访问HBase,Accumulo、Mysql、DataFileAroStore等NoSQL。另外nutch1.X版本从1.7开始不再提供完整的部署文件,只提供源代码和相关的build.xml文件,这就要求用户必须自己手动编译nutch,而整个nutch2.x版本都不提供完整的编译文件,所以要想学习nutch的功能,也必须自己动手编译。
下面我将按照我配置成功的步骤来介绍以下nutch2.3.1版本的编译,以及简单的爬行操作。
环境预装:
1.系统:ubuntu14.04
2.java环境安装,jdk 1.8
3.habse0.98.8-hadoop2安装( 下载地址:
nutch下载:
下载地址:
下载后解压该文件,进入该文件主目录,标记该主目录为NUTCH_HOME.
编译nutch:
1.进入NUTCH_HOME/conf,修改文件nutch-site.xml文件,添加:
&property&
&name&http.agent.name&/name&
&value&Horizon&/value&
&description&HTTP 'User-Agent' request header. MUST NOT be empty -please set this to a single word uniquely related to your organization. NOTE: You should also check other related properties:http.robots.agents http.agent.description http.agent.url http.agent.email http.agent.version and set their values
appropriately.&/description&
&/property&
&property&
&name&http.robot.agents&/name&
&value&test&/value&
&/property&
&property&
&name&storage.data.store.class&/name&
&value&org.apache.gora.hbase.store.HBaseStore&/value&
&description&Default class for storing data&/description&
&/property&
2.修改NUTCH_HOME/ivy/ivy.xml以确保HBase gora-hbase dependency有效
org="org.apache.gora" name="gora-hbase" rev="0.6.1" conf="*-&default" /&
3.在NUTCH_HOME/ivy/ivy.xml中添加hbase-commoon-0.98.8-hadoop2.jar的依赖关系
org="org.apache.hbase" name="hbase-common" rev="0.98.8-hadoop2" conf="*-&default" /&
4.确保HBaseStore被设置为数据存储的默认方式
修改NUTCH_HOME/conf/gora.properties,添加:
gora.datastore.default=org.apache.gora.hbase.store.HbaseStore
5.回到NUTCH_HOME目录下,执行命令:
ant runtime
进行编译。
编译过程中,第一次编译需要国外的maven网站上下载一些必要的.jar文件爱女,所以第一次编译时间较长。也可以在ivy文件下的ivysettings.xml文件下可以修改要下载的网站地址:
这里可以修改name为repo.maven.org的value值为上面的一个网址,但是由本人亲测,虽然自带的网址比较慢,但还是能够编译成功的。另外,还可以改成国内的开源maven网站,但是在我想编译的这段时间,貌似它是崩溃的。。。。。。
之后若是改变了conf中的配置文件和代码文件,都是需要重新执行ant runtime进行重新编译的。注意在执行编译的时候千万不要ant clean,否则你将会再次迎来漫长的编译时光。
6.编译完成后NUTCH_HOME目录下将会生成一个runtime的文件夹,runtime中包含deploy和local两个文件。要进行爬虫爬行的话,需要进入local文件执行相应的命令。
至此nutch的编译部分完成。下面来体验以下nutch的工作流程:
nutch工作流程:
1.修改配置文件
1.1 修改conf下的regex-urlfilter.txt文件,在文件末尾,有这样的正则表达式:
默认情况下,该文件表示的可以接受任意形式的url网页,如果要改成只保留自己想要的网页,以新浪网为例,其网址为:
只需要修改成如下所示即可:
+^http://([a-z0-9]*\.)*</.cn/
1.2 创建种子站点,在runtime/local文件夹下创建urls文件夹,并在urls文件夹下创建seed.txt,在该文件中写入你想要爬行的网址,每一行代表一个网址。
2.开始运行nutch
先在主目录下执行ant runtime重新编译。
切记在运行之前,需要先打开HBase,打开方法为先进入安装HBase的文件下面的bin目录,执行./start-hbase.sh命令
出现上述提示,表示打开成功。
2.2 再次进入NUTCH_HOME下的runtime下的local,执行bin/nutch inject urls/seed.txt下结果:
表示已经成功注入了一个网页。
2.3 执行bin/nutch generate -topN 10下结果:
接下来按照nutch的工作流程,依次执行,fetch、parse、updatedb等一系列的命令,可通过nutch产生的hadoop.log日志文件查看nutch的详细流程。
除了上述的一步步的去实现nutch的每个步骤外,还可以直接通过命令:
bin/crawl urls/seed.txt 1 1
直接执行nutch的整个流程。
&&相关文章推荐
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:1887次
排名:千里之外
(1)(2)(1)(1)Apache Nutch 2.3.1 发布下载,搜索引擎
(window.slotbydup=window.slotbydup || []).push({
id: '2611110',
container: s,
size: '240,200',
display: 'inlay-fix'
您当前位置: &
[ 所属分类
作者 红领巾 ]
Apache Nutch 2.3.1 发布下载,此版本主要解决了 40 个 issues,详情请看这里:http://s.apache.org/nutch_2.3.1下载:http://nutch.apache.org/downloads.html此版本推荐的 Gora 后端: -ApacheAvro1.7.6 -ApacheHadoop1.2.1and2.5.2 -ApacheHBase0.98.8-hadoop2(althoughalsotestedwith1.X) -ApacheCassandra2.0.2 -ApacheSolr4.10.3 -MongoDB2.6.X -ApacheAccumlo1.5.1 -ApacheSpark1.4.1Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。Nutch 诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬 虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。在 Nutch的进化过程中,产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。如今这四个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多 种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:
每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果以最小的成本运作
Nutch2.0完全分布式部署配置/Linux/77.htmNutch-2.0集群配置http://www.codesec.net/Linux/76.htmUbuntu 13.10下配置Nutch1.7和Solr4.6集成 http://www.codesec.net/Linux/37.htmNutch1.7学习笔记:基本环境搭建及使用 http://www.codesec.net/Linux/91.htmNutch的详细介绍:请点这里Nutch的下载地址:请点这里本文地址:http://www.codesec.net/Linux/742.htm
本文系统(linux)相关术语:linux系统 鸟哥的linux私房菜 linux命令大全 linux操作系统
转载请注明本文标题:本站链接:
分享请点击:
1.凡CodeSecTeam转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
登录后可拥有收藏文章、关注作者等权限...
CodeSecTeam微信公众号
走得再慢,也比站在原地成功。
手机客户端&storage.data.store.class&
&org.apache.gora.mongodb.store.MongoStore&
&http.agent.name&
&User-AgentMozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko&
&plugin.includes&
&protocol-httpclient|urlfilter-regex|index-(basic|more)|query-(basic|site|url|lang)|indexer-solr|nutch-extensionpoints|protocol-httpclient|urlfilter-regex|parse-(text|html|msexcel|msword|mspowerpoint|pdf)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)protocol-http|urlfilter-regex|parse-(html|tika|metatags)|index-(basic|anchor|more|metadata)&
&plugin.folders&
&http.accept.language&
&zh-CN,zh,ja-jp,en-us,en-gb,q=0.7,*;q=0.3&
&parser.character.encoding.default&
&http.content.limit&
&file.content.limit&
&parser.skip.truncated&
&anchorIndexingFilter.deduplicate&
&db.max.outlinks.per.page&
&fetcher.server.delay&
&fetcher.server.min.delay&
&fetcher.threads.fetch&
&property&
&fetcher.threads.per.queue&
&generate.max.distance&
&generate.max.count&
&url count per host at one fetch&
&&相关文章推荐
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:199978次
积分:2582
积分:2582
排名:第12983名
原创:43篇
转载:105篇
评论:21条
(1)(2)(4)(1)(2)(5)(3)(1)(1)(1)(2)(5)(4)(1)(2)(2)(3)(1)(4)(4)(2)(1)(4)(1)(1)(2)(2)(1)(2)(1)(4)(2)(6)(1)(3)(2)(9)(6)(9)(3)(1)(2)(1)(2)(5)(28)}

我要回帖

更多关于 美恐第七季百度云盘 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信