robots 禁止收录可以先禁止全部,再允许部分页面爬行吗

robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又稱元資料)。
robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。注意robots.txt是用字符串比较来确定是否获取URL,所以目录末尾有与没有斜杠&/&表示的是不同的URL。robots.txt允许使用类似"Disallow: *.gif"这样的通配符[1][2]。
其他的影响搜索引擎的行为的方法包括使用robots元数据:
&meta name="robots" content="noindex,nofollow" /&
这个协议也不是一个规范,而只是约定俗成的,有些搜索引擎会遵守这一规范,而其他则不然。通常搜索引擎会识别这个元数据,不索引这个页面,以及这个页面的链出页面。
Robots协议的详解
  Robots协议是Web站点和搜索引擎爬虫交互的一种方式,Robots.txt是存放在站点根目录下的一个纯文本文件。该文件可以指定搜索引擎爬虫只抓取指定的内容,或者是禁止搜索引擎爬虫抓取网站的部分或全部内容。当一个搜索引擎爬虫访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索引擎爬虫就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索引擎爬虫就沿着链接抓取。
  另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。如果搜索引擎爬虫要访问的网站地址是http://www.w3.org/,那么robots.txt文件必须能够通过http://www.w3.org/robots.txt打开并看到里面的内容。
  # robots.txt for http://www.w3.org
  #$Id:robots.txt.v 1./ gerald Exp$
  #Forusebysearch.w3.org
  User-agent:W3C-gsa
  Disallow:/Out-Of-DateUser-agent:W3T_SE
  Disallow:/Out-Of-Date-
  User-agent:MozillaJ4.0(MSIE6.0;WindowsNT;MSSearch4.0Robot)
  Disallow:
  #W3CLinkchecker
  User-agent:W3C-checklink
  Disallow:
  #excludesomeaccess-controlledareas
  User-agent:*
  Disallow:/Team
  Disallow;/Project
  Disallow:/Web
  Disallow:/Systems
  Disallow:/History
  Disallow:/0ut-Of-Date
  Disallow:/People/all/
  Disallow:/2005/11/Translations/Query
  Disallow:/2000/06/webdata/xslt
  Disallow:/2000/09/webdata/xslt
  Disallow:/2005/08/online-xslt/xslt
  Disallow:/Search/Mail/Public/
  Disallow:/2006/02/chartergen
  具体使用格式如下:
  (1)User.agent:用于描述搜索引擎爬虫的名字。在Robots.txt文件中,如果有多条User-agent记录,说明有多个搜索引擎爬虫会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为木,则该协议对任何搜索引擎爬虫均有效,在Robots.txt文件中,&User-agent:*这样的记录只能有一条。
  (2)Disallow:用于描述不希望被访问到的一个URL。这个URL可以是一条完整的路径,也可以是部分路径,任何以Disallow开头的URL均不会被Robot访问到。
  搜索引擎爬虫必须要遵守Robots协议并执行Web站点的要求。因此搜索引擎爬虫需要有一个分析Robots协议的模块,并严格按照Robots协议的规定抓取Web主机允许访问的目录和网页。
  当然,Robots.txt只是一个协议,如果搜索引擎爬虫的设计者不遵循这个协议,网站管理员也无法阻止搜索引擎爬虫对于某些页面的访问,但一般的搜索引擎爬虫都会遵循这些协议,而且网站管理员还可以通过其他方式来拒绝网络蜘蛛对某些网页的抓取。
  搜索引擎爬虫在下载网页的时候,会去识别网页的HTML代码,在其代码部分会有META标识。通过这些标识,可以告诉搜索引擎爬虫本网页是否需要被抓取,还可以告诉搜索引擎爬虫本网页中的链接是否需要被继续跟踪。例如:表示本网页不需要被抓取,但是网页内的链接需要被跟踪。
现在一般的网站都希望搜索引擎能更全面地抓取自己网站的网页,因为这样可以让更多的访问者能通过搜索引擎找到此网站。为了让本网站的网页更全面地被抓取到,网站管理员可以建立一个网站地图,即SiteMap。许多搜索引擎爬虫会把sitemap.htm文件作为一个网站网页爬取的入口,网站管理员可以把网站内部所有网页的链接放在这个文件里面,那么搜索引擎爬虫可以很方便地把整个网站抓取下来,避免遗漏某些网页,也会减小对网站服务器的负担。
  &Robots的约束力固然仅限于自律,无强制性,但这不等于说它背后反映的精神,没有法律基础。&中国社会科学院信息化研究中心秘书长姜奇平表示,美国的电子隐私权法就规定&将决定权交给消费者,让其切实有效地授权或者拒绝他人采集和使用其个人信息&,可见遵守规则就是要遵守公平竞争,不是没有强制力就可以不公平竞争。
允许所有的机器人:
User-agent: *
User-agent: *
仅允许特定的机器人:(name_spider用真实名字代替)
User-agent: name_spider
拦截所有的机器人:
User-agent: *
Disallow: /
禁止所有机器人访问特定目录:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/
仅禁止坏爬虫访问特定目录(BadBot用真实的名字代替):
User-agent: BadBot
Disallow: /private/
禁止所有机器人访问特定文件类型[2]:
User-agent: *
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Sitemap指令被几大搜索引擎支持(包括Google、Yahoo、Bing和Ask),指定了网站Sitemaps文件的位置。Sitemaps文件包含了网站页面所在的URL的一个列表。Sitemap指令并不受User-agent指令的限制,所以它可以放在robots.txt文件中的任意位置。[3] 唯一要注意的就是要使用网站地图指令,&sitemap_location&,并将URL的"location"值换成网站地图的地址,例如,下面就是一个网站地图指令的例子:
Sitemap: &http://www.example.com/sitemap.xml&
如何编写Sitemaps文件,请参考sitemaps.org(英文)上的说明。 12
几大抓取工具支持Crawl-delay参数,设置为多少秒,以等待同服务器之间连续请求:[4][5]
User-agent: *
Crawl-delay: 10
一些大的Crawlers支持一项Allow指令,可以抵消先前Disallow指令。比如Googlebot。[6]
雖然robots.txt是最為廣泛接受的方法,但也可以與robots META標籤一起使用。robots META標籤主要是針對一個獨立的頁面設定,與其他的META標籤(如使用的語言、頁面的描述、關鍵詞等)一樣,robots META標籤也是放在頁面的HEAD標籤中,專門用來告訴搜索引擎robots如何抓取該頁的內容。註
&meta name="robots" content="noindex,nofollow" /&
网站的管理者们通常会有这样一种心态:一方面期待百度、Google这样的搜索引擎来抓取网站的内容,另一方面又很厌恶其他来路不明的网络爬虫抓取自己的信息。正是因为这样,才有&好爬虫&、&坏爬虫&这样的说法。
提到&好爬虫&,就不得不提网络爬虫与web之间的访问授权协议&&Robots协议了。
Robots协议(也称为爬虫协议、机器人协议等)的全称是&网络爬虫排除标准&(Robots ExclusionProtocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
根据协议,网站管理员可以在网站域名的根目录下放一个robots.txt 文本文件,里面可以指定不同的网络爬虫能访问的页面和禁止访问的页面,指定的页面由正则表达式表示。网络爬虫在采集这个网站之前,首先获取到这个文件,然后解析到其中的规则,然后根据规则来采集网站的数据。
注意,这个协议的存在更多的是需要网络爬虫去遵守,而起不到防止爬虫的功能。
互联网上的网页是通过超级链接互相关联起来的,从而形成了网页的网状结构。爬虫的工作方式就像蜘蛛在网上沿着链接爬来爬去,最基本的流程可以简化如下:
喂给爬虫一堆url,我们称之为种子(seeds);
爬虫抓取seeds,解析html网页,抽取其中的超级链接;
爬虫接着抓取这些新发现的链接指向的网页。
步骤2和步骤3循环往复。
了解了上面的流程就能发现:对爬虫来说网站非常被动,只有老老实实被抓取的份。
所以,对于网站的管理者来说,就存在这样的需求:
某些路径下是个人隐私或者网站管理使用,不想被搜索引擎抓取,比如说日本爱情动作片;不喜欢某个搜索引擎,不愿意被他抓取,最有名的就是之前淘宝不希望被百度抓取;小网站使用的是公用的虚拟主机,流量有限或者需要付费,希望搜索引擎抓的温柔点;某些网页是动态生成的,没有直接的链接指向,但是希望内容被搜索引擎抓取和索引。
网站内容的所有者是网站管理员,搜索引擎应该尊重所有者的意愿,为了满足以上等等,就需要提供一种网站和爬虫进行沟通的途径,给网站管理员表达自己意愿的机会。有需求就有供应,robots协议就此诞生。
既然网络爬虫在爬取一个网站之前,要先获取到这个文件,然后解析到其中的规则,那么,Robots就必须要有一套通用的语法规则。
最简单的robots.txt只有两条规则:
User-agent:指定对哪些爬虫生效
Disallow:指定要屏蔽的网址
先说User-agent,爬虫抓取时会声明自己的身份,这就是User-agent,没错,就是http协议里的User-agent。robots.txt利用User-agent来区分各个引擎的爬虫,比如说google网页搜索爬虫的User-agent为Googlebot。
可能有读者要问了,我怎么知道爬虫的User-agent是什么?你还可以查相关搜索引擎的资料得到官方的数据,比如说百度的爬虫列表是这样的:
Disallow 行列出的是要拦截的网页,以正斜线 (/) 开头,可以列出特定的网址或模式。要屏蔽整个网站,使用正斜线即可;要屏蔽某一目录以及其中的所有内容,在目录名后添加正斜线;要屏蔽某个具体的网页,就指出这个网页。
下面我们来看一些Robots的具体写法:
允许所有的robot访问
User-agent: *
或者也可以建一个空文件 "/robots.txt" file。
禁止爬虫访问所有目录
User-agent: *
Disallow: /
禁止爬虫访问某些目录
User-agent: *
Disallow: /a/
Disallow: /b/
Disallow: /c/
禁止某些爬虫访问
User-agent: BadBot
Disallow: /
只允许某个爬虫访问
User-agent: MangCrawler
User-agent: *
Disallow: /
我们再来结合两个真实的范例来学习一下。先看这个例子:
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
这个是淘宝网的Robots协议内容,相信你已经看出来了,淘宝网禁止百度的爬虫访问。
再来看一个例子:
User-agent: *
Disallow: /?*
Disallow: /pop/*.html
User-agent: EtaoSpider
Disallow: /
这个稍微复杂点,京东有2个目录不希望所有的爬虫来抓。同时,京东完全屏蔽了一淘网的蜘蛛(EtaoSpider是一淘网的蜘蛛)。
前面说过爬虫会通过网页内部的链接发现新的网页。但是如果没有连接指向的网页怎么办?或者用户输入条件生成的动态网页怎么办?能否让网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页?这就是sitemap,最简单的 Sitepmap 形式就是 XML 文件,在其中列出网站中的网址以及关于每个网址的其他数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度等等),利用这些信息搜索引擎可以更加智能地抓取网站内容。
新的问题来了,爬虫怎么知道这个网站有没有提供sitemap文件,或者说网站管理员生成了sitemap,(可能是多个文件),爬虫怎么知道放在哪里呢?
由于robots.txt的位置是固定的,于是大家就想到了把sitemap的位置信息放在robots.txt里。这就成为robots.txt里的新成员了。
节选一段google robots.txt:
Sitemap: http://www.gstatic.com/cultur...
Sitemap: http://www.google.com/hostedn...
插一句,考虑到一个网站的网页众多,sitemap人工维护不太靠谱,google提供了工具可以自动生成sitemap。
其实严格来说这部分内容不属于robots.txt。
robots.txt的初衷是为了让网站管理员管理可以出现在搜索引擎里的网站内容。但是,即使使用 robots.txt 文件让爬虫无法抓取这些内容,搜索引擎也可以通过其他方式找到这些网页并将它添加到索引中。例如,其他网站仍可能链接到该网站。因此,网页网址及其他公开的信息(如指向相关网站的链接中的定位文字或开放式目录管理系统中的标题)有可能会出现在引擎的搜索结果中。如果想彻底对搜索引擎隐身那咋整呢?答案是:元标记,即meta tag。
比如要完全阻止一个网页的内容列在搜索引擎索引中(即使有其他网站链接到此网页),可使用 noindex 元标记。只要搜索引擎查看该网页,便会看到 noindex 元标记并阻止该网页显示在索引中,这里注意noindex元标记提供的是一种逐页控制对网站的访问的方式。
要防止所有搜索引擎将网站中的网页编入索引,在网页的部分添加:
&meta name="robots" content="noindex"&
这里的name取值可以设置为某个搜索引擎的User-agent从而指定屏蔽某一个搜索引擎。
除了noindex外,还有其他元标记,比如说nofollow,禁止爬虫从此页面中跟踪链接。详细信息可以参考Google支持的元标记,这里提一句:noindex和nofollow在HTML 4.01规范里有描述,但是其他tag的在不同引擎支持到什么程度各不相同,还请读者自行查阅各个引擎的说明文档。
除了控制哪些可以抓哪些不能抓之外,robots.txt还可以用来控制爬虫抓取的速率。如何做到的呢?通过设置爬虫在两次抓取之间等待的秒数。
Crawl-delay:5
表示本次抓取后下一次抓取前需要等待5秒。
注意:google已经不支持这种方式了,在webmaster tools里提供了一个功能可以更直观的控制抓取速率。
这里插一句题外话,几年前曾经有一段时间robots.txt还支持复杂的参数:Visit-time,只有在visit-time指定的时间段里,爬虫才可以访问;Request-rate: 用来限制URL的读取频率,用于控制不同的时间段采用不同的抓取速率。后来估计支持的人太少,就渐渐的废掉了,目前google和baidu都已经不支持这个规则了,其他小的引擎公司貌似从来都没有支持过。
Robots协议不是什么技术壁垒,而只是一种互相尊重的协议,好比私家花园的门口挂着&闲人免进&,尊重者绕道而行,不尊重者依然可以推门而入。目前,Robots协议在实际使用中,还存在一些问题。
robots.txt本身也是需要抓取的,出于效率考虑,一般爬虫不会每次抓取网站网页前都抓一下robots.txt,加上robots.txt更新不频繁,内容需要解析。通常爬虫的做法是先抓取一次,解析后缓存下来,而且是相当长的时间。假设网站管理员更新了robots.txt,修改了某些规则,但是对爬虫来说并不会立刻生效,只有当爬虫下次抓取robots.txt之后才能看到最新的内容。尴尬的是,爬虫下次抓取robots.txt的时间并不是由网站管理员控制的。当然,有些搜索引擎提供了web 工具可以让网站管理员通知搜索引擎那个url发生了变化,建议重新抓取。注意,此处是建议,即使你通知了搜索引擎,搜索引擎何时抓取仍然是不确定的,只是比完全不通知要好点。至于好多少,那就看搜索引擎的良心和技术能力了。
不知是无意还是有意,反正有些爬虫不太遵守或者完全忽略robots.txt,不排除开发人员能力的问题,比如说根本不知道robots.txt。另外,本身robots.txt不是一种强制措施,如果网站有数据需要保密,必需采取技术措施,比如说:用户验证,加密,ip拦截,访问频率控制等。
在互联网世界中,每天都有不计其数的爬虫在日夜不息地爬取数据,其中恶意爬虫的数量甚至高于非恶意爬虫。遵守Robots协议的爬虫才是好爬虫,但是并不是每个爬虫都会主动遵守Robots协议。
恶意爬虫可以带来很多潜在威胁,比如电商网站的商品信息被爬取可能会被竞争对手利用,过多的爬虫还会占用带宽资源、甚至导致网站宕机。
业务风险分析平台来反恶意爬虫,根据自己的需求来定制功能。
(HTML). Google网站站长工具帮助.
(HTML). The Observing Mind.
Jerri L.Ledord著马煜译. 搜索引擎优化宝典.&: 257.
(HTML). Yahoo! Slurp.
(HTML). Troubleshoot issues with MSNBot and site crawling.
(简体中文)
阅读(...) 评论()robots.txt禁止访问特定目录下的部分文件怎么写?_百度知道
robots.txt禁止访问特定目录下的部分文件怎么写?
Allow:/a/b 是允许访问a目录下的b文件
那 Disallw: /a/b 是不是就是表示禁止访问a目录下的b 文件啊?
因为我的根目录下有个images文件夹,我把它禁止了,可根目录下的另一个文件夹中还包含一个images文件夹呢?我想把这个也禁止访问,是需要Disallw: /a/b...
我禁止访问根目录下的images文件了,但是根目录下还有其他文件,例如:a文件,然后a文件里还有个images文件,我之前禁止的对这个起作用吗?要是不起作用这个要禁止得怎么写?
我有更好的答案
生动的叫做“蜘蛛”蜘蛛在爬去网站页面之前,会先去访问网站根目录下面的一个文件,就是robots.txt。这个文件其实就是给“蜘蛛”的规则,如果没有这个文件,蜘蛛会认为你的网站同意全部抓取网页。Robots.txr文件是一个纯文本文件,可以告诉蜘蛛哪些页面可以爬取(收录),哪些页面不能爬取。举个例子:建立一个名为robots.txt的文本文件,然后输入User-agent: * 星号说明允许所有搜索引擎收录Disallow: index.php? 表示不允许收录以index.php?前缀的链接,比如index.php?=865Disallow: /tmp/ 表示不允许收录根目录下的tmp目录,包括目录下的文件,比如tmp/232.html
我的意思是:我禁止访问根目录下的images文件了,但是根目录下还有其他文件,例如:a文件,然后a文件里还有个images文件,我之前禁止的对这个起作用吗?要是不起作用这个要禁止得怎么写?帮忙解惑,谢谢了
采纳率:15%
不想被扫描到的,写上绝对路径,基本上可以理解为一一对应,总之绝对路径 
为您推荐:
其他类似问题
robots的相关知识
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。由于该网站的robots.txt文件存在限制指令,系统无法提供该页面…_robots.txt吧_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0可签7级以上的吧50个
本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:70贴子:
由于该网站的robots.txt文件存在限制指令,系统无法提供该页面…
各位网站管理员, 您之前是否遇到过百度搜索结果中个别网页无摘要显示的现象,或发生过网站部分内容不收录的问题,站长平台提示您出现这两种情况可能是由于网站设置了robots.txt文件引起的。为了能够让站长更方便的了解网站页面在出现上述问题时是否是由于设置了robots文件,百度网页搜索结果中上线了robots.txt文件提示。当网站使用robots.txt文件禁止百度收录网站的部分或全部内容,百度将会在搜索结果中给出robots.txt的提示,让站长及时了解网站在搜索结果中无摘要显示的原因,同时可在搜索结果中点击“了解详情”,查看网站详细的robots信息,确认是否是由于robots.txt的误设置而导致的封禁。 robots.txt介绍:robots.txt是搜索引擎访问网站时查看的第一个文件,这个文件用于指定spider在该网站上的抓取范围。部分网站由于存在不想被搜索引擎收录的内容,会使用robots.txt文件来屏蔽网站的部分内容或者全部内容。若网站对百度spider设置了robots.txt文件,百度会遵循robots协议,不去抓取封禁的结果,但是考虑到用户在搜索引擎中有搜索该网站地址的需求,搜索结果中会根据搜索需求展示网站的标题及网址,但不会显示网站的摘要。 温馨提示:仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。同时为了方便站长快速检测及生成robots文件,百度站长平台已上线robots工具。
还是没看懂,到底怎样才能取消限制指令,登陆上去
取消指令?如果之前限制蜘蛛爬,就直接改好根目录的robots.txt,蜘蛛会定期过来的。
这样改?我对电脑不通哎
完全不知你在表达什么
想问下楼主怎么取消这个
楼主可否详细得告诉要怎么做的一个个步骤 学生党真心不懂
还有为什么之前能访问淘宝先现在然不行了 人家电脑不也都能上淘宝吗 为什么连这都会出错
最近登录淘宝网,老是这样啊。。。怎么办啊?在百度输入“淘宝”后显示:由于该网站的robots.txt文件存在限制指令,系统无法提供该页面的内容描述。更换了浏览器也不行。。求大神帮助,,感激不尽
我的robots.txt文件已经修改了半个月了,但是百度还是不来收录,robots.txt书写肯定没有问题
贴吧热议榜
使用签名档&&
保存至快速回贴Robots协议-robots.txt
作者: 分类: | Tag:///
Robots协议-简介
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉哪些页面可以抓取,哪些页面不能抓取。
robots.txt文件是一个文本文件,使用任何一个常见的文本编辑器,比如Windows系统自带的Notepad,就可以创建和编辑它。robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。百度官方建议,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。
如果其他网站链接了您robots.txt文件中设置的禁止收录的网页,那么这些网页仍然可能会出现在百度的搜索结果中,但您的网页上的内容不会被抓取、建入索引和显示,百度搜索结果中展示的仅是其他网站对您相关网页的描述。
robots.txt必须放置在一个站点的根目录下,文件名必须全部小写。
Robots协议-原则
Robots协议是国际互联网界通行的道德规范,基于以下原则建立:
1、搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权;
2、网站有义务保护其使用者的个人信息和隐私不被侵犯。
Robots协议-作用
用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬取页面。
Robots协议-robots.txt写法
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow:/A 是屏蔽A目录下的所有文件,包括文件和子目录,还屏蔽 /A*.*的文件
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址(动态页面)
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: /*.htm$ 仅允许访问以”.htm”为后缀的URL。
Allow: /*.gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图。如,Sitemap: http://www.***.com/sitemap.xml(此处请填写XML地图的绝对路径,即完整URL,如果按习惯填写Sitemap: /sitemap.xml,提交后会提示:检测到无效的 Sitemap 网址;语法错误。XML地图必须在网站根目录下才有效。)
注:我们常用的搜索引擎类型有:(User-agent区分大小写)
google蜘蛛:Googlebot
:Baiduspider
360蜘蛛:360Spider
sogou蜘蛛:Sogou Web Spider
yahoo蜘蛛:Yahoo!slurp
alexa蜘蛛:ia_archiver
bing蜘蛛:MSNbot
altavista蜘蛛:scooter
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler
inktomi蜘蛛:slurp
Soso蜘蛛:Sosospider
Google Adsense蜘蛛:Mediapartners-Google
有道蜘蛛:YoudaoBot
泽许蜘蛛: Zexuwhte
Robots协议-用法举例
例1. 禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file)
User-agent: *
例3. 仅禁止Baiduspider访问您的网站
User-agent: Baiduspider
Disallow: /
例4. 仅允许Baiduspider访问您的网站
User-agent: Baiduspider
User-agent: *
Disallow: /
Robots协议-Robots Meta标签
Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots Meta标签则主要是针对一个个具体的页面。和其他的(如使用的语言、页面的描述、关键词等)一样,Robots Meta标签也是放在页面中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。
Robots Meta标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。
index指令告诉搜索机器人抓取该页面;
follow指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;
Robots Meta标签的缺省值是index和follow,只有inktomi除外,对于它,缺省值是index、nofollow。
禁止搜索引擎跟踪网页的链接,而只对网页建索引
如果您不想搜索引擎追踪此网页上的链接,且不传递链接的权重,请将此元标记置入网页的 &HEAD& 部分:
&meta name=”robots” content=”nofollow”&
如果您不想百度追踪某一条特定链接,百度还支持更精确的控制,请将此标记直接写在某条链接上:
&a href=”signin.php” rel=”nofollow”&sign in&/a&
要允许其他搜索引擎跟踪,但仅防止百度跟踪您网页的链接,请将此元标记置入网页的&HEAD& 部分:
&meta name=”Baiduspider” content=”nofollow”&
禁止搜索引擎跟踪网页的链接,而只对网页建索引
如果您不想搜索引擎追踪此网页上的链接,且不传递链接的权重,请将此元标记置入网页的 &HEAD& 部分:
&meta name=”robots” content=”nofollow”&
如果您不想百度追踪某一条特定链接,百度还支持更精确的控制,请将此标记直接写在某条链接上:
&a href=”signin.php” rel=”nofollow”&sign in&/a&
要允许其他搜索引擎跟踪,但仅防止百度跟踪您网页的链接,请将此元标记置入网页的&HEAD& 部分:
&meta name=”Baiduspider” content=”nofollow”&
Robots协议-生效时间
robots.txt文件一般生效时间为7-15天,即1-2周。如果新网站源码中包含robots.txt文件,那样蜘蛛进行爬行时就会生效,如果是后来添加的,那样蜘蛛需要对数据进行更新,时间一般在7-15天。
特别提示:robots里面内容的大小写不可更改,Disallow后面的冒号必须为英文状态的,遵守先允许后禁止书写顺序。
优搜网-网站优化,从SEO到互联网营销,提供最优的网站优化解决方案
优搜网,从SEO到互联网营销,为您提供最优的网站优化解决方案。提供网站优化,百度优化,关键词排名,百度推广,服务器租用托管及高权重(pr)域名转让业务。
关于uiseo.cn
本文分类:
发布时间: 日 15:26
本文链接:
继续查看有关:/ / / 的文章
若无特别注明,文章皆为原创,转载请注明出处
共收到 0 条评论}

我要回帖

更多关于 robots只允许收录图片 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信