Robots.txt文件的写法

燕郊seo 259 0

通常,大部分的情况下大家都不会使用Robots.txt来阻拦搜索引擎抓取我们网站,除非你确定这个页面对SEO有不良影响,如果你确定这些页面会影响SEO,并且你不希望搜索引擎来抓取,你就可以使用Robots.txt(比方说网站正在开发中,网站还没有完全做好)

Robots.txt文件的写法

使用Robots.txt文件很简单,你只需创建一个文件名为robots.txt,并且上传到网站根目录,在这个文件内写上你不希望搜索引擎抓取的页面链接。

如下图,你能在www.seo66.com网站上看到,我也上传了这一个文件,而且我不希望搜索引擎抓取到我后台的登入页面,所以才会出现Disallow:/zb_system/这些内容

Robots.txt文件的案例

Robots.txt文件到底应该怎么写?

基本上Robots.txt会用到以下几个参数:

1、User-agent:填入搜索引擎蜘蛛的值(*号代表全部),主要定义下面的规则对那些搜索引擎生效。

常用的搜索引擎蜘蛛的值有:Googlebot(谷歌)、Baiduspider(百度)、Yahoo-slurp(雅虎)、Sogou spider(搜狗)、360Spide(360),如果没有其它特殊要求直接用*号即可。

2、Disallow:指定哪些目录或文件类型不想被抓取,需要指明路径,否则将会被忽略。

Disallow应该不能算是不抓取参数,因为如果是Disallow:(那么就是允许抓取所有内容),如果是Disallow: /(那么就是不允许抓取所有内容),如果填Disallow: /seo66/(则是不允许抓取seo66目录的所有内容)。不知道大家能否看懂,等下给大家举几个例子。

3、Allow:指定哪些目录或文件类型可以被抓取,需要指名路径,否则将会被忽略。

一般很少会用到这个,如果填Allow: /seo66/(那么就是允许抓取seo66目录的所有内容)。

如果您有一个需要禁止抓取的目录,但希望抓取该目录中的一个目录,就可以用如下代码(允许抓取seoziyuan目录里的seo,禁止抓取seoziyuan):

User-agent:* 
Allow:/seoziyuan/seo/

Disallow:/seoziyuan/

4、Sitemap:指定网站内的Sitemap地图放置的位置,需使用绝对路径,如本站案例。

Sitemap: http://www.seo66.com/sitemap.xml

可以不用填写,如果有网站地图的最好加上

Robots.txt文件上的通配符和结束符 

1 、通配符(*)

主流的搜索引擎基本都支持通配符和结束符。通配符会存在一部分未知的页面,所以使用时需要注意。例如:

Disallow:/html/*/66

*(星号)表示“匹配任何文本”,上述指令表示:阻止抓取以下所有地址:

http://example.com/html/aa/66
http://example.com/html/bb/66
http://example.com/html/cc/66

http://example.com/html/.../66

小心!以上还将阻止以下链接(可能不是您想要的):

http://example.com/html/aa/bb/cc/66
http://example.com/html/dd/ee/66

2、结束符($)

在指令最后加入“$”。比如,如果你想屏蔽所有以.php结尾的链接,那么你的可以设置成这样:

User-agent: * 

Disallow: /*.php$

在这个例子中,搜索引擎无法抓取任何以.php结尾的链接,意味着搜索引擎无法抓取/index.php,但是搜索引擎可以抓取这个 /index.php?id=1450347,因为它没有以“.php”结尾。

Robots.txt举例

1、允许所有搜索引擎抓取任何部分

User-agent: *

Disallow: 

2、禁止所有搜索引擎抓取任何部分

User-agent: *

Disallow: /

3、不允许百度抓取zb_system目录

User-agent: Baiduspider

Disallow: /zb_system/ 

4、禁止抓取/html/目录下的所有以“.htm”为后缀的链接。

User-agent: *

Disallow: /html/*.htm

5. 仅允许抓取以“.html”为后缀的链接。

User-agent: *

Allow: .html$

Disallow: /

6. 禁止抓取网站所有的动态页面

User-agent: *

Disallow: /*?*

7. 允许抓取jpg图片格式的文件,禁止抓取png图片格式的文件

User-agent:*

Allow .jpg$

Disallow: .png$

Robots.txt总结

Robots.txt相对来说还是比较简单的,特别要注意Disallow: 有无/(斜杠)。有斜杠和无斜杠相差甚远,这里大家一定要小心。

标签: Robots

评论列表

 暂无“Robots.txt文件的写法”评论,快来抢沙发吧

发表感想