度娘SEO:浅谈robots.txt协议的作用以及写法技巧

度娘SEO  2017-09-17 23:42  阅读 201 次 评论 0 条

度娘SEO:浅谈robots.txt协议的作用以及写法技巧。提起robots.txt协议,可能大部分站长还很陌生:什么是robots.txt协议?robots.txt协议有什么作用?如何配置robots.txt协议?如何正确使用robots.txt协议?下面度娘SEO就这些问题进行剖析,让你深入认识robots.txt协议的作用以及写法技巧。

网站SEO优化当中,做好robots.txt协议至关重要因为每个搜索引擎抓取网站信息时首先就是爬去robots.txt协议来引导搜索引擎爬取;合理的使用robots协议能够更好的集中网站的权重,避免一些不想被搜索引擎查看的文件抓取,是非常必要的一种SEO手段。

一、度娘SEO:什么是robots.txt协议?

Robots协议又称为机器人协议,是网站用来告知搜索引擎哪些页面可以被抓取,哪些页面不能被抓取的。体现在位于网站根目录下的robots.txt协议中,它并不是一个命令,只是一种国际上通行的规范,将网站的一些不能被抓取的文件或者目录,记录在robots.txt中,当搜索引擎的蜘蛛访问这个网站时候,首先就会去访问robots协议,得知不能被抓取目录和文件信息。

二、度娘SEO:robots.txt协议的作用

当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在搜索机器人就会按照该文件中的内容确定访问的范围;如果该文件不在所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

如果将网站视为酒店里的一个房间,robots.txt就是主人在房间门口悬挂的“请勿打扰”的提示牌。这个文件告诉来访的搜索引擎哪些房间可以进入和参观,哪些房间因为存放贵重物品,或可能涉及住户及访客的隐私而不对搜索引擎开放。

但是,robots.txt不是命令,也不是防火墙,如同守门人无法阻止窃贼等恶意闯人者。

robots协议可以屏蔽一些网站中比较大的文件,如图片、音乐、视频等内容,节省服务器带宽;也可以屏蔽站点的一些死链接,禁止搜索引擎抓取。

二、度娘SEO:robots协议写法技巧

1、robots语法

User-agent: *

解释:“*”星号表示允许所有蜘蛛来抓取这个网站

注意:第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错。

Disallow

解释:不允许蜘蛛抓取

举例:

Disallow: /*

解释:禁止搜索引擎蜘蛛抓取整个网站(网站没有做好之前一定不能让搜索引擎蜘蛛抓取)

2、路径后面有斜杠和没有斜杠的区别

Disallow: /images/ Disallow: /images

解释:有斜杠是禁止抓取images整个文件夹,没有斜杠意思是凡是路径里面有/images关键词的都会被屏蔽

屏蔽动态链接的方式

Disallow: /*=* Disallow: /*?* Disallow: /*&*

解释:星号代表所有的字符,屏蔽所有带有等于号、问号、&号的链接(一定要有两个*号)

屏蔽css文件和js文件的写法

Disallow: /.css$

Disallow: /.js$

屏蔽一个文件夹,但是又能抓取其中一个文件的写法:/templets/qiche

Disallow: /templets

Allow: /qiche

解释:屏蔽文件夹templets,但能抓取文件夹里的其中一个文件qiche

3、写robots.txt要注意的地方

斜杠:/ 代表整个网站

如果“/”后面多了一个空格,则屏蔽整个网站

不要禁止正常的内容

生效时间是几天到两个月

四、度娘SEO: robots.txt协议十个注意事项

1、robots.txt协议名必须全部小写,不要为追求个性写成RoboTs.txt等形式;

2、robots.txt协议只能放在网站根目录下面,其它位置无效;

3、robots.txt协议内容对大小写敏感,尤其是包含网址的部分。虽说很多搜索引擎对网址之外的部分没有严格的大小写限制,但是从搜索引擎的严谨性和个人对网站的要求方面来说,还是建议区分大小写;

4、通常,robots.txt协议里只有三个函数:User-agent、Disallow和Allow,通常我们使用前两个组合限制抓取就可以了,度娘SEO认为没有必要使用Allow,默认搜索引擎是会抓取你网站所有内容的;

5、robots.txt协议里不要放其它无关内容,要严格遵从规范。可以参考度娘SEO网的robots.txt协议写法;

6、robots.txt协议只是和搜索引擎的一个“君子协议”,并不意味着每个搜索引擎都严格遵守robots.txt的规则,按照你的意图来抓取网页,要清楚,你的网站在搜索引擎面前没有什么“秘密”;

7、要检查robots.txt协议是否达到了预期的效果,可以通过谷歌网站站长工具中的robots.txt工具测试;

8、禁止搜索引擎收录单独页面。Robots Meta标签,它区别于robots.txt协议。robots.txt协议主要是限制搜索引擎对整个站点或者目录的访问情况,而Robots Meta标签则是针对一个具体的页面。通常Robots Meta标签的默认值是index和follow,只有inktomi除外,对于它,默认值是index,nofollow。Robots Meta标签总共有四种组合;

9、目前绝大多数搜索引擎是支持robots.txt协议规则的,而Robots META标签则不是。Google一如既往地强大,对这两种形式都完美支持;

10、建议站点根目录下要放一个robots.txt协议,哪怕是空白文件也好。虽说不放robots.txt协议也没什么影响,但是考虑到Robot访问站点时,第一目标就是robots.txt协议,还是顺着它的意思办吧,

以上就是robots.txt协议的作用以及写法技巧的全部内容了,希望能对你有所帮助!有关robots.txt协议的作用以及写法技巧,如果还有什么疑问,可以给度娘SEO留言。

原文地址:http://www.osmandincer.net/seoyouhua/346.html
版权声明:本文由88必发娱乐SEO优化网(www.osmandincer.net)收集于网络不代表本站观点,如果你还想了解更多关于 网站SEO优化 和 百度SEO优化 以及 SEO优化培训 的文章,你还想要免费试用更多 SEO优化工具,欢迎访问88必发娱乐 SEO优化 网。

发表评论


表情