温州SEO优化教程-网站禁止收录机制robots文件的使用

字字句句皆精华，欢迎关注转发，鼓励一下，勤劳的小编(*^__^*)

这篇文章主要和大家分享一些网站相关优化代码的使用。大家可能会问，我是做运营推广的，我不是工程师，我知道代码有什么用。这么想那就错了！知道一些基础的网站优化代码为你做seo，sem，运营推广提供了强有力的基础保障。工程师很厉害，他会写很多一般人根本看不懂的代码，一般人根本理不清的逻辑，但是他们一般不会做一个网站及写代码，另外还帮网站代码各方面去做推广优化和搜索引擎优化。因此，这些任务要落到推广人员的身上了，只有你懂基础的优化代码，然后向工程师提出相应的修改意见，工程师才会根据你需求去做相应的修改。

其他不多说，下面就和大家分享robots的使用：

想必很多人会有体会，自己的网站的某些页面不希望被搜索引擎去搜索，比如：一些重要隐私信息页面，一些帐号密码，付费内容，还在测试阶段的页面，不宜公开的页面等等。相关的页面很多运营人员并不希望搜索引擎去收录，但是又不可避免的会被收录了。那该怎么办呢？

首先搜索引擎蜘蛛访问网页的时候，会先查看网站的根目录下面有没有一个命名为robots.txt的纯文本文件，robots.txt可以引导蜘蛛哪些页面是可以去抓取哪些页面是不可以去抓取的。Robots文件不存在的时候或者是空文件的时候都意味着允许搜索引擎去抓取所有的页面内容。不过一般你的网站所有的页面都允许抓取也要建立一个空的robots.txt文件，然后放在根目录下面。

robots文件由记录组成，记录之间以空格分开。记录的格式为：

<域>：<可选空格><域值><可选空格>

最简单的robots文件：

User-agent：*

Disallow：/

上面这个robots文件是禁止所有搜索引擎去抓取网站上的所有页面内容。

User-agent：指定下面的规则适用于哪种蜘蛛，通配符*代表所有的搜索引擎。只是指定百度的可以用：

User-agent：Baiduspider

指定于360（好搜）蜘蛛的可以用：

User-agent：360spider

只适用于谷歌蜘蛛可以用：（但是我们大陆谷歌不能用了）

User-agent：Googlelebot

Disdllow：告诉蜘蛛不要去抓取某个页面或者目录。例如下面的代码将不允许所有蜘蛛抓取/cgi-bin/和/tmp/两个目录下面的文件/aa/index.hyml：

User-agent：*

Disallow：/cgi-bin/

Disallow：/tmp/

Disallow：/aa/index.hyml

Disallow：禁止的目录或者文件必须分开写，每个一行，不能写成：

Disallow：/cgi-bin//tmp//aa/index.hyml

下面的指令允许所有的搜索引擎蜘蛛抓取任何页面：

User-agent：*

Disallow：

下面的指令禁止除百度外的所有的搜索引擎蜘蛛抓取任何页面：

User-agent：Baiduspider

Disallow：

User-agent：*

Disallow：/

Allow是告诉蜘蛛允许抓取的页面文件。Allow要和Disallow配合使用。可以告诉蜘蛛某个文件下面哪些允许抓取哪些不允许抓取。下面的代码告诉蜘蛛不允许抓取/ab/目录下面其他文件内容，但是允许抓取/ab/目录下/cd/下面的内容：

User-agent：*

Disallow：/ab/

Allow：/ab/cd/

$通配符：匹配url结尾的字符。例如，下面的代码将允许抓取以.htm为后缀的url：

User-agent：*

Allow：.htm$

下面的代码将禁止百度蜘蛛抓取所有.jpg格式的文件图片。

User-agent：Baiduspider

Disallow：.jpg$

*通配符：告诉蜘蛛匹配任意一段字符。例如，下面的代码将禁止蜘蛛抓取任何带有htm的文件：

User-agent：*

Disallow：/*.htm

好了，本篇文章先和大家分享到这里，以后会整理和分享更多的网站SEO,SEM,运营推广的知识和技能。

远晓品牌网

温州SEO优化教程-网站禁止收录机制robots文件的使用

全部评论 (0)