SEO基础12:什么是robots协议 有什么作用


关于robots协议
作用:只是告诉搜索引擎,哪些目录能抓,哪些目录不能抓,哪些页面可以抓取,或者直接不允许蜘蛛抓取!
robots协议的本质是网站和搜索引擎爬虫的沟通方式。
robots这是一个协议,其实很多的网站上面都有,只不过有的写的比较简单,有的比较复杂。

查看网站协议的方法: 网站域名/robots.txt
注意:robots.txt文件名必须是小写,而且放在网站根目录。

我们可以看一下淘宝的robots协议,淘宝是不允许搜索引擎抓取的。

如上图,可以看到淘宝不允许百度蜘蛛爬取网站所有的目录内容。
Disallow: —>为空,说明该网站的所有部分都允许被访问爬取。

禁止所有搜索引擎 抓取 网站的任何部分。
User-agent: *
Disallow: /
———–
google蜘蛛: googlebot
百度蜘蛛:baiduspider

一般来说,我们的网站管理目录是不允许百度抓取,因为不想把管理目录暴露。其他的都是允许的。注意:robots.txt文件在网站的根目录下。

User-agent:*
Disallow: /wp-admin/
Disallow: /wp-includes/

如果没有此文件,创建一个上传在网站根目录即可。文件的内容就填写上面的即可。
除非你的网站做到一定的级别了,有很多东西不允许爬取,否则的话 基本上都是允许的。
——————
robots.txt语法
允许所有搜索引擎爬取收录本站所有的内容:robots.txt文件为空就可以。

禁止所有 搜索引擎 收录网站的某些目录:
User-agent: *
Disallow: /目录名1/
Disallow: /目录名2/
Disallow: /目录名3/

禁止某个 搜索引擎 收录本站,例如禁止百度:
User-agent: Baiduspider
Disallow: /

禁止所有 搜索引擎爬取 收录本站:
User-agent: *
Disallow: /

——————-
robot.txt在SEO中的作用:主要是在进行网站优化的时候,有一些内容不想被蜘蛛抓取,所以会用到robots.txt文件。

© 版权声明
THE END
喜欢就支持一下吧
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容