我们先来了解下什么是robots . txt搜索引擎使用蜘蛛程序自动访问互联网上的网页并获取网页信息 。蜘蛛在访问一个网站时,首先会检查该网站的根域下是否有一个名为robots.txt的纯文本文件 。您可以在您的网站中创建一个纯文本文件robot.txt,并在文件中声明您不希望机器人访问的网站部分,或者指定搜索引擎只包括特定部分 。
文章插图
文章插图
请注意,只有当您的网站包含您不想包含在搜索引擎中的内容时,您才需要使用robots.txt文件 。如果您希望搜索引擎包含网站上的所有内容,请不要创建robots.txt文件或创建内容为空的robots.txt文件 。Robots.txt location robots.txt文件应该放在网站的根目录下 。
例如,当spider访问一个网站(如http://www.xxx.com)时,它会首先检查网站中是否有文件http://www.xxx.com/robots.txt 。如果Spider找到了这个文件,它会根据这个文件的内容确定自己的访问权限范围 。格式文件robots.txt包含一个或多个记录,由空行分隔(以CR、CR/NL或NL作为结束符) 。每条记录的格式如下:“:” 。
您可以在本文档中使用#进行注释 。该文件中的记录通常以一行或多行用户代理开始,后面是几行不允许和允许,如下所述 。User-agent:此项的值用于描述搜索引擎机器人的名称 。在“robots.txt”文件中,如果有多个用户代理记录表明多个机器人将受到“robots . txt”的限制,则该文件必须至少有一个用户代理记录 。
文章插图
文章插图
如果该项的值设置为*,它对任何机器人都有效 。在“robots.txt”文件中,只能有一条记录,如“User-agent:*” 。在“robots.txt”文件中,如果添加了“User- agent:SomeBot”和几行“不允许”和“允许”行,则“SomeBot”的名称仅受“User-agent:SomeBot”之后的“不允许”和“允许”行的限制 。
Disallow:的值用于描述一组不想被访问的网址 。该值可以是完整的路径,也可以是路径的非空前缀 。机器人将不会访问以“不允许”值开始的网址 。示例:“Disallow: /help”禁止机器人访问/帮助* 。html和/help/index.html,而“Disallow: /help/”则允许机器人访问/help* 。
html,但没有/help/index 。“Disallow:”表示允许机器人访问网站的所有网址,并且“/robots.txt”文件中必须至少有一条“不允许”记录 。如果”/robot.txt “不存在或为空文件,则网站对所有搜索引擎机器人开放 。Allow:的值用来描述一组想要访问的URL 。
文章插图
文章插图
与“不允许”项类似,该值可以是完整的路径或路径的前缀 。机器人可以访问以允许项目的值开头的URL 。比如“Allow:/hi”允许机器人访问/hi.htm,/hicom.html,/hi/com.html,一个网站的所有网址默认都是允许的,所以Allow通常和allow一起使用,实现允许访问某些网页的同时禁止访问所有其他网址的功能 。
【robots的写法及用法 robots.txt怎么写】重要的是要注意,不允许和允许行的顺序是有意义的,机器人将根据允许或不允许行的第一次成功匹配来确定是否访问网址 。使用“*”和“$”:Bai Spider支持使用通配符“*”和“$”来模糊匹配URL 。“$”匹配行结束符 。“*”匹配0个或更多任意字符 。
文章插图
文章插图
robot.txt文件用法示例:
1 。允许所有机器人访问用户代理: *允许:/或用户代理: *不允许:
经验总结扩展阅读
- 目前中国最赚钱的十大行业 目前哪个行业挣钱
- 提子皮能吃吗? 吃提子皮有什么好处? 提子皮的效果和作用
- 吃红薯有什么好处? 红薯和红薯叶片的效果和作用
- 吃鸡肉有什么好处? 鸡有魔法药效的几个部位
- 吃大蒜有什么好处? 大蒜的效果和作用
- 吃龙虾有什么好处和禁忌? 龙虾的营养价值与饮食疗法的效果
- 吃鸡蛋有什么好处? 皮蛋的营养价值 皮蛋怎么好吃?
- 吃柿子有什么好处? 柿子的营养效应及作用
- 情人节快到了:巧克力营养价值的全分析
- 什么鱼的营养价值最高? 六种最常见鱼的营养分析