共计 955 个字符,预计需要花费 3 分钟才能阅读完成。
一:robots 基础知识
robots 协议(也称爬虫协议、机器人协议等),“全称是网络爬虫扫除规范“(Robots Exclusion Protocol),网站经过 robots 协议告诉搜索引擎哪些页面能够抓取,哪些页面不能够抓取。
Robot.txt 的效果?
能够让蜘蛛更高效的匍匐网站
能够阻挠蜘蛛匍匐动态页面,从而处理重复录入的问题
能够削减蜘蛛匍匐无效页面,节约服务器带宽
能够屏蔽搜索引擎屏蔽一些隐私页面或许临时页面
怎么创立 robots.txt 文件呢?
右击桌面——新建文本文档——重命名为 robots.txt(一切文件有必要小写)——编写规矩——用 FTP 把文件上 (放到根目录下) 传到空间
创立 robots.txt 需求留意的知识点:
1、有必要是 txt 结束的纯文本文件
2、文件名一切字母有必要是小写
3、文件有必要要放在根目录下
4、文件内的冒号有必要是英文半角状态下
Robots 基础知识_创建 robots.txt 注意事项!
二:robots 参数解说
User-agent
首要效果:用于描绘搜索引擎蜘蛛的姓名
举列:
1、描绘一切蜘蛛
User-agent:*
2、描绘百度蜘蛛
User-agent:BaiduSpider
百度:BaiduSpider
谷歌:Googlebot
搜狗:Sogou web spider
好搜:360Spider
MSN:MSNBot
有道:YoudaoBot
宜搜:EasouSpider
User-agent 技巧:
1、当 robots.txt 不为空的时分,有必要至少有一条 User-adent 记载
2、相同的姓名,只能有一条(例如 User-agent:*),可是不同蜘蛛,能够有多条记载(例如:User-agent:Baiduspider 和 User-agent:Googlebot)。
Disallow
首要效果:用于描绘不答应搜索引擎匍匐和抓取的 URL。
Robots 运用技巧:
1、在 robots.txt 中至少要有一条 Disallow
2、Disallow 记载为空,则表明网站一切页面都答应被抓取。
3、运用 Disallow,每个目录有必要独自分隔声明
4、留意 Disallow:/abc/(abc 目录底下的目录不答应抓取,可是目录底下的 html 答应抓取)和 Disallow:/abc(abc 目录底下的目录跟 html 都不答应被抓取)的差异