爬虫界的君子协议——Robots.txt

阅读 60

2022-03-26

爬虫界的君子协议——Robots.txt

  • Robots.txt统一小写)是一种存放于网站根目录下的ASCII编码的文本文件
  • 用来告告诉该协议对哪些爬虫生效,哪些网页可以被这些爬虫爬取,哪些不可以
  • 该协议有三个属性:
    1. Uer-agent: 声明对哪些爬虫有效
    2. Disallow :声明哪些网页不可爬
    3. Allow:声明哪些网页可爬,比Disallow优先级高

案例:

User-agent: *
Disallow: /
Allow: /public/

对所有爬虫有效,不允许抓取所有页面,但可以抓取 public 目录

User-agent: Baiduspider
Disallow: 

对百度爬虫有效,允许抓取所有页面

精彩评论(0)

0 0 举报