User-agent是指允许的某个蜘蛛,比如我们允许百度蜘蛛进来,则写:User-agent: Baiduspider,如果是允许所有蜘蛛进来则是User-agent:*
Disallow是指不允许蜘蛛抓取的文件夹,Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录, 只需要把admin换成我们对应的文件即可
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
根据以方方法的robots.txt设置就可以只允许指定的蜘蛛抓取 。
根据以方方法的robots.txt设置就可以只允许指定的蜘蛛抓取 。