海之韵BLOG | 耿真的个人网站 | 鲁ICP备15001313号 | 本站永久网址:https://www.gengzhen.cn

百度蜘蛛叫Baiduspider不是baidubot

发布:耿真(GengZhen) 2020-12-1 14:36 分类: 技术文章 这篇文章没有标签

  我们知道,搜索引擎的运行原理就是利用自身的计算程序在互联网收集抓取资源,而收集资源的机器人我们都叫它为爬行蜘蛛,把互联网比作一张四通八达的蜘蛛网是不是很形象?然而它的作用是访问收集整理互联网上的网页、图片、视频等内容,然后分门别类建立索引数据库,使用户能在百度搜索引擎中搜索到您网站的网页、图片、视频等内容。
  谷歌的爬行蜘蛛叫googlebot,Googlebot 和Mediapartners-Google 是谷歌搜索引擎系统中非常勤奋的机器人,如果他们影响到你服务器的承受力,你可以通过 robots.txt 文件加以制止。
  那么我们知道谷歌叫googlebot,国内百度蜘蛛又了更好的区分叫Baiduspider而不是baidubot,从百度蜘蛛Baiduspider的构建的原理不难知道,搜索引擎构建一个调度程序,来调度百度蜘蛛的工作,让百度蜘蛛去和服务器建立连接下载网页,计算的过程都是通过调度来计算的,百度蜘蛛只是负责下载网页,把下载回来的网页数据进行检索,经过深度优先和权重优先的计算,构成排名,然而开发者还可以提供连接的列表(俗称网站地图)提供给百度蜘蛛,来计算你的目录结构,找到通过站内连接来构建的重要页面。
  搜索引擎索引数据库的更新需要时间。如果Baiduspider已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要二至四周才会清除,所以,如果不想让百度蜘蛛抓取索引,那么就要学会充分利用robots.txt协议,下面给出robots.txt协议的使用规范以便各位研究学习。

1、禁止所有搜索引擎访问网站的任何部分User-agent:*Disallow:/ 

2、允许所有的robot访问(或者也可以建一个空文件"/robots.txt")User-agent:*Allow:/另一种写法是User-agent:*Disallow: 

3、仅禁止Baiduspider访问您的网站User-agent:BaiduspiderDisallow:/ 

4、仅允许Baiduspider访问您的网站User-agent:BaiduspiderAllow:/ 

5、禁止spider访问特定目录在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不能写成"Disallow:/cgi-bin//tmp/"。User-agent:*Disallow:/cgi-bin/Disallow:/tmp/Disallow:/~joe/ 

6、允许访问特定目录中的部分urlUser-agent:*Allow:/cgi-bin/seeAllow:/tmp/hiAllow:/~joe/look 

7、使用"*"限制访问url禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。User-agent:*Disallow:/cgi-bin/*.htm 

8、使用"$"限制访问url仅允许访问以".htm"为后缀的URL。User-agent:*Allow:/.htm$ 

9、禁止访问网站中所有的动态页面User-agent:*Disallow:/*?* 

10、禁止Baiduspider抓取网站上所有图片仅允许抓取网页,禁止抓取任何图片。User-agent:BaiduspiderDisallow:/*.jpg$Disallow:/*.jpeg$Disallow:/*.gif$Disallow:/*.png$Disallow:/*.bmp$ 

11、仅允许Baiduspider抓取网页和gif格式图片允许抓取网页和gif格式图片,不允许抓取其他格式图片User-agent:BaiduspiderAllow:.gif$Disallow:/.jpg$Disallow:/.jpeg$Disallow:/.png$Disallow:/.bmp$

 12、仅禁止Baiduspider抓取jpg格式图片User-agent:BaiduspiderDisallow:/.jpg$

温馨提示本站内所有原创内容禁止转载,谢谢合作!

本页已获评论0/刷新951 次

关注耿真SEO微信公众号