SEO学习网

同样的梦想,不一样的起步,SEO案例网将尽最大努力帮助“SEO学习者“学习搜索引擎优化.

SemCmd SEO学习网 > SEO案例 > 百度对Robots.txt抓取时间分析报告

百度对Robots.txt抓取时间分析报告

  百度对Robots.txt抓取时间,记得DJ小向在“搜索引擎对网站收录分析”中提过,同是也在文章中做了个猜测,可些只猜对了一半,网站是快照了、但到现在百度对lcch.cn的态度仍然没有放出网站标题与描述,这让DJ小向很郁闷,按正常来说既然有了新的快照,那么网站标题与描述也因为放出来了,为什么DJ小向手里这个新站快照后没有被放出了!

  Robots.txt 不用我说大家都知道,Robots.txt可以说是搜索引擎中的一个公共协议,而我们可以通过Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的、什么文件是不可以被查看的!如何设置Robots.txt 来对搜索引擎抓取,大家可以看看“Robots.txt文件_使用解析”。

  DJ小向今天要谈是百度对Robots.txt态度又是怎样(很多人会说百度对Robots.txt 反应很迟钝,就像301跳转一样),虽然我们知道Robots.txt的作用什么,同时也知道如何来设置Robots.txt,但是有没有朋友去研究过百度对Robots.txt态度是怎么样的了,百度又是以什么样的方式来抓取Robots.txt文件,还有Robots.txt的生效时间又是多久了或者说百度对网站的Robots.txt的抓取频率又是多久? 很多问题就摆在我们面前,但是很少有人可以回答上来,和小向以前一样整天说百度的不是,从来没有想过自己的操作方式,现在小向回想起来那时是有多么的傻,我记得DJ小向在博客中写到过"Robost.txt—SEO细节操作" 当时很天真,虽然分析方式很正确,但是有一点被遗漏了、就是SE对Robots.txt的抓取频率是多久,还有生效时间又是多久,如果当时想通了这个问题,在网站还没有上传FTP之前就写好Robots.txt,就不会出现网站没有成型就被百度抓取到!

  通过这半个月的观查DJ小向得出2条百度对Robots.txt结论:

  1、百度对Robots.txt 的抓取频率是一个周期右左

  2、百度对Robots.txt的抓取是由IP抓取,而不是按域名

  可能很多朋友会不相信,小向也有时不相信,但是用实例我们可以证明以上说法的正常率很高。但不管怎么样每个人都有每个人的看法、百度不是我家开的、所以我们很多都只是猜测!

  小向前段时间为了证明自己对网站的猜测、做了一个小小的调查,呵\正好这个调查可以用来证明DJ小向对2条Robots.tx的结论:

  首先小向声明下面4个网站都在同一台服务器面、因为DJ小向手里有个合租的服务器,里面可以放7个网站,为了养几个域名,小向把没有用上的域名都写入Robots.txt屏蔽掉了所以有搜索引擎! 其中 www.lcch.cn  这个网站在9月9日那天上线、所以改写了Robots.txt

  

百度快照时间 9月9日

 

  第一幅图是DJ小向在9月9号网站上线当天剪切到百度对4个网站的抓取快照时间,在这里我们不管搜索引擎以前怎么样对待这4个网站,但是我们知道从9月8日起,搜索引擎已经知道了这4个网站已经是屏蔽了搜索引擎,各大搜索引擎也乖,都没有去强行抓取,而快照出来。

  

百度快照时间 9月15日

 

  第二幅图是DJ小向在9月16号抓取的图,同样是百度对4个网站的抓取的快照时间,上面4个网站的快照时间都是9月15日,而9月16日是星期四(不用我说,大家都知道星期四是百度小更新)。

  

百度快照时间 9月22日

 

  第三幅图是昨天小向剪取下来的图,昨天是9月23日,而昨天同样是周四! 同样四个网站的快照都相同都是9月22日。

  三张图,百度快照分别为:9月8日,9月15日,9月22日 从这三副图你看到了什么了,而你又懂得了什么了,时间频率9月8日 - 9月日15 -9月22日 他们相隔是一个周期、小向在前几天跟朋友谈过,我说你相信不相信下次百度快照是在9月22日,今天DJ小向又可以在次问朋友们,你相不相信这4个网站的下次更新快照更新会是9月30,但是这个30号对于小向来说不肯定、因为百度有月更新,在说听XX内部消息说这些天百度要动乱了! 但是小向说按照正常下去30号的机会很大。

  从上述我们可以得出:第一点小向说的“百度对Robots.txt 的抓取频率是一个周期右左”猜测是成立的! 如果还有朋友不相信,可以看看7天后的这4个网站的快照结果,但是有一个网站特殊,www.lcch.cn因为在这四个网站中,其它三个网站都写了Robots.txt 屏蔽了搜索引擎,而www.lcch.cn - 时尚美 这个站现在被DJ小向做成了一个美容时间网站,所以Robots.txt对各大SE是对外开放的。

  那么第二点我们的“百度对Robots.txt的抓取是由IP抓取,而不是按域名”猜测是否成立了,其实这点小向也是个人猜测, 我们从三幅图中可以看出来4个网站每次快照时间是同时的,如果说百度对Robots.txt文件是按照域名抓取,那当第一次我们可以说是偶然、第二次是运气、那第三次了、而如果接下来的第四次更新同样是这样! 我们就不得不说按域名抓取Robots.txt的这个说法不成立,那如果不是按域名抓取,剩下的只有IP了,既然搜狗都可以做到按IP抓取网页、为什么百度不可以按IP来抓取Robots.txt, 而只有按IP来抓取Robots.txt 可以解释三幅百度快照时间相同的问题!

  呵、可能中间的分析不是大家想的那样,但这些都只是个人看法,如果你有很好的建议、可以留言下来说说你自己的看法,但是必需要是你自己实验过的! DJ小向自己期待下个更新后,这4个网站的快照时间是否还是相同的!

  注: 其实还有一点,我本来不想写在这篇文章中,因为“百度对Robots.txt的抓取是由IP抓取,而不是按域名”猜测只是小向的一个猜想,具体是不是真的,除了百度很少人会知道,但是通过小向对这4个网站的日志来看,从9月8日,也就是说百度那次快照后,也就是说从9月8日到今天的24日,4个网站都只有一两个蜘蛛爬取,而且百度蜘蛛所爬取的都是首页、没有一个是爬取了Robots.txt,反之GOOGLE的蜘蛛每天都爬取了Robots.txt。

本文由“SEO学习网 > SEO案例 ”整理:

原创文章如转载,请注明: [ 百度对Robots.txt抓取时间分析报告 - "SEO学习网" ]
SEO学习网 - [ 提供SEO学习资料_免费SEO教程_经典SEO工具_系统式SEO培训指导 ]
本文网址:

百度对Robots.txt抓取时间分析报告
<< 百度应用开放平台越做越大了!Zblog"列表插件"调用静态化问题解决 >>


网友评论 [ 请文明的留下您的足迹,你也来囧下吧!]

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

    SEO学习网介绍

    “师傅领进门,修行在个人”

    Seo学习网 - 只能领你进入Seo这扇门,至于以后的发展,唯有靠自己灵性,去模仿/去揣摩它的意图,才能彻底掌握这项技术.

    --------------------------

    系统式SEO培训指导

    培训方式:一对一 YY授课

    培训机构:SEO学习网(SemCmd)

    培训导师:DJ小向

    培训宗旨:授课 + 实站指导

    联系方式:QQ:8943459

    --------------------------

    在线文章编辑器   右击SEO工具箱 关键词密度查询   关键词组合器

    --------------------------

    暑假系统式SEO培训班报名中