研究各搜索引擎蜘蛛爬取网站规则,这是小向很早以前就在做件事,不管百度还是GOOGLE蜘蛛爬取的规则都是错不多了,只是说有很多方面GOOGLE蜘蛛比百度要强大一些、其实个人感觉有一点至少是相同的,不管百度还是GOOGLE蜘蛛都会考虑服务器负载问题! 虽然现在有深度爬取与广度爬取、当然这只是其中一方面、还有很多方面我们都是不知道的,百度蜘蛛有很多地方值得我们去挖掘。
1、 在以前我记得我写过一篇文章“怎样提高百度快照更新频率”里面说过如何来提高百度快照与百度收录问题,也提到过网站更新对网站快照与收录是有影响的!如何来影响的了、其中就说明了是“搜索引擎蜘蛛”问题。
通常蜘蛛在下一次爬取的数据要跟上一次爬取进行比较,如果连续5次都没有变化,那么将爬这个网页的时间间隔扩大1倍,如果一个网页在连续5次蜘蛛爬取的时候都有更新,那么将设置的爬取时间缩短为原来的1/2。
网页更新频度严重影响着搜索引擎蜘蛛程度对网站的爬行,爬取次数越多意味着网页收录几率会越大、收录数量越多,收录是SEO最基础的一个环节
那么这点说明了什么了、蜘蛛已经成为了人性化了! 有很多地方都是值得我们学习的
2、在不久前、因为手里面有个企业网站,因为快照老不更新的问题、就查看了下IIS日志,呵、这一查把我很早以前那个疑惑解决了:百度蜘蛛抓取问题、从这个案例我们证明了各大搜索引擎蜘蛛的强大!
“百度蜘蛛在无论爬和不爬都可以知道你有没有更新”
某网站IIS日志分析:(这里我只列出三天的日志)
2010/06/01日志报告
2010/06/02日志报告
2010/06/03日志报告
从上面三副图、我们可以看出、分别是这三天来百度蜘蛛对网站的访问与爬取(GET代表着是已爬取)、正好这三篇文章也是分别是按照这三个日期来更新了(也就是说我每天只更新了一篇文章)! 我们这里先不谈蜘蛛爬取后是否会马上收录、我们这里只是了解蜘蛛的爬取规则!
分析网站这三天来的总点击:
这里是IIS日志6月1日百度总的抓取量:111次
百度蜘蛛抓取Default.asp文件的次数!
从这个小企业站我们可以看出、“百度蜘蛛总数:111次”- “百度蜘蛛抓取首页数次:103” = 8次 (这里就是抓取首页与内页之间的比例)
其它几个日志我就不一一例出来说了!从以上的分析我们可以总结出:
1、为什么百度网站内页快照更新超慢(反而GOOGLE的快照更新要比百度快)
2、理解为百度的一种技术、(因为百度不是没有抓取内页、他只是只抓取了更新的内页)
3、百度蜘蛛无论爬或不爬网页都可以判断该网页有没有更新(相信这个技术不难 只是小向个人认为)
不管是前面说的“网站内容更新频率影响着搜索收录”,还是说今天所以说的百度蜘蛛抓取规则!都说明了各位站长朋友需要重点加强“网站内部结构优化”。
以上内容只是小向个人看法,如有其它更好的意见可以谈谈个人看法, 还有一些蜘蛛方面的经验,没有得到一定的实例证明!等下次得出了正确的结果在分享给大家!