百度说:几乎所有的大型网站都在用CDN,看看他们在搜索引擎中的表现就可以知道不会任何的负面影响了。但我们建议站长尽量选择技术成熟的CDN服务商,某些CDN服务商会导致网站在某些地区访问不稳定,可能会影响Baiduspider的抓取。
百度说:正常的301永久重定向,旧url上积累的各种投票信息会全部转移到新url上。
百度说:正常情况下,Baiduspider对一个网站的抓取频率决定于这个网站产出新内容的速度。一个小网站的抓取频率远高于新内容产出速度,通常会是下面这两种问题有中的一个:1)有其他程序冒充Baiduspider抓取。2)网站程序有漏洞,产生了无穷尽的url,被Baiduspider当成了很多新内容而频繁的抓取。
百度说:javascript的解析,是很多搜索引擎正在做的事情;同理,对flash的解析。毕竟有那么多应用javascript或者flash的网站,其实并没有意识到,他们的做法给搜索引擎的收录和索引带来的麻烦。所以,如果期望不被搜索引擎收录的话,最直接的手段,还是写robots文件。
百度说:通常情况下,搜索引擎对https这类网页并不做内容解析,而只是将url进行索引。IP地址的url被收录,除了spider在机制上的不完善之外,通常站点设计上也有一些缺陷。一般情况下,这类问题是可以被规避的。
百度说:对于搜索引擎来说,虽然超大的页面并不影响抓取和收录,但毕竟搜索引擎不会为页面上的每一个字节都建立索引(那会造成极大的资源浪费和效率等问题)。为了使页面的主体内容都可被检索到,我们建议应当将单个页面的大小控制在合理范围内,就目前而言,推荐不大于128KB。
—————————————————————————————————————————————————————————————
谈一下site语法下的结果数问题
我知道大多数站长,会使用不带关键词的site语法来进行收录量观察。这是一种方法,但很不准确。
site语法设定的初衷,其实是期望用户可以设定约束搜索范围,实现更加精准的搜索。这同intitle,inurl,本质上是相同的。而在这些高级语法下的结果数,和常规搜索一样,都是“估值”,而非精确值。因此,很有可能site下的“结果数”减少了,实际被索引数却可能增加了。
更加精确的方法是什么呢?
1,对来自搜索引擎的流量进行监控。这是最直接和本质的。如果流量没有大的波动,而site下的数值发生巨大波动,这只能说明site搜索结果数的不精确性。
2,对站内url进行抽样监控。有些url已经被搜索引擎收录了,那么取出一个集合,作为收录状态监控集;每天的新url尚未被收录,也可以对其进行索引状态的监控。脚本是很容易写的,这种基于抽样的评估也是很有效的。
3,由搜索引擎提供的统计工具。我们是否应该提供类似统计工具,目前还在评估中。