搜索引擎隐性语义索引
Latent Semantic Indexing-隐性语义索引(简称LSI),也可译为隐含语义索引,是近年来逐渐兴起的不同于关键词检索的搜索引擎解决方案,其检索结果的实际效果更接近于人的自然 语言,在一定程度上提高检索结果的相关性,目前已被逐渐的应用到图书馆、数据库和搜索引擎的算法当中。Google|Baidu就是典型的代表。
其实就是我们今天要讲的一个原理,叫做LSI(Latent Semantic Index)翻译成中文的意思就是隐含语义索引。
隐含语义索引工作原理:
当蜘蛛爬取并下载站点页面后,隐藏语义索引(以下我们检查LSI)把下载网页的所有单词制作成一个列表,然后就是将一些没有语义的单词过滤(比如停 用词,过滤词等),然后再将站点所有的页面都做出单词列表。然后利用这些列表就可以做一个以页面(文档)为X轴,单词为Y轴的巨型矩阵。如果一个单词出现 在某个页面,那么对于的页面位置我们标为1,反之就为0。这样就可以很清晰的看到每个单词在整站页面出现的频率。
当然仅仅是靠这样是不能准确的技术的,那么LSI将引入一个关键词权重。1.关键词在页面出现的频率越高这个关键词在这个页面的权重就越高。2.就是整站关键词频率高的权重越低。
LSI最重要的是可以算出站点某个关键词的相关关键词在其他内页的出现的频率。这样的好处就是即使你的某个站点页面未出现你搜索的关键词,也可能将 相关的页面搜索出来。所以如果你做某个关键词排名还是把你所有的反向链接都用该关键词作为锚文本的话,那么你的反向链接的质量度会下降,就是LSI的作 用。还有就是你站点页面做相关的长尾关键词相互提升其竞争力,就是因为他们的相关性。所以如果你还是用以前的方法来做优化,不做长尾关键词,不做相关性的话,那么你的站点关键词是很难获得很好的排名的。
从上面的叙述的原理我们不难看出,为什么搜索引擎能够表现出这么好的智能,虽然LSI并不是理解某个单词的意思,但是他通过计算一个页面包含的关键词,并且参考其他网页所包含的关键词组成。所以LSI会得出一个结论,具有很多关键词相同的网页,他们的页面内容也是接近的。所以这就是为什么搜索引擎能 够很多的判断伪原创和采集的页面的文章,所以你不要因为你改改标题,改改某些段落搜索引擎就不知道了。其实LSI就能够很好的判断。这就是LSI的智能结果。