牛牛逼逼叉叉
菜单

一起温习百度的三大核心算法

2016年01月06日,分类《SEO》,作者:
博客捐助

下图中的公式是百度用来计算某个网页权重的,这个公式是百度的核心算法,里面包含了网页HTM代码的权值,网页链接的权值和用户日志的权值,下面将先详细分析这三个最重要权值算法的计算规则,以及这个计算公示所带来的很严重的问题。

百度用来计算某个网页的权重的公示

百度用来计算某个网页的权重的公示

首先我们先看下关键词权值算法

在关键词权值算法里面有两个修正算法,一个是可索引文本大小,另一个是逆文档频率。首先我们来看下WBT,WBT是关键词包含在某些标签当中它的 权值是多少。一篇文档里面所有WBT的集合就是关键词在该篇文档中的权值。取得权值后, 然后乘以log,max,max是指一个网页当中可索引文本大小的最大值,这个最大值不是该篇网页的大小,还是百度或者搜索引擎给出的确切的数字,比如说 两篇,然后再乘以log逆文档频率。逆文档频率是指被索引的网页总数中包含某个关键词的网页数量的倒数,这样做的目的是,在计算某个关键词权值的时候,它 的权值的大小不会受到网页长度的影响,以及不会受到关键词词频的影响得到一个绝对值。这个就是关键词在HTM和标签中全职算法的核心。

关键词权值算法

关键词权值算法

也就是说, 我们在做优化的时候,一篇文章的长短不会影响到其中某个关键词的权值,以及这个关键词是否高频词是否是低频词,它对你要表达的含义的核心是不会受到影响的。 那么我们在做SEO优化的时候,如果优化的是一个高频词,你 应该适当提升它在你的在化网页当中出现的次数,而不是单看关键词密度

今天只讲算法,具体怎么做大家可以根据算法来测试。

根据HTML的权值算法,来看内容块权值传递的过程

根据内容块权值传递的过程,我们发现了个很重要的方法,如果我们在每个区块里面都包含某些权重的内容,比如说我们的关键词或者是与关键词相关的的东西,那么它会在所有的节点进行累加。

内容块权值传递的过程

内容块权值传递的过程

百度另一个主要的算法就是用户检索日志

用户点击日志是用户浏览查询结果并点击页面时记录的,它包括用户点击页面的时间、点击页面的URL、用户IP地址、点击页面的序号(该页面在查询结果中的位置)、该点击对应的查询串等信息。用户点击日志的一个简单记录格式为:

Fri Mar 11 10:36:02 2005//点击时间

162.105.146.*//用户IP

北大//查询词

http://www.pku.edu.cn//点击的URL

2//点击页面的排序

这是早期最简单的用户日志格式,大家可以看下。根据这个用户日志我们可以看到,搜索引擎会根据用户的点击情况来进行对搜索结果的一个重新的排序,那么我们来看下它从日志中可以分析出哪些内容。

1、用户查询词的分布情况

2、雷同查询词的衰减统计

3、相邻N项查询的偏差分析

4、用户点击URL的分布情况

5、用户在输出检索结果中的翻页情况

其中最核心的部分是第四点,根据用户点击URL的分布情况。根据点击URL的分布情况和次数和频率能够计算出哪个URL是可以提升用户排名,哪个URL是可以降低用户排名。

根据用户点击次数判断

根据用户点击次数判断

可以看看这个红色框框圈起来的文字部分(如上图),返回结果列表被选取点击的次数较多,则系统感到该链接是比较受欢迎的,其位置应该往前调。后面的WUH就是用户点击行为的权重。

百度点击排名算法的第二个部分,叫补偿算法

百度补偿算法

百度补偿算法

补偿算法是用来给全新的网页进行权重补偿,这就是为什么有些网站的内容会被放上去,但是果断时间就好马上被干掉。

入链算法

百度入链算法

百度入链算法

哪些链接是肯定会被百度降权, 这个降权不是指会把网页的权重降低,而是指这类的链接会被搜索引擎忽略掉的 。

第一类链接是模板中包含大量的该网站的索引链接;比如说很多网站的页面都是运用一定的页面模板实现,在模板中会包含大量的该网站的索引超链接,而这些超链接会跟随模板被继承到该网站的的每一个网页中,显然这些超链接不应该被考虑。

第二类是大型网站(含有大量的网页)的主页,会带有本站的其他页面的大量链接,而获得很高的LHN。尽管它有可能被极少的其他网站所链接。

第三类是不可见链接。例如,在某些网页中包含了大量的不可见链接指向自己的页面,进而获得较高的LHN。

由于一般全新的网页是没有入链的,那么这边会提供新网页的入链的 补偿算法 , 它是根据时间差,然后有一个时间值TP,当TP达到某个极限时不再使用补偿算法。 这就是为什么我们有些页面明明优化的很好,但是出现在百度上面有一段时间排名,过段时间后就会被百度干掉。

百度入链的补偿算法

百度入链的补偿算法

讲完三大核心算法,然后我们再回到百度最终权重算法的公式上面。

百度用来计算某个网页的权重的公示

百度用来计算某个网页的权重的公示

有谁发现这个公式最大的问题在哪里吗?

在设计另外一个算法的时候,KR算法,就发现我们的算法里面有一个很严重的问题,就是如果使用加法计算,当其中任意一项的全值出现极限值的时候, 比如极大值或者极小值,那么其他的权限就会出现非常严重的错误,导致我们的核心算法是不准确的,就是说我们可以用任意一种其中任意一项能够提高权限的算法 来打败所有的竞争对手。

比如说单独的关键词权,如果WB的值是一千万,而其他的WL,就是长连接以及用户点击日志的权非常的低,同样可以把所有的竞争对手都干掉。也就是 说如果我们的超链接或者是我们的用户点击日志有任意一项是非常完美极限的,那么其他的即使我们做的再烂,即使把网页做成母猪,也是能排到第一名。



评论功能暂时关闭

【上一篇】

win8系统禁用开机启动项的方法

【下一篇】

DFileManager:封面流(CoverFlow)文件管理器