苏格网赚:http://www.zxlovecjy.com/,苏格:暴利行业培训第 1 人,已开设免费公开课 更多算法和技巧,请联系苏格 QQ:76573055 或微信 laosutexun 苏格百度核心算法算法整理(全) --苏格 前言: 排名规则在百度中是很繁琐的一个环节,繁琐的算法才能保证给用户最好的信息。但是 数据的处理往往占用了很大的计算资源,所以百度不断完善排名的相关规则。在 16 年 7 月 会上线的全新计算规则将会大大降低计算的部分,而是通过简单的规则判断给予排名。流程 如下: 数据预处理 - 检索处理 - 索引处理 - 系数处理 - 数据包处理 - 行为处理 算法价值:百度核心算法,内部流出 分享此算法 PDF 到 5 个 QQ 群,或好友,领取完整版算法 注意:由于本算法过于给力,请尽快领取,随时可能删除 苏格 QQ:76573055 苏格微信:laosutexun 苏格网赚:http://www.zxlovecjy.com/,苏格:暴利行业培训第 1 人,已开设免费公开课 更多算法和技巧,请联系苏格 QQ:76573055 或微信 laosutexun 一.数据预处理 前面的要通过站内更新和站外链接实现,在现在的环境中,百度对站内看的比较重,在 爬虫爬取的同时,就会对当前页面给予一个基础分值,低于基础分值的,不收录。只有过了 基础分值的才会建立词库索引。关于百度对网站判定,在不同时期有不同的参数参与其中。 T(1T 约=15 天) 状态 备注 第一周期 (1T) 新站期 新站期,其实只有十五天, 在这十五天中,网站收录的 时候开始计算,这五天中最 重要的参考数值是文章数量 的增加。其次是对文章内容 的判定(新增部分属于绿萝) as 初始值一般都为 0,也就是 说这个时期的网站,完全靠 文章增长数量取胜。Ut 为文 章质量判断参数,具体评断 相关内容不详,没有相关算 法。 企业站:5 Cms:20 论坛:150 图片站:3 博客:1-3 商城:200 新闻站:50 其他:2 As+ut=3.2 As+ut=3.6 As+ut=0.7 As+ut=0.3 As+ut=4.5 As+ut=9 As+ut=5.5(0.1) -----标记新闻源强制 ut 值为 0.1 第二周期 (3T) 观察期 网站这段时间是最容易被百 度过滤的,这段时候除了收 录的增加,还开始对网站加 入了初值赋予。并在这段时 间进行减法运算,当初始分 值扣光之后,就会降权该网 站,并送入沙盒中(百度没 有沙盒一说,但是有相应的 机制,叫鬼上身) 初始值 r=30 链接作弊:-1 锚文字密度:-5 外 链 作 弊 : -10 (买卖) 文章收录:不增 长-1 友链作弊:-2 代码作弊:-1 As= ( 100+r ) / (50+R)+3.2 这 个公式是说初始 权重的变动。初 始权重=as+ut Ut 为文章质量, 直接调用第一周 期的数据。 第三周期 (4T) 增长期 这段时期开始,百度运算加 分法则,这个时期的加分都 是双倍加分,是给予能过观 察期的网站的一定的扶持。 百度希望出现优质的网站。 这段时间是最好做很多词的 那种大型网站的时机 优质文章收录:1 网站版面优化:1 网站交互改进:3 网站规模增长: 10 这个周期的公式 都是集合式的, 计算麻烦,as 增 长的效果远远不 如 ut 增 长 的 效 果,就是说这个 时期,还是网站 文章质量重要。 第四周期 (9T) 平稳期 这个时期开始,百度对网站 进入正常的平稳期关注,对 于网站出现的作弊行为,会 进行减分,对好的方面会加 分。 平稳期最重要的会有网站分 类,不同的分类中给予不同 工业行业:5 It 科技行业:3 文字行业:1 个人网站:1 政府网站:5(有 时候会为 0) 门户网站,新闻 推荐度相关,缺 乏最精确的相关 资料,只大致知 道,推荐值为 1,2,3,具体数值 代表的意思不 详。但是推荐值 参考值 参数 苏格网赚:http://www.zxlovecjy.com/,苏格:暴利行业培训第 1 人,已开设免费公开课 更多算法和技巧,请联系苏格 QQ:76573055 或微信 第五周期 (20T) 信任期 laosutexun 的推荐度。相当于百度允许 这样的网站拥有合法的,有 效的投票权。 这个时期,会渐渐降低作弊 处罚力度。除非是格外严重 的作弊,会被人工审核到, 有作弊行为,被发现会立即 被百度处理,即为排名下降, 流量下降。 源:0 垃圾站:1(百度 对于垃圾站本身 并不封杀,原因 是站长圈的反 击。但是对于垃 圾站,百度更多 的会人工过滤) 本身不参与到排 名计算中。 进入新任期的时间提前了一 倍,这个时期的网站会允许 作弊行为的存在。作弊行为 不会减分,但是总分值减到 临界值,会一下子清算。 信 任 值 : 每 1T 增加 1 信任值信 任值 M 参数计 算很复杂大致公 式 M=(as 当前周期 -as 上一周期)/ut 变化值。这个公 式不对,大致这 样,集合式公式 打出来很麻烦。 数据预处理中,百度会根据不同时期的网站执行不同的预处理手段,当然会比整理的详 细复杂的多,但是元素都包含进去了。绿萝算法中提到网站文章的排版问题,还是通过代码 和爱思码来的。 检索处理和索引处理,为核心的东西,原理倒是都公开的,实际计算也不难,完全靠数 据说话的。这两样处理只是为了给倒排索引列表服务,对排名没有任何干涉。其中有新增加 的词库匹配,会在下一批算法中过来,作用暂时不详。检索不只是包含了词库,还有时间, 格式等等,是为高级索引服务的。索引过程中,有个站内索引,是为职业搜索服务的,带来 的体验分值是想当的高。 苏格网赚:http://www.zxlovecjy.com/,苏格:暴利行业培训第 1 人,已开设免费公开课 更多算法和技巧,请联系苏格 QQ:76573055 或微信 laosutexun 二.系数处理(初始值 R、推荐度、信任值) 1.预处理中的系数,涉及到初始值,这个每个网站都一样,只是在后面的减分中会产生差距。 所以,前 45 天的认真程度,会很长时间关系到这个网站在百度中的好坏。 2.百度是有权重的,分值为 20 个档。0-19,只是这个权重不参与排名计算。这个权重值影 响其他系数的变动。推荐值,信任值。比如,权重 19 的网站信任值积累速度肯定比权重 18 的快。赋予的信任值衰减度也肯定低一些。百度考虑放出权重值供大家查询,应该在七月份 之后。 3.推荐度:推荐度的理解,就是以前老版本的权重。换链接的时候,都会考虑这个链接会不 会传递权重,其实这个东西就是推荐度。具体数值为 1,2,3,具体数值代表的意义不详,只 知道是类别的区分。公式为周期衰减型的微积分公式,简单的表格统计几次计算(单位传递 值 1000,只统计小数点后四位): 默认为第一 周期 第一次传递 第二次传递 第三次传递 第四次传递 第五次传递 第一层级 1000 812.6346 656.3659 421.8284 250.1924 第二层级 971.8478 528.4953 593.1643 532.4725 461.2718 第三层级 571.4172 342.4583 380.1594 220.2625 181.4575 第四层级 332.1684 252.2173 231.4254 238.2546 109.1571 第五层级 1.0000 1.0000 1.0000 1.0000 1.0000 为了计算方便,传递值默认为一千,实际每次传递值默认数值都不一样,和权重有最直 接的关系,最高和最低相差悬殊几百倍都有可能,公式为著名的金字塔模型公式(也叫能量 金字塔)。我就不去计算了,百度没有做任何修改,或者有修改没公开出来。 所以,根据滞留算法中相关所得,做外链,做第二层级的外链性价比最高。一个外链, 最多传递五个层级下去,当然,这里计算的是每个层级中的网站,都只有一个对外链接,就 是说,第二层级,只有一个第三层级的链接。如果有五个,那么推荐值要平均除以 5 的。 第二周期大致为第一周期的百分之三十,第三周期大致为第一周期的百分之五。 周期为两种(自然天数四十五天,就是说,第一周期 45 天结束之后,自动进入第二周 期) 前一周期推荐值溢出,自动进入第二周期。具体推荐值多少溢出,和网站权重有关,权 重越高,推荐值上限越高,就跟游戏等级的当前经验值。只不过,推荐度满了不会升级。推 荐值溢出之后剩余多少进入下个周期计算,和信任度有关 前一周期结束,当前积累的推荐值计算之后,会并入第二周期中计算。这个公式有五个, 太难算,且没有实际应用价值,就没有去算。这个每次并非递减,而是递增了。 推荐度激活:也叫外链激活,百度识别链接之后,在统计处理(统计当前网站和链接网 苏格网赚:http://www.zxlovecjy.com/,苏格:暴利行业培训第 1 人,已开设免费公开课 更多算法和技巧,请联系苏格 QQ:76573055 或微信 laosutexun 站相关)之后,会自动激活推荐度的传递,激活之后,蜘蛛每爬取一次,都会传递一次,一 个链接,最多传递 199 次。或者用户通过百度进入当前页面点击这个链接,也会激活推荐度。 这个一般在当前链接已经失去传递推荐度之后,可以这样激活一次,重新进入传递的过程。 (百度认为,你发的外链没人点,那就是浪费。会在今后的更新中,识别这种点击行为,并 统计到推荐度传递值中。暂时没有生效。) 4.传递值和推荐度的关系:两者实际没有直接的换算关系,推荐度的数值,1,2,3 只是类型的 分类,而推荐值是具体的分值,是加分制和衰减制的,和推荐度的 1,2 还是 3,都没有最直 接的关系,今后会有相关的更新,暂时没有消息。 5.推荐传递的规则:类聚和群集,并非所有链接都会产生推荐值传递行为。 6.推荐值对排名的影响:网站吸收过来的被推荐值数值是变动的,这个数值并不会因为有链 接的导出而减少。导出多少和这个推荐值没有任何关系。变动的被推荐数值在预处理中占有 很大的比重。但是在系数处理中,推荐值所能体现的作用很小,被缩小的十倍左右(公式中 体现,百度使用了重力系数 g=9.8) 7.推荐度的生效时间,约 18 天左右。也就是说,一个有推荐度的链接,给别人的推荐值虽 然传递过去了,但是对方要生效,并进入计算,计算后并调整结果,需要 18 时间。这之间 主要是过滤垃圾链接,百度过滤链接的算法不是一直执行的,是周期性执行。 8.推荐值溢出时,会给网站增加一个单位的信任值。和推荐值不同,信任值得数值都很小

pdf文档 苏格百度核心算法绝密

生活休闲 > 其它 > 其它 > 文档预览
7 页 2 下载 613 浏览 3.0分
温馨提示:如果当前文档出现乱码或未能正常浏览,请先下载原文档进行浏览。
苏格百度核心算法绝密 第 1 页 苏格百度核心算法绝密 第 2 页 苏格百度核心算法绝密 第 3 页 苏格百度核心算法绝密 第 4 页 苏格百度核心算法绝密 第 5 页
下载文档到电脑,方便使用
还有 2 页可预览,继续阅读
本文档由 lqtest 于 2020-12-19上传分享
相关精品文档