海之韵BLOG | 耿真的个人网站 | 鲁ICP备15001313号 | 本站永久网址:https://www.gengzhen.cn

搜索引擎权重计算公式的研究分析

发布:耿真(GengZhen) 2021-4-3 0:36 分类: 技术文章 这篇文章没有标签

  其实搜索引擎的计算排名规则就是通过蜘蛛抓取某个数据,然后根据返回的数据进行分析判断。搜索引擎会根据这些参数和权重比例计算出网站、关键词等的权重。权重可以分为历史权重、内容权重、技术权重、链接权重和体验权重。我们拿“耿真的博客”这个词来给分析一下看看搜索引擎是如何识别词的权重和如何计算的:


    短语“耿真的博客”可以分成三个关键词: 耿真、的以及博客。根据我们的直觉,我们知道,包含这三个词多的网页应该比包含它们少的网页相关。当然,这个办法有一个明显的漏洞,就是长的网页比短的网 页占便 宜,因为长的网页总的来讲包含的关键词要多些。因此我们需要根据网页的长度,对关键词的次数进行归一化,也就是用关键词的次数除以网页的总字数。

  我 们把这个称为“关键词的频率”,或者“单文本词汇频率”(Term Frequency),比如,在某个一共有一千词的网页中“耿真”、“的”和“博客”分别出现了 2 次、35 次 和 5 次,那么它们的词频就分别是 0.002、0.035 和 0.005。 我们将这三个数相加,其和 0.042 就是相应网页和查询“耿真seo优化

    相关性的一个简单的度量。概括地讲,如果一个查询包含关键词 w1,w2,…,wN, 它们在一篇特定网页中的词频分别是: TF1, TF2, …, TFN。 (TF: term frequency)。 那么,这个查询和该网页的相关性就是:TF1 + TF2 + … + TFN。

    这里我们可能已经发现了又一个漏洞。在上面的例子中,词“的”站了总词频的 80% 以上,而它对确定网页的主题几乎没有用。我们称这种词叫“应删除词”(Stopwords),也就是说在度量相关性是不应考虑它们的频率。在汉语中,应删 除词还有“是”、“和”、“中”、“地”、“得”等等几十个。忽略这些应删除词后,上述网页的相似度就变成了0.007,其中“原子能”贡献了 0.002,“应用”贡献了 0.005。

    细心的我们可能还会发现另一个小的漏洞。在汉语中,“耿真” 不是一个常见的词汇,而“博客”则是个很常见通用的词,后者在相关性排名中比前者重要。因此我们需要给汉语中的每一个词给一个权重,这个权重的设定必 须满足下面两个条件:

  1. 一个词预测主题能力越强,权重就越大,反之,权重就越小。我们在网页中看到“博客”这个词,或多或少地能了解这个网页的主题,就是个个人的博客。我们看到“耿真”一次,对主题基本上还是一无所知。因此,“博客”的权重就应该比耿真大。
  
  2. 应删除词的权重应该是零: 我们很容易发现,如果一个关键词只在很少的网页中出现,我们通过它就容易锁定搜索目标,它的权重也就应该大。反之如果一个词在大量网页中出现,我们看到它仍 然不很清楚要找什么内容,因此它应该小。

   概括地讲,假定一个关键词 w 在 Dw 个网页中出现过,那么 Dw 越大,w 的权重越小,反之亦然。在信息检索中,使用最多的权重是“逆文本频率指数” (Inverse document frequency 缩写为IDF),它的公式为log(D/Dw)其中D是全部网页数。

    比如,我们假定中文网页数是D=10亿,应删除词“的”在所有的网页中都出现,即Dw =10亿,那么它的IDF=log(10亿/10亿)= log (1) = 0。假如专用词“耿真”在两百万个网页中出现,即Dw=200万,则它的权重IDF=log(500) =6.2。又假定通用词“博客”,出现在五亿个网页中,它的权重IDF = log(2)

    则只有 0.7。也就只说,在网页中找到一个“耿真”的比配相当于找到九个“博客”的匹配。利用 IDF,上述相关性计算个公式就由词频的简单求和变成了加权求和,即 TF1*IDF1 +TF2*IDF2 +… + TFN*IDFN。在上面的例子中,该网页和“耿真的博客”的相关性为 0.0161,其中“耿真”贡献了 0.0126,而“博客”只贡献了0.0035。这个比例和我们的直觉比较一致了(耿真seo)。


嘻嘻大笑可怜吃惊害羞调皮鄙视示爱大哭开心偷笑嘘奸笑委屈抱抱愤怒思考日了狗胜利不高兴阴险乖酷滑稽
提交评论

清空信息
关闭评论
温馨提示本站内所有原创内容禁止转载,谢谢合作!

本页已获评论0/刷新71 次

关注耿真SEO微信公众号