Loading
0

搜索引擎文档相关性计算和检索模型(BM25和TF-IDF算法)

技术小学生微信公众号
腾讯云服务器大促销。
华为服务器

最近一段时间,乐天SEO培训网一直在研究搜索引擎的相关性算法。当用户搜素一个词query的时候,搜索引擎如何提供最相关的内容URL来满足用户。如果我们懂得了搜索引擎的工作原理,可以依照搜索引擎的工作思想去设计我们的内容,从而使网站在搜索引擎排序中占据更好的位置!下面的三篇文章是网上最好的介绍搜索引擎相关性的文章,从搜索引擎最常用的相关性算法BM25和TF-IDF算法中分析,介绍影响搜索结果相关性的那些维度!

搜索引擎的检索模型-查询与文档的相关度计算

1. 检索模型概述


      搜索结果排序时搜索引擎最核心的部分,很大程度度上决定了搜索引擎的质量好坏及用户满意度。实际搜索结果排序的因子有很多,但最主要的两个因素是用户查询和网页内容的相关度,以及网页链接情况。这里我们主要总结网页内容和用户查询相关的内容。
       判断网页内容是否与用户査询相关,这依赖于搜索引擎所来用的检索模型。检索模型是搜索引擎的理论基础,为量化相关性提供了一种数学模型,是对查询词和文档之间进行相似度计算的框架和方法。其本质就是相关度建模。如图所示,检索模型所在搜索引擎系统架构位置:
    

搜索引擎相关性排序


    
    当然检索模型理论研究存在理想化的隐含假设,及即假设用户需求已经通过查询非常清晰明确地表达出来了,所以检索模型的任务不涉及到对用户需求建模。但实际上这个和实际相差较远,即使相同的查询词,不同用户的需求目的可能差异很大,而检索模型对此无能为力。
   

2. 检索模型分类

   大学学习的《数学模型》(姜启源第三版),现在还有点印象。数学模型将现实问题归结为相应的数学问题,并在此基础上利用数学的概念、方法和理论进行深入的分析和研究,从而从定性或定量的角度来刻画实际问题,并为解决现实问题提供精确的数据或可靠的指导。
    所以我们从所使用的数学方法上分:

1)基于集合论的IR模型(Set Theoretic models)

     布尔模型

     基于模糊集的模型

     扩展布尔模型

2)基于代数论的IR模型(Algebraic models)

     向量空间模型

     潜性语义索引模型

     神经网络模型

3)基于概率统计的IR模型(Probabilistic models)

     回归模型

     概率模型

     语言模型建模IR模型

     推理网络模型

     信任度网络模型

此外还有基于统计的机器学习排序算法。
这里主要介绍 布尔模型,向量空间模型,概率模型,语言模型,机器学习排序算法

3. 布尔模型

布尔模型:

        是最简单的信息检索模型,是基于集合理论和布尔代数的一种简单的检索模型。

基本思想:

    文档和用户查询由其包含的单词集合来表示,两者的相似性则通过布尔代数运算来进行判定;
相似度计算:

         查询布尔表达式和所有文档的布尔表达式进行匹配,匹配成功的文档的得分为1,否则为0。 
         如查询词:
                 苹果 and (iphone OR Ipad2)
         文档集合:
         D1:IPhone 5于9月13号问世。
         D2: 苹果公司于9月13号发布新一代IPhone。
         D3:Ipad2将于3月11日在美上市。
         D4:Iphone和ipad2的外观设计精美时尚
         D5:80后90后都喜欢iphone,但不喜欢吃苹果。
         那么单词与文档关系如下图:
     

 搜索引擎文档相关性计算和检索模型(BM25和TF-IDF算法)



技术小学生微信公众号
华为服务器
腾讯云服务器大促销。

声明:站长码字很辛苦啊,转载时请保留本声明及附带文章链接:https://blog.tag.gg/showinfo-36-25266-0.html
亲爱的:若该文章解决了您的问题,可否收藏+评论+分享呢?
上一篇:海瑶SEO:SEO培训怎么样!SEO培训学习后成功的秘诀
下一篇:徐州SEO培训:关键词出现频率和布局对排名的影