为了保持总体概述,我想首先总结一下 Google 等信息检索系统中实体可能执行的任务。
基于实体的信息检索系统需要完成以下任务
- 搜索查询的解释
- 文档级别的相关性判断
- 域级别/发布者评估
- 以知识面板、精选摘要等形式发布临时答案……
在所有这些任务中,都必须满足实体之间的交互、搜索查询和内容的相关性。在文章语义搜索:搜索查询解释中的实体中,我详细介绍了 Google 如何根据实体解释搜索查询。本文重点介绍如何确定文档与搜索查询中确定的实体和/或搜索词的相关性。
相关性在谷歌的作用
正如谷歌的《相关性、针对性和有 电报数据 用搜索中的性》一文中所解释的那样,必须在相关性(客观相关性)、针对性(主观相关性)和有用性(情境相关性)之间做出根本区分。在本文中,我将仅关注文档的客观相关性,因为针对性和实用性与个性化有更大的关系。
相关性确定分两个步骤进行。首先,必须根据搜索查询确定一个包含 n 个文档的文档语料库。这通常是通过非常简单的信息检索过程来完成的。文档中搜索词或同义词的出现在这里起着重要作用。然后可以为这些文档提供类似于标签的注释或评论,以便按主题对其进行分类。理论上,这些也可以用附加标签进行评论,例如根据目的(销售、建议、通知……)。然而,这个过程很可能在内容被解析时已经发生了。然后,该文档将在索引中提供,并附带注释。
当触发搜索查询时,搜索引擎 从成本角度来说,这是一个关键点:我们认为不是一个很好的 会访问包括评论在内的相应文档集。对搜索查询或搜索意图的解释起着决定性的作用。我在文章《语义搜索中的搜索:搜索查搜索中的询解释中的实体》和《概述:搜索意图和用户意图》中详细讨论了这个问题。
在第二步中,排名引搜索中的擎(例如蜂鸟算法)使用评分来确定相应文档与搜索查询的相关程度。除了确定相关性之外,Google 还会应用其他评分级别,例如及时性或可信度 (trust)以及来源的权威性和专业知识 (EAT)来确定排名。这些评分类型的搜索中的权重可能因行业甚至关键词的不同而不同。为了提高速度,此评分仅针对前 30-50 个最相关的搜索结果进行实时评分。
在这篇文章中,我将重点关注文 007 厘米 档级别的相关性判断。我将在另一篇文章中讨论有关实体的信任和权威 (EAT) 的可能评估。
有两种主要方法可用于确定文档的相关性。