为了确定文档与搜索查询的相关性,Google 使用所谓的向量空间分析,将搜索查询映射为向量,并将其与向量空间中的定文档的相关文档相关联。如果定文档的已知实体已经出现在搜索词中,Google 就可以将其与提到这些实体的文档联系起来。文档可以是任何类型的内容,例如文本、图像、视频……
可以根据矢量角度的大小对文档进行评分。SERP中的点击行为也可能对确定相关性起到一定作用。
向量和向量空间可以在不同的层
次上应用。无论是。主向量代表中心元素。如果它是一个实体,则可以将其与其他实体或文档关联起来。向量空间中的实体定文档的和文档
向量空间分析可用于排名评 电报筛查 定文档的分,但也可简单地用于组织元素,例如语义相关的实体、主题或特定主题的术语。如定文档的果主向量是与文档相关的搜索词,则可以使用角度的大小或接近度进行排名或评分。
确定实体相关文件
可以通过注释或标记相关文件或识别 引导磁铁的相关性和吸引力 实体提及来识别与请求实体相关的文件。这可以由编辑器手动完成或自动完成。
这允许作者和编辑者为文本中出现的所有命名实体(例如人物、地点、组织、产品、事件等)和概念向帖子添加标签。这将为每个实体创建相关的文档集。然而,仅使用此方法无法对与实体相关的文档进行加权。只有标记或未标记。
在 Google,由于文档数量庞大,可以假设一个自动化过程,如自然语言处理部分所述。
此外,Google 文档可能根据实体提及的频率进行加权,类似于术语频率。超过某个术语或实体频率阈值的文档将被纳入评分过程。其余的仍未评级并随机排列在 30 至 50 位之间。
分析术语出现的频率并不是
个新发明,对于任何SEO来说都不陌生。
类似于逆词频TF-IDF或WDF*IDF,可以确定 007 厘米 逆实体频率。在这里,比较实体描述中出现的术语和其他实体的数量,然后与语料库中所有与实体相关的文档进行比较。
第一步,可以使用实体相关文档确定术语和实体之间的联系。某些术语和实体之间共现的次数越多,存在关系的可能性就越定文档的大。而 TF-IDF 则通过引用关定文档的键字来创建证明项。这里根据所请求的实体确定条款。
权重还基于同时发生事件的相应文档的相关性。换句话说,就是文档与所请求实体的接近程度。
公式如下:
其中 t 代表术语,e 代表实体,d 代表文档。
在命名实体的紧邻区域同时出现的术语可以与它们链接。由此,可以从内容中提取属性以及“主要实体”的其他“次要实体”并将其存储在相应的“实体配置文件”中。文本中术语和实体的接近度以及主实体-属性对或主实体-次要实体对出现的频率既可以用作验证,也可以用作权重。
谷歌已官方确认,在评估链接时其长期一直采用定文档的类似的方法。这里的重点不仅在于链接的锚文本,还在于周围的术语。
这里不应该不提一下词袋 (Bag of Words)和上下文词袋 (CBOW)这两个方法。