从BERT 更新和谷歌自然语言处理 API的介绍可以确定文档看出,谷歌已经在搜索的许多领域使用NLP 。 BERT 更新与搜索查询的解释有关。这就是为什么我不会在这里详细讨论它。
最后,将 NLP确定文档 应用于搜索词、文本或文本片段(例如段落、句子或词序列)都并不重要。过程是一样的。
标记化:标记化是将句子或文
本片段确定文档分成不同术语的过程。
按词性标记单词: 词性标 电报数据 记是将单词按词性进行分类,如主语、宾语、谓语、形容词……
词语依赖关系: 词语依赖关系根据语法规则创建词语之间的关系。这个过程也代表了单词之间的“跳跃”。词性标注和依存关系解析示例,来源:Explosion.ai Demo
词形还原: 词形还原确定一个单词是否具有不同的形式,并将变体规范化为基本形式。例如,动物的基本形式是动物,或好玩的、游戏。
解析标签: 标签对依赖关系或两个通过依赖关系连接的单词之间的关系类型进行分类。
命名实体的分析和提取: 从前面的帖子中我们应该熟悉这个方面。这会尝试识别具有“已知”含义的单词并将其分配给实体类型的类别。一般来说,命名实体是人、地点和事物(名词)。实体还可以包含产品名称。这些通常是 触发知识面板确定文档的词语 。但是,那些不能触发自身知识面板的术语也可以是实体。请阅读更多内容,请参阅文章 什么是实体?什么是实体?使用 Google 自然语言处理 API 进行实体分析的示例。
显著性评分: 显著确定文档性
决定了文本处理主题的深入程度。这是在 NLP 中根据所谓的指示词来确定的。一般来说,流行度是由网络上单词的引用以及 Wikipedia 和 Freebase 等数据库中实体之间的关系决定的。 Google 可能还会将此链接图应用于文档中的实体提取,以确定这些词语关系。经验丰富的 SEO 熟悉 TF-IDF 分析的类似方法。
情感分析: 简而言之,这是对文章 开始就生成潜在客户并为自己设定最 中表达的有关文中讨论的实体的意见(观点或态度)的评价。
主题分类: 在宏观层面,NLP 将文本分为主题类别。对主题进行分类有助于大致确定文本的内容。
文本分类和功能: NLP 可以更进一步确定内容的预期功能或目的。
内容类型提取: Google 可以使用结构模式或上下文来确定特定文本的内容类型,而无需使用结构化数据进行识别。 HTML、文本格式和文本数据类型(日期、位置、URL等)可用于理解文本,无需额外标记。此过程可帮助 Google 确定文本是事件、食谱、产品还是其他内容类型,而无需使用标记。
根据结构识别隐含含义: 文
本主体的格式可以改变其隐含含义。标题、换行 007 厘米 符、列表和接近度提供了对文本的二次理解。例如,如果文本出现在 HTML 排序列表中或一系列带有数字的标题中,则它可能是一种操作或排名。该结构不仅由 HTML 标签定义,还由渲染时的视觉字体大小/粗细和接近度定义。
自然语言处理在文本的预分类和相应的注释中起着重要作用。查看Google 自然语言处理 API 的文档表明您可以使用该 API 将文本分类为内容类别。这将允许为索引编译文档语料库。