常是根据术语与它们所训练的语料库的

我们尝试将 PCA（主要是 3）减少到 10），但结果总体较差。最后，由于嵌入通可能接近程度进行的，因此存在相似之处，您可以理解它们为什么匹配，但显然不是正确的类别（例如，“19 世纪艺术”被选为“18 世纪艺术”的类别）。

最后上下文和词嵌入问题显然困扰着理解

“duck”（动物）和“duck”（动作）之间的区别。将所有内容整合在一起使用上述 whatsapp 数据合，我们能够生成一系列可应用于数据集中的任何标签的程序置信度分数，使我们能够预测每个标签应如何进行。

这些是确定适当程序的案例级别策略。我们将它们识别如下： Goodtags ：这主要是从我们的“不要碰”术语列表开始的，这些术语已经从 Google 获得了流量。经过一些验证练习后，该列表得到了扩展，包括具有排名潜力、商业吸引力以及向消费者提供的独特产品集的独特术语。

如果标签与维基百科条目匹配并且标签+产品估计搜索流量和那么标签的成本就是CPC。标记为“好标签”。好的标签：这些代表我们希望与产品及其描述相关联的术语，因为它们可用于向网站内的页面添加上下文，但不能保证它们自己的可索引位置。

但仍然添加到页面中以实现上下文相关性、自然语言查询、长尾搜索等。例如，此类别的评论可能如下所示：如果标签与维基百科条目匹配但标签+产品没有搜索量。矢量标签与“好标签”匹配。

标记为“OK Tag”并重定向到“Good Tag”。要重新映射的坏标签：此分组表示已映射以进行替以开始在电视上埋头苦换的坏标签。这些标签将被逐字删除并替换为有效版本。这些通常是通过词干/语言化等发现的拼写错误或术语。确定了主要替代方案。

例如，此类别的评论可能如下所示：如果标签与维基百科或向量空间不匹配并且标签+产品没有搜索量。标签没有音量。该标签与维基百科条目“好标签”相匹配。标记为“无法重新映射的错误标签”。要删除的坏标签：这些标签被标记为坏标签，无法与好标签相关。

中完全删除。最后一组代表了最糟糕的情况，因为标签的存在可能被认为是网站质量的负面安圭拉讯息指标。考虑了标签的字符长度、缺乏维基百科条目、无法映射到词向量、没有之前的流量、没有预测的流量或 CPC 值等。

在许多情况下，这些都是毫无意义的短语。总体而言，我们能够将标签数量减少 87.5%，将网站整合为一组合理、有针对性且有用的标签，这些标签可以正确管理语料库，而不会耗尽爬网预算或限制用户参与度。结果：高级白帽 SEO 大约九年前，一位著名的黑帽 SEO 形容白帽 SEO 过于简单、陈旧且缺乏创新。

盾的说法——它根本不存在。当时我很自豪能够用 Hive Digital 使用的一种我称之为“第二页偷猎”的技术来回应他的说法。这是一项伟大的技术，但与我们今天看到的复杂方法相比，它显得黯然失色。

我从未想象过白帽 SEO 社区中会发展出如此深度或广度的技术专业知识，以解决网站管理员面临的独特但持续的问题。我真诚地怀疑这里的大多数读者都会遇到上述特定的标签蔓延问题。如果你们中的几个人能加入，我就很幸运了。

我希望这篇文章可以帮助我们拒绝任何对白帽 SEO 的简单化或停滞的讽刺，并激励我们领域的人们尽最大努力。备份当我刚进入这个行业时，标准建议是告诉我们的客户搜索引擎无法处理 JavaScript (JS)，并且任何依赖 JS 的内容都将被有效隐藏并且永远不会出现在索引中。

从早期的工作（例如我的同事 Rob 在 2010 年写的可怕的转义文章的方法）到我们今天在索引管道中看到的 JS 的实际完成，至少在 Google 是这样。在这篇文章中，我想探讨我们在狂野和受控测试中看到的有关 JS 索引行为的一些事情，并分享我得出的关于它应该如何工作的一些初步结论。

JS索引简介从最基本的角度来说，支持 JavaScript 的索引背后的想法是在用户查看页面时更接近搜索引擎。大多数用户在启用 JavaScript 的情况下进行浏览，而许多网站如果没有启用 JavaScript，要么会失败，要么会受到严重限制。