为什么被谷歌收录如此困难
每个网站都在某种程度上依赖谷歌。很简单:您的页面会被 Google 编入索引,这让人们可以找到您。事情应该是这样的。然而,情况并非总是如此。许多页面从未被 Google 编入索引。
如果您使用网站,尤其是大型网站,您可能已经注意到并非网站上的每个页面都被编入索引,而且许多页面需要等待数周才能被 Google 收录。
导致这个问题的因素有很多,其中许多与排名中提到的因素相同——内容质量和链接就是两个例子。有时,这些因素也非常复杂和技术性。严重依赖新网络技术的现代网站过去因索引问题而臭名昭著,有些仍然如此。
许多 SEO 仍然认为阻止 Google 索引内容的技术性很强,但这是一个神话。如果您没有就要编入索引的页面发出一致的技术信号或抓取预算不足,Google 确实可能不会将您的页面编入索引,但保持内容质量的一致性同样重要。
大多数网站,无论大小,都有大量应该编入索引的内容——但事实并非如此。虽然像 JavaScript 这样的东西确实使索引变得更加复杂,但即使它是用纯 HTML 编写的,您的网站也可能会遇到严重的索引问题。在这篇文章中,让我们解决一些最常见的问题,以及如何缓解这些问题。
Google 未将您的网页编入索引的原因
使用自定义索引检查器工具,我检查了美国最流行的电子商务商店的大量样本以查找索引问题。我发现,平均而言,他们 15% 的可索引产品页面无法在 Google 上找到。
这个结果非常令人惊讶。接下来我需要知道的是“为什么”:谷歌决定不索引技术上应该被索引的东西的最常见原因是什么?
Google Search Console 会报告未编入索引的页面的多种状态,例如“已抓取 – 当前未编入索引”或“已发现 – 当前未编入索引”。虽然此信息不能明确帮助解决问题,但它是开始诊断的好地方。
热门索引问题
根据我收集的大量网站样本, Google Search Console 报告的最流行的索引问题是:
1.“已抓取 – 当前未编入索引”
在这种情况下,Google 访问了一个页面,但没有将其编入索引。这通常是内容质量问题。鉴于目前正在发生的电子商务繁荣,我们可以预期谷歌在质量方面会变得更加挑剔。因此,如果您发现您的页面“已抓取 – 当前未编入索引”,请确保这些页面上的内容具有独特的价值:
在所有可索引页面上使用唯一的标题、描述和文本。
避免从外部来源复制产品说明。
使用规范标签来合并重复的内容。
使用 robots.txt 文件或 noindex 标签阻止 Google 抓取您网站的低质量部分或将其编入索引。
如果您对该主题感兴趣,我建议您阅读 Chris Long 的Crawled — Current Not Indexed: A Coverage Status Guide。
- “已发现 – 目前未编入索引”
这是喜欢处理的问题,因为它可以涵盖从抓取问题到内容质量不足的所有问题。这是一个大问题,特别是在大型电子商务商店的情况下,我已经看到这适用于单个网站上的数千万个 URL。Google 可能会报告电子商务产品页面“已发现 – 当前未编入索引”,原因如下:
抓取预算问题:抓取队列中的 URL 可能过多,稍后可能会抓取这些 URL 并编入索引。
质量问题:Google 可能认为该域中的某些页面不值得抓取,并决定通过在其 URL 中查找模式来决定不访问它们。
处理这个问题需要一些专业知识。如果您发现您的页面“已发现 – 当前未编入索引”,请执行以下操作:
确定是否有属于此类别的页面模式。也许问题与特定类别的产品有关,而整个类别在内部没有链接?或者可能有很大一部分产品页面在队列中等待索引?
优化您的抓取预算。专注于发现谷歌花费大量时间抓取的低质量页面。通常的嫌疑人包括过滤的类别页面和内部搜索页面——这些页面在典型的电子商务网站上很容易达到数千万。如果 Googlebot 可以自由地抓取它们,它可能没有资源来获取您网站上在 Google 中编入索引的有价值的内容。
在网络研讨会“渲染 SEO”期间,Google 的 Martin Splitt 就修复 Discovered 未编入索引的问题给了我们一些提示。如果您想了解更多信息,请查看它。
3.“重复内容”
重复的内容可能是由各种原因造成的,比如:语言变体(例如英国、美国或加拿大的英语)。如果您有针对不同国家/地区的同一页面的多个版本,则其中一些页面可能最终未编入索引。
竞争对手使用的重复内容。这在电子商务行业中经常发生,当多个网站使用制造商提供的相同产品描述时。
除了使用 rel=canonical、301 重定向或创建独特的内容外,我还将专注于为用户提供独特的价值。Fast-growth-trees.com 就是一个例子。与枯燥的种植和浇水说明和技巧不同,该网站允许您查看许多产品的详细常见问题解答。
此外,您可以轻松地比较同类产品。对于许多产品,它提供了常见问题解答。此外,每个客户都可以询问有关工厂的详细问题,并从社区获得答案。
如何检查您网站的索引覆盖率
通过在 Google Search Console 中打开索引覆盖率报告,您可以轻松查看您网站的多少页面未被编入索引。
您应该在这里查看的第一件事是排除的页面数。然后尝试找到一种模式 – 哪些类型的页面不会被编入索引?
如果您拥有一家电子商务商店,您很可能会看到未编入索引的产品页面。虽然这应该始终是一个警告信号,但您不能期望将所有产品页面都编入索引,尤其是对于大型网站。例如,大型电子商务商店必然会有重复的页面和过期或缺货的产品。这些页面可能缺乏将它们置于 Google 索引队列前面的质量(如果 Google 决定首先抓取这些页面)。
此外,大型电子商务网站往往存在抓取预算问题。我见过电子商务商店拥有超过一百万种产品的案例,其中 90% 被归类为“已发现 – 目前未编入索引”。但是,如果您看到重要页面被排除在 Google 的索引之外,您应该深感担忧。
如何增加 Google 将您的网页编入索引的可能性
每个网站都是不同的,可能会遇到不同的索引问题。但是,以下是一些有助于您的页面被索引的最佳实践:
- 避免“Soft 404”信号
确保您的页面不包含任何可能错误地指示软 404 状态的内容。这包括从在副本中使用“未找到”或“不可用”到在 URL 中包含数字“404”的任何内容。 - 使用内部链接
内部链接是谷歌的关键信号之一,表明给定页面是网站的重要组成部分,值得被索引。在您的网站结构中不要留下孤立页面,并记住在您的站点地图中包含所有可索引的页面。 - 实施合理的抓取策略
不要让 Google 抓取您网站上的杂物。如果太多资源用于抓取域中价值较低的部分,Google 可能需要很长时间才能找到好东西。服务器日志分析可以让您全面了解 Googlebot 抓取的内容以及如何对其进行优化。 - 消除低质量和重复的内容
每个大型网站最终都会有一些不应编入索引的页面。确保这些页面不会进入您的站点地图,并在适当的时候使用 noindex 标签和 robots.txt 文件。如果您让 Google 在您网站最糟糕的部分花费太多时间,它可能会低估您域的整体质量。 - 发送一致的 SEO 信号。
向 Google 发送不一致的 SEO 信号的一个常见示例是使用 JavaScript 更改规范标签。正如Google 的 Martin Splitt在 JavaScript SEO Office Hours 期间提到的那样,如果源 HTML 中有一个规范标签,而在呈现 JavaScript 后有另一个不同的标签,则您永远无法确定 Google 会做什么。
网络变得太大了
在过去的几年里,谷歌在处理 JavaScript 方面取得了巨大的飞跃,使 SEO 的工作变得更容易。如今,由于使用的特定技术堆栈而未编入索引的基于 JavaScript 的网站已不太常见。
但是我们能否期望与 JavaScript 无关的索引问题也会发生同样的情况?互联网在不断发展。每天都有新网站出现,现有网站也在不断增长。
谷歌能否应对这一挑战?这个问题每隔一段时间就会出现一次。Google 拥有有限数量的资源,因此当面临几乎无限数量的在线可用内容时,Googlebot 只能找到并抓取该内容的一部分。然后,在我们抓取的内容中,我们只能索引一部分。
换句话说,谷歌只能访问网络上所有页面的一部分,并索引更小的部分。即使您的网站很棒,您也应该牢记这一点。Google 可能不会访问您网站的每一页,即使它相对较小。您的工作是确保 Google 可以发现对您的业务至关重要的页面并将其编入索引。
Comments off