当我们在GSC中审计技术SEO时,可能在网页索引编制中看到“重复网页,Google选择的规范网页与用户指定的不同”这样的情况。
出现这样情况的原因,大概率是你的网站有重复内容,而你忘记对其做规范化。
什么是重复内容?
重复内容是指可以通过多个URL访问相同或非常相似的内容。这些重复页面是通过多种方式无意中创建的。例如,同时具有www和非www页面版本、分页等。这时我们就需要对我们的网址进行规范化,确定首选网址。
为什么规范化很重要?
当搜索引擎抓取许多具有相同(或非常相似)内容的URL时,可能会导致许多SEO问题。
- 首先,如果搜索爬虫必须浏览太多重复的内容,他们可能会错过一些独特的内容。
- 其次,大规模重复可能会削弱你的排名能力。重复内容会导致关键字蚕食。当网站上的多个页面竞争相同的排名时,就会发生这种情况。并在此过程中损害彼此的排名。
- 最后,即使你的内容确实排名,因为多个重复页面的存在,搜索引擎也可能会选择错误的URL。
通过正确使用规范标签,你可以帮助Google了解你的网站结构。并确定重复页面的最佳版本。
重复内容的可能原因
以下是一些常见原因:
- 具有搜索参数的参数化URL ,例如https://example.com?q=search-term;
- 具有会话ID的参数化URL,例如,https://example.com?sessionid=3;
- 拥有单独的可打印页面版本,例如https://example.com/page和https://example.com/print/page;
- 不同类别下的帖子具有唯一的URL ,例如https://example.com/services/SEO/和example.com/specials /SEO/;
- 拥有适用于不同设备类型的页面 (例如https://example.com 和https://m.example.com;
- 拥有页面的AMP和非AMP版本,例如https://example.com/page和https://amp.example/page;
- 在非www和www变体,例如,https://example.com 和https://www.example.com)上提供相同的内容;
- 在非Https和Https变体上提供相同的内容 ,例如,http://www.example.com 和https://www.example.com;
- 使用或不使用尾部斜杠提供相同的内容,例如,https://example.com/page/ 和http://www.example.com/page;
- 在页面的默认版本上提供相同的内容,例如,https://www.example.com/、https://www.example.com/index.htm、https://www.example. com/index.html、https://www.example.com/index.php、https://www.example.com/default.htm等;
- 使用或不使用大写字母提供相同的内容,例如,https://example.com/page/ 和http://www.example.com/Page/;
- 整个分页系列中具有相同或非常相似的内容,例如:https: //www.example.com/和Https://www.example.com/?page=2;
- 为定位不同位置而创建的URL,例如:https://en-us.example.com/ 和https://en-gb.example.com;
- 联合内容:如果你有一个网站将其内容联合发布或被合作伙伴利用,你需要确保出现在搜索结果中的是你的版本。
Google官方提供的规范化网址方法
若要向Google搜索指定重复网页或非常相似网页的规范网址,你可以使用多种方法指明你更愿意使用哪个网址。这些方法按照其对规范化的影响程度排列如下:
- 重定向:强信号,表明重定向的目标应成为规范网址。
- rel=”canonical” link注释:强信号,表明所指定的网址应成为规范网址。
- 包含在站点地图里:弱信号,有助于站点地图中包含的网址成为规范网址。
请注意,这些方法可以叠加,因此组合使用会更有效。 这意味着,如果你使用两种或更多种方法,将会增加你的首选规范网址出现在搜索结果中的几率。
阅读更多:如何使用 rel=”canonical” 及其他方法指定规范网址
Google如何确定页面的规范版本
当Google在索引过程中遇到多个看起来相似的页面时,它会选择一个页面作为规范页面。但谷歌是如何确定这一点的呢?他们考虑了以下一些因素:
- 移动设备优于桌面设备:通过移动优先索引方法,Google将选择在搜索结果中优先考虑页面的移动版本而不是桌面版本,因为更多的用户使用移动设备访问网络,并且Google的目标是在移动设备上提供最佳的用户体验;
- 基于HTTP的HTTPS:与非安全页面 (HTTP) 相比,一般来说,Google更喜欢提供安全页面 (HTTPS);
- “干净”的URL优于带参数的URL:谷歌喜欢更短、更干净的网址,因为它认为它们对用户更友好。例如,https://www.example.com/canonicalization/将比https://www.example.com/blog/canonicalization?2023=july/获得更高的优先级;
- PDF和其他文件格式的页面:Google通常会选择网页作为规范版本,因为它们比PDF或其他文件格式更容易被用户访问;
- 语言:如果你创建了针对多种语言和位置的页面,Google可能会将查询语言视为规范语言,这意味着如果用户使用法语执行搜索,Google会选择你的法语页面作为规范页面。
- 整体页面信号:Google评估各种页面信号,包括用户体验 (UX)、经验、专业知识、权威性、可信度 (EEAT) 和语言相关性。在这些领域表现出强烈信号的页面更有可能被选为规范版本。
优化我们的首选页面以符合Google的偏好将增加我们所需的规范页面被选择的可能性。
阅读更多:https://www.womenintechseo.com/knowledge/dealing-with-duplicate-content-canonicalization-in-detail/
如何知道你的网站是否存在规范化问题?
1.查看源码
在大多数浏览器中,你可以右键单击查看源代码,ctrl+F搜索,如下所示:

1.使用Google Search Console
使用Google Search Console了解Google认为你网站上任何页面的规范 URL 。登录后,在顶部搜索URL。
当“网址检查”报告准备就绪时,打开“网页索引编制”部分。向下滚动查看“Google 选择的规范网址”。

如果这不是这个结果,你需要检查页面上的重复数据删除策略。
首先,请确保“用户声明的规范网址”存在且正确。

可以使用Ahrefs、SEMrush、Screaming Frog等工具批量检查。或查看谷歌的Canonical报告,如下图

你如何解决此类问题?请按照以下步骤改进并提交给Google:
1.HTTPS:与 (HTTP) 相比,Google更喜欢安全页面 (HTTPS)。给你的网站安装SSL安全证书可以增强信号并符合Google对安全浏览体验的偏好。
2.“干净”的URL结构:拥有干净且用户友好的URL,没有过多的参数或分页细节,简化你首选页面的URL结构可以增强规范信号。
3.内链:内链表明你的页面的重要性和相关性。确保你在内链仅到规范版本,这样Google就很难忽视你的预期选择。
4.hreflang注释:在你的页面上包含Hreflang注释可以让Google了解你的位置和/或语言定位。这有助于确保提供最相关的页面版本。
5.网站地图:在站点地图中包含URL可以向Google表明你认为这些页面很有价值并且值得优先考虑。因此,将规范URL放在站点地图中可以增强信号,使Google更难以忽视。
6.外链:当其他网站链接到你的首选页面时,它会向Google发出强烈信号,表明用户发现你的内容有价值且有用。如果你正在从事公关或其他类型的链接建设活动,请确保你请求链接到你的页面的规范版本(而不是非规范版本)。
7.301重定向:这里要小心!仅当没有令人信服的理由导致页面存在多个版本,并且你的目的是永久合并这些页面版本时,才应考虑301重定向。在这种情况下实施301重定向不仅可以确保用户登陆正确的版本,还可以传输链接权限和其他排名信号。
所有这些规范化因素结合在一起,告诉Google你喜欢哪个URL,并帮助证明你页面上的规范链接元素是经过深思熟虑的。
指定规范URL的方法
规范标签是一种告诉搜索引擎特定 URL 代表页面主副本的方法。使用规范标签可以防止由于多个URL上出现相同或“重复”内容而导致的问题。实际上,规范标签告诉搜索引擎你希望在搜索结果中显示哪个版本的URL。一般规范标签位于网页HTML源代码的 <head> 部分,如下所示:
<link rel=”canonical” href=”https://example.com/preferred-url-here/” />
通常,规范标签从备用页面指向首选页面。但首选页面也会使用自引用规范。
WordPress站网址规范化方法
你可以使用WordPress SEO插件在WordPress网站上设置规范 URL 。 例如,Yoast SEO插件,Rank Math SEO等。
其他方法
通常,你可以使用规范标签指定规范URL首选项。但你还可以尝试其他方法:
1、在HTTP标头中使用 rel=”canonical”(最适合非HTML 文档)
Link:<https://www.example.com/downloads/filename.pdf; rel="canonical">
2、将重复页面重定向到规范页面(最适合不需要保留的重复页面)
Google建议使用3xx重定向以获得最快结果。一个常见的SEO问题是规范标签是否像301重定向一样传递链接资产(PageRank、权威等)。在大多数情况下,他们似乎是这样,但这可能是一个危险的问题。请记住,这两种解决方案为搜索爬虫和网站访问者创建了两种截然不同的结果。
- 如果你301重定向页面 A–> 页面B,那么人类访问者将自动被带到页面 B,而永远不会看到页面A。
- 如果你rel-canonical 页面A–> 页面B,那么搜索引擎将知道页面B是规范版本,但人们将能够访问这两个URL。
3、仅在站点地图中列出规范 URL(所有网站所有者的最佳实践)
据谷歌称,“站点地图中列出的所有页面都被建议为规范页面” 。这意味着最好仅在站点地图中提交规范链接 。并保留备用网址。
注意:如果你为特定页面设置规范标签,但随后在站点地图中包含该页面的不同设置,或者内链到该非规范页面,它会发送混合信号,并可能导致搜索引擎忽略规范标签并自己选择规范版本。所以保持一致性以向搜索引擎强调你的意图。



