百度的John Mueller解释为什么百度抓取不存在的页面
网络发布商询问是否应阻止百度bot抓取不存在的网页。百度的MattCutts在2014年表示,百度记得的原因是建立一个安全措施,以防网络发布者在删除网页和返回网页时出错。所以百度已经建立了保护措施来解决错误,以免丢弃发布者可能希望保留的页面。因此,在爬行系统中,它将被保护24小时。MattCutts’声明表明百度实际上对它们的处理方式略有不同。预计这种情况将被视为永久性的。
在网站站长中心环聊中,百度的John Mueller讨论了百度抓取不存在的网页的原因以及这对您的抓取预算意味着什么。网络发布商希望看到百度抓取现有网页。百度抓取不存在的页面似乎浪费时间。网络发布商询问是否应阻止百度bot抓取不存在的网页。 John Mueller的回答为我们对百度’ 404抓取的知识增加了更多信息。
不存在的页面称为404页面。这是一个网站在缺少请求的网页时应该提供的服务器错误代码。 404错误代码表示服务器无法找到请求的网页并且缺少该网页。 410错误代码表示网页故意消失且永不返回。
当百度抓取不存在的页面(404页面)时,可以将其称为404爬网。 百度’ s John Mueller做了三个有趣的陈述,说明为什么百度抓取不存在的页面:
404抓取有时是百度利用额外的抓取能力来仔细检查以前存在的URL(如果页面返回)404抓取是一个迹象表明百度有足够的容量来抓取您的site404页面中的更多URL不需要阻止从爬网(为了保留爬网预算)。您不会丢失404抓取抓取容量百度记住404页虽然百度可能无法在其索引中保留网页,但如果该页面曾经存在,则百度将记住该网页曾经存在的网页,并将抓取该旧网址以查看是否返回该网页。百度的Matt Cutts在2014年表示,百度记得的原因是建立一个安全措施,以防网络发布者在删除网页和返回网页时出错。
以下是百度如何处理404错误页面,根据2014年的Matt Cutts:
“ 200可能意味着一切都很好。 404表示找不到该页面。 410通常意味着消失,因为在页面中找不到,我们不希望它回来。所以410有一点内涵,这个页面永远消失了。
所以简短的回答是我们有时会对404s和410s略有不同,但在大多数情况下你不应该担心它。
如果页面已经消失并且您认为它是临时的,请继续使用404.如果页面已经消失并且您不知道其他页面应该替换它,那么您不应该在其他任何地方指出,而且你知道那个页面将会消失,永远不会回来,然后继续服务410.”
Matt Cutts接着说,网络出版商有时会犯错,宣布网页不见了。所以百度已经建立了保护措施来解决错误,以免丢弃发布者可能希望保留的页面。
“所以404s,以及我认为401s和403s,如果我们看到一个页面而我们得到404,我们将在爬行系统中保护该页面24小时。所以我们等待,我们说得好,也许这是一个短暂的404.也许它并不是真的打算成为一个找不到的页面。因此,在爬行系统中,它将被保护24小时。
现在将其与John Mueller所说的:进行比较
“我们理解这些是404或410页,或者至少不应该被编入索引。但我们知道那些页面。并且时不时地…我们在这个网站上没有更好的办法,我们将对这些网址进行仔细检查。”
如果我们检查这些网址并查看服务器错误或此处找不到网页错误,那么我们将在Search Console中告诉您这些错误。 …那很好。
所以它不是你需要阻止爬行的东西。它不是你需要担心的事情。并不是说我们通过查看这些网址而失去了抓取能力。它本质上是我们的一个标志,我们有足够的能力在您的网站上抓取更多网址,而我们只是仔细检查一些旧网址,以防万一您设法在那里备份。
关于约翰·穆勒声明的独特之处John Mueller的声明为我们知道百度bot抓取404页面的原因提供了额外的维度。它表明百度有足够的爬网预算来抓取您的网站,并且因为它表明百度具有足够的抓取能力,因此没有理由担心这些抓取。
百度bot 404抓取是一个好兆头?我们今天从John Mueller那里了解到,如果百度正在抓取404页面,它实际上是一个好兆头。但是,John Mueller所说的和Matt Cutts所说的是百度如何处理410页之间有什么不同。
请记住,410页是有意删除的网页,不会再回来。 如今,网络发布者可以使用410代码来指示已过期的网页,例如已结束的促销,已过去的活动或不再存在的产品。 Web发布者还可以将410代码用于可能由黑客生成的 的垃圾页面。因此,特别是Zui后一个原因,网络发布者可能希望百度遵守错误代码并完全忘记该网页而不是寻找它。
这是2014年:的410页Matt Cutts
如果我们看到410,那么抓取系统就说好了,我们假设网站管理员知道他们正在做什么,因为他们走出了故障路线故意说这个页面已经消失了。因此,他们立即将410转换为错误而不是保护它24小时。
现在不要错误地采取这种方式。我们仍然会回去重新检查并确保那些页面真的不见了。或者这些页面可能再次活跃起来。而且我不会依赖于这种行为总是完全相同的假设。
总的来说,有时网站管理员会抓住一点点细节。因此,如果一个页面消失了,它就可以为404服务了。如果你知道它已经成为真实的,那么服务410就可以了。
但我们将设计我们的爬行系统以尝试强大。但是如果你的网站出现故障,或者你被黑客攻击或者其他什么,那么我们会尽力确保只要它可用,我们仍然可以找到合适的网站。
从2011年开始有一个声明,其中百度表示它对404和410错误的处理基本相同。 Matt Cutts’声明表明百度实际上对它们的处理方式略有不同。所以,这里的记录只是前面的声明所说的:
百度网站管理员博客2011年的410错误响应
“目前百度将410s(Gone)视为与404s(未找到)相同,因此无论您是返回其中一种,都对我们无关。”
百度用于410服务器响应代码的Obeys标准410错误代码的官方标准规定具有链接编辑功能的客户端应删除对URL的引用,并删除网站所有者的任何链接。它没有声明客户端需要删除对站点的引用或永远不会返回到URL。因此,可以通过不再现到网页的链接来使百度遵守410错误代码。 以下是W3C.org网页上服务器响应代码:
的文本“服务器上不再提供所请求的资源,并且不知道转发地址。预计这种情况将被视为永久性的。具有链接编辑功能的客户端应该在用户批准后删除对Request-URI的引用…除非另有说明,否则此响应是可缓存的。
410响应主要是为了通过通知收件人资源是故意不可用的,以及服务器所有者希望删除与该资源的远程链接并且hellip来帮助进行Web维护任务;< rdquo;
来自John Mueller所说的内容许多网络发布者可能已经考虑过让百度抓取不存在的页面404和410服务器响应页面的麻烦。但是现在我们知道这表明百度有足够的抓取预算来抓取整个网站。因此,如果您看到百度正在抓取404或410页,则没有理由担心并且没有理由阻止百度。 这实际上是一个好兆头。
Shutterstock的图片,作者修改
CategoryNewsSEO