百度可以索引阻止的URL而不进行爬网
百度可以索引被阻止的页面该问题始于发布商发推文称百度索引了一个被robots.txt阻止的网站。noindex元标记优于robots.txt排除协议,用于防止网页被编入索引。感谢JohnMueller建议使用机器人noindex元标记。”W3c将Robots.txt的角色解释为检测文件的守门员。检索到的 意味着由遵守Robots.txt排除协议的机器人抓取。
百度&s; s John MuellerZui近“喜欢”搜索营销顾问Barry Adams(Polemic Digital)的推文简明地阐述了robots.txt排除协议的目的。他刷新了一个古老的话题,很可能给了我们一个新的思考方式。
百度可以索引被阻止的页面该问题始于发布商发推文称百度索引了一个被robots.txt阻止的网站。
John Mueller回复了:
“网址可以在不被抓取的情况下被编入索引,如果它们被robots.txt&ndash阻止;那是设计的。
通常来自某个地方的链接,从该数字来看,我想象一下你网站内的某个地方。”
Robots.txt如何工作巴里(@badams)发推文推文:
“ Robots.txt是一种抓取管理工具,而不是索引管理工具。”
我们经常将Robots.txt视为阻止百度包含来自百度索引的页面的一种方法。但robots.txt只是阻止百度抓取哪些页面的一种方式。
这就是为什么如果另一个站点有一个指向某个页面的链接,那么百度将抓取并索引该页面(在某种程度上)。
然后Barry继续解释如何保持页面不受百度索引:
的影响“使用元机器人指令或X-Robots-Tag HTTP标头来防止索引–并且(反直觉地)让百度bot抓取那些你不想索引的页面,以便它看到那些指令。”
NoIndex元标记noindex元标记允许抓取的页面保持在百度的索引之外。它不会阻止页面的抓取,但它确实可以保证页面不会超出百度的索引。
noindex元标记优于robots.txt排除协议,用于防止网页被编入索引。
以下是John Mueller在2018年8月的一条推文中所说的内容
“…如果你想阻止它们编制索引,我会使用noindex漫游器元标记而不是robots.txt禁止。”
机器人元标记有很多用途关于Robots元标记的一个很酷的事情是它可以用来解决问题,直到出现更好的修复。
例如,发布者在生成404响应代码时遇到问题,因为angularJS框架一直生成200个状态代码。
他的推文请求帮助说:
嗨@JohnMu I´我在angularJS中管理404页面遇到很多麻烦,总是给我200个状态。有什么方法可以解决吗?感谢
John Mueller建议使用机器人noindex元标记。这将导致百度从索引中删除该200响应代码页,并将该页面视为软404.
“我做了一个正常的错误页面,只是添加一个noindex漫游器元标记。我们称之为软404,但那时很好。”
因此,即使网页显示200响应代码(这意味着页面已成功提供),机器人元标记将使页面保持在百度索引之外,百度会将其视为未找到页面,这是404响应。
机器人元标记的官方描述根据万维网Consortion的官方文档,决定网络标准的官方机构(W3C),这就是Robots Meta Tag的功能:
“机器人和META元素 META元素允许HTML作者告诉访问机器人文档是否可以被索引,或用于收集更多链接。”
这就是W3c文档描述Robots.txt:
的方式“当一个机器人访问一个网站时,它首先检查… robots.txt。如果它可以找到该文档,它将分析其内容以查看是否允许检索该文档。”
W3c将Robots.txt的角色解释为检测文件的守门员。检索到的 意味着由遵守Robots.txt排除协议的机器人抓取。
Barry Adams将Robots.txt排除描述为管理抓取而非索引的方法是正确的。
将Robots.txt作为您网站门口的保安人员,保持某些网页被阻止可能会有所帮助。它可能会使被阻止的网页上的奇怪的百度bot活动变得容易一些。
更多资源设置元机器人标签和Robots.txt16的Zui佳实践方法由百度百度获取去索引提供有关404和410状态代码的建议由Shutterstock提供的图像,由AuthorScreenshots作者修改,由作者修改
CategoryNewsSEO