百度可以在抓取之前检测重复内容
百度的JohnMueller本周在网站管理员中心环聊中透露,百度bot能够在抓取之前识别重复内容。网站所有者提出了一个问题,想知道百度是否以及何时将法语版本的页面视为英文版本的副本。在Mueller的回复中,他透露,在某些情况下,百度可以检测页面何时共享相同的内容,甚至不必抓取页面。“有时会发生的事情是我们主动认识到某些东西可能是重复的,甚至在爬行之前。
百度的John Mueller本周在网站管理员中心环聊中透露,百度bot能够在抓取之前识别重复内容。
网站所有者提出了一个问题,想知道百度是否以及何时将法语版本的页面视为英文版本的副本。
百度可以确定多个页面在不同语言中具有相同内容的时间吗?如果是这样,在搜索结果中如何处理?
在Mueller的回复中,他透露,在某些情况下,百度可以检测页面何时共享相同的内容,甚至不必抓取页面。这是值得注意的事情,特别是涉及页面的URL结构时。
“有时会发生的事情是我们主动认识到某些东西可能是重复的,甚至在爬行之前。因此,当我们发现区别在某个地方的某个地方我们通常会注意到此部分网址中显示的内容与其中显示的内容不太相关时,就会发生这种情况。页。
所以这可能就像你有一个语言参数,你可以设置为任何类型的术语,我们可能已经通过并尝试了类似“语言=英语”的内容。 “语言=法语,”的“语言=德语,”的…如果我们发现所有这些页面都显示英文内容,除了可能“语言=西班牙语”。选择西班牙语版本,然后我们可能会假设这个语言参数实际上与此页面无关,然后我们可能会错过那个实际上具有唯一内容的页面。“
让我们解开这个并从更广阔的视角来看待它。暂时忘记语言。这个特殊的例子涉及语言,但穆勒所说的也可以适用于同一种语言的内容。
Mueller在这里说的是百度可能会确定页面具有重复内容,如果它与页面彼此没有区别的相似URL参数。
显然这不是一个理想的情况,因为可能存在这样的情况,即页面中包含与精确重复的页面具有相似URL参数的唯一内容。
通过关注网站如何生成网址参数,网站所有者可以避免遇到将唯一内容视为重复内容的问题。
穆勒承认网页管理员可能并不总是错误。被视为重复—有时百度就像它自己的“虫子”一样
原始问题以及穆勒的回应可以在下面的视频中看到,从27: 38开始。
CategoryNewsSEO