百度 Black Hat Sitemap Bug:对于XML站点地图意味着什么
几个月前,我发现了一个令人震惊的错误,即百度如何处理XML站点地图,这使得全新的网站可以通过劫持合法站点的权益来为竞争性购物条件排名。该问题与百度如何处理和验证XML站点地图文件有关,特别是那些通过ping机制提交的文件。在百度SearchConsole或robots.txt文件中提交的文件仍将按照以前的方式运行,并且ping其中一个站点地图以提示从百度重新抓取也将按预期工作。
几个月前,我发现了一个令人震惊的错误,即百度如何处理XML站点地图,这使得全新的网站可以通过劫持合法站点的权益来为竞争性购物条件排名。
我向百度报告了这个问题,现在他们已经修复了这个问题,并向我支付了一个bug赏金。
然而,自从我发表了我对该问题的撰写后,一些SEO专业人士联系我担心他们可能是这种攻击的受害者,要求我帮助使用可能仍然有效的攻击或理论变化。
本文将回答一些我Zui常见的问题。
什么是百度的XML Sitemap Bug?该问题与百度如何处理和验证XML站点地图文件有关,特别是那些通过ping机制提交的文件。
站点地图可以通过robots.txt文件中的条目直接提交到百度 Search Console,也可以通过‘ pinging’将站点地图URL发送到百度提供的特殊端点。
对于GSC和robots.txt条目,这些条目显然是通过您输入域的GSC或robots.txt文件进行身份验证,但对于ping URL,百度似乎只是通过查看域来决定它们是否值得信任在您发送的网址中。
问题是,如果此URL重定向到其他地方,甚至重定向到其他域,则百度仍然信任它属于该原始URL。
因此,举例来说,我可以提交apples.com/sitemap.xml的站点地图网址,但该网址可能会重定向到oranges.com/sitemap.xml,但百度仍会将XML站点地图关联为属于apples.com。
什么是开放重定向?许多网站屈服于一种被称为“开放重定向”的操纵形式。攻击者可以欺骗网站重定向到他们选择的位置。
一个示例可能是具有登录机制的网站,其形式为apples.com/login.php?continue=/shop,其可能被操作为apples.com/logout.php?continue=http://evil.com /。/p>
在我的研究中,我在Facebook,LinkedIn,Tesco和其他一些网站上发现了开放的重定向(我已经报告了所有这些,并且许多已经修复)。
为了说明它们的普及程度,百度的漏洞奖励计划明确将开放重定向排除在资格之外(确实在百度上有已知的开放重定向)。
这样就有机会通过合法站点上的打开重定向来ping站点地图,该站点将重定向到攻击者站点上托管的XML文件。
例如,通过在URL apples.com/logout.php?continue=http://evil.com/sitemap.xml上提交站点地图,百度会将其视为apples.com的真实站点地图,但实际上它将托管在evil.com。
此时,evil.com可以为apples.com提交站点地图,并通过在这些站点地图中添加hreflang条目,它可以利用apples.com的股权(PageRank)对搜索结果进行排名,而该搜索结果没有合法权利。
你是受害者吗?现在被超越了?自从新闻公开以来,我有一群来自不同地方的SEO专业人士联系我,要求我审查他们的案件,担心他们可能是这个的受害者或者询问这是否是竞争对手能够超越的情况它们。
我当然可以理解为什么。
尝试理解为什么另一个网站对您的排名如此之好,或者为什么您的网站突然出现性能暂停,这有时会令人非常沮丧。
对这些边缘情况做出解释肯定很有吸引力。
到目前为止,我还没有看到任何让我相信这个bug在野外被利用的东西。
百度是一个复杂的野兽,可能有各种各样的解释为什么某些网站按照它们的方式排名,但目前我仍然相信这个错误就是其中之一。
如果你担心自己是这个的受害者,那么它唯一真正的足迹是你的服务器日志中的条目显示百度bot来到你的网站收集站点地图并被3xx重定向到另一个域(JavaScript和元刷新重定向不会工作。
这是你能检查的Zui好的东西。
在我的实验中,我经常重新ping通站点地图,但即使没有重新ping,我相信百度总是通过打开的重定向,因此您应该在服务器日志中看到条目。
这是否会改变有关XML站点地图的任何内容?是。当使用hreflang条目时它会改变。
百度将不再关注“未经验证的站点地图”中的hreflang条目,我相信这意味着通过ping URL提交的条目。
在百度 Search Console或robots.txt文件中提交的文件仍将按照以前的方式运行,并且ping其中一个站点地图以提示从百度重新抓取也将按预期工作。
我预计这种变化会影响很少的网站,但你应该知道它。
结论我的建议:通过GSC界面提交站点地图并将其包含在您的robots.txt中。
如果您是一个特别受刮刀影响的网站,无论出于何种原因,您可能希望从robots.txt文件中排除网站地图条目,以便不良演员找不到它们并使用它们来加快他们的努力。
更多XML站点地图资源:
如何优化XML站点地图: 13 SEOZui佳实践如何搜索引擎爬网&索引:你需要知道的一切你的索引页面正在下降– 5个可能的原因WhyCategorySEO