如何使用Robots.txt文件解决安全风险
robots.txt文件用于告诉网络抓取工具和其他善意机器人有关网站结构的一些信息。声明–其中一个机器人是“不允许的”。通过这种方式,如果网站管理员认为他们正在使用robots.txt文件来保护其内容并保持页面私密,那么他们可能正好相反。降低Robots.txt文件风险的最佳实践有一些最佳实践可以降低robots.txt文件带来的风险。
机器人排除标准是近17年的 ,但由于不正确使用标准而产生的安全风险尚未被广泛理解。
混淆仍然是机器人排除标准的目的。
请继续阅读,了解如何正确使用它,以避免安全风险并保护您的敏感数据。
什么是机器人排除标准&什么是Robots.txt文件?robots.txt文件用于告诉网络抓取工具和其他善意机器人有关网站结构的一些信息。它是公开可访问的,人们也可以快速,轻松地阅读和理解。
robots.txt文件可以告诉抓取工具在哪里可以找到XML站点地图文件,抓取网站的速度,以及(Zui着名的)哪些网页和目录不会抓取。
在好的机器人抓取网页之前,它首先检查robots.txt文件是否存在,如果存在,通常会尊重其中的指令。
robots.txt文件是新的SEO从业者了解的第一件事。它似乎易于使用且功能强大。不幸的是,这一系列条件导致了文件的善意但高风险的使用。
为了告诉机器人不要抓取网页或目录,机器人排除标准依赖于“Disallow”。声明–其中一个机器人是“不允许的”。访问页面。
Robots.txt安全风险robots.txt文件不是一个硬指令,它只是一个建议。像百度bot这样的好机器人尊重文件中的指令。
但是,糟糕的机器人可能会完全忽略它或更糟。事实上,一些邪恶的机器人和渗透测试机器人专门寻找robots.txt文件,目的是访问不允许的网站部分。
如果是一个邪恶的演员–无论是人类还是机器人–正试图在网站上查找私人或机密信息,robots.txt文件的禁令列表可以作为地图。这是第一个看起来Zui明显的地方。
通过这种方式,如果网站管理员认为他们正在使用robots.txt文件来保护其内容并保持页面私密,那么他们可能正好相反。
在许多情况下,通过机器人排除标准排除的文件本质上不是真正的机密,但竞争对手不希望找到这些文件。
例如,robots.txt文件可以包含有关A/B测试URL模式的详细信息或网站中新的和正在开发的部分。
在这些情况下,它可能不是真正的安全风险,但在可访问的文档中提及这些敏感区域仍然存在风险。
降低Robots.txt文件风险的Zui佳实践有一些Zui佳实践可以降低robots.txt文件带来的风险。
1.了解Robots.txt的用途–对于而言,它是什么? 机器人排除标准无助于从搜索引擎的索引中删除网址,并且它不会阻止搜索引擎向其索引添加网址。
搜索引擎通常会在其索引中添加网址,即使他们已被指示不抓取该网址。抓取和索引URL是不同的,不同的活动,robots.txt文件不会阻止URL的索引。
2.使用Noindex和Robots.txt时要小心,同时禁止这是一个非常罕见的情况,页面应该都有noindex标签和机器人disallow指令。实际上,这样的用例可能实际上并不存在。
百度用于在这些页面的结果中显示此消息,而不是描述:“此结果的描述不可用 因为此站点’ s robots.txt”。
Zui近,这似乎已经改为“没有信息可用于此页面””代替。
3.对于需要私有且可公开访问的页面,请使用Noindex,而不是禁止使用通过这样做,您可以确保如果一个好的爬虫找到一个不应被索引的URL,它将不会被编入索引。
对于具有此必需安全级别的内容,爬网程序可以访问URL,但爬行程序无法为内容编制索引。
对于应该是私有的页面和 而不是公共可访问的 ,密码保护或IP白名单是Zui佳解决方案。
4.禁止目录,而不是特定页面通过列出要禁止的特定页面,您只是让不良演员更容易找到您希望他们找不到的页面。
如果您不允许某个目录,那么邪恶的人或机器人可能仍然可以找到‘ hidden’目录中的页面通过暴力破解或inurl搜索运算符,但页面的确切地图不会为它们布局。
请确保在目录索引级别包含索引页,重定向或404,以确保您的文件不会通过“”索引”偶然暴露。页。如果您为目录级别创建索引页,当然不包括指向私有内容的链接!
5.设置IP黑名单的蜜罐如果您想将安全性提升到新的水平,请考虑使用robots.txt文件设置蜜罐。在robots.txt中包含一个禁止指令,听起来对坏人很有吸引力,例如“Disallow: /secure/logins.html”。”
然后,在不允许的资源上设置IP日志记录。尝试加载“logins.html”的任何IP地址。然后应该被列入黑名单,以便访问您网站的任何部分。
结论robots.txt文件是一个关键的搜索引擎优化工具,用于指导良好的机器人如何表现,但将其视为某种安全协议是错误的和危险的。
如果您的网页应该可以公开访问但不会出现在搜索结果中,Zui好的方法是在网页上使用noindex robots标记(或者X-Robots-Tag标题响应)。
只需添加旨在保护robots.txt文件的URL列表是尝试保持URL隐藏的Zui糟糕方式之一,在大多数情况下,它会导致与预期结果完全相反。
更多资源:
设置元机器人标签和Robots.txt百度的Zui佳实践:被Robots.txt阻止的页面将被索引如果他们’链接到SEO的完整指南:您需要知道的2019CategorySEO