搜索引擎爬虫的剖析
今天的搜索引擎依赖于称为蜘蛛或机器人的软件包。它是由麻省理工学院开发的,它的最初目的是衡量网络的增长。然而,不久之后,从结果中生成了一个索引–实际上是第一个“搜索引擎”。爬行器如何工作–通常,抓取工具会获取要访问和存储的URL列表。到目前为止,几乎有数十名爬虫经常索引网络。这可能会对您网站在搜索引擎中的表现产生负面影响。因此,在设计网站时,请务必牢记抓取工具。
搜索引擎爬虫的剖析
当你去搜索引擎并进行搜索时,很多人都不明白这些结果是如何结束的。有些人可能会认为网站已提交,而其他人则知道某个软件会找到这些网页。本文解释了一个难题:搜索引擎爬虫。
今天的搜索引擎依赖于称为蜘蛛或机器人的软件包。这些自动化工具用于搜索Web以发现新页面。
搜索爬虫的简史 - 第一个爬虫是World Wide Web Wander,它出现在1993年。它是由麻省理工学院开发的,它的Zui初目的是衡量网络的增长。然而,不久之后,从结果中生成了一个索引–实际上是第一个“搜索引擎”。
从那以后,爬行器得到了发展和发展。Zui初爬虫是简单的生物,只能索引特定位的网页数据,如元标记。然而,很快,搜索引擎意识到真正有效的爬虫需要能够索引其他信息,包括可见文本,alt标签,图像甚至其他非HTML内容,如PDF和文字处理器文档等。
爬行器如何工作–通常,抓取工具会获取要访问和存储的URL列表。抓取工具不会对页面进行排名,它只会熄灭并获取它存储的副本,或者转发到搜索引擎以便以后根据各个方面进行索引和排名。
搜索抓取工具也非常智能,可以跟踪他们在网页上找到的链接。他们可能会在找到这些链接时关注这些链接,或者他们会存储它们并在以后访问它们。
到目前为止,几乎有数十名爬虫经常索引网络。有些是专门的爬虫–例如图像索引器,而其他更一般,因此更为人所知。
一些Zui知名的爬虫包括百度bot(来自百度)MSNBot(来自MSN)和Slurp(来自Yahoo!)。还有Teoma爬虫(来自Ask Jeeves),以及来自其他引擎的各种爬虫,例如购物引擎,博客搜索引擎等。
通常,当抓取工具访问某个网站时,他们会请求一个名为“robots.txt”的文件。此文件告诉搜索爬虫它可以请求哪些文件,以及它们不允许访问哪些文件或目录。
该文件还可用于限制特定蜘蛛访问任何或所有网站的权限,还可用于控制抓取工具访问网站的次数,方法是限制抓取工具的速度或抓取工具访问的时间。 (雅虎的Slurp和MSNBot都支持“爬行延迟”指令,该指令告诉爬虫减慢他们的爬行速度。)
一个站点有一个robots.txt文件并不是必须的,但是如果没有这样的文件,爬虫会认为可以索引该站点。
在您查看Web服务器日志报告时,您可能会注意到的另一件事是某些浏览器出现了许多不同的时间并且具有许多不同的配置。
雅虎的Slurp,例如模仿许多不同的硬件平台–从Windows 98到Windows XP,以及许多不同的浏览器,从Internet Explorer到Mozilla。 MSNbot也像这样工作–模拟不同的操作系统和浏览器。
他们这样做是为了确保兼容性–毕竟,搜索引擎希望确保他们的大多数用户找到他们可以使用的网站。因此,作为设计技巧,您还应该针对各种硬件平台和浏览器测试您的网站。您不必使用搜索引擎使用的多样性,但您应该针对Internet Explorer,Netscape和Firefox进行测试。此外,您应该在其他平台(如Mac或Linux)上试用您的网站,以确保兼容性。
在审核您的报告时,您可能还会注意到,像百度bot这样的抓取工具将重复访问并重复请求相同的页面。这很常见,因为抓取工具也希望确保网站稳定,并且还要衡量网页的更改频率。
如果您的网站在爬虫如此反复访问时暂时中断,请不要担心。爬虫很聪明,可以离开,稍后再回来再试一次。但是,如果继续查找网站或响应缓慢,他们可能会选择远离更长时间,或者更慢地索引网站。这可能会对您网站在搜索引擎中的表现产生负面影响。
随着时间的推移,我们希望这些蜘蛛变得更加先进。随着新的创作技术的出现,或新的索引选项可用,搜索爬虫将进行调整。请记住,所有搜索引擎的目标是拥有在网络上找到的Zui完整的文件索引。这意味着他们希望能够索引的不仅仅是网页。
因此,在设计网站时,请务必牢记抓取工具。不要为抓取工具构建您的网站–为用户构建它–但一定要彻底测试它,以便爬行者在没有障碍或障碍的情况下看到你想要的东西。记住–爬虫是网站所有者Zui好的朋友。
–
专栏作家Rob Sullivan是Text Link Brokers的SEO专家和网络营销顾问
CategorySEO