Microsoft Live Search宣布对抓取进行改进
本周,微软宣布对LiveSearch爬虫进行更新和改进,他们称这将对“提高效率”做出贡献。MSNbot的改进包括HTTP压缩和称为“条件获取”的内容。通过HTTP压缩,MSNbot现在支持RFC2616定义的gzip和deflate。目前,此更新仅适用于主MSNbot抓取工具。
本周,微软宣布对Live Search爬虫进行更新和改进,他们称这将对“提高效率”做出贡献。他们用来抓取和索引网站。 MSNbot的改进包括HTTP压缩和称为“条件获取”的内容。
通过HTTP压缩,MSNbot现在支持RFC 2616(第14.11和14.39节)定义的gzip和deflate。这样可以通过压缩文件和应用程序响应来缩短传输时间,从而减少Microsoft和您自己的网络负载。此外,Microsoft提供了一个工具,可以让您检查您的Web服务器的压缩支持。
MSNbot现在还支持“有条件的GET”和“有条件的GET”。由RFC 2616(第14.25节)定义。这意味着新的msnbot/1.1将无法获取自上次请求以来未发生变化的页面,前提是Web服务器支持“If-Modified-Since”。条件GET请求中的标头。
HTTP压缩和条件GET的支持都是为了减少MSNbot在爬网站点时使用的带宽量。虽然大多数人都喜欢被索引和抓取,但大型网站可能会受到各种搜索引擎机器人不断点击其网站的严重抨击。如果您的Web服务器没有配置为HTTP压缩和条件GET,那么将您的时间推荐给您的Web主机是值得的。
网站管理员可能会注意到的另一个小变化反映在您的服务器日志中。 Live Search僵尸程序经常出现在这些文件中,如“msnbot/1.0 +http://search.msn.com/msnbot.htm)&rdquo ;,”msdbot-media/1.o”,“ msnbot-products/1.0 ”和&ndquo; msnbot-news/1.0”,它现在将显示为“msnbot/1.1””。目前,此更新仅适用于主MSNbot抓取工具。另一个‘ msnbot - *’预计爬行器也会在不久的将来更新。
Microsoft正在指导任何遇到MSNbot问题的人,或者对他们的Crawler Feedback& amp;讨论表格。
CategorySEO