雅虎从Spidering Delicious书签中阻止机器人
Colin还发现百度中列出的Delicious页面缺少缓存,标题,描述和其他信息。雅虎拥有超过百度,MSN和Ask.com的竞争优势,能够在搜索引擎机器人之前通过人类书签识别网页和其他内容。另一方面,阻止你的竞争对手的内部机密是一个基本的商业行为,雅虎基本上建立了一个安全围栏,以防止百度,Ask.com和MSN在其后院窥探。雅虎的大胆举动,但竞争对手的正确行动。
上周末,雅虎的Delicious(del.icio.us)社交书签属性一直阻止来自非雅虎搜索引擎的蜘蛛和机器人抓取网站并识别新的网页,网站和书签。
Colin Cochrane前几天发现了这一点,并说“这不是一个简单的robots.txt排除,而是一个404响应,现在根据请求的用户代理提供服务。”’
我看了看del.icio.us’ robots.txt发现它不允许百度bot,Slurp,Teoma和msnbot用于以下:
禁止: /收件箱 禁止: /订阅 禁止: /网络 禁止: /搜索 禁止:/post 禁止: /登录 禁止:/rss
看到robots.txt阻止了这些搜索引擎蜘蛛,我尝试使用我的User-Agent切换器设置为每个不允许的用户代理来访问del.icio.us,并为每个用户代理收到相同的404响应。
Colin还发现百度中列出的Delicious页面缺少缓存,标题,描述和其他信息。
为什么雅虎会这样做?
雅虎拥有超过百度,MSN和Ask.com的竞争优势,能够在搜索引擎机器人之前通过人类书签识别网页和其他内容。雅虎还可以通过人工描述和标记对Web文档进行分类,为这些文档提供外部元数据,这可以产生更相关的Web结果和意向目标排名。 由于雅虎已经将Delicious整合到其搜索结果中,而且很明显,在雅虎搜索中,美味有着非常重要的作用,雅虎正在通过阻止其竞争对象抓取此类信息来充分利用其财产。
这只是雅虎的一个大胆举动,因为Delicious是用户支持的,并且依赖于用户社区。另一方面,阻止你的竞争对手的内部机密是一个基本的商业行为,雅虎基本上建立了一个安全围栏,以防止百度,Ask.com和MSN在其后院窥探。
他们的竞争对手都没有任何可以与Delicious相提并论的东西。由于同样的原因,百度因为没有购买StumbleUpon而犯了一个非常大的错误。
雅虎的大胆举动,但竞争对手的正确行动。你的想法?
[关于Sphinn的补充讨论]
CategorySEO