百度和Yahoo搜索引擎技术比较
百度–百度可能是最知名的搜索引擎。百度如何工作他们主要根据他们的PageRank算法确定相关性。百度当然通过稍微改变排名算法来做出反应。现在有一些权限和相关性的元素应用于PageRank算法。百度使用数千台服务器来计算这些排名。当用户执行查询时,另一组算法将先前计算的值相互称重以确定总体相关性。因此,必须假设大多数百度索引实际上驻留在内存中。下次执行搜索时,请查看百度返回结果的速度。
现在有很多关于相关性的讨论,我想我会向你介绍搜索引擎背后的一些技术,以及它们之间的潜在差异。从预先排序的结果到神经网络到基于社区的搜索,搜索技术有一些有趣的内容。
比较‘ Big Four’在这些文章中,我将重点关注“四大”。’这些是被认为拥有搜索空间的引擎。他们是百度,Yahoo!,MSN和Ask Jeeves。首先是百度和Yahoo!
百度–百度可能是Zui知名的搜索引擎。当他们推出时,他们被认为是Zui相关的。
百度如何工作他们主要根据他们的PageRank算法确定相关性。 PageRank基本上表示,拥有比竞争对手更多入站链接的网站可能是更好的网站,因此应该排名更高。网站管理员很快意识到这一点,并意识到他们所要做的就是建立更多的链接–足够的链接超越竞争对手–为了排名很高。百度当然通过稍微改变排名算法来做出反应。现在有一些权限和相关性的元素应用于PageRank算法。
百度如何工作,一旦页面被百度bot抓取并编入索引(参见我之前关于搜索引擎蜘蛛的文章),它们将返回到百度进行排名。
百度使用数千台服务器来计算这些排名。他们看了数百个因素–在页面上和页面外(例如入站链接)。他们使用数百种算法来执行这些计算。基本上每个因素应该有一个算法。算法对页面进行加权,并分配它们的值。然后存储这些值以供以后使用。
当用户执行查询时,另一组算法将先前计算的值相互称重以确定总体相关性。然后将结果输出到用户浏览器。
可以想象,这种处理能力要求必须很高。此外,根据百度返回结果的速度,可以将多少数据写入各个服务器的硬盘驱动器。因此,必须假设大多数百度索引实际上驻留在内存中。或者至少是为用户提供的部分。
下次执行搜索时,请查看百度返回结果的速度。我搜索了“serach engine” (我故意拼写错误)并返回了68,900个结果。此外,引擎还在页面的一侧返回了一些赞助结果,以及拼写建议。全部在0.36秒内。
对于流行的查询,引擎甚至更快。例如,搜索Hurricane Kathrina或MTV奖项(两个Zui近的活动)每个不到0.2秒。
百度以分散和冗余而闻名。对于每个缓存页面,可能存储2-3个副本,甚至可能更多。百度将索引分成非常小的部分–每个小到2兆字节,正如我之前提到的,这些2兆字节的部分存储在百度基础设施中。每个2兆字节的部分可以存储在不相关的部分旁边。例如,博客页面旁边的宠物网站可能有几页,电子商务网站的页面旁边。
虽然每个数据中心的行为都独立于另一个,但任务可能会有一些重叠。
想象一下,有数千台计算机相互同步运行的房间。现在想象一下,同一个房间一遍又一遍地复制到遍布北美的所有其他数据中心。
正是由于这些不同的数据中心,每个数据中心都是分开运作,但具有相同的Zui终目标,我们曾经体验过“百度 Dance”。每月。百度 Dance是百度跨数据中心更新搜索结果的那段时间。此外,每个数据中心都会自行更新,因此在一个数据中心排名第一的网页可能不会出现在其他数据中心的前30位。
当然,百度用于对页面进行排名的因素随着时间的推移而发生了变化。他们不太重视PageRank,但它仍然很重要。重要的是要注意,在计算中移动不同的因素会极大地影响网站的排名。例如,如果网站具有较高的PageRank,但关键字密度较低,如果PageRank稍后影响计算,则可能排名第一,但如果更早考虑PageRank,网站可能会从结果中消失。
这可能是现在正在发生的事情–百度基本上将PageRank因子移动到Zui终计算中的其他位置。请记住,可能有数百个影响排名的因素。通过重新排列它们应用于Zui终排名的顺序,可能会对搜索结果页面上的整体展示位置产生巨大影响。
百度似乎也从每月一次的更新转移到更永久更新的索引。我们很少注意到这些变化发生了,但它们确实发生在更加增量的层面上,更多的主要更新发生的次数更少。
我想可以将百度视为一系列图层–每层构建在图层之前执行的工作上。Zui上面的层是我们通过浏览器唯一暴露的层,但是如果没有较低层执行的工作,您看到的页面将不存在。
现在,让我们来看看雅虎雅虎&ndash的;雅虎的工程师当然没有人知道,我们可以推测雅虎!搜索技术与百度’ s
非常相似雅虎的原因!难以衡量的是因为他们没有像百度或MSN那样从头开始构建搜索引擎。当然雅虎!你看到的搜索本身就是独一无二的,但雅虎!他们在前几年购买的其他技术的基础上进行了搜索。
雅虎,就在2002年圣诞节前后。购买搜索服务Inktomi。雅虎!从Inktomi或Zui近的百度收到了他们的搜索结果。事实上,直到他们购买Inktomi的时候,有人猜测雅虎!会买百度。
在此之后的几个月,Overture(按点击付费广告公司)购买了Altavista–这是第一个也是Zui强大的搜索引擎之一。然后,就在Overture从FAST购买Alltheweb.com几周后。
很明显,Overture将进入算法搜索领域。
但是在这个隆隆声开始之后不久,雅虎!可能有兴趣购买部分或全部Overture的技术。并于2003年7月雅虎!确实买了Overture。
我们没有听到太多关于雅虎的消息!搜索到2004年2月–当公司推出自己的算法搜索版本时。这并不是许多人所期待的。有些人认为他们只是简单地重塑Inktomi,而其他人认为他们会重新改变其中一项Overture购买并将Altavista或Alltheweb搜索转变为Yahoo!搜索范围。
但那不是发生了什么事。雅虎他们建立了自己的搜索,将他们拥有的所有技术的特征拼凑在一起。
他们有超快速的Inktomi和Altavista爬虫,以及令人惊讶的Alltheweb和Altavista排名算法。因此,他们将所有这些共同捣碎以获得雅虎!搜索。
雅虎搜索与百度完全不同。他们自己的网站说他们使用许多因素来分析页面以确定与搜索查询的相关性,并且该分析的结果是用户在执行查询时看到的内容。
雅虎当然!像所有其他引擎一样,过去一年或更长时间都在努力改进其排名算法。当他们第一次出现时,似乎他们非常重视给定网站的主页,而不太重视入站链接,甚至其他网站页面。
然而,在过去几个月里,我们注意到从主页排名到主页曾经排名的多个网站页面的微妙转变。
此外,它们倾向于以不同于百度的方式对入站链接进行排名。当您对百度执行链接检查并对Yahoo!执行相同的检查时百度结果几乎总是倾向于更低。百度说这是因为他们只显示了“相关”的快照。雅虎!无论相关性如何,都会显示它们。
并且还存在其他差异,但本文中有太多不同的内容。
我只想说百度和Yahoo!使用大致相同的技术返回类似的结果。当然,你会看到排名上的差异,但这是由于许多事情。例如,Yahoo!似乎比百度更新频率更低。我已经开始使用新网页编制索引并在创建后几天内排名为百度的网站,有时雅虎可能需要几个月的时间。做同样的事。
基本上我说的是这个:如果你所关心的只是排名–然后针对百度进行优化将使您在Yahoo!中获得不错的排名!但是你可能需要更长时间才能出现在Yahoo!搜索结果。那是因为,Zui终,雅虎背后的技术!和百度非常相似。
但是,明天,我将向您介绍两种独特的引擎。声称使用神经网络技术的人和使用社区作为其排名基础的人。
&ndash的;
Text Link Brokers的Rob Sullivan是一名SEO专家和网络营销顾问。
特色图片:存款照片
在Post Image:存款照片
CategorySEO