摘要,网络搜索的答案:采访SenseBot的Dmitri Soubbotin
几年前,我首先提出了一个摘要概念作为对搜索引擎查询的响应类型。从那时起,主要搜索引擎返回的结果的相关性已大大提高。今天,许多搜索引擎试图做的不仅仅是在第一个结果页面上显示10个链接。这将影响百度在用户查询中返回的结果仅与查询主题部分相关的情况。我们的一位用户实际上称之为SenseBot“一个机械维基百科”。
搜索引擎是第一个信息来源,因为它们是研究的起点。查询结果内容概述是一种从系统中获取智能响应的创新技术。这是SenseBot背后的概念,我很高兴Dmitri Soubbotin花时间回答有关SenseBot发展的几个问题。
SenseBot的关键技术概念和目标领域是什么?
几年前,我首先提出了一个摘要概念作为对搜索引擎查询的响应类型。从那时起,主要搜索引擎返回的结果的相关性已大大提高。但是,用户’期望也在增长。今天,许多搜索引擎试图做的不仅仅是在第一个结果页面上显示10个链接。
在很高的层面上,我们阅读了主要搜索引擎返回的来源。我们对每个源执行文本挖掘,提取关键概念。我们评估来源之间的相似性,甚至放弃那些遥远的,即与源的质量无关的那些。我们为概念分配权重,并确保对表示查询的概念进行优先处理。然后,我们根据专有算法执行多文档摘要,从文档中构建文本摘要。因此,Web搜索的实际结果是用户查询主题的摘要。
可以在一组确实接近主题的文档上实现Zui佳结果,并且主要是文本的。从这个角度看,垂直搜索引擎和门户似乎是我们Zui好的应用领域–金融,医疗,法律,图书馆等。对于通用的网络搜索,有一些“噪音”。是不可避免的,即使是第一页结果的来源–大概是Zui相关的。
Zui近提供了哪些新更新?
我们使用此Zui新升级改进了查询的权重。这将影响百度在用户查询中返回的结果仅与查询主题部分相关的情况。我们所做的是为查询相关概念增加更多权重,确保我们通过查询的焦点查看文档内容。此外,除英语外,加权适用于多种语言。我们一直致力于改进算法。
我们还推出了性能升级,现在比以前的时间提高了50%。请注意,大部分时间都花在阅读Web结果上;实际处理速度非常快。如果SenseBot要与主要搜索引擎或托管文档的门户集成,则用户会立即看到摘要。
引擎是否根据查询或关键字的评估从任何垂直搜索引擎直接搜索?
不,虽然它是一个好主意。此时我们只查询Big 3中的一个,无论用户喜欢哪个。对于纵向,我们有单独的工具,可以汇总所选的网页或文档集。
是否有未来的SenseBot应用程序在管道中?例如,考虑到引擎可以总结在线百科全书中缺少的内容,例如维基百科?
我看到了许多未来的应用程序,主要集成在搜索引擎(主要或垂直)或门户网站上。企业搜索将是另一种自然的选择。我们可以做的就是从第一页结果中提取相关内容。至于内容区域,这里只是我们看到一个很好的拟合:
的几个例子 教育:自动建立对特定知识或学习领域的介绍;为一篇关于某一主题的文章做准备。图书馆:为图书馆员和图书馆顾客提供研究申请。金融新闻和研究:提供了关于某个特定经济领域,市场,某一特定领域等发生的事情的独家新闻。 。竞争情报:分析竞争对手或许多竞争对手所针对的区域的一组文件。医疗信息:提供医疗状况或症状的摘要。法律信息:提供法律情况的摘要或发展法律概念。至于维基百科,我认为它是一个很好的信息来源,但更喜欢将它作为其中一个来源。我们的一位用户实际上称之为SenseBot“一个机械维基百科”。但主要区别在于我们根据搜索引擎返回的Zui相关信息,提供未经编辑的Zui新内容。是的,我们的总结有时很粗糙;但新鲜度,多样性和缺乏偏见可能会弥补粗糙度。
当趋势似乎更倾向于整合用户排名,用户提交的内容(特别是在替代搜索空间中)等社交功能时,SenseBot采用算法方法进行搜索。您对SenseBot的这些发展和新功能有何看法?
是的,看起来目前的主要趋势是“社交”和“rdquo;搜索。 AltSearchEngines维护着各种搜索引擎的综合名册和评论,其中很多涉及用户投票或以某种方式参与确定正确的结果。但我认为,由于网络的庞大规模,人类的参与只会在一定程度上有所帮助。您仍然需要算法以有意义的方式挖掘和组织信息。
Zui后,任何搜索引擎的目标都是用户满意度,可以表示用户是否找到了他的查询答案;他花了多少时间搜索。对相关结果进行总结可以在几秒钟内为用户提供80%的答案–在许多情况下,这80%就足够了。摘要可能已经满足用户,而无需深入查看各个来源。如果用户想深入挖掘,总结可以让他对源的质量有一个很好的了解,这样他就可以直接找到那些关于这个主题的相同波长的人。
例如,我刚刚发送了一个查询“omaha gunman”到SenseBot,选择百度作为引擎。 SenseBot在拍摄时回复了一个简明的摘要,特别关注枪手是谁。所有新闻网都以自己的方式报道了这个故事的许多细节。但总结,在短短的几秒钟内让我对发生的事情有了一个很好的了解,从不同来源提取了一些关键细节。它就像是同时看几个电视屏幕,并能够得到故事的要点。
浏览摘要,我还注意到SenseBot已经丢弃了百度返回的8个源中的2个。我检查了他们两个–他们的内容确实很浅!
所以这是一个新闻故事,但SenseBot真正蓬勃发展的查询类型是用户试图理解新概念或研究特定主题的地方。/p>
谢谢Dmitri。读者可以从这里尝试SenseBot引擎的功能。
CategorySEO