什么是百度的神经匹配?
百度最近宣布他们正在使用“神经匹配”。 百度’sDannySullivan表示正在使用30%的搜索查询。百度并不总是使用专利和研究论文中公布的算法。但是,在百度的搜索算法中确实使用了不确定数量的已发布算法。还必须指出,百度通常不会确认是否正在使用特定算法。今天似乎就是这种情况,因为DannySullivan为这个新的“神经匹配”提供了线索。
百度Zui近宣布他们正在使用“神经匹配”。算法更好地理解概念。 百度’ s Danny Sullivan表示正在使用30%的搜索查询。
百度Zui近发布了一篇研究论文,该论文仅使用搜索查询和网页将搜索查询成功匹配到网页。 虽然这个算法可能没有被使用,或者可能被用作一组算法的一部分,但它确实可以作为一个“神经匹配”的例子。算法可以工作。
百度是否使用已发布的算法?百度并不总是使用专利和研究论文中公布的算法。但是,在百度的搜索算法中确实使用了不确定数量的已发布算法。
还必须指出,百度通常不会确认是否正在使用特定算法。
百度讨论新的AI算法百度过去曾讨论过算法,例如熊猫算法和企鹅算法。今天似乎就是这种情况,因为Danny Sullivan为这个新的“神经匹配”提供了线索。算法
这个新算法由Danny Sullivan(在推文中) 讨论为:
“…神经匹配,– AI方法更好地将单词连接到概念。”
百度’ s Danny Sullivan讨论神经匹配。Danny Sullivan也发了推文:
“人们搜索的方式通常与人们编写解决方案的信息不同。“
Danny Sullivan在Twitter上发布了一个截图,显示了单词具有不同的含义.AI,深度学习和排名页面百度的人工智能博客Zui近发布了一个新研究论文的链接,称为使用增强型文档查询交互的深度相关性排名。 虽然这种算法研究相对较新,但它改进了革命性的深度神经网络方法,以完成称为文档相关性排名的任务。此方法也称为Ad-hoc检索。
虽然它不能明确地说这是百度调用神经匹配的一部分,但它对类似的东西进行了有趣的研究。
这就是新研究论文如何描述ad-hoc检索:
“文档相关性排名,也称为ad-hoc检索…是使用查询和每个文档的文本从大型集合中对文档进行排名的任务。”
研究论文很清楚,这种排名形式仅使用搜索查询和网页。它继续说:
“这与标准信息检索(IR)系统形成对比,后者依赖于基于文本的信号与网络结构(Page等,1999; Kleinberg,1999)和/或用户反馈(Joachims,2002)。&ndd。/p>
在上述声明中,它指出文档相关性排名不同于依赖于“网络结构”的其他搜索技术(信息检索系统)。然后它引用了Larry Page,它是对PageRank和链接的引用。它还引用了Kleinberg,它引用了Jon Kleinbergs关于使用链接对网页进行排名的研究。
很明显,文档相关性排名是一种相对较新的网页排名方法,并且它不依赖于链接信号。
百度的文档相关性排名不使用链接吗?在百度的AI博客中发布的新算法并没有直接使用传统的排名因子。但是,首先使用传统的排名因子。然后使用算法的Ad-hoc检索部分。
该研究报告指出,它正在对已经排名的网页进行重新排名。
这意味着无论排名信号如何,网页都必须跳过才能获得排名依然存在。但是,传统的排名信号并不能确定哪些页面会排在前十位。
因此可以说传统的排名信号具有一种审查功能。排名信号会删除垃圾邮件并收集Zui相关的文档。
这个新算法的作用是根据一组完全不同的标准对这些网页进行重新排序,以匹配Danny Sullivan所称的“超级同义词”。
首先使用排名信号使得该算法与2016年发布的算法不同,称为深度相关匹配模型(DRMM)。
这是新研究所说的,将DRMM与这种新算法:进行比较
“在基于交互的范例中,诱导了查询和文档对之间的显式编码。这允许直接建模精确匹配或近匹配项(例如,同义词),这对于相关性排名是至关重要的。
的确,郭等人。 (2016)表明基于交互的DRMM优于以前的基于表示的方法。另一方面,基于交互的模型效率较低,因为无法独立于查询索引文档表示。但是,当相关性排名方法重新排列传统IR引擎返回的顶级文档时,这一点就不那么重要了,这就是我们在这里考虑的场景。<
算法实际上做了什么?该算法的目的是仅使用搜索查询和网页文本本身将搜索查询与网页匹配。通过这种算法排名的网页不会因为链接或关键字而被提升到Zui高位置,因为这种算法是关于“相关匹配”的。
“我们探索几种新的文档相关性排名模型,建立在深度相关匹配模型(DRMM)和hellip之上;与使用上下文不敏感的术语编码和查询 - 文档术语交互的DRMM不同,我们在整个模型中注入了丰富的上下文敏感编码,受PACRR’(Hui et al。,2017)卷积n-gram匹配功能的启发,但以多种方式扩展,包括查询和文档输入的多个视图。”
内容更重要这是否意味着发布商应该使用更多的同义词?在我看来,添加同义词一直是关键字垃圾邮件的变体。我一直认为这是一个天真的建议。
百度理解同义词的目的只是为了理解页面的上下文和含义。 在我看来,清晰一致地进行沟通比用关键字和同义词向网页发送垃圾邮件更重要。
百度正式声明的是它能够理解概念。所以在某种程度上,这不仅仅是关键词和同义词。它更自然地理解网页如何解决搜索查询中隐含的问题。根据百度的官方声明:
“…我们现在已达到神经网络可以帮助我们从理解单词到理解概念的重大飞跃。神经嵌入是在神经网络领域开发的一种方法,它允许我们将单词转换为基础概念的模糊表示,然后将查询中的概念与文档中的概念进行匹配。我们将这种技术称为神经匹配。”
这是神经匹配吗?神经匹配可能将此算法的元素与其他算法的元素混合在一起。百度是否使用这种精确算法并不像理解只使用搜索查询和网页内容对文档进行排名那么重要。
了解这一点将有助于出版商避免像添加同义词这样无助的策略。
这种新的人工智能排名显示了如何生成搜索结果,而这些搜索结果并未按传统排名因素(如链接或关键字)直接排名。这需要更加关注用户意图和理解内容页面如何帮助用户。
阅读此处的研究论文: 使用增强的文档查询交互的深度相关性排名
图像由Shutterstock提供,由AuthorScreenshots作者修改
CategoryNewsSEO