百度尝试使用技术索引HTML表单
百度rs,抓取和索引团队成员JayantMadhavan和AlonHalevy最近表示,百度已经测试了一些HTML表单,看看他们是否能够发现原本无法为用户找到或编入索引的网页。 在本实验中,为HTML表单编制索引,包括下拉框和选择菜单,百度已经向DeepWeb迈进了一步。 根据百度,此方法不会影响已经成为爬网一部分的网站,并且该方法不会影响网页排名。
百度rs,抓取和索引团队成员Jayant Madhavan和Alon HalevyZui近表示,百度已经测试了一些HTML表单,看看他们是否能够发现原本无法为用户找到或编入索引的网页。 在本实验中,为HTML表单编制索引,包括下拉框和选择菜单,百度已经向Deep Web迈进了一步。
在他们的博客文章中,百度rs表明他们的进程为:
“对于文本框,我们的计算机会自动从具有该表单的站点中选择单词;对于表单上的选择菜单,复选框和单选按钮,我们从HTML的值中进行选择。选择每个输入的值后,我们会生成并尝试抓取与用户可能进行的查询相对应的URL。如果我们确定由我们的查询产生的网页是有效的,有趣的并且包含不在我们的索引中的内容,我们可以将它包括在我们的索引中,就像我们将包括任何其他网页一样。”
如果您担心被编入索引的表单而不是被包括在内,则百度表示他们将遵守网站中包含的任何指令或工具,以防止搜索引擎抓取某些部分。此外,他们还说他们也会省略需要密码输入的表格,或者使用经常与个人信息相关的条款的表格,例如登录或用户ID。
担心这种新的增强爬行方法将以牺牲常规网页为代价应该是没有根据的。 根据百度,此方法不会影响已经成为爬网一部分的网站,并且该方法不会影响网页排名。 这种新的抓取方法仅仅是为了增加搜索引擎对网络的覆盖率。
CategorySEO上一篇:语义搜索的演变|搜索引擎期刊