百度的John Mueller讨论TF-IDF算法
百度’sJohnMueller讨论了TF-IDF在百度算法中的作用。”的关注的关键是TF-IDF是一个与整个“集合”相关的指标。TF-IDF用于创建在整个“语料库”中使用单词和短语的统计平均值。在百度的情况下,这意味着整个网络。信息检索是一个含糊不清的术语,涵盖了广泛的场景。并且,这些指标已经出现了多年。
百度’ s John Mueller讨论了TF-IDF在百度算法中的作用。他讨论了它是什么,并提供了一种更好的方法来优化排名网页。
什么是TF-IDF?维基百科有一个简明的定义TF-IDF是什么:
“… tf– idf或TFIDF,术语频率的缩写–逆文档频率,是一个数字统计,旨在反映一个单词对集合中文档的重要性和hellip; TF-IDF值与单词在文档中出现的次数成比例地增加,并且被包含该单词的语料库中的文档数量抵消,这有助于调整一些单词在一般情况下更频繁出现的事实。 ”的
关注的关键是TF-IDF是一个与整个“集合”相关的指标。或者“语料库””这意味着包含特定单词或短语的所有网页。在网络搜索的情况下,这意味着指标取决于在线存在的每个网页中单词或短语出现的频率。
那部分关于“一些词语在一般情况下更频繁地出现””是关于TF-IDF如何引用整个文档集中频繁出现的单词的权重。
TF-IDF用于创建在整个“语料库”中使用单词和短语的统计平均值。在百度的情况下,这意味着整个网络。它并不是某些人建议的神奇内容解决方案。
这是问题所在。
“您对TF-IDF关键字有何看法?百度是否使用类似的机制?
我们应该利用这些来改善我们的内容吗?”
约翰·穆勒回答了:
“… TF-IDF关键字本质上是一种用于信息检索的指标。”
那指的是“信息检索”。可以是对信息检索的整个领域的参考,其不仅包括网络搜索,还包括搜索文档或文档集合的科学本身,例如在台式计算机或电子邮件收件箱上。信息检索是一个含糊不清的术语,涵盖了广泛的场景。它不仅仅是网络搜索。除了网络搜索之外,考虑这个上下文可能会很有用。
然后他说这是:
“关于尝试理解页面上的相关单词,我们使用了大量不同的信息检索技术。并且,这些指标已经出现了多年。<
这是一个提示,专注于一个旧的指标,有助于找到“停止词””因为使用了许多其他技术,所以没用。
TF-IDF和百度中的排名 “…我在这里的一般建议是不要专注于这些人工指标…因为它一方面可以直接重现这个指标,因为它基于网络上所有内容的整体索引。
所以,并不是说你能说得好,这就是我需要做的事情,因为你并没有真正拥有整个指标。“
这意味着它无法计算TF-IDF指标,因为它基于整个网络的统计数据。
John Mueller对排名更好的建议John Mueller接着描述了一个更好的替代方案,专注于TF-IDF:
“相反,我强烈建议关注您的网站及其用户,并确保您提供的内容是百度长期仍然可以识别并继续用作有价值的东西。”
穆勒透露,这是一个非常古老的指标,暗示现代信息检索已变得更加复杂:
“另一件事是…这是一个相当古老的指标,多年来事情已经发生了很大变化。 …还有很多其他指标。”
然后他说,关注用户是一种更好的方法,因为它不受变化的影响。百度专注于提供Zui有用的搜索结果。如果您专注于有用的内容,那么该页面可能会继续流行并显示在百度上。
这是穆勒所说的
“所以只是盲目地专注于一种理论指标并试图将这些词汇压入你的页面,我不认为这是一件有用的事情。
我认为这是一种非常短视的想法,因为你只是专注于一个搜索引擎,你认为这些词会产生更强的效果。
所以,不要只关注人为添加关键字。确保您正在做一些所有新算法将继续查看您的页面并说,这是非常棒的东西。我们应该在搜索结果中更明显地显示它。”
用于TF-IDF的TF-IDF和SEOA用于降低常用词的权重。这是一个古老而基本的内容度量标准还有许多其他内容度量标准比基本和简单的TF-IDF度量标准 在人工智能,神经网络和机器学习成为常态的世界里,与法拉利相比,TF-IDF就像一辆儿童自行车在训练轮上。Mueller引用了它用于除去停用词的用法(即像和,和,等等)。这似乎适合这种旧技术。像这样的基本算法很可能仅限于识别停用词的简单任务。
我们无法确切知道,但穆勒在停止的背景下提到了TF-IDF这一事实单词删除并没有提及任何其他上下文是有意义的。
在这里观看百度网站管理员环聊。
按作者截图,由作者修改
CategoryNewsSEO