可压缩性 - 搜索引擎如何找到垃圾邮件内容
许多SEO从来没有听说过它,但它值得了解。 可压缩性是指识别低质量内容的一种方式。原始内容中的精简页面起源多年前SEO正在做的是尝试创建原创内容。一组段落用于页面顶部,另一组段落用于页面中间,另一组用于页面底部。它是一份微软研究论文,专门研究内容功能来识别垃圾邮件的技术。这是在统计分析算法的全盛时期。但总的来说,压缩率为 至少为4.0的所有采样页面中有70%被认为是垃圾邮件。
从很久以前开始,可压缩性就是一个有趣的垃圾邮件伎俩。许多SEO从来没有听说过它,但它值得了解。 可压缩性是指识别低质量内容的一种方式。 关于可压缩性的有趣之处在于搜索工程师偶然发现了它。
我要描述的内容可能会或可能不会被搜索引擎使用。然而,了解它仍然是有用的。了解可压缩性对于内容规划和诊断为什么某些内容可能被认为是薄的很有用。
压缩背景搜索引擎“压缩”网页信息,以便他们可以在硬盘上容纳更多数据。是否通过将文件夹转换为zip文件来缩小文件夹?那是什么压缩。
WinZip和GZip是压缩算法。他们所做的是抛弃重复数据并用代表丢弃信息的代码替换它们。那就是你如何获得更小的文件大小。
搜索工程师注意到的是,某些网页的压缩程度高于其他网页。当他们检查更高级别压缩的网页时,他们发现压缩比高的网页往往会有很多重复内容。
当他们看得更近时,他们发现70%的高压缩网页都是垃圾邮件。它们是包含大量重复内容的精简页面。我并不是说’这是短语的起源,薄页面。但是,当你压缩某些类型的垃圾邮件页面时,这就是你剩下的精简页面。
原始内容中的精简页面起源多年前SEO正在做的是尝试创建原创内容。他们使用一组带有空格的独特段落来添加城市和州信息等数据。一组段落用于页面顶部,另一组段落用于页面中间,另一组用于页面底部。
通过随机混合和匹配段落,每个页面都是100%唯一的。每组中有足够的段落,您可以获得几乎无限量的页面组合。这种技术非常适合生成数十万个页面,以便对城市/州关键字组合进行排名。
这项技术工作了很长时间!
压缩重新定义唯一内容但压缩能够打败这种内容。虽然垃圾邮件发送者可以为每个集创建二十,四十个或更多唯一段落,但生成的网页仍然会以高比率压缩。
我不知道今天搜索引擎是否使用压缩来识别精简内容。但它是识别超薄低价值添加内容的简单方法。将压缩与其他信号相结合,查找精简内容页面变得更加容易。
压缩文档我在2006年的一篇题为“ 通过内容分析检测垃圾邮件网页”的研究论文中首次听说压缩。它是一份微软研究论文,专门研究内容功能来识别垃圾邮件的技术。这是在统计分析算法的全盛时期。
以下是该研究论文:
的相关部分的引用“ 4.6可压缩性 我们通过压缩率,未压缩页面的大小除以压缩页面的大小来衡量网页的冗余。
描绘垃圾邮件普遍程度的折线图稳步上升到图表的右侧。由于每个范围的采样页数较少,因此图形在 之后的压缩比为4.0时会非常嘈杂。但总的来说,压缩率为 至少为4.0的所有采样页面中有70%被认为是垃圾邮件。“
外卖:今天压缩性如何有用可压缩性是一个有用的东西,因为它可以让您深入了解某些网页可能无法正常运行的原因。它可能已被搜索引擎用于垃圾邮件战斗和搜索引擎优化的穴居人时代。无论搜索引擎是否使用它,今天仍然有用。
如果您的网站内容压缩了四倍,那么查看该内容以确保它是真正的原始而非冗余可能是有用的。搜索算法是否使用压缩并不重要。它仍然是一个有用的东西。
图像由Shutterstock,由作者修改作者截图
CategorySEO