百度缓存,缓存抗议中的百度
博客文章是关于Dorks抗议百度。然而,当它确实来到了愚蠢的抗议活动时,The百度Cache拿走了蛋糕(标签,现在你是dork!The百度Cache是最近法院裁决的抗议网站,该裁决称百度的受版权保护的材料是“合理使用”;:“在最近的裁决中声明百度的版权资料缓存是“合理使用”之后,我决定自己对此进行测试。通过简单地捕获该文章的百度缓存而不是蜘蛛网站来避免这种情况是非常容易的。
百度缓存,在抗议中缓存百度
前几天,我点击了一篇链接到Search Engine Journal的博客和一篇关于百度 China的故事。博客文章是关于Dorks抗议百度。我不确定搜索引擎新闻是多么的愚蠢,也不是我真的认为自己那么多的傻瓜。然而,当它确实来到了愚蠢的抗议活动时,The百度Cache拿走了蛋糕(标签,现在你是dork!)。
The百度Cache是Zui近法院裁决的抗议网站,该裁决称百度的受版权保护的材料是“合理使用”;:
“在Zui近的裁决中声明百度的版权资料缓存是“合理使用”之后,我决定自己对此进行测试。这是百度缓存。您搜索百度,结果将被缓存。”
实质上,The百度Cache正在缓存百度。
“百度缓存绝对是荒谬的。作为在白帽/黑帽搜索引擎行业双方都有相当多经验的人,缓存不是网站管理员的朋友。
1.缓存从作者中删除内容控制。例如,像EzineArticles.com这样的网站通过使用基于该IP抓取页面的速度的IP阻止方法来防止抓取。通过简单地捕获该文章的百度缓存而不是蜘蛛网站来避免这种情况是非常容易的。百度的IP封锁的限制性要小得多,并且结合强大的搜索工具,它允许对服务条款明确拒绝的网站进行简单的匿名上下文抓取。
2.缓存扩展了对已删除内容的访问权限,通常为数月(如果不是多年)。百度很少替换404页面(也许是因为他们希望获得Zui大数量的索引页面)。我的客户有近48,000个不存在的页面仍然缓存在百度中,超过14个月没有出现。尽管使用了404s,301s等,但这些页面尚未被删除。此外,百度经常对robots.txt,nocache和nofollow的错误处理使网站管理员依赖于搜索流量而犹豫是否使用所谓的标准化删除方法强制删除这些页面。
3.缓存允许百度匿名提供站点内容。不希望网站的所有者知道您正在查看他们的商品(想想公司在寻找竞争对手的IP),只需要看一下缓存。
这个清单一直在继续。但我认为关键是这个…
为什么网络作者必须精通技术才能防止他或她的内容被数十亿美元的美国公司复制?内容控制过去就像“你写它,它是你的”一样简单。随着时间的推移它变得有点复杂,或许可以使用服务条款。即使是新手也可以写“没有表示同意就不允许复制”。现在,网络作者必须知道如何操作HTML元标记和/或robots.txt文件。”
CategorySEO