网站文章被采集?尝试使用这几种方法进行最大防护
站长,在做网站的时候,时有发生网站内容被采集的情况,特别是现在这种采集成本极低的环境,只要稍微会一点代码,就可以制作采集模块。即便不会代码,也可以花费低廉的价格去找人代写。
新站上线,勤勤恳恳的做着原创内容,却被突如其来的采集工具采集了整站。换谁也受不了。
并且,新站开始是没有权重的,即使你发布的是你的原创,权重高的网站采集了你的文章并发布,蜘蛛爬取网页,也优先收录了权重高的网页,并且认为这是他的原创文章。
这就是典型的为他人做嫁衣。
虽然现在文章也有版权保护,但是在面对采集站点而言,又有什么用呢,既然他敢采集,就不怕你去维权,而且当下维权的成本又高。
以前熊掌号有一个原创保护功能,但是因为百度业务原因,给下线了。现在的原创真的无法保护。
所以今天五车二为大家分享几方法,最大限度的保证自己的创作不被采集。
内容优化篇
1,写作的时候,在你的作品中插入相关的品牌词。如:“XXX网小编”,“XXX提醒大家”……或者使用替代词,百度知道替代为Baidu知道,摆渡知道,百度了解等。为文章打上标记,以便在后期的时候反馈作为证据使用。
当然采集软件也有过滤功能,所以可以每篇文章都用不同的词汇。虽然累一点,不过有些采集者比较不伤心,总会漏掉一些细节。
2,图片水印处理,采集工具是无法识别图片并过滤的。原创文章的用图,可以使用水印。即便采集了,他如果要处理,也要重新编辑。
更新技巧(技术层)篇
采集者,会让工具通过网站的URL来识别最新文章。只要我不把最新的文章发布出去,采集工具就无法获取到相关代码。只要我的文章先行收录,他在做采集,也会被搜索引擎判定是复制转载,而非原创。
1,隐藏式更新(延时),自己站内的蜘蛛会爬取站内的所有URL连接,采集工具不能。所以只要我们将一个页面隐藏而不放进某一个分类,等待收录之后在移入分类。就可以避免第一时间被采集。
2,程序限制页面访问(多少时间只能访问多少个),机器的速度比人快,一个人不可能在3分钟内访问每一个分类的每一篇文章,并且每个文章都打开。(注意:某些采集工具是可以做到延时采集的,因为他也可以设定几分钟访问一篇。但这需要成本。)
3,限制面向用户的页面展示,比如,我只给你展示1页,第二页进行验证。
4,验证机制,其实有些网站,是可以做到当用户不正常访问的时候就弹出验证码框来进行人机校验,也可以规避采集工具的采集。
5,链接尽量不要有序化,采集工具的原来,是通过源码来进行URL识别,一些有序的URL链接对于采集者非常喜欢,因为不麻烦,可以采集整站数据。星空站长网,就是xingkongweb.com/1.html,工具甚至可以不进入分类,而直接采集文章1-99999.html即可。所以这是一种不好的URL设计习惯。
百度站长工具篇
百度站长工具可以手动提交链接。
结合上面的【技术层】篇章中的第1点,我们先延时更新,把页面隐藏起来。
然后利用百度的站长工具,收录提交,提交了我们原创文章的URL,然后静待百度收录之后。
再将文章更新到首页或分类。
以上就是星空站长平台(www.xingkongweb.com)五车二给各位站长朋友分享的防护经验,希望对大家有帮助,并且让创作越来越有动力。