网站的反采集策略 最近新的采集程序层出不穷,对采集程序我们到底有没有即不影响搜索引擎的收入又能防止被采集的方法呢?答案是有的,下面就惊云程序来谈一下如何防止被采集程序采集,希望对大家有所帮助。欢迎大家一起讨论。 首先,惊云程序的软件下载采集中采集到的地址一般都是“down.asp?id=XXX”,这样的地址无实用价值,可以不做考虑,剩下的就是文章了。 采集信息一般有2种方案,一种是根据ID,从1开始到最大ID。对付这个比较简单,我们可以通过修改生成HTML的文件名来防止。一般默认的都是“ID.htm”形式,我们可以改为“ID_日期.htm”的形式,这样就没办法采集。还有个方案就是在生成的html页中不出现该文章所在分类,这样采到的信息就不完整,无实用价值。另一种方案是根据分类页获取采集列表,现在大部分采集系统都是用这个方案来采集。对付这个我们首先可以从分类页着手,使采集程序无法获取采集列表。这里我想到了2个方案,一个是修改info_makesort.asp,把文章列表的连接形式改为"redir.asp?id=ID",然后新建一个redir.asp网页做转向。 <--R>id=trim(request("id") ’=================== 这里顺便可以加点来路判断或cookies的代码来判断是否来自本站(可选) ’=================== response.redirect(id&".htm"另一个方案是修改info_makesort.asp,在里面另外加些判断,比如生成分类单数页的形式为"ID_1.htm",双数页的形式为“ID_2.html”。 上面这些都可以在一定程度上应付一下采集程序,对采集高手并不使用,。 然后我们可以在文章页中做点修改。应付采集程序最好的方法就是多模板,这样针对每一个模板就要对应一个一个采集方案。惊云程序中如何做到这样的效果呢?我们可以这样考虑:通过修改info_makeinfo.asp中的标签,把HTML代码写到标签中。见下面代码 <--R>title=rs("title" Randomize Number=Int((3 * Rnd) + 1) ’产生一个随机数 select case Number ’根据随机数对应模板 case 1 title="&title&" case 2 title="&title&" case 3 title="&title&" . . . . . .这样就可以用程序模拟出一套相当于多模板的程序,要采集这样的网站就比较麻烦了。还有一个小技巧,我们做网站时本地图片尽量用相对连接,同时多建几个图片目录,图片随机放在这些目录中,这样可以防止图片被采集。 综述:采集方法应该还有很多,凡事有利必有弊,大家可以根据自己的实际情况来衡量,找到适合自己的方案。我这里提到的反采集思路主要是给在保证不影响搜索引擎收录的前提下给采集程序人为的制造些麻烦,降低它的采集效率,使之知难而退,对付专业采集人士就不适用了。希望本文能对大家有所启发,保护好自己的私有财产(中华企业文化网)
|