⑴ 做个资源站用什么源程序好一定要能防止采集的
说实话防采集不是绝对的
对真正的采集高手来说,没有哪种方法是真正的可以做到绝对防采集的,只是说可能让一般的人很不方便采集。就比如说国内研究采集最久的乐思采集系统,几乎是可以采集任何网站的。只是那些做过多种防采集处理的,稍微麻烦一点罢了。
其实话说回来,网络是开放的空间,能在网上公开的东西,有什么怕采集的呢,只要不是整站照搬(整站照搬可以利用知识产权处理)。
⑵ 防采集研究。
没有什么不可以
⑶ 请问如何防止网站数据被采集
没有这种办法,只能增长被采的难度,弗成能杜绝
⑷ 请问大家怎么防止采集过多,被百度K的问题
1:我从建站到网络收录的一个月内,关键字换了至少三次。
2:在此期间由于备案,我换了网站程序,论坛被迫关了5天。
3:备案成功后,搜索引擎的首页变成当初备案期间的网站程序首页
4:增加友链的时候有一个友链被网络K了
5:论坛版块换了三次
呵呵,大家看了以后一定会骂我傻。因为我犯的都是些低级错误,但对人非圣贤,孰能无过。不说这些。我们具体说说我解决被K的具体步骤和办法。不难。很好做。只需要你加把劲就行。累点而已。总而言之,我的站别网络K了以后,我用了半个月就回复了收录,但还是快照更新的慢,呵呵,总比K的一毛不剩的强。
挽救过程分析:
1:分析网站被K原因,上面已经分析过了
2:删除有问题的友链
3:固定网站版块(也就是标题)避免以后有较大改动
4:在网络里搜索“网络收藏夹”这个很管用,这个东西一般都是由PR值高的站点提供。然后申请账号,把自己的网站收藏到网络收藏夹里。一定要多申请一些。PR低的或者被搜索引擎K掉的就免了。
5:增加高质量外链。但要循序渐进,不要猛的增加很多高质量的外链。千万别做和那些垃圾站做友链。少做垃圾外链。
6:每天少量稳定的更新。不要猛的大量更新,然后又几天不更新,一定要稳定。
7:确定你的关键词,避免以后有大的改动。
8:向一些高PR值的导航网站提交网站。
9:写好的软文,增加大量的外链。但前提是你有好的文章功底。
10:增加网站的原创,或者伪原创。每个搜索引擎都好原创这一口。
11:再次提交你的网站,但不要每天都提交,以上工作做的你认为可以的时候再提交。这样成功率更大。
⑸ 如何防止别人采集你的网站我的网站是图片站,请问各位怎么操作呢
图片有点不好控制,但文本是可以的,可以通过脚本禁止使用文字复制。图片的话不能进行控制的话建议在图片上加上你网站的水印。以来可以防止别人冒用,而来即便别人用了也可以达到自己网站的宣传效果
⑹ 如何阻止坏蜘蛛机器人采集网站数据
1、在robot.txt进行设置阻止(这招只能防君子,不能防小人)
在robot.txt中进行设置阻止某些特定页面,然后在访问页面中增加这些特定页面的链接,然后hidden掉,如果有人访问到了这个页面, 直接封ip(优点是防止了一些垃圾搜索引擎的蜘蛛,但是对国内火车头之类的这种按规则抓取的蜘蛛还是没办法阻止)
在apache端进行访问日志记录, 对某段时间内访问频率太高,超过某个限额的直接封ip(问题是要是有的人在找某个笑话,到处翻页,到处找,估计频率也会高,会造成正常人访问不了, 或者不小心就把Bai和Google干掉了)
修改页面的标签,css, 随机在页面内容显示排版中用不同的模板,或者不同的html标签, 造成写智能抓取的蜘蛛规则的人很辛苦,导致采集不顺利.(到是一个办法,不过似乎维护成本太高了, 而且如果是根据标签在html document中的顺序和次序来抓取的话,这个办法也是没用效果的)
在内容中加在自己网站的网址,或者广告之类的.(对一些菜鸟写蜘蛛的人能防止,但是对于高手还不是一样的可以把这些广告过滤掉)
用js加密内容(防止了抓取,但是这样就会导致所有的蜘蛛机器人抓取内容都是加密,对搜索引擎优化不好)
全站Flash(同上)
全站Ajax(同上)
... ...
这些方法只能组织正规蜘蛛的访问,不能达到:阻止非人类行为抓取数据,允许指定的搜索引擎任意抓取,允许正常人类任意浏览
那么采用采用什么方法才能真正做到呢?下面的就是了,虽然不能完全阻止,但是很有用:
1、记录用户的访问频率, 然后频率超过某个限制, 弹出页面验证码,用户输入验证码后才可以继续
2、判断来路的搜索引擎是否网络和Google,如果是则不进行访问频率限制.不能通过User-agent来做, 因为User-agent是可以模拟的. 应该通过IP反解来做:
host 66.249.71.6就会得到如下信息
6.71.249.66.in-addr.arpa domain name pointer crawl-66-249-71-6.googlebot.com.
OK, 是Google的蜘蛛, 这个IP可以任意采集了, 注: IP反解析出来的信息是不可以伪造的, 是通过向专门的机构申请得到.
剩下的的问题就是在人类访问太频繁的时候,输入下验证码就可以了。
⑺ 如何解决网络不正确信息和数据采集,
这里有篇关于DAQmx用法的官网教程,有涉及输出的介绍。 在软件安装目录下也有例程,在examples\DAQmx\Analog Out目录下。
⑻ 怎样防止网站收集个人信息呢
1、不随意填写问卷。目前填写问卷似乎是一件很时髦的事情。在网上、街头,甚至是学校的自习教室,都可能遇到有人以各种接口请你填写问卷。此时不要随意的填写问
卷,更不能在问卷上填写个人重要的信息。不然在不经意间你的电话号码、邮箱等重要的联系方式就可能泄露,甚至会被转卖。
2、不贪占小便宜。爱占便宜是人的天性,但是天下没有免费的午餐。在网上或者是街头,会遇到这样一种情况:留下联系方式等先关信息,就会获得免费赠送的小礼品。此时你泄露的是个人的信息,但是得到的是并不实用,甚至是根本没用的小物件,确确实实地占了小便宜吃了大亏。
3、快递单据不随意丢弃。收发快递似乎已经成为了很多人生活的一部分,更有不少人接到快递后,把东西拿走,箱子和快递单据随手就丢在了垃圾桶里。快递单据上一般都会记录着姓名、地址和联系方式。如果将快递单据随手丢弃,无意会在不经意间泄露自己的很多信息。
4、车票机票正确处理。目前火车票和飞机票都是实名制购票,在票面上留有自己的姓名和部分身份证号等信息。因此在乘车出站之后绝对不能随意将票据丢弃,更不能一出站就被非法分子收走。
5、不随意留下自己联系方式。在很多时候,随意留下了一个电话号码,结果会莫名其妙地接到很多电话,比如看房的时候。打这些电话的人往往知道你的需求,不厌其烦地打电话给你,甚至会影响正常的工作和休息。因此为了自己耳根清净,尽量不要随意留下自己的联系方式。
6、打印店打印后立刻删除打印信息。打印店是一个神奇的地方,能带来很多便利,也能带来很多麻烦。在打印店打印,有人喜欢将U盘的文件拷到打印店桌面上,而打印后又往往忘记删除。在这种情况下,打印一般的文件还好,如果打印的是个人简历,那么难免会泄露个人的信息。
7、电脑安装防火墙。网络世界丰富多彩,但同时也充满危险。为了能够更好的享受网络生活,在上网前,最好打开防火墙。如此可以给自己的电脑穿上一件防护衣,避免外来的攻击,减少通过网络泄露自己信息的概率。
8、正规网站上网、购物。查看消息或者浏览视频的时候,一定要去正规的网站,不然尽管安装了杀毒软件,但是也不能保证电脑不会感染病毒。尤其是购物的时候。会涉及到网上网上付,使用正规有保障的网站,安全系数会更高。
9、不随意接收或者打开陌生的邮件。打开邮箱,看到陌生人发来的邮件千万不能轻易打开。尤其是看到中奖或者是奖品认领等带有相关衔接的邮件时,更要万分小心。不能轻易打开连接,否则很可能泄漏你的浏览记录,甚至是重要网站的账号或者密码。
⑼ php如何防止网站内容被采集
1、限制IP地址单位时间的访问次数
分析:没有哪个常人一秒钟内能访问相同网站5次,除非是程序访问,而有这种喜好的,就剩下搜索引擎爬虫和讨厌的采集器了。
弊端:一刀切,这同样会阻止搜索引擎对网站的收录
适用网站:不太依靠搜索引擎的网站
采集器会怎么做:减少单位时间的访问次数,减低采集效率
2、屏蔽ip
分析:通过后台计数器,记录来访者ip和访问频率,人为分析来访记录,屏蔽可疑Ip。
弊端:似乎没什么弊端,就是站长忙了点
适用网站:所有网站,且站长能够知道哪些是google或者网络的机器人
采集器会怎么做:打游击战呗!利用ip代理采集一次换一次,不过会降低采集器的效率和网速(用代理嘛)。
3、利用js加密网页内容
Note:这个方法我没接触过,只是从别处看来
分析:不用分析了,搜索引擎爬虫和采集器通杀
适用网站:极度讨厌搜索引擎和采集器的网站
采集器会这么做:你那么牛,都豁出去了,他就不来采你了
4、网页里隐藏网站版权或者一些随机垃圾文字,这些文字风格写在css文件中
分析:虽然不能防止采集,但是会让采集后的内容充满了你网站的版权说明或者一些垃圾文字,因为一般采集器不会同时采集你的css文件,那些文字没了风格,就显示出来了。
适用网站:所有网站
采集器会怎么做:对于版权文字,好办,替换掉。对于随机的垃圾文字,没办法,勤快点了。
5、用户登录才能访问网站内容
分析:搜索引擎爬虫不会对每个这样类型的网站设计登录程序。听说采集器可以针对某个网站设计模拟用户登录提交表单行为。
适用网站:极度讨厌搜索引擎,且想阻止大部分采集器的网站
采集器会怎么做:制作拟用户登录提交表单行为的模块
⑽ 请谈谈在日常的学习生活中,如何防止网络不良信息的侵蚀
1、自身要遵守网络道德规范,养成上网的良好习惯。
不要沉浸于网上聊天、游戏等虚拟世界,不浏览、制作、转播不健康信息,不使用侮辱、谩骂语言聊天,不轻易和不曾相识的网友约会,尽量看一些和自己的日常学习生活有益的东西并且一定要注意保持自制力。
2、家长要积极主动关心孩子,正确引导上网。
作为家长一定要关心自己孩子的学习和生活情况,避免学生在不被父母知道的情况下私自去网吧上网。另外部分学生往往在家中使用互联网,家长应该对网络有一定的认识,要正确引导孩子上网的目的。
家长要有超前意识,不断学习,提高自己各方面的修养和能力。加强对孩子上网监管,严格控制孩子的上网内容、上网时间,只有这样,才能充分发挥网络作用,既借助网络帮助中学生成才,又消除它的负面影响。
3、学校要以理想信念教育为重点,加强中学生全面素质教育。
学校是法制教育的主渠道,要加强对学生的思想道德与遵纪守法及网络自护的教育,丰富学生的课余文化生活;各学校的法制校长和德育教师要结合学生实际,在学生中以专题讲座等形式开展网络法制教育,并组织专题讨论。
4、建立适合中学生的绿色网站,占领网络前沿。
加强网络工作的队伍建设,努力建设一支既具有较高的思想道德修养、了解熟悉中学生心理特点,思想情况,又了解网络文化特点,能比较有效地掌握网络技术的队伍,建设一批能吸引中学生“眼球”的绿色网站,在网上进行生动活泼的教育,弘扬主旋律。
5、国家和地方要加大网络管理力度,规范互联网及相关事业的有序发展。
公安、文化和工商等相关部门还要加强协调配合,加大对网吧的管理与查处力度,坚决取缔违规操作的“黑”吧,并对有营业执照的网吧进行经常性检查,发现问题及时纠正。另外要利用计算机技术手段,加强网络“防火墙”的研制,特别是加强对网上不良信息进行过滤的软件的开发。
要建立网络监察机制,成立网络监察安全部门,招募网上警察,加大打击力度,以对付日益猖獗的网上犯罪。