爬虫ip被封的后果是什么?

论坛 期权论坛 股票     
期权匿名问答   2023-2-12 21:40   2932   5
爬虫ip被封的后果除了限制访问网站还有别的后果吗?还有被封后多长时间解封?(小白 希望大佬解释一下 谢谢)
分享到 :
0 人收藏

5 个回复

倒序浏览
2#
期权匿名回答  16级独孤 | 2023-2-12 21:40:51 发帖IP地址来自 中国
最近公司的爬虫程序将要上线,个人对于市场上的爬虫代理ip,进行测试和对比,我们这边是公司使用,需求是时效性是五分钟, 一天大概的量是一万个,一次需要提取50个左右!下面是我对于这些做分析:
一、某某云:
点击链接,送一万爬虫代理IP,助你解决反爬问题
代理云 - 可视化用户控制台

自建机房拨号服务器IP资源
IP存活时长 : 新产生IP最长可用5分钟,5分钟后自动释放。
实时在线IP数量:每1万IP量为一个池,每池实时在线35-50IP,多池购买可叠加。
带宽峰值限制 : 40Mbps
使用终端数限制 : 不限制,支持多机器或多进程同时使用代理IP。
API调用频率:10秒钟不超过200次。
并发请求数限制:300(相当于不限制)保证IP承载连接数高于同行业标准。
丰富的API参数:提取数量、地区筛选、IP过期时间等。
协议支持:同时支持Http/Https/Socks5,无需选择。
匿名程序:匿名代理,绝对匿名
池特点:24小时为IP池源源不断供应新的IP,不会因为IP用完导致自动化程序终止。
放在首位,是因为他的速度和稳定性比较符合我们的需求.报价的对比,给的报价是:1500元/月,当付款1500的时候一个月是可以使用300000个ip
点击链接,注册送一万ip
用户服务中心二、闪臣http
套餐购买 - 闪臣HTTP代理sch.bjhkdwl.cn/buy/sch.bjhkdwl.cn/buy/sch.bjhkdwl.cn/buy/sch.bjhkdwl.cn/buy/sch.bjhkdwl.cn/buy/sch.bjhkdwl.cn/buy/sch.bjhkdwl.cn/buy/这个是他的官网,速度和质量中等吧,下图是其报价:


当付款2000的时候,一个月可以使用21万的ip,
三、神龙代理
套餐购买-神龙HTTPh.shenlongip.com/buyh.shenlongip.com/buyh.shenlongip.com/buyh.shenlongip.com/buyh.shenlongip.com/buyh.shenlongip.com/buyh.shenlongip.com/buy

质量方面还可以,在他们家一天一万个,然后费用是1800月/月
四、大麦ip
一站式IP解决方案提供商-http代理|代理ip|动态ip-大麦ipwww.damaiip.com/www.damaiip.com/www.damaiip.com/www.damaiip.com/www.damaiip.com/www.damaiip.com/www.damaiip.com/

我们的需求吧,对于他们的报价比较贵一些,质量吧,勉勉强强
五、小象代理
ip代理-优质高速HTTP代理IP-爬虫-代理服务器-小象代理www.xiaoxiangdaili.com/www.xiaoxiangdaili.com/www.xiaoxiangdaili.com/www.xiaoxiangdaili.com/www.xiaoxiangdaili.com/www.xiaoxiangdaili.com/www.xiaoxiangdaili.com/时效性比较短一些, 都是1-2分钟的,要是我们加大并发吧,这个费用比较高


综上所述:要是你需要的是高并发,24个小时不断产生的话,做爬虫的,推荐你采购某某云!
要是想要按照量,时效性,比较短,一次一个的,可以考虑小象!
3#
期权匿名回答  16级独孤 | 2023-2-12 21:41:09 发帖IP地址来自 中国
如果是单纯的爬虫被封ip的话也就是不能再访问限制
如果再严重一点那就去喝茶
看你爬的是什么网站把
以后爬虫的话建议使用代理
这样比较靠谱
不然的话用自己ip地址被封了
查水表什么的
你懂得
企业级数据采集分布式代理池,免费测试送1万IP
4#
期权匿名回答  16级独孤 | 2023-2-12 21:41:52 发帖IP地址来自 江西南昌
互联网的飞速发展使得人们获取数据的方式也实现了飞跃,如今的数据获取已经摆脱了过去陈旧的依靠人力的方式,通过网络爬虫获取互联网数据已经成为了目前主流的数据获取方式。不过在爬虫技术发展的同时,网站服务器的反爬措施也在更新迭代,用户使用爬虫爬取数据时经常会遇到IP受限无法访问的问题,这又该如何解决呢?
1.User-Agent伪装和轮换:
User-Agent是浏览器类型的详细信息,不同浏览器的不同版本都有不同的User-Agent。我们可以在每次请求的时候提供不同的User-Agent,来绕过网站的反爬虫机制。还可以把很多的User-Agent放在一个列表中,这样就可以每次随机选取一个用于提交访问请求。目前网上有很多常用User-Agent可以进行参考。
2.降低抓取频率,设置访问时间间隔:
很多网站的反爬虫机制都设置了访问间隔时间,如果一个IP的访问次数,短时间内超过了指定的次数,就会被限制访问。因为爬虫抓取的速度远远要快于用户的正常访问速度,高频率的访问会对目标网站造成访问压力,所以我们在爬取数据的时候,可以把访问时间的间隔设置的长一点,比如设置为随机数,这样既可以防止IP被封,又可以降低目标网站的访问压力。
3.使用爬虫代理IP
网站的反爬机制会检查来访的IP地址,为了防止IP被封,这时就可以使用爬虫代理IP,比如IPIDEA这样的第三方代理来切换不同的IP爬取内容。HTTP代理简单来讲就是让代理服务器去帮我们获得网页内容,然后再转发回我们的电脑。代理服务器可以帮助我们伪装自身的IP,从而绕开服务器的反爬机制。
IPIDEA已向众多互联网知名企业提供服务,对提高爬虫的抓取效率提供帮助,支持API批量使用,支持多线程高并发使用,欢迎访问。
【官网】IPIDEA-全球住宅IP代理_海外IP地址代理_全球HTTP定制服务商
5#
期权匿名回答  16级独孤 | 2023-2-12 21:42:23 发帖IP地址来自 中国
如果你把对方服务器爬崩了,估计会被jc请去喝茶,如果你还在人家服务器的承受范围内,但是又检测到你是去爬他们的,大概率只是封你ip,具体封多久,看对方了。比如这个:


1个礼拜?
不过也看过永久被封的。
不要想着封多长时间解封,如这个人说的一样,使用http代理呗,封了就下一个ip,时间也是成本的一种。
当然如果你是学习,更要用啦!首先排除因为IP这种肯定的原因导致爬虫作业失败,把时间用在精进技术上才对。
最后建议挑一家质量好的http代理,比如高纯净一手散段的住宅ip,对高并发和高突发也很友好,爬虫作业成功率比较高,而且性价比来说,相对其他家会更适合需要控成本的企业一点,当然也是需要你自己调整一下各种参数的,模拟一下真人访问,不然你就换啥IP都没用。


以上,如果你对爬虫的HTTP代理感兴趣的话,可以看看我之前写过的价格对比文章:
隧道代理产品:《韭菜反割攻略》第一弹!HTTP代理商隧道代理价格对比
动态短效按量:《韭菜反割攻略》第二弹!动态短效代理-按量计费对比分析
动态短效按时:《韭菜反割攻略》第三弹!动态短效代理-按时付费格价格对比
6#
期权匿名回答  16级独孤 | 2023-2-12 21:42:45 发帖IP地址来自 中国
被封后见过最多的就是被限访,但封禁时长和终端的不同设定有关,如某猫爬取后只是限制5分钟,过后还是可再用,而有些终端则设置短时内达到一定数量任务请求后就直接封号不会解封。还有的直接封禁可疑ip段,这种比较狠,可能被人工怀疑判定为CC攻击,因为我之前就有这样做过,深度分析日志或可看出。
被封说明爬虫ip质量不合格!如发放的末段ip相同概率大或短时内请求任务高度重叠,一般这种出现于低质共享池。
可以先跑一定量(不是正式爬取)测下终端大概限制阈值,而后再合理安排ip数量及控制访速等分爬取,最好节点多样多更换、同时请求的任务数不要太高,可增加通道数。经过多番测试使用还是隧道代理更便捷快速,可以试用下,只要隧道代理带宽具足能满足众多使用场景。
隧道共享代理IP_Socks5代理IP_代理ip地址_HTTP(s)代理IP-青果网络


青果网络每分钟100个共享IP业务成功率

优化软件制作站点地图时应也是通过爬虫去抓取URL,亲测普匿同ip几分钟内爬取好几千页都还是没问题。很多品牌声称是高匿高匿,其实用起来并不高匿,有些连header字段就被识别过滤掉。
如果某个页面是很久的404页且站内无入口还被经常访问到,这种ip就非常可疑。类似一些JS等文件短时间内被经常访问,这正常吗。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:400157
帖子:80032
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP