写爬虫爬取阿里巴巴数据，为什么使用高匿代理ip仍然会被识别出来呢？

我最近实习，领导让我爬取阿里巴巴供应商数据，刚开始目标是爬取阿里巴巴1688.com 电脑端的数据，发现模拟登陆很麻烦，需要短信验证，而且即使登录也需要不断输入验证码，就换成爬取阿里巴巴1688.com 移动端的数据，不需要登录，但是访问频繁就会返回重定向的页面 404-阿里巴巴，即使换代理ip也不行，这是为什么呢？有没有成功爬取阿里巴巴的项目可以借鉴一下？

热心的小回应 · 2021-1-7 21:12:59

再最新：
评论区再爆料
疑似使用ip代理暴力爬的路很可能鲁班门前弄斧了.....
具体看楼下详情
某不知名热心评论主; lanlan........

几个回合下来，大家互相打死了各自的脸
round 1：
我早年在阿里“友商”的一家小公司工作过，爬虫被教做人
后来我听阿里的某次技术论坛提过一嘴ai反爬虫
我当真了
信誓旦旦的出来答
r 2：
评论区出现真相帝
阿里没有用ai
r 3：
各路吃瓜说selenium就满足

r4：
最新惊天爆料，阿里有足够的ip池
======================================
最新：评论区有哥们婉转的说明了阿里反爬虫并不是ai.............
所以听什么阿里的技术论坛完全没有用..........
他们说的他们自己都不用啊...............
===============分割线=================
跟阿里反爬虫作对。。。。。
你知道当年淘宝如日中天的时候，后面跟风的电商是怎么创业的么....
爬虫爬淘宝店铺，联系店主免费帮着建电，包括且不仅包括图片，评价，说明等.............
阿里跟爬虫战斗是国内第一线的...................
阿里现在的行为判断全部使用深度学习在做
举个例子，你登录淘宝的拖动验证码，每一个移动坐标都记录给后台，由深度学习的ai来判断你是人还是机器。
阿里的反爬虫也是一样的，经过大数据的积累，依靠深度学习去判断你是否机器人，准确率2-3年前可能还差点，现在想绕过去就很难了。
从数据包头到访问来源，甚至追踪路由路径，会话追踪，页面追踪，基本上以阿里云现在在国内的统治力，互联网上大部分行为对阿里已经不是秘密了，更别说你去爬虫。
所以唯一的办法就是使用海量的ip自动切换，做双相的代理切换，分布式的去抓取，一个ip能爬几条爬几条，靠无赖手段暴力的抓。

现在阿里识别机器人可能会依靠页面热度分析来，因为你爬虫爬链的行为，肯定不符合他积累的正常人访问的页面热点分布

热心的小回应 · 2021-1-7 21:13:00

selenium+多机+ip池，ip池建议不要用网上的，我是用aws自己搭了一个。最大的坑是北京某些线路会自动重定向到国际站点，很迷醉

热心的小回应 · 2021-1-7 21:13:01

虽然没爬去过这个站点但是根据我的经验你伪装的不够好你可以尝试先用浏览器测试一下(浏览器自动刷新功能)结合手动点击分析访问频率如果手动的没有问题那么就可以很确定你的http报文组装的不够好

1. 抓包分析一下页面加载时的访问链接按这个顺序进行访问
2.观察每次http链接中cookie的变化情况
3.是否有第三方的站点进行监控
(以上这些都是基于httphead要和实际报文一致的情况)

热心的小回应 · 2021-1-7 21:13:02

你的情况应该是Header和Cookies没有处理好。

登录之后获取到Cookies，把Cookies保存下来，然后每次请求都要设置这个Cookies
设置Header中的User-Agent
设置Header中的其他Header信息
设置高匿名代理IP，IP可以使用无忧代理IP（爬虫代理）
如果你使用的是Java语言，那么可以参考下Java语言测试代码_爬虫（动态）代理测试案例_无忧代理IP
如果你用的是Python语言，可以参考Python语言测试代码_爬虫（动态）代理测试案例_无忧代理IP
如果上面还不能解决你的问题，那么可以考虑使用Selenium

热心的小回应 · 2021-1-7 21:13:03

最高回答，不要以为现在ai热，就扯ai来吓唬人，大概率是通过风控平台上的一堆规则来判断的，人工积累的一些规则。采集鼠标运动轨迹。浏览器信息，等等之类的。阿里网站常用的两个js，nc.js收集鼠标轨迹和um.js生成设备指纹。

热心的小回应 · 2021-1-7 21:13:04

爬虫抓取阿里数据一直是电商平台在做的事情（大家心照不宣而已）
之前从事做电商平台相关的抓取工作，对于阿里也算是有一定的了解，简单来说就是防爬虫机制一直在迭代，早些年还好（三年前）那时候还能用高匿名ip抓取下，现在是真的不行，而且在去年的时候做阿里抓取真的是三个月更新一次，做的快疯了。
最后用的方法是分布式+IP拨号代理（adsl拨号，不是高匿ip）+长时间间隔（网页下载速度2-3秒一个）+模拟浏览器（不是python的selenium，用的是C#的CEF有兴趣的朋友可以研究下）
也算是一个方法提供给大家作参考
然后最后的抓取效率大概是一个月5w商铺新增+250w多的产品（新增，有历史抓取的数据，所以只记录了新增量，没有计算抓取总量）
这里有一点要说的是产品之所以能抓取这么多是应为阿里对于产品数据的保护没有商铺信息怎么严密，对于IP限制比较小。

热心的小回应 · 2021-1-7 21:13:05

不就是打码＋selenium模拟滑动验证嘛，有多难

热心的小回应 · 2021-1-7 21:13:06

背景：某大型数据公司的爬虫小喽喽，你说的问题，我们之前也遇到过，但是我们公司使用了高匿的代理ip，然后这种现在就减少了很多，目前我们使用的代理云效果不错

热心的小回应 · 2021-1-7 21:13:07

阿里这种大公司，只允许自己去不断的收集用户数据，却不允许别人去收集它的数据，就是要和它做对。。。

热心的小回应 · 2021-1-7 21:13:08

之前在上一家公司采集阿里巴巴速卖通商品数据，这个网站有api数据接口直接返回json数据有些接口会有频率限制，一般是找到一个临界值用多台机器爬

写爬虫爬取阿里巴巴数据，为什么使用高匿代理ip仍然会被识别出来呢？

10 个回复