100行Python爬虫代码,轻松爬取妹子网美女图,我硬盘都不够用了

论坛 期权论坛 期权     
编程学习营   2019-7-20 20:08   3019   0



最近入职了一家公司,主要做的事摄像头之类的监控相关的设施,发现很多的脚本都是用Python做的,其实很早之前就挺过Python的大名,“人生苦短,我用Python”并不是一句戏言,未来的各种AI,机器编程,深度学习等等都是用到的python,所以人工智能时代是时候学点Python了。




今天给大家带来一个Python爬虫项目,主要爬取的对象是有很多妹子图片的网站,好了,废话不多说, 直接开始步入正题。
爬虫的环境配置
  • Python3
  • PyCharm
具体的实现步骤,以妹子图的网站为例,主要分为四个步骤:
  • 得到网站首页的页码,然后在本地创建和页码对应的文件夹
  • 获取网站的地址
  • 进入网站栏目,得到栏目的页码数,如果栏目里面有很多图片的话,就分页显示
  • 获取栏目中的标签,然后下载标签对应的图片
需要注意的有以下几点
  • 定义好方法名和函数,全局变量,一个爬虫代码可能会有上百行甚至几百行,所以不要写成一坨
  • 记得写注释,标明本段代码的作用
  • 导入库,其实就是类似工具类,底层都被封装好了
  • 异常捕获
  • 防盗链




好了,接下来进入具体的代码实现,这里由于代码较长,我就不一行行放出来了,直接用我的超长显示屏截了一个图给大家看。




图片可能不是很清晰,但是没关系,这个代码我这里还有备份,需要的话,扫描下方图片的二维码,加我的Python学习QQ群:808713721就可以免费领取了。



然后就是激动人心的时刻:



总结其实这个爬虫很简单,从配置环境到脚本顺利执行,差不多花了两个多小时,但是却整整花了4个小时下载过来,仅仅17G的图片就下载了4个小时,才下载了50多个页面的图片,看了下还有400多个页面的图片还在下载,估计有100多G了,毕竟全是高清的图片。

分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:20
帖子:4
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP