学习之---python数据爬虫

论坛 期权论坛 期权     
茶川   2019-7-28 23:29   3633   0
  • 模拟http请求,请求发送到目标页面,并且获取到HTML内容
    • 1、urllib(python的内置库)
      • 1.1、使用:
        1. import urllib.request
        复制代码
      • 1.2、发送请求:
        1. res = urllib.request.urlopen(url)
        复制代码
      • 1.3、获取HTML内容:
        1. html = res.read().decode()
        复制代码
    • 2、Request:定制header
  • 数据解析,从海量数据中提取我们需要的部分
    • 1、正则匹配
    • 2、字符串
    • 3、BeautifulSoup
      • 3.1、安装:
        1. pip install bs4
        复制代码
      • 3.2、使用:
        1. from bs4 import BeautifulSoup
        复制代码
      • 3.3、解析:
        1. mysoup = BeautifulSoup(htmlfile, 'html.parser')
        复制代码
      • 3.4、获取相关元素:
        1. movie_zone = mysoup.find('ol')
        复制代码
      • 3.5、获取指定元素:
        1. nextpage = mysoup.find('span', attrs={'class': 'next'}).find('a')
        复制代码
      • 3.6、获取指定元素属性:
        1. nextpage['href']
        复制代码
  • 数据存储的过程,存储到文件,打印输出,数据库
    • 1、使用
      1. xlwt
      复制代码
      新建Excel文件,并保存
      • 1.1、安装:
        1. pip install xlwt
        复制代码
      • 1.2、使用:
        1. import xlwt
        复制代码
      • 1.3、创建工作簿:
        1. xls = xlwt.Workbook()
        复制代码
      • 1.4、创建工作表:
        1. xls.add_sheet('Sheet1')
        复制代码
      • 1.5、添加数据:
        1. sheet.write(第几行, 第几列, 数据)
        复制代码
      • 1.6、保存文件:
        1. xls.save(路径地址及文件名)
        复制代码
    • 2、MySQL pymysql mysql-connector

分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:
帖子:
精华:
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP