- 模拟http请求,请求发送到目标页面,并且获取到HTML内容
- 1、urllib(python的内置库)
- 1.1、使用:
- 1.2、发送请求:
- res = urllib.request.urlopen(url)
复制代码 - 1.3、获取HTML内容:
- html = res.read().decode()
复制代码
- 2、Request:定制header
- 数据解析,从海量数据中提取我们需要的部分
- 1、正则匹配
- 2、字符串
- 3、BeautifulSoup
- 3.1、安装:
- 3.2、使用:
- from bs4 import BeautifulSoup
复制代码 - 3.3、解析:
- mysoup = BeautifulSoup(htmlfile, 'html.parser')
复制代码 - 3.4、获取相关元素:
- movie_zone = mysoup.find('ol')
复制代码 - 3.5、获取指定元素:
- nextpage = mysoup.find('span', attrs={'class': 'next'}).find('a')
复制代码 - 3.6、获取指定元素属性:
- 数据存储的过程,存储到文件,打印输出,数据库
- 1、使用新建Excel文件,并保存
- 1.1、安装:
- 1.2、使用:
- 1.3、创建工作簿:
- 1.4、创建工作表:
- 1.5、添加数据:
- sheet.write(第几行, 第几列, 数据)
复制代码 - 1.6、保存文件:
- 2、MySQL pymysql mysql-connector
|
|