Python爬虫小例子——爬取51job发布的工作职位

概述

不知从何时起，Python和爬虫就如初恋一般，情不知所起，一往而深，相信很多朋友学习Python，都是从爬虫开始，其实究其原因，不外两方面：其一Python对爬虫的支持度比较好，类库众多。其二Pyhton的语法简单，入门容易。所以两者形影相随，不离不弃，本文主要以一个简单的小例子，简述Python在爬虫方面的简单应用，仅供学习分享使用，如有不足之处，还请指正。

涉及知识点

本例主要爬取51job发布的工作职位，用到的知识点如下：

开发环境及工具：主要用到Python3.7 ，IDE为PyCharm
requests类库：本类库封装了python的内置模块，主要用于网络的请求和获取数据，可以支持不同形式的请求。
BeautifulSoup库：主要用于解析获取的数据，包括Html，Xml，Json等不同的格式。
数据持久化：主要是将内存中的数据，保存到数据库或者文件中。

爬虫的基本步骤

爬虫的基本步骤，如下图所示：

爬取目标

如有要爬取相关内容，首先要对爬取的目标进行分析，了解其目录结构，才能进行解析。本例主要爬取51job中的工作列表，如下所示：

核心源码

1.获取数据

定义一个函数get_data，用于发起请求并获取数据，如下所示：

headers中的User-Agent主要用于模拟浏览器，不然会被反爬虫程序屏蔽，http状态码为418,意思是被网站的反爬程序返回的。

encoding是要爬取的网站的编码为gbk，如果不加，会产生乱码，默认为utf-8

def get_data(req_url):
  """获取数据"""
  headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko',
    'Accept-Language': 'zh-Hans-CN, zh-Hans;q=0.5'
  }
  resp = requests.get(req_url, headers=headers)
  resp.encoding = 'gbk' # 不加会产生中文乱码
  if resp.status_code == 200:
    return resp.text
  else:
    return None

2.解析数据

定义一个函数parse_data，用于解析获取到的内容，如下所示：

采用BeautifulSoup，将返回的文本，解析成html对象，并获取对应的内容。本例主要获取工作的列表

def parse_data(resp_html):
  """解析数据,并返回列表"""
  soup = BeautifulSoup(resp_html, features='html.parser')
  job_table = soup.find('div', attrs={'class': 'dw_table'})
  # print(job_table)
  job_list = job_table.find_all('div', attrs={'class': 'el'})
  # print(job_list)
  # 循环列表，去掉第一个title和最后一个
  res_list = []
  for job in job_list[1: -1]:
    job_name = job.find('p', attrs={'class': "t1"}).find('span').find('a').get_text()
    job_name = job_name.replace('\r\n', '').strip()
    job_company = job.find('span', attrs={'class': "t2"}).find('a').get_text()
    job_addr = job.find('span', attrs={'class': "t3"}).get_text()
    job_salary = job.find('span', attrs={'class': "t4"}).get_text()
    job_time = job.find('span', attrs={'class': "t5"}).get_text()
    # print('工作信息：', job_name, '---', job_company, '---', job_addr, '---', job_salary, '---', job_time)
    res_item = {
      '工作名称': job_name,
      '公司': job_company,
      '工作地址': job_addr,
      '薪资水平': job_salary,
      '发布时间': job_time
    }
    res_list.append(res_item)
  return res_list

3.保存数据

定义一个函数save_data，用于将获取到的内容保存到json文件中，如下所示：

with函数可以自动进行释放。因包含中文，所以json文件的编码为utf-8，否则会出现乱码

 def save_data(res_list):
   """保存数据"""
   with open('jobs.json', 'w', encoding='utf-8') as f:
     res_list_json = json.dumps(res_list, ensure_ascii=False)
     f.write(res_list_json)

4.整体调用步骤

依次调用定义的三个函数，如下所示：

if __name__ == '__main__':
  """如果是主程序自己调用"""
  req_url = 'https://search.51job.com/list/040000,000000,0000,00,9,99,java,2,1.html?lang=c&stype=1&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='
  # 获取数据
  resp_html = get_data(req_url)
  # print(html)
  # 解析数据
  res_list = parse_data(resp_html)
  # 保存数据
  save_data(res_list)

G^^耈4(7耉)#G/4(>rvZG*r'fC>4(v耋rw'2舰4(Z耈r 4(>G^^耈4(7耋c/4(>2_S"of7*rr'fC>4(v耋r?R2舰4(Z耈r 4(>G^^耈4(7耉)G/4(>G*ǖr'fC>4(v耋r6_2舰4(Z耈ǒr 4(>G^^耈4(7耉)G/4(>rS"oG*nnr'fC>4(v耋r2舰4(Z耈r 4(>G^^耈4(7耋Y(4(>NnG*r7*nn r'fC>4(v耋r?R2舰4(Z耈r 4(>G^^耈4(7耉/4(>r'wZG*r'fC>4(v耋r6_2舰4(Z耈r 4(>G^^耈4(7耉)YcG/4(>&7Bǖr'fC>4(v耋r[2舰4(Z耈r 4(>G^^耈4(7耉)cG/4(>rn"3fC>4(v耋r4(Z耈r 4(>G^^耈4(7耉)Y/4(>rbOr'fC>4(v耋r6_2舰4(Z耈r 4(>G^^耈4(7耋B;>E1YZG4(>rGr'fC>4(v耋r?R2舰4(Z耈r 4(>G^^耈4(7耉)G/4(>r*o*oBr'fC>4(v耋r6_2舰4(Z耈r 4(>G^^耈4(7耉)cG/4(>ScG*: nnr'fC>4(v耋r'b;Z2舰4(Z耈r 4(>G^^耈4(7耉)"7*>4(>6;r'fC>4(v耋r?R2舰4(Z耈r 4(>G^^耈4(7耉)cG/4(>rrBr'fC>4(v耋r?R2舰4(Z耈r 4(>G^^耈4(7耋c/4(>rv#r'fC>4(v耋r6_2舰4(Z耈r 4(>G^^耈4(7耉)cG/4(>rbbk*r'fC>4(v耋r6_2舰4(Z耈r 4(>G^^耈4(7耉)cG/4(>rNw/Jr'fC>4(v耋r6_2舰4(Z耈r 4(>G^^耈4(7耉)Yczz4(>r&Sr'fC>4(v耋rw'2舰4(Z耈r 4(>G^^耈4(7耉)YG/4(>.?R&2_G*r'fC>4(v耋rw'2舰4(Z耈r 4(>G^^耈4(7耉zz4(>rGG*r'fC>4(v耋r4(Z耈r 4(>G^^耈4(7耉)G/4(>rfG*r'fC>4(v耋r?R2舰4(Z耈r 4(>G^^耈4(7耉)G/4(>"*rr'fC>4(v耋r6_2舰4(Z耈дr 4(>G^^耈4(4(w4(r[j&h4(4(r"f>b6W">[6?n?zs">[?V6j^ggrk/nj~~j"f>[vg~Oj3zsb*~OjV6>[F">[jzs"V67bA"fSS">X>Gj33nk"f">[3ZgΣnZ