python_beautifulsoup(一)

论坛 期权论坛 期权     
小小极客空间   2019-7-28 00:32   2721   0
个人笔记:
  1. from bs4 import BeautifulSoup
复制代码
  1. [/code][code]html_doc = """
复制代码
  1. The Dormouse's story
复制代码
  1. [/code][code]The Dormouse's story
复制代码
  1. [/code][code]Once upon a time there were three little sisters; and their names were
复制代码
  1. Elsie,
复制代码
  1. Lacie and
复制代码
  1. Tillie;
复制代码
  1. and they lived at the bottom of a well.
复制代码
  1. [/code][code]...
复制代码
  1. """
复制代码
  1. [/code][code]soup = BeautifulSoup(html_doc) #创建一个soup对象,解析html用
复制代码
  1. soup=soup.p   #找到p标签
复制代码
  1. print(soup.prettify()) #按照标准的缩进格式的结构输出
复制代码
运行结果:
  1. [/code][code]
复制代码
  1.   The Dormouse's story
复制代码
复制代码
  1. [/code]
  2. 实例:
  3. [list][*][*][*][*][*][*][*][*][*][*][*][/list][code]import requests,re        
复制代码
  1. from bs4 import BeautifulSoup
复制代码
复制代码
  1. url="http://zuihaodaxue.com/zuihaodaxuepaiming2019.html" #最好大学网
复制代码
  1. request=requests.get(url)       #得到网页源代码
复制代码
  1. request.encoding="utf-8"        #设置编码,不然中文乱码
复制代码
  1. request=request.text
复制代码
  1. [/code][code]soup = BeautifulSoup(request)#创建一个soup对象,解析html用
复制代码
  1. soup=soup.tbody.tr.div
复制代码
  1. print(soup.prettify())#按照标准的缩进格式的结构输出
复制代码
运行结果:
  1. [/code][code] 清华大学
复制代码
  1. [/code]
  2. [list][*][*][*][*][*][*][*][*][*][*][*][*][*][*][/list][code]import requests,re        
复制代码
  1. from bs4 import BeautifulSoup
复制代码
  1. [/code][code]url="http://zuihaodaxue.com/zuihaodaxuepaiming2019.html"
复制代码
  1. request=requests.get(url)       #得到网页源代码
复制代码
  1. request.encoding="utf-8"        #设置编码,不然中文乱码
复制代码
  1. request=request.text
复制代码
  1. [/code][code]soup = BeautifulSoup(request)#创建一个soup对象,解析html用
复制代码
  1. x=0
复制代码
  1. a=':'
复制代码
  1. for link in soup.tbody('div'):
复制代码
  1.     x+=1
复制代码
  1.     print(x,a,link.get_text())#输出文本
复制代码
结果:输出中国所有排行的大学
部分输出截图:


分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:10
帖子:2
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP