python_beautifulsoup（一）

论坛 › 期权论坛 › 期权

 小小极客空间  2019-7-28 00:32  2915  0

个人笔记：

from bs4 import BeautifulSoup

复制代码

[/code][code]html_doc = """

复制代码

The Dormouse's story

复制代码

[/code][code]The Dormouse's story

复制代码

[/code][code]Once upon a time there were three little sisters; and their names were

复制代码

Elsie,

复制代码

Lacie and

复制代码

Tillie;

复制代码

and they lived at the bottom of a well.

复制代码

[/code][code]...

复制代码

"""

复制代码

[/code][code]soup = BeautifulSoup(html_doc) #创建一个soup对象，解析html用

复制代码

soup=soup.p #找到p标签

复制代码

print(soup.prettify()) #按照标准的缩进格式的结构输出

复制代码

运行结果：

[/code][code]

复制代码

The Dormouse's story

复制代码

复制代码

[/code]
实例：
[list][*][*][*][*][*][*][*][*][*][*][*][/list][code]import requests,re

复制代码

from bs4 import BeautifulSoup

复制代码

复制代码

url="http://zuihaodaxue.com/zuihaodaxuepaiming2019.html" #最好大学网

复制代码

request=requests.get(url) #得到网页源代码

复制代码

request.encoding="utf-8" #设置编码，不然中文乱码

复制代码

request=request.text

复制代码

[/code][code]soup = BeautifulSoup(request)#创建一个soup对象，解析html用

复制代码

soup=soup.tbody.tr.div

复制代码

print(soup.prettify())#按照标准的缩进格式的结构输出

复制代码

运行结果：

[/code][code] 清华大学

复制代码

[/code]
[list][*][*][*][*][*][*][*][*][*][*][*][*][*][*][/list][code]import requests,re

复制代码

from bs4 import BeautifulSoup

复制代码

[/code][code]url="http://zuihaodaxue.com/zuihaodaxuepaiming2019.html"

复制代码

request=requests.get(url) #得到网页源代码

复制代码

request.encoding="utf-8" #设置编码，不然中文乱码

复制代码

request=request.text

复制代码

[/code][code]soup = BeautifulSoup(request)#创建一个soup对象，解析html用

复制代码

x=0

复制代码

a=':'

复制代码

for link in soup.tbody('div'):

复制代码

x+=1

复制代码

print(x,a,link.get_text())#输出文本

复制代码

结果：输出中国所有排行的大学
部分输出截图：

回复

分享到 :

0 人收藏

2级吧友

小小极客空间

积分:10

帖子:2

精华:0

+ 关注私信

期权论坛

期权论坛

期权网络科技版权所有: 关于我们; 联系我们; 加入我们; 反馈问题; 免责声明; 积分充值

统一社会信用代码: 积分规则; 网站地图; 爱文库; 下属网站

官方: 新浪微博; 微信公众号
◆

下载: 表情包; App下载

期权论坛

期权论坛

QQ咨询|关于我们|Archiver|手机版|小黑屋|( 辽ICP备15012455号-4 ) Powered by 期权论坛 X3.2 © 2001-2016 期权工具网&期权论坛 Inc.