个人笔记:
- from bs4 import BeautifulSoup
复制代码- [/code][code]html_doc = """
复制代码- [/code][code]The Dormouse's story
复制代码- [/code][code]Once upon a time there were three little sisters; and their names were
复制代码- and they lived at the bottom of a well.
复制代码- [/code][code]soup = BeautifulSoup(html_doc) #创建一个soup对象,解析html用
复制代码- print(soup.prettify()) #按照标准的缩进格式的结构输出
复制代码 运行结果:
- [/code]
- 实例:
- [list][*][*][*][*][*][*][*][*][*][*][*][/list][code]import requests,re
复制代码- from bs4 import BeautifulSoup
复制代码- url="http://zuihaodaxue.com/zuihaodaxuepaiming2019.html" #最好大学网
复制代码- request=requests.get(url) #得到网页源代码
复制代码- request.encoding="utf-8" #设置编码,不然中文乱码
复制代码- [/code][code]soup = BeautifulSoup(request)#创建一个soup对象,解析html用
复制代码- print(soup.prettify())#按照标准的缩进格式的结构输出
复制代码 运行结果:
- [/code]
- [list][*][*][*][*][*][*][*][*][*][*][*][*][*][*][/list][code]import requests,re
复制代码- from bs4 import BeautifulSoup
复制代码- [/code][code]url="http://zuihaodaxue.com/zuihaodaxuepaiming2019.html"
复制代码- request=requests.get(url) #得到网页源代码
复制代码- request.encoding="utf-8" #设置编码,不然中文乱码
复制代码- [/code][code]soup = BeautifulSoup(request)#创建一个soup对象,解析html用
复制代码- for link in soup.tbody('div'):
复制代码- print(x,a,link.get_text())#输出文本
复制代码 结果:输出中国所有排行的大学
部分输出截图:
|
|