建筑兔零基础python自学记录102|Beautiful Soup库(1)-15
1、安装Beautiful Soup
2、使用测试网页获取源代码
This is a python demo page
a)法1:直接网页右键获取
b)法2:request库
import requests
r=requests.get('https://python123.io/ws/demo.html')
print(r.text)
3、使用Beautiful Soup库
同样解析出了源代码,代码如下
import requests
r=requests.get('https://python123.io/ws/demo.html')
demo=r.text
from bs4 import BeautifulSoup
soup=BeautifulSoup(demo,'html.parser')
print(soup.prettify())
使用 Beautiful Soup库的两板斧
4、解析器
默认用html.parser
5、基本元素
5.1 tag标签
import requests
r=requests.get('https://python123.io/ws/demo.html')
demo=r.text
from bs4 import BeautifulSoup
soup=BeautifulSoup(demo,'html.parser')
print(soup.title)
通过print(soup.title)打印出title
通过soup.a(a可以替换为任何值)的构造可以获取任意标签
5.1.1 标签的名字 tag name
通过soup.a.name soup.a.parent.name soup.a.parent.parent.name获得逐级标签名字
5.2 标签的属性atrributes
通过tag.attrs获得标签属性
5.2.1 提取属性中某个具体属性值
通过tag.attrs[' ']获得属性中某个具体属性值