当前位置：首页 > ai >正文

建筑兔零基础python自学记录102|Beautiful Soup库（1）-15

ai 2025/7/16 4:48:18

1、安装Beautiful Soup

2、使用测试网页获取源代码

This is a python demo page

a)法1：直接网页右键获取

b)法2：request库

import requests
r=requests.get('https://python123.io/ws/demo.html')
print(r.text)

3、使用Beautiful Soup库

同样解析出了源代码，代码如下

import requests
r=requests.get('https://python123.io/ws/demo.html')
demo=r.text
from bs4 import BeautifulSoup
soup=BeautifulSoup(demo,'html.parser')
print(soup.prettify())

使用 Beautiful Soup库的两板斧

4、解析器

默认用html.parser

5、基本元素

5.1 tag标签

import requests
r=requests.get('https://python123.io/ws/demo.html')
demo=r.text
from bs4 import BeautifulSoup
soup=BeautifulSoup(demo,'html.parser')
print(soup.title)

通过print(soup.title)打印出title

通过soup.a（a可以替换为任何值）的构造可以获取任意标签

5.1.1 标签的名字 tag name

通过soup.a.name soup.a.parent.name soup.a.parent.parent.name获得逐级标签名字

5.2 标签的属性atrributes

通过tag.attrs获得标签属性

5.2.1 提取属性中某个具体属性值

通过tag.attrs[' ']获得属性中某个具体属性值

5.3 标签的NavigableString

5.4 标签的comment

6.总结

查看全文

http://www.xdnf.cn/news/10437.html

JDBC连不上mysql：Unable to load authentication plugin ‘caching_sha2_password‘.

征程 6 J6EM 常见 qconfig 配置解读与示例

CS144 - LAB1

Python并行处理实战：使用ProcessPoolExecutor加速计算

Redis分布式锁深度解析与最佳实践

源码解析（二）：nnUNet

解释程序（Python）不需要生成机器码逐行解析逐行执行

模型训练相关的问题

个人用户进行LLMs本地部署前如何自查和筛选

14.Wifi模组（ESP8266）

LeetCode 热题 100 208. 实现 Trie (前缀树)

CppCon 2014 学习:ASYNCHRONOUS COMPUTING IN C++

ssm 学习笔记day03

OVD开放词汇检测 Detic 训练COCO数据集实践

28 C 语言作用域详解：作用域特性（全局、局部、块级）、应用场景、注意事项

【Java学习笔记】枚举

怎么更改cursor chat中的字体大小

XCPC 常用技巧

Beta分布Dirichlet分布

[Python] Python中的多重继承