当前位置: 首页 > java >正文

学习Python的第二天之网络爬虫

30岁程序员学习Python的第二天之网络爬虫的信息提取

BeautifulSoup库

地址:https://beautifulsoup.readthedocs.io/zh-cn/v4.4.0/

1、BeautifulSoup4安装

在windows系统下通过管理员权限运行cmd窗口
运行pip install beautifulsoup4
在这里插入图片描述
测试实例

import requests
from bs4 import BeautifulSoup
r = requests.get('https://python123.io/ws/demo.html')
print(r.text)
demo = r.text
soup = BeautifulSoup(demo, 'html.parser')
print(soup.prettify())

在这里插入图片描述
注:prettify() 方法将Beautiful Soup的文档树格式化后以Unicode编码输出,每个XML/HTML标签都独占一行

2、BeautifulSoup库基本信息

Beautiful Soup库是解析、遍历、维护“标签树”的功能库
BeautifulSoup库是标签Tag进行解析的。
例:<p calss=“title”> … </p> 每个标签都是成对出现的,并且在第一个标签上可以有多个属性值

可通过以下语句导入beautiful Soup库

from bs4 import BeautifulSoup
或
import bs4
BeautifulSoup的解析器

在这里插入图片描述

BeautifulSoup类的基本元素

在这里插入图片描述

如何通过解析获取每个标签内容

1、获取Tag的名字:<tag>.name

soup = BeautifulSoup(demo, 'html.parser')
print(soup.title.name)

在这里插入图片描述
2、获取Tag的attrs(属性):<tag>.attrs

soup = BeautifulSoup(demo, 'html.parser')
print(soup.a.attrs)
print(soup.a['href'])
print(soup.a['id'])

在这里插入图片描述
3、获取Tag内的NavigableString(非属性字符串):<tag>.string

soup = BeautifulSoup(demo, 'html.parser')
print(r.text)
print(soup.a.string)

在这里插入图片描述
4、获取Tag内字符串的注释部分Comment:

newsoup = BeautifulSoup("<b><!--这是注释--></b><p>这不是注释</p>", "html.parser")
print(newsoup.b.string)
print(type(newsoup.b.string))
print(newsoup.p.string)
print(type(newsoup.p.string))

在这里插入图片描述
Comment是一种特殊的类型,可通过这个判断非属性字符串是否是注释。

3、基于bs4遍历HTML页面的内容

HTMl页面按标签划分是二叉树的形式
在这里插入图片描述
所以在进行HTML内容遍历时,可分为横向遍历和纵向遍历。

纵向遍历
向下遍历

在这里插入图片描述

soup = BeautifulSoup(demo, 'html.parser')
print(soup.head.contents)
print(soup.body.contents)
for child in soup.body.children:print(child)

向上遍历

在这里插入图片描述

soup = BeautifulSoup(demo, 'html.parser')
print(soup.title.parent)
print(soup.html.parent)
for parent in soup.a.parents:if parent is None:print(parent)else:print(parent.name)

在这里插入图片描述

横向遍历

在这里插入图片描述
平行遍历发生在同一个父节点下的各节点间

soup = BeautifulSoup(demo, 'html.parser')
print(soup)
print(soup.title.next_sibling)
print(soup.body.previous_sibling)
for sibling in soup.a.next_siblings:print(sibling)
for prev in soup.a.previous_siblings:print(prev)

在这里插入图片描述

4、基于bs4的HTML的内容查找

搜索方法:find() 和 find_all()

find_all()

<>.find_all(name, attrs, recursive, string, **kwargs)
返回一个列表类型,存储查找的结果
name 对标签名称的检索字符串
可通过name参数进行html页面进行标签名称检索,也可传True,检索全部的标签信息

soup = BeautifulSoup(demo, 'html.parser')
print(soup.find_all('a'))

在这里插入图片描述
attrs: 对标签属性值的检索字符串,可标注属性检索

soup = BeautifulSoup(demo, 'html.parser')
print(soup.find_all('p','course'))
print(soup.find_all(id='link1'))

在这里插入图片描述
recursive: 是否对子孙全部检索,默认True

soup = BeautifulSoup(demo, 'html.parser')
print(soup.find_all('p'))
print(soup.find_all('p', recursive=False))

在这里插入图片描述
string: <>…</>中字符串区域的检索字符串

soup = BeautifulSoup(demo, 'html.parser')
print(soup.find_all(string='Basic Python'))

在这里插入图片描述
扩展方法:
在这里插入图片描述

http://www.xdnf.cn/news/4279.html

相关文章:

  • cephadm部署ceph集群
  • php案列
  • QML ProgressBar控件详解
  • G919-GAS软件 JSON格式数据通讯协议-阵列数据解析
  • SQLark可以支持PostgreSQL了,有哪些新功能?
  • C++ Avl_Tree
  • 239. 滑动窗口最大值
  • yolo训练用的数据集的数据结构
  • RPA自动化:开启智能流程新时代
  • OpenCV 图形API(77)图像与通道拼接函数-----对图像进行几何变换函数remap()
  • 面试常问系列(一)-神经网络参数初始化-之-softmax
  • java springboot解析出一个图片的多个二维码
  • 软考-软件设计师中级备考 13、刷题 数据结构
  • k8s node soft lockup (内核软死锁) 优化方案
  • python3使用:macOS上通过Homebrew安装pip库
  • linux 如何防止内存碎片化?
  • C#中不能通过new关键字创建实例的情况
  • conda虚拟环境相关操作
  • LeetCode 热题 100 39. 组合总和
  • Jetpack Compose 自定义 Slider 完全指南
  • QT键盘触发按钮
  • laravel 12 监听syslog消息,并将消息格式化后存入mongodb
  • 深度解析:2D 写实交互数字人 —— 开启智能交互新时代
  • API 开发实战:基于京东开放平台的实时商品数据采集接口实现
  • 【25软考网工】第五章(6)TCP和UDP协议、流量控制和拥塞控制、重点协议与端口
  • 项目中为什么选择RabbitMQ
  • Vision-Language Models (VLMs) 视觉语言模型的技术背景、应用场景和商业前景(Grok3 DeepSearch模式回答)
  • 隔离端口配置
  • 消除AttributeError: module ‘ttsfrd‘ has no attribute ‘TtsFrontendEngine‘报错输出的记录
  • 2015-2018年 重要城市交通拥堵指数-社科数据