当前位置: 首页 > java >正文

Python 轻量级 HTML 解析器 - lxml入门教程

文章目录

    • 初始化解析器
    • 路径查找
      • 查找所有标签
      • 查找指定 id 的标签
      • 查找指定 class 的标签
      • 查找包含指定 class 的标签
      • 复杂路径查找
        • 示例1
        • 示例2
    • 常见操作
      • 获取所有标签的链接
      • 获取 div 标签的文本内容, 其他标签类似
      • 其他元素操作

初始化解析器


from lxml import html
from lxml.html import HtmlElementpage = '''
<html><head></head>
<body><div id="overlay" class="hidden"><div id="loader"></div></div><header id="rootHeader" class="login"><div class="wrapper content login"><table width="186" border="0"></table><div class="login">example content</div><a href="https://www.example.com">Torrent Kitty - Free Torrent To Magnet Link Conversion Service</a></div></header><div class="becbdbcf otherClassName">Your Internet and Goverment can track your torrent Activity! Hide yourIP with a VPN!</div><a href="https://example.com">Torrent Kitty - Free Torrent To Magnet Link Conversion Service</a>
</body></html>
'''rootElement: HtmlElement = html.fromstring(page)# 简单查找,获取指定类别的所有标签elements: list[HtmlElement] = rootElement.find_class('login')
print(elements)

路径查找

  • HtmlElement.xpath(‘xxxxxxxxxxxxxxxx’)

如果匹配不到元素返回空数组

查找所有标签


elements = rootElement.xpath('//*')
print(elements)

查找指定 id 的标签


elements = rootElement.xpath('//*[@id="overlay"]')
print(elements)

查找指定 class 的标签


elements = rootElement.xpath('//*[@class="login"]')
print(elements)

查找包含指定 class 的标签


elements = rootElement.xpath('//*[contains(@class, "login")]')
print(elements)

复杂路径查找

示例1

1、查找 class 为login 的 header
2、在 header 下查找 class 包含content的 div
3、在 div 下查找所有 table 标签


elements = rootElement.xpath('//header[@class="login"]/div[contains(@class, "content")]/table')
print(elements)
示例2

1、查找 id 为overlay 的 div
2、在 div 下查找第二个 div
3、在第二个 div 下查找所有 table 标签


elements = rootElement.xpath('//div[@id="overlay"]/div[2]/table')
print(elements)

常见操作

获取所有标签的链接


# 如果想获取其他属性值,把@后面改成对应的属性名称即可
urls = rootElement.xpath('//a/@href') 
print(urls)

获取 div 标签的文本内容, 其他标签类似


pText = rootElement.xpath('//div[@class="login"]/text()')
print(pText)

其他元素操作


elements = rootElement.xpath('//*')
for element in elements:print(element.text) # 文本不拼接(不包含子元素内的文本)print(element.text_content()) # 拼接元素内所有文本 # 获取 class 的值,如果想获取其他属性值改成对应属性名称即可# 使用get获取,如果没有值可以提供默认值print(element.get('class', '没有值')) # print(element.get('class'))  # 获取所有属性,类型 dict, key为属性名,value为属性值print(element.attrib) if 'src' in element.attrib:print('src 属性存在')# 遍历属性attrib = element.attribfor key in attrib: print(key, attrib[key])items = element.find('div')print(items) # 获取element下的所有 div 标签# 在 element 下查找所有 table 标签items = element.xpath('table') print(items)# 在 element 下查找 id 为 overlay 的标签, 如果找不到返回 Noneitems = element.get_element_by_id('overlay', None) print(items)
http://www.xdnf.cn/news/19066.html

相关文章:

  • 通过Kubernetes安装mysql5服务
  • 深入解析Qt节点编辑器框架:数据流转与扩展机制(三)
  • 4. LangChain4j 模型参数配置超详细说明
  • 机器学习回顾——线性回归
  • Redis红锁(RedLock)解密:分布式锁的高可用终极方案
  • DBeaver中禁用PostgreSQL SSL的配置指南
  • 【性能优化】Unity 渲染优化全解析:Draw Call、Batch、SetPass 与批处理技术
  • 【Django】首次创建Django项目初始化
  • “帕萨特B5钳盘式制动器结构设计三维PROE模型7张CAD图纸PDF图“
  • 人工智能基础概念
  • 秋招笔记-8.28
  • 总结:在工作场景中的应用。(Excel)
  • Dify学习
  • 响应式编程框架Reactor【1】
  • Python 多版本环境治理理念驱动的系统架构设计——三维治理、四级隔离、五项自治 原则(路径治理升级修订 V 2.0 版)
  • 【深度学习新浪潮】显著性检测最新研究进展(2022-2025)
  • 上线问题——Mac系统下如何获取鸿蒙APP证书公钥和MD5指纹
  • 高并发内存池(14)- PageCache回收内存
  • Node.js的特性
  • 损失函数,及其优化方法
  • JS中的String总结
  • 2002-2020年全国投入产出表数据
  • Python 中的反射机制与动态灵活性
  • 实测阿里图像编辑模型Qwen-Image-Edit:汉字也能无痕修改(附实测案例)
  • react+vite+ts 组件模板
  • DAY-16-数组的常见操作和形状-2025.8.28
  • FISCO-BCOS-Python 模板
  • RAG概念被误用:AI应用落地需回归上下文工程本质
  • 解锁AI“黑匣”:监督、无监督与强化学习探秘
  • 切入高潜市场,抢占行业先机!ES SHOW 2025展位预订火爆,10月28-30日共启增长新蓝海