当前位置: 首页 > ds >正文

爬取m3u8视频完整教程

爬取步骤:

1.先找到网页源代码

2.从网页源代码中拿到m3u8

3.下载m3u8

4.读取m3u8文件,下载视频

5.合并视频

首先我们来爬取一个星辰影院的电影:

下面我以这个为例:

我们需要在源代码中找到m3u8这个url:

紧接着我们利用下面的方法来进行视频的爬取:

输入网站的url:

url="https://www.xcyy44.com/play/16166_1.html"

打印一下看一下是否有我们要的数据:

resp=requests.get(url)
print(resp.text)

在搜索框中搜索一下发现正是我们要的url:

再利用正则表达式提取一下m3u8的地址:

obj=re.compile(r"url: '(?P<url>.*?)',",re.S) 

得到m3u8的地址并打印:

m3u8_url=obj.search(resp.text).group("url")
print(m3u8_url) 

接下来把m3u8文件下载下来:

用resp2来接受一下m3u8的地址,并把resp2写入到test文件中:

resp2=requests.get(m3u8_url)with open("test.m3u8","wb") as f:f.write(resp2.content)resp2.close()
print('下载完毕')

然后将得到的这些m3u8进行解析:

先将test文件打开读取里面的内容,在利用循环便利一下里面的内容,在利用strip()去除空白,判断是否有#,如果有就继续遍历,找到没有的写入到video中完成一个打印一个:

n=1
with open('test.m3u8','r',encoding='utf-8') as f:for line in f:line = line.strip()   if line.startswith('#'):   continueresp3=requests.get(line)f=open(f'video/{n}.ts','wb')f.write(resp3.content)f.close()resp3.close()n+=1print('完成一个')

最后在把视频片段合并在一起就ok了

完整代码:

import requests
import reobj=re.compile(r"url: '(?P<url>.*?)',",re.S)  #用来提取m3u8的地址url="https://www.xcyy44.com/play/16166_1.html"resp=requests.get(url)
m3u8_url=obj.search(resp.text).group("url")  #拿到m3u8的地址
# print(resp.text)
# print(m3u8_url)
resp.close()#下载m3u8文件
resp2=requests.get(m3u8_url)with open("test.m3u8","wb") as f:f.write(resp2.content)resp2.close()
print('下载完毕')
#
# #解析m3u8文件
n=1
with open('test.m3u8','r',encoding='utf-8') as f:for line in f:line = line.strip()   #去掉空白if line.startswith('#'):   #如果以#开头则会继续循环continue#下载视频片段resp3=requests.get(line)f=open(f'video/{n}.ts','wb')f.write(resp3.content)f.close()resp3.close()n+=1print('完成一个')

http://www.xdnf.cn/news/20011.html

相关文章:

  • JavaWeb项目在服务器部署
  • 数据结构之----线性表其一---顺序表
  • 弱电太累,职业发展遇瓶颈?那一定不要错过这个技能!
  • 单片机(89C51)---基础知识
  • 阅兵时刻,耐达讯自动化RS485 转 Profinet 网关助力矿山冶金连接迈向辉煌
  • 【大数据技术实战】Flink+DS+Dinky 自动化构建数仓平台
  • 嵌入式 Linux 启动流程详解 (以 ARM + U-Boot 为例)
  • 【ShiMetaPi M4-R1】上手:RK3568B2|开源鸿蒙(OpenHarmony) 应用开发快速上手
  • Vue+Echarts饼图深度美化指南:打造卓越数据可视化体验
  • 深入理解 Java 集合框架:底层原理与实战应用
  • 0元部署私有n8n,免费的2CPU+16GB服务器,解锁无限制的工作流体验
  • ruoyi vue element 实现点击、返回首页收起已经展开的菜单栏
  • SpringBoot 整合 Kafka 的实战指南
  • 《用 Django 构建博客应用:从模型设计到文章管理的全流程实战》
  • 2025年11月GIS应用技术测评考试(附考试资料分享)
  • 【开题答辩全过程】以 校园安全管理系统设计与实现为例,包含答辩的问题和答案
  • Django 命令大全:从入门到精通,开发者必备指南
  • Spring Boot 事务失效的八大原因及解决方案详解
  • 什么是科技成果鉴定测试?成果鉴定测试报告带给企业什么好处?
  • 【54页PPT】基于DeepSeek的数据治理技术(附下载方式)
  • 数据库高可用全方案:Keepalived 故障切换 + LVS (DR) 模式 + MariaDB 主主同步实战案例
  • 深度学习----卷积神经网络的数据增强
  • docker 安装 redis 并设置 volumes 并修改 修改密码(三)
  • 工厂设备物联平台_HawkEye智能运维平台_璞华大数据
  • mac idea 配置了Gitlab的远程地址,但是每次pull 或者push 都要输入密码,怎么办
  • 开源与闭源的再对决:从Grok到中国力量,AI生态走向何方?
  • LeetCode 面试经典 150_矩阵_有效的数独(34_36_C++_中等)(额外数组)
  • Dify 从入门到精通(第 73/100 篇):Dify 的高级 RAG 优化(高级篇)
  • Vue 3 WebSocket通信方案:从原理到实践
  • net9 aspose.cell 自定义公式AbstractCalculationEngine,带超链接excel转html后背景色丢失