当前位置: 首页 > ai >正文

Wan2.1 文生视频 支持批量生成、参数化配置和多语言提示词管理

Wan2.1 文生视频 支持批量生成、参数化配置和多语言提示词管理

flyfish

设计

一个基于 Wan2.1 文本到视频模型的自动化视频生成系统。

文件关系图

script.py
├── 读取 → config.json
│   ├── 模型配置 → 加载AI模型
│   ├── 生成参数 → 控制生成质量
│   └── 文件路径 → 定位其他文件
│
├── 读取 → prompt.json → 正向提示词
│
├── 读取 → negative_prompt_*.txt → 负向提示词
│
└── 输出 → 视频文件(如video_1.mp4)

1. script.py`(主程序)

  • 功能:执行AI视频生成的核心逻辑
  • 作用
    • 读取配置文件和提示词
    • 加载AI模型和参数
    • 控制视频生成流程
    • 统计生成时间和输出结果
  • 依赖:需要与配置文件和提示词文件配合使用

2. config.json(配置文件)

  • 功能:集中管理所有可配置参数
  • 作用
    • 模型配置(使用哪个模型、数据类型)
    • 生成参数(分辨率、帧数、引导强度、采样步数)
    • 文件路径(提示词文件、输出文件名格式)
  • 示例内容
    {"model": {"id": "Wan-AI/Wan2.1-T2V-1.3B-Diffusers","torch_dtype": "bfloat16"},"generation": {"height": 480,"width": 832,"num_inference_steps": 30}
    }
    

3. prompt.json(正向提示词库)

  • 功能:存储需要生成视频的文字描述
  • 作用
    • 支持批量生成多个视频
    • 每个描述对应一个输出视频
  • 示例内容
    [{ "prompt": "一只猫在草地上行走,写实风格" },{ "prompt": "一个人在海边跑步,日落场景" }
    ]
    

4. negative_prompt_cn.txt(中文负向提示词)

  • 功能:定义不希望出现在生成结果中的元素
  • 作用
    • 提高生成质量,避免常见瑕疵
    • 语言版本与正向提示词匹配
  • 示例内容
    明亮色调,过曝,静态,细节模糊,低质量
    

5. negative_prompt_en.txt(英文负向提示词)

  • 功能:与中文负向提示词相同,提供英文版本
  • 作用
    • 适配英文正向提示词
    • 通过配置文件切换使用语言
  • 示例内容
    Bright tones, overexposed, static, blurred details, low quality
    

完整内容

import torch
import json
import os
import time
from diffusers import AutoencoderKLWan, WanPipeline
from diffusers.utils import export_to_video# ----------------------
# 读取配置文件
# ----------------------
try:with open("config.json", "r", encoding="utf-8") as f:config = json.load(f)print("已加载配置文件")
except FileNotFoundError:print("错误: 未找到config.json文件,请确保该文件与脚本在同一目录下")exit(1)
except json.JSONDecodeError:print("错误: config.json文件格式不正确,请检查JSON语法")exit(1)
except Exception as e:print(f"错误: 读取配置文件时发生异常: {e}")exit(1)# ----------------------
# 解析配置参数
# ----------------------
# 模型相关配置
model_config = config.get("model", {})
model_id = model_config.get("id", "Wan-AI/Wan2.1-T2V-1.3B-Diffusers")
vae_subfolder = model_config.get("vae_subfolder", "vae")
torch_dtype = model_config.get("torch_dtype", "bfloat16")
device = model_config.get("device", "cuda")  # 支持"cuda"或"cpu"# 生成参数配置
generation_config = config.get("generation", {})
height = generation_config.get("height", 480)
width = generation_config.get("width", 832)
num_frames = generation_config.get("num_frames", 81)
guidance_scale = generation_config.get("guidance_scale", 5.0)
fps = generation_config.get("fps", 15)
output_prefix = generation_config.get("output_prefix", "output_")
num_inference_steps = generation_config.get("num_inference_steps", 50)  # 新增采样步数# 负向提示词配置
negative_config = config.get("negative_prompt", {})
default_negative_lang = negative_config.get("default_lang", "cn")  # 支持"cn"或"en"
negative_file_map = {"cn": negative_config.get("cn_file", "negative_prompt_cn.txt"),"en": negative_config.get("en_file", "negative_prompt_en.txt")
}# 正向提示词配置
prompt_config = config.get("prompts", {})
prompt_file = prompt_config.get("file", "prompt.json")
prompt_key = prompt_config.get("key", "prompt")  # JSON中提示词字段名# ----------------------
# 读取负向提示词
# ----------------------
def read_negative_prompt(lang):filename = negative_file_map[lang]try:with open(filename, "r", encoding="utf-8") as f:return f.read().strip()except FileNotFoundError:print(f"错误: 未找到负向提示词文件 {filename}")exit(1)except Exception as e:print(f"错误: 读取负向提示词文件时发生异常: {e}")exit(1)try:negative_prompt = read_negative_prompt(default_negative_lang)print(f"已加载{default_negative_lang.upper()}负向提示词")
except:print("错误: 负向提示词加载失败")exit(1)# ----------------------
# 读取正向提示词
# ----------------------
try:with open(prompt_file, "r", encoding="utf-8") as f:prompts_data = json.load(f)print(f"已加载 {len(prompts_data)} 个正向提示词")
except FileNotFoundError:print(f"错误: 未找到正向提示词文件 {prompt_file}")exit(1)
except json.JSONDecodeError:print(f"错误: {prompt_file}文件格式不正确,请确保是有效的JSON数组")exit(1)# ----------------------
# 模型初始化
# ----------------------
start_time = time.time()# 转换torch dtype
try:dtype = getattr(torch, torch_dtype)
except AttributeError:print(f"错误: 不支持的torch dtype: {torch_dtype}")exit(1)# 加载VAE
vae = AutoencoderKLWan.from_pretrained(model_id,subfolder=vae_subfolder,torch_dtype=dtype
)# 加载管道
pipe = WanPipeline.from_pretrained(model_id,vae=vae,torch_dtype=dtype
)
pipe.to(device)model_load_time = time.time() - start_time
print(f"模型加载完成,耗时: {model_load_time:.2f} 秒")# ----------------------
# 批量生成视频
# ----------------------
total_generation_time = 0
success_count = 0for i, item in enumerate(prompts_data, 1):try:prompt = item.get(prompt_key, "")if not prompt:print(f"警告: 第 {i} 个提示词字段为空,跳过")continueprint(f"\n---- 生成第 {i} 个视频 ----")print(f"正向提示词: {prompt[:50]}...")print(f"负向提示词: {negative_prompt[:50]}...")print(f"采样步数: {num_inference_steps}")  # 新增提示# 生成时间统计gen_start = time.time()# 生成视频output = pipe(prompt=prompt,negative_prompt=negative_prompt,height=height,width=width,num_frames=num_frames,guidance_scale=guidance_scale,num_inference_steps=num_inference_steps  ).frames[0]gen_time = time.time() - gen_starttotal_generation_time += gen_timesuccess_count += 1# 保存视频output_path = f"{output_prefix}{i}.mp4"export_to_video(output, output_path, fps=fps)print(f"✅ 视频保存至: {output_path}")print(f"⏱️ 生成耗时: {gen_time:.2f} 秒")except Exception as e:print(f"❌ 生成失败: {str(e)[:100]}...")continue# ----------------------
# 生成统计
# ----------------------
print("\n==================== 生成完成 ====================")
print(f"模型信息: {model_id}")
print(f"设备: {device}")
print(f"生成参数: {height}x{width}, {num_frames}帧, 引导尺度{guidance_scale}, 采样步数{num_inference_steps}")if success_count > 0:avg_time = total_generation_time / success_countprint(f"\n📊 统计结果:")print(f"   - 模型加载时间: {model_load_time:.2f} 秒")print(f"   - 成功生成: {success_count}/{len(prompts_data)}")print(f"   - 总生成时间: {total_generation_time:.2f} 秒")print(f"   - 平均耗时: {avg_time:.2f} 秒/视频")
else:print("\n⚠️ 没有成功生成任何视频")

config.json配置文件

{"model": {"id": "/media/models/Wan-AI/Wan2___1-T2V-14B-Diffusers/","vae_subfolder": "vae","torch_dtype": "bfloat16","device": "cuda" },"generation": {"height": 640,"width": 480, "num_frames": 81,"guidance_scale": 5.0,"fps": 15, "output_prefix": "video_","num_inference_steps": 150},"negative_prompt": {"default_lang": "cn","cn_file": "negative_prompt_cn.txt","en_file": "negative_prompt_en.txt"},"prompts": {"file": "prompt.json", "key": "prompt"}
}

negative_prompt_cn.txt

明亮色调,过曝,静态,细节模糊,字幕,风格,作品,绘画,图像,静态,整体灰暗,最差质量,低质量,JPEG压缩残留,丑陋,不完整,多余手指,绘制不佳的手,绘制不佳的脸,变形,毁容,畸形肢体,融合手指,静态图片,杂乱背景,三条腿,背景中有很多人,倒退行走

negative_prompt_en.txt

Vivid tones, overexposed, static, blurry details, subtitles, style, work, painting, image, still, overall grayish, worst quality, low quality, JPEG compression artifacts, ugly, incomplete, extra fingers, poorly drawn hands, poorly drawn faces, deformed, disfigured, morphologically deformed limbs, fused fingers, still image, cluttered background, three legs, many people in the background, walking backwards

http://www.xdnf.cn/news/7425.html

相关文章:

  • matlab慕课学习3.5
  • 《决策科学与艺术》No1: 决策树:概念、原理、发展历史、特点及应用
  • 打造高效数据处理利器:用Python实现Excel文件智能合并工具
  • ETL 数据集成与大数据技术的深度剖析
  • 【[特殊字符] Vue 3 实现动态加载子组件并缓存状态完整指南】
  • HTTP/HTTPS与SOCKS5协议在隧道代理中的兼容性设计解析
  • 企业级 Hosts 自动化管理实战:基于 HTTP 检测的高可用域名解析方案
  • CentOS Stream 9 中部署 MySQL 8.0 MGR(MySQL Group Replication)一主两从高可用集群
  • 数据挖掘:从数据堆里“淘金”,你的数据价值被挖掘了吗?
  • Spark Core基础与源码剖析全景手册
  • 源码分析之Leaflet中TileLayer
  • [Git] 初识 Git 与安装入门
  • 青少年编程与数学 02-019 Rust 编程基础 20课题、面向对象
  • 46 python pandas
  • P3147 [USACO16OPEN] 262144 P
  • 05_核支持向量机
  • 机器学习 决策树-分类
  • Kotlin 协程 (二)
  • 汽车区域电子电气架构(Zonal E/E)的统一
  • CBCharacteristic:是「特征」还是「数据通道」?
  • 【Java开发--对象converter转换规范实践】
  • 特征筛选方法总结(面试准备15)
  • 3.2.1
  • MySQL 锁机制深度剖析:全局锁、表锁与行锁
  • 从零开始训练一个CLIP
  • 【成品设计】基于STM32和LoRa远程通信控制系列项目
  • Pytest自动化测试详解
  • YOLO模型predict(预测/推理)的参数设置
  • 在AI的风口里,OceanBase却选择了蹲下打地基
  • 第三十九节:视频处理-光流法 (Lucas-Kanade, Dense)