当前位置：首页 > web >正文

小白AIGC短视频生成的第一课之混元AI视频

web 2025/9/8 5:30:25

引言

2024-2025年，AI生成内容（AIGC）在短视频领域实现全流程自动化生产，包括剧本创作、特效制作、后期剪辑等环节。国内平台如快手、抖音已推出AI工具链，实现单元剧、互动剧等新型态创作。部分AI短剧播放量突破10亿，并尝试付费模式。

AIGC正在为原本已经占据互联网流量顶峰的短视频领域再次注入了新的活力，但它的影响不至于此，凡与视频内容生产相关的领域都受到了明显助力，诸如广告视频生产，买量视频生产领域等等。在AIGC遍地开花的今天，上手AIGC短视频生成技能似乎也显得稀松平常。😄

早在8月，小马整理过一份关于万相AI生成视频的体验教程《小白AIGC短视频生成的第一课》，今天我们就来继续探索下混元AI视频的体验过程和效果测评。
在这里插入图片描述

一、混元AI视频模型

继混元成功开源文生视频模型HunyuanVideo后，2025年03月混元开源了HunyuanVideo-I2V的推理代码和模型权重，一个新的图像到视频生成框架。

从官方提供的I2V示例视频《下班企鹅》来看，效果可谓相当“哇塞”！于是小马阅读了下运行HunyuanVideo-I2V模型（batch size=1）生成视频的硬件要求，720p分辨率需至少60GB显存，推荐配置是建议使用80GB显存GPU以获得更佳生成质量。😂

小马抬头望了望星空，举起手中的咖啡猛嗦了一口，默默打开了腾讯混元AI视频平台。

请在此添加图片描述

嗯，挺好的，能够看到有免费的日体验次数。不好，已经迫不及待了。🤣

二、 AIGC短视频制作的步骤

先来简单回顾下AIGC短视频制作的步骤。据经验总结，目前市面上的生成视频大模型普遍生成视频的时长都在3-5秒之间，少许能力胜者能达到10秒左右。因此目前AIGC短视频的制作需要一镜一镜地生成后再剪辑拼接，当然我们可以对此流程进行工程化的工具流封装，但核心原理中的技术缺陷还是仍待突破。

根据经验，AIGC短视频制作的普遍步骤：

剧本编写 -> 分镜 -> 文生图 -> 图生视频 -> 剪辑 -> 配音

对剧本进行分镜，针对分镜通过文生图生成首帧图片（场景图），对每张场景图进行图生视频生产，最后就是对各段视频进行剪辑配音。

有同学说，为什么不直接文生图而要分这么多的步骤？这里主要涉及对最终效果的要求不同。如果作品追求灵活自由、创意灵活则文生视频更合适，如果对视频内容有相当的要求和局限，图生视频相对更可控。而往往实际市场的生产需求中大部分偏后者，因此我们会重点展开图生视频的探讨。

三、AIGC生视频的提示词公式

之前我们探讨过AIGC生视频的提示词公式，避免赘述我们直接快进到图生视频的公式。

提示词 = 运动 + 运镜（如固定镜头、镜头拉远、镜头上摇、跟随镜头、环绕运镜、特效镜头等）

四、混元AI视频图生视频初体验

接下来我们就开始使用腾讯混元AI视频平台来实现一个图生视频的生产。根据之前的经验，我们需要做一些前置准备。

1. 场景图片一张

为了方便我们后续的测评效果对比，我们还是取之前一样的场景图（首帧图）。如下：

请在此添加图片描述

2. 撰写提示词

根据之前的案例，我们自己准备的提示词如下：

3D卡通风格，环绕运镜，这是一个二郎神大战美猴王的场景，右边美猴王高高跃起挥动手中的金箍棒打向二郎神，二郎神挥动武器踉跄后退抵挡攻击。

由于上一个平台的功能自带提示词智能扩写的功能，于是上一个实验我们采用了平台的功能，将我们自己编写的提示词转成平台智能扩写后的提示词。即实际生成视频使用的提示词如下：

3D卡通追光风格的史诗级战斗场面。“二郎神大战美猴王”的经典对决在云霄之上展开。二郎神身着蓝色战甲，手持寒光闪烁的三尖两刃刀，姿态威武，眼神坚定；美猴王则一身火红披风，挥舞着熠熠生辉的如意金箍棒，身姿矫健，斗志昂扬。两人在蓝天白云与雄伟山脉的背景下激烈交锋，动作迅猛，每一次碰撞都激起阵阵气浪。环绕镜头捕捉每一个紧张刺激的瞬间，展现出双方不屈不挠的战斗精神。中远景，动态追踪镜头，凸显英雄气概。

当然，为了后续对比，我们还是希望仍然运行该提示词以保持一致。但是我们注意到混元AI视频平台对提示词内容输入框的字数限制是200字符，原提示词超长被自动截断。

请在此添加图片描述

于是我们不得不缩减提示词字数。通过AI模型我们进行了提示词转换。我们要求文本处理AI将这段话总结为80字，且是满足图生视频要用的描述。于是AI返回的结果如下：

二郎神蓝甲持三尖两刃刀，美猴王红披风舞金箍棒，云端激战。气浪翻涌，山峦为衬，动态追踪镜头展现英雄对决。中远景捕捉高速碰撞，光影交错，彰显史诗级3D卡通追光战斗场面。

嗯，就这样吧，提示词准备完毕。

3. 背景音效提示词

请在此添加图片描述

细心的同学可以发现，这里有一个“背景音乐提示词”的功能，这是一个独特的环节，是上一个平台没有具备的功能。于是我们考虑这是一场战斗，填入了“打斗声”的背景音效提示。

请在此添加图片描述

4. run起来

至此，往事俱备，只欠东风。不是阅兵场上的那个“东风”哈。🤔

我们点击了运行按钮，折戟_！。

请在此添加图片描述

要等一小时。小马在一个小时之后回来看，显示前面还有几十个任务，需要继续等。（就是这点体验似乎有点差呀）

请在此添加图片描述

于是第二天，我们终于得到了结果。

请在此添加图片描述

我们打开看一下成果《AIGC二郎神大战美猴王（混元）》的效果。

有一说一，整体效果清晰度蛮好的，但是打斗的动作和音效似乎都简略了点，首帧原图保真似乎也略向奔放。

五、测评效果分析

《AIGC二郎神大战美猴王（混元AI视频1.0 ）》

《AIGC二郎神大战美猴王（万相2.2）》

接下来我们将根据如上这两次不同平台生成的实验效果对这两个平台的图生视频能力进行简单地总结和非专业地相对比较测评一下，局部案例仅代表个人观点。😆

当然，部分效果可能也受提示词的字数限制或不同功能的参数设置影响，我们先忽略。

维度类别	具体维度	混元AI视频1.0	万相2.2
🎯 基础生成质量	画面清晰度与分辨率	⭐️⭐️⭐️⭐️⭐️	⭐️⭐️⭐️
	帧率与流畅度	⭐️⭐️⭐️	⭐️⭐️⭐️⭐️
🧠 提示词遵循与内容准确性	主体生成准确性	⭐️⭐️⭐️	⭐️⭐️⭐️⭐️
	场景与氛围还原度	⭐️⭐️⭐️	⭐️⭐️⭐️⭐️
	动作与动态准确性	⭐️⭐️⭐️	⭐️⭐️⭐️⭐️
⚖️ 一致性	时间一致性（帧间连贯性）	⭐️⭐️⭐️⭐️	⭐️⭐️⭐️⭐️
	主体一致性	⭐️⭐️⭐️⭐️	⭐️⭐️⭐️⭐️
	空间一致性	⭐️⭐️⭐️⭐️	⭐️⭐️⭐️⭐️
📜 叙事与长度	长视频能力	⭐️⭐️	⭐️⭐️
	多镜头与叙事逻辑	⭐️⭐️⭐️	⭐️⭐️⭐️⭐️
🎨 美学与创意	视觉美感	⭐️⭐️⭐️⭐️	⭐️⭐️⭐️
	创意发散性	⭐️⭐️⭐️	⭐️⭐️⭐️
	风格化能力	⭐️⭐️⭐️	⭐️⭐️⭐️
⚙️ 可控性与可用性	图像/视频引导生成	⭐️⭐️⭐️	⭐️⭐️⭐️⭐️
	易用性与生成速度	⭐️⭐️⭐️	⭐️⭐️⭐️⭐️
	成本效益	⭐️⭐️⭐️	⭐️⭐️⭐️