【深度学习新浪潮】图像生成有哪些最新进展?
近年来,图像生成领域在技术研究和产品落地方面均取得显著突破,以下是2023年至2025年的核心进展:
一、前沿研究突破
-
生成模型的质与量飞跃
- Google Imagen 3(2025年发布):作为当前最高品质的文本转图像模型,其生成的图像在细节、光影处理和降低失真方面超越前代,支持品牌定制(如自动融入企业LOGO和风格)和局部编辑功能,例如更换产品背景或提升分辨率。
- Midjourney V7(2025年4月发布):引入“草稿模式”,用户通过语音或简短文本即可逐步生成图像(如“给我一只猫→戴草帽→在花园里”),支持中文语音交互,并通过用户评级200张图片构建个性化配置文件,生成内容更贴合用户偏好。
- 北京大学OctGPT(SIGGRAPH 2025收录):提出基于八叉树的3D自回归生成范式,打破扩散模型垄断,可从文本、图像生成高