字节开源BAGEL可文生图、图像理解、图像编辑
BAGEL是由字节跳动开源的通用多模态大模型,一个原生支持多模态输入输出 + 思维链推理 + MoE 架构优化的跨模态超级 AI。
话不多说,咱们今天来试着复现下。
1、下载代码,创建环境
git clone https://github.com/bytedance-seed/BAGEL.git
cd BAGEL
conda create -n bagel python=3.10
conda activate bagel
2、安装环境
pip install -r requirements.txt
这时候报错了,如图
说没没有安装torch,好,那我先去官方安装torch。推荐安装2.5.1版本,因为环境文件中写着2.5.1版本。
安装好torch后再去安装requirements.txt中的各个包,这次顺利安装。
3、下载模型文件
from huggingface_hub import snapshot_download
save_dir = "/path/to/save/BAGEL-7B-MoT"
repo_id = "ByteDance-Seed/BAGEL-7B-MoT"
cache_dir = save_dir + "/cache"
snapshot_download(cache_dir=cache_dir,
local_dir=save_dir,
repo_id=repo_id,
local_dir_use_symlinks=False,
resume_download=True,
allow_patterns=["*.json", "*.safetensors", "*.bin", "*.py", "*.md", "*.txt"],
)
需要修改下第三行的安装路径。
如果无法访问huggingface的话可使用hf镜像
export HF_ENDPOINT=https://hf-mirror.com
下载速度还是很快的,但是就是模型文件太大了。
4、运行
下载完成后就可以试着跑下了
python app.py
报错了,看着是flash-attn
摸索了半天,直接降低版本就可以了。
pip install flash-attn==2.7.5
接着再跑下试试。又报错了,但是这次是显存不够,我的24G显存竟然带不起来,尴尬了
。但是应该环境是搭建的没问题的。
大家有大显存的话可以搭建下跑下试一下。
写了这么半天不是白写了,这不相当于没实现吗?
没关系,咱们来看看其他方法。试试comfyui版的能不能跑起来。
comfyui的安装参考 Ubuntu源码版comfyui的安装,也可直接安装win桌面版的。
5、安装节点
当然也可以手动安装。
git clone https://github.com/neverbiasu/ComfyUI-BAGEL
安装好后将上面下载好的模型文件复制到comfyui的models/bagel下面。
这个里面带了三个工作流,咱们可以下载下来导入试试。
重启comfyui。
导入工作流试下。咱们就用最近比较火的吉普力风格试下。
提示词 "change the style into Ghibli"
| |
| |
| |
哈哈,灭霸一下子没霸气了