当前位置：首页 > backend >正文

docker多阶段构建镜像

backend 2025/7/13 12:10:37

工作中常常用到docker，现在有这样一个场景：已经有一个打好的docker镜像A，主要是包含系统文件(1-3G)、pyhton env(9-10G)文件、模型权重文件modelA(65G)和python代码文件。同时重新安装pyhton env耗时很久(安装torch/cuda/sglang)等等。现在要把modelA切换为modelB(也是65G)，要快速的构建好docker image B，同时又要保证docker image B的体积尽可能的小。那么这个dockerfile该怎么写呢？

为了构建的时间最小，因此python env 不要再次安装(这个一般需要2-3个小时，也假设之前构建docker镜像A的时候 pip 没有缓存)，那么就得依赖docker镜像A；为了最终构建镜像体积小，所以要不镜像A中的模型权重文件modelA给删除掉。按照这个思路貌似就很容易完成这个任务。

FROM imageA
RUN rm -rf /app/*.py
RUN rm -rf /app/modelACOPY models/modelB modelB 
ENV PATH="/app:$PATH"
COPY config.toml .
COPY *.py .
RUN python3 -m pip install pytomlpp -i https://pypi.tuna.tsinghua.edu.cn/simple
CMD ["python", "llm_sglang_server_ws.py"]

最后运行docker build -t imageB -f ./Dockerfile . 构建新的镜像，最后发现imageB的体积比imageA要大65G，貌似RUN rm -rf /app/modelA 并没有生效一样。这是因为docker镜像的存储是按照layer来进行的，dockerfile中每一条命令FROM、COPY、RUN、CMD等都会产生一个layer，每一层layer都是基于之前的所有layer来进行构建的。docker镜像的大小就是所有layer的大小之和。具体都上面的dockerfile中，RUN rm -rf /app/modelA 这个命令指示标记删除modelA在最后的镜像中不可见，但是modelA仍然存在某些layer中

FROM imageA 75G
RUN rm -rf /app/*.py 0B
RUN rm -rf /app/modelA 0B

COPY models/modelB modelB 65G
ENV PATH="/app:$PATH" 0B
COPY config.toml . 1kB
COPY *.py . 80kB
RUN python3 -m pip install pytomlpp -i https://pypi.tuna.tsinghua.edu.cn/simple 13MB
CMD ["python", "llm_sglang_server_ws.py"] 0B

因此总计 65G+75G = 140G

因此我们就需要采用多阶段来构建，多阶段就是使用多个FROM命令，有个特点就是镜像只会保留最后一个FROM后面的非FROM命令的层。先把dockerfile多阶段构建的给出来

FROM imageA as builder
RUN rm -rf /app/*.py
RUN rm -rf /app/modelAFROM scratch
WORKDIR /app
COPY --from=builder / /
COPY models/modelB modelBARG docker_dir="docker"
ENV PATH="/app:$PATH"
COPY config.toml .
COPY *.py .
RUN python3 -m pip install pytomlpp -i https://pypi.tuna.tsinghua.edu.cn/simple
CMD ["python", "llm_sglang_server_ws.py"]

分析一下这个dockerfile以及构建后的镜像

首先FROM scratch引入了一个空镜像，不占空间；COPY --from=builder / / 从第一阶段的镜像中把/路径下的文件全部复制过来了(包含各种系统文件、python env等)，docker history Image 看看构建后的镜像：