使用bitNet架构
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
文章目录
- 前言
- 一、配置
- 二、报错
- 总结
前言
大型语言模型(LLM)面临的挑战:高能耗、高内存需求、部署门槛高。
微软提出 BitNet 架构,旨在实现低功耗、低延迟、高效率的推理。( https://pypi.org/project/bitnet/ )BitNet架构
BitNet b1.58 2B4T:首个开源、原生训练的 1-bit LLM,参数量达 20 亿[1]。
【1】 Ma, S., Wang, H., Dong, L., Huang, S., Wang, H., et.al., 2023. “BitNet b1.58 2B4T Technical Report.” arXiv preprint,
arXiv:2504.12285. 2025
BitLinear 层:替代传统的 nn.Linear 层,支持三值权重(-1, 0, +1),实现 1.58-bit 精度。( 支持原生1.58bit训练,而不是量化后1.58bit)
激活量化:采用 8-bit 整数量化,形成 W1.58A8 配置。
Transformer 架构优化:引入平方 ReLU 激活函数、旋转位置嵌入(RoPE)和 subln 归一化,确保低位训练稳定性。
提示:以下是本篇文章正文内容,下面案例可供参考
一、配置
不加源(极慢)
pip install bitnet
使用阿里源(快)
pip install -i https://mirrors.aliyun.com/pypi/simple bitnet
使用清华源(慢)
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple bitnet
二、报错
OSError: [WinError 5] 拒绝访问。: 'd:\\anaconda\\envs\\myenv-cvrp\\scripts\\tqdm.exe'
错误是因为在卸载或安装 tqdm 包时,Python 没有足够的权限来操作相关的文件。
使用 --user 参数安装 如果你希望只对当前用户安装,可以尝试使用 --user 选项,这将安装包到用户目录中,避免涉及到系统级别的权限问题:
pip install --user -i https://mirrors.aliyun.com/pypi/simple bitnet