当前位置: 首页 > news >正文

在FreeBSD系统下使用llama-cpp运行飞桨开源大模型Ernie4.5 0.3B(失败)

先上结论,截止到目前2025.7.25日,还不能用。也就是Ernie4.5模型无法在llama.cpp 和Ollama上进行推理,原因主要就llama是不支持Ernie4.5异构MoE架构。

不局限于FreeBSD系统,Windows也测试失败,理论上Ubuntu下也是不行。

所做尝试

安装llama-cpp

首先pkg安装llama-cpp

pkg install llama-cpp

也尝试了编译安装

下载源代码

git clone https://github.com/ggerganov/llama.cpp

进入llama.cpp目录

编译安装

mkdir build
cd build
cmake ..
cmake --build . --config Release

 将编译好的路径加入PATH

export PATH=~/github/llama.cpp/build/bin:$PAT

这样就可以执行llama.cpp了。

直接编译,最后生成的可执行文件是main,执行起来是这样:

main -m ~/work/model/chinesellama/ggml-model-f16.gguf  -p "Building a website can be done in 10 simple steps:\nStep 1:" -n 400 -e

下载模型

从这个网址下载:unsloth/ERNIE-4.5-0.3B-PT-GGUF at main

如果下载很慢,可以考虑从huggingface官网下载,当然需要科学上网。

下载完毕:

ls E*
ERNIE-4.5-0.3B-PT-F16.gguf	ERNIE-4.5-0.3B-PT-Q2_K.gguf

也可以下载普通的模型文件,然后用转换程序,转换为gguf格式模型

python convert.py ~/work/model/chinesellama/

运行

llama-cli -m ERNIE-4.5-0.3B-PT-Q2_K.gguf -p "hello"

如果编译后的文件为main,那么执行:

main -m ERNIE-4.5-0.3B-PT-Q2_K.gguf -p "hello"

运行失败。 

总结 

截止目前Ernie4.5还不能用llama推理。

说实话,这确实限制了Ernie4.5的普及。

调试

报错Terminating due to uncaught exception 0x28323c45c340 of type std::runtime_error

main: chat template is available, enabling conversation mode (disable it with -no-cnv)
*** User-specified prompt will pre-start conversation, did you mean to set --system-prompt (-sys) instead?
[New LWP 112399 of process 29362]
[New LWP 112400 of process 29362]
[New LWP 112401 of process 29362]
[New LWP 112402 of process 29362]
0x0000000829dc1818 in _wait4 () from /lib/libc.so.7
#0  0x0000000829dc1818 in _wait4 () from /lib/libc.so.7
#1  0x0000000821b3993c in ?? () from /lib/libthr.so.3
#2  0x00000008231e6809 in ?? () from /usr/local/lib/libggml-base.so
#3  0x00000008281be199 in std::terminate() () from /lib/libcxxrt.so.1
#4  0x00000008281be674 in ?? () from /lib/libcxxrt.so.1
#5  0x00000008281be589 in __cxa_throw () from /lib/libcxxrt.so.1
#6  0x00000000002d8070 in ?? ()
#7  0x00000000002d8adc in ?? ()
#8  0x000000000025e8b8 in ?? ()
#9  0x0000000829d0dc3a in __libc_start1 () from /lib/libc.so.7
#10 0x000000000025e120 in ?? ()
[Inferior 1 (process 29362) detached]
Terminating due to uncaught exception 0x28323c45c340 of type std::runtime_error
终止陷阱(核心已转储)

大约是内存不足

后来在Windows下用llama.cpp,报错:

print_info: file size   = 688.14 MiB (16.00 BPW)
llama_model_load: error loading model: error loading model architecture: unknown model architecture: 'ernie4_5'
llama_model_load_from_file_impl: failed to load model
common_init_from_params: failed to load model 'e:\360Downloads\ERNIE-4.5-0.3B-PT-F16.gguf'
main: error: unable to load model

证明确实无法用llama进行推理。

http://www.xdnf.cn/news/1183645.html

相关文章:

  • 相机ROI 参数
  • Vim 编辑器全模式操作指南
  • 【神经网络概述】从感知机到深度神经网络(CNN RNN)
  • 【算法-图论】图的存储
  • Langchain学习——PromptTemplate
  • 关于“PromptPilot”
  • 【大模型实战】提示工程(Prompt Engineering)
  • Tomcat线程池深度优化指南:高并发场景下的maxConnections计算与监控体系
  • 门店管理智能体,为连锁运营开出健康“处方” 智睿视界
  • DeepSeek FlashMLA 技术拆解,AI 推理迎来颠覆性突破
  • [linux]Haproxy七层代理
  • [实战] 用1 PPS 驯服本地恒温晶振(OCXO/TCXO)
  • Kubernetes深度解析:企业级容器编排平台的核心实践
  • Android 10.0 sts CtsSecurityBulletinHostTestCases的相关异常分析
  • 力扣 hot100 Day55
  • JAVA知识点(六):性能调优与线上问题排查
  • 多场景通用车辆计数算法助力暑期交通管理
  • [LeetCode]每日温度
  • Photon v0.3.0 基于Aria2免费开源轻量级多线程不限速下载器
  • Linux 桌面市场份额突破 5%:开源生态的里程碑与未来启示
  • 云原生介绍
  • Qt 状态机框架:复杂交互逻辑的处理
  • 滚动提示组件
  • JavaScript 数组的 every() 和 some() 方法使用
  • Microsoft-DNN NTLM暴露漏洞复现(CVE-2025-52488)
  • JAVA知识点(三):Spring与ORM框架
  • Linux下使用VSCode配置GCC环境与调试指南
  • 深入探索嵌入式仿真教学:以酒精测试仪实验为例的高效学习实践
  • 验证 GitHub Pages 的自定义域(Windows)
  • 《Uniapp-Vue 3-TS 实战开发》自定义年月日时分秒picker组件