IT蜗壳-Tango · 2025年11月13日 · 江苏

【“星睿O6”AI PC开发套件评测】瑞莎星睿 O6 (Radxa Orion O6) 运行大模型

瑞莎星睿 O6 (Radxa Orion O6) 拥有高达 28.8TOPs NPU (Neural Processing Unit) 算力,支持 INT4 / INT8 / INT16 / FP16 / BF16 和 TF32 类型的加速。

那么如何使用 CIX P1 NPU SDK 运行基于 NPU 加速推理的人工智能模型和应用,如果你已经拥有了一个硬件设备,NPU SDK 包含 NOE Compiler 与 CIX AI Model Hub, 要获取 SDK 需要通过申请 CIX 早鸟计划获取。 申请链接: CIX 早鸟计划

安装UV环境

为了方便管理Python环境,我们使用UV作为Python的环境管理,你可以通过官方文档进行安装

安装 | uv 中文文档

运行以下命令进行安装

curl -LsSf https://astral.sh/uv/install.sh | sh

image-20251113011549697

image-20251113011938888

按照提示添加环境变量

source $HOME/.local/bin/env

创建一个Python3.10的环境

我们后面需要用的模型可以从魔搭社区进行下载,并且为了方便后面的开发,建议大家创建一个专属的虚拟环境

mkdir work
cd work
mkdir llm
cd llm
uv init --python 3.10
uv run main.py

image-20251113223620261

添加modelscope库,方便我们后面进行模型的下载

uv add modelscope

image-20251113223827216

如果速度比较忙,可以在当前目录的project.toml文件中加入如下配置

[[tool.uv.index]]
url = "https://pypi.tuna.tsinghua.edu.cn/simple"
default = true

image-20251113224113224

image-20251113224139876

安装Llama.cpp

克隆仓库

git clone https://github.com/ggml-org/llama.cpp.git

image-20251113224248350

偶尔github连接会比较慢,肯能需要上点魔法

image-20251113224448251

image-20251113225321873

编译 llama.cpp

sudo apt install cmake gcc g++

image-20251113225517024

image-20251113231223754

编译项目

cd llama.cpp
cmake -B build

image-20251113231940859

如果看到上面的报错,可以运行下面的命令安装,然后在build

sudo apt install curl libcurl4-openssl-dev

image-20251113232141898

继续输入cmake --build build --config Release

image-20251113232229742

在编译的同时,我们可以去魔搭社区去下载GGUF格式的模型,为后面的体验做准备

新开一个终端,然后运行下面的命令进行模型的拉取

这里我们以通义千问3-8B-GGUF · 模型库为例

cd work/llm/
uv run modelscope download --model Qwen/Qwen3-8B-GGUF --local_dir ../models/Qwen/Qwen3-8B-GGUF

image-20251113232946487

等待模型完成下载。于此同时我们之前的build工作也完成了

image-20251113233215270

其实如果你使用的和我的型号一样的话,推荐用如下的命令进行build,它对硬件有优化

cmake -B build -DGGML_NATIVE=OFF -DGGML_CPU_ARM_ARCH=armv9-a+i8mm+dotprod -DGGML_CPU_KLEIDIAI=ON

image-20251113233423533

推理测试

当我们的模型下载完成后如下

image-20251113233721991

运行如下命令进行推理测试

cd build/bin
./llama-cli -m ../../../../models/Qwen/Qwen3-8B-GGUF/Qwen3-8B-Q5_K_M.gguf

image-20251113233839270

-m 后面接的是你模型保存的位置

image-20251113234047579

image-20251113234450159

我这边运行后会卡死,于是决定换一个再小一点的模型试试

uv run modelscope download --model Qwen/Qwen3-4B-GGUF --local_dir ../models/Qwen/Qwen3-4B-GGUF

image-20251113235241214

运行推理命令

./llama-cli -m ../../../../models/Qwen/Qwen3-4B-GGUF/Qwen3-4B-Q4_K_M.gguf

image-20251113235421470

依然还是会卡退掉。PS:突然发现8B的运行错版本了,应该是Q4_K_M才对。但并不影响闪退

换1.7B的再试试

uv run modelscope download --model Qwen/Qwen3-1.7B-GGUF --local_dir ../models/Qwen/Qwen3-1.7B-GGUF

image-20251114000520083

运行推理命令

./llama-cli -m ../../../../models/Qwen/Qwen3-1.7B-GGUF/Qwen3-1.7B-Q8_0.gguf

image-20251114000640983

很好正常启动了,尝试对话一下

image-20251114000742927

运行了一下,可是刚刚思考一点就闪退了,至此我怀疑可能是电源的问题。

更换了电源后,可以进行正常对话了

image-20251114001121912

做一下GGUF 基准测试看看

./llama-bench -m ../../../../models/Qwen/Qwen3-1.7B-GGUF/Qwen3-1.7B-Q8_0.gguf

image-20251114001448227

懂行的朋友可以点评一下。

我有理由怀疑自强的闪退也是由于电源的问题,于是我测试了一下,果然如此

4B效果

image-20251114001822323

image-20251114002223007

8B效果

image-20251114002650325

image-20251114003551414

各项参数的含义

段名含义
PPPrompt Tokens:每个输入样本的 prompt 长度(token 数)
TGText Generation Tokens:每个样本生成的 token 数
BBatch Size:同时推理的输入样本数(并发)
N_KVKV Cache 数量 = (PP + TG) × B
T_PP sPrompt 处理时间(秒)
S_PP t/sPrompt 阶段吞吐率(tokens/s)
T_TG s生成阶段耗时(秒)
S_TG t/s生成阶段吞吐率
T s总时间(秒)
S t/s总体吞吐率(PP+TG×B 的 token/s)

今天我们一起在这个主板上成功的运行了Qwen3-8B, Qwen3-4B, Qwen3-1.7B的量化版本,总体体验下来还是可以进行简单的使用,后续我们有时间会和大家一起在这个开发板上做一些工程上的尝试,敬请期待。

推荐阅读
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息