Air M3 24G 能不能跑不量化的 7B 本地大模型推理？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 275 天前的主题，其中的信息可能已经有所发展或是发生改变。

无风扇：温度应该不是问题，跑几分钟，然后就可以休息一下，不会太被温度墙限制。

看了一下 ollama 上的 7B fp16 （或者 bf16 ）模型，权重文件大多在 15GB~17GB 范围内，内存应该内放下，还能给别的应用留一点儿空间。（我看到 PyTorch 的 issues 中提到加载模型过程，即使开了 mmap 也会有剧烈的内存波动，峰值内存占用会到模型权重文件的两倍大，这样的话 24G 就不够用了。不知道别的推理框架例如 ollama 有没有这个问题。）

cpu-monkey 的测试显示 M3 的 fp16 性能为 7TFLOPS ，大概桌面版 4060 Ti 的三分之一。担心即使能跑，token 输出速度也很低。

所以，有 V 友真的用 Air 跑过本地大模型吗？

14 条回复 • 2024-03-29 10:08:32 +08:00

noyidoit

274 天前

用 16g 的 m1 跑过 4bit 4B 的 llama2 ，大概占用 6g 内存，但也只是能跑而已，输出巨慢

RHG

274 天前

18G 的乞丐版 M3pro 实测跑 13B 的 llama2 速度大概每秒 15token 左右，感觉用着没问题，只是这些本地模型还是不够智能

maizero

274 天前

M2PRO 32G 不知道能跑 13b 么

SakuraYuki

274 天前

能跑是能跑，但你应该也不会太想用

WuSiYu

274 天前

并不是 4060ti 的三分之一，而是二十五分之一（纯算力），n 卡跑模型都会上 tensor core ，4060ti 的 tensor core 有 177 TFLOPS ，当时受限于内存带宽实际能跑到一半就不错了

CatCode

274 天前

@WuSiYu 得看数据类型吧。比如我曾在 20 系显卡上跑 7B 模型，发现 fp16 非量化比 int8 量化的快至少一倍，因为 20 系并没有原生支持 int8 ，而原生支持了 fp16 。

wensonsmith

274 天前

M1 Pro 16G ，跑 Mistral 7b, qwen-14b 都没问题. 一点不慢。M3 应该问题不大

ShadowPower

274 天前

@CatCode 这种情况是运算性能有瓶颈，而显存带宽无瓶颈。
量化之后实际上并不会真的用量化的精度来计算，计算时都会还原到 fp16 或者 fp32 。（不同的算子好像要求不同）。

而还原到 fp16/fp32 的过程需要消耗额外的算力。

jasdkasdjkas

274 天前 via iPhone

不要幻想 Apple 机子跑模型了老老实实 N 卡

WuSiYu

274 天前

@CatCode 我这里说的都是 fp16

oIMOo

274 天前

你搜下这个应用 jan.ai
里面有一些预制的模型，你可以看哪些可以跑做个参考

oIMOo

274 天前

@oIMOo #11 预置*

mumbler

274 天前

fp16 和 q5_k_m 差距几乎忽略不计，7b 只需要 5G 多内存

ozOGen

274 天前

NAME ID SIZE MODIFIED
gemma:latest 430ed3535049 5.2 GB 2 weeks ago
llama2-chinese:13b-chat 990f930d55c5 7.4 GB 2 weeks ago
qwen:14b-chat-q6_K 5967f08cc189 12 GB 2 days ago

试过这几个都在 M2 Air 24G 上跑的，无压力