无风扇:温度应该不是问题,跑几分钟,然后就可以休息一下,不会太被温度墙限制。
看了一下 ollama 上的 7B fp16 (或者 bf16 )模型,权重文件大多在 15GB~17GB 范围内,内存应该内放下,还能给别的应用留一点儿空间。 (我看到 PyTorch 的 issues 中提到加载模型过程,即使开了 mmap 也会有剧烈的内存波动,峰值内存占用会到模型权重文件的两倍大,这样的话 24G 就不够用了。不知道别的推理框架例如 ollama 有没有这个问题。)
cpu-monkey 的测试显示 M3 的 fp16 性能为 7TFLOPS ,大概桌面版 4060 Ti 的三分之一。担心即使能跑,token 输出速度也很低。
所以,有 V 友真的用 Air 跑过本地大模型吗?
1
noyidoit 274 天前
用 16g 的 m1 跑过 4bit 4B 的 llama2 ,大概占用 6g 内存,但也只是能跑而已,输出巨慢
|
2
RHG 274 天前
18G 的乞丐版 M3pro 实测跑 13B 的 llama2 速度大概每秒 15token 左右,感觉用着没问题,只是这些本地模型还是不够智能
|
3
maizero 274 天前
M2PRO 32G 不知道能跑 13b 么
|
4
SakuraYuki 274 天前
能跑是能跑,但你应该也不会太想用
|
5
WuSiYu 274 天前
并不是 4060ti 的三分之一,而是二十五分之一(纯算力),n 卡跑模型都会上 tensor core ,4060ti 的 tensor core 有 177 TFLOPS ,当时受限于内存带宽实际能跑到一半就不错了
|
6
CatCode OP @WuSiYu 得看数据类型吧。比如我曾在 20 系显卡上跑 7B 模型,发现 fp16 非量化比 int8 量化的快至少一倍,因为 20 系并没有原生支持 int8 ,而原生支持了 fp16 。
|
7
wensonsmith 274 天前
M1 Pro 16G , 跑 Mistral 7b, qwen-14b 都没问题. 一点不慢。M3 应该问题不大
|
8
ShadowPower 274 天前
@CatCode 这种情况是运算性能有瓶颈,而显存带宽无瓶颈。
量化之后实际上并不会真的用量化的精度来计算,计算时都会还原到 fp16 或者 fp32 。(不同的算子好像要求不同)。 而还原到 fp16/fp32 的过程需要消耗额外的算力。 |
9
jasdkasdjkas 274 天前 via iPhone
不要幻想 Apple 机子跑模型了 老老实实 N 卡
|
13
mumbler 274 天前
fp16 和 q5_k_m 差距几乎忽略不计,7b 只需要 5G 多内存
|
14
ozOGen 274 天前
NAME ID SIZE MODIFIED
gemma:latest 430ed3535049 5.2 GB 2 weeks ago llama2-chinese:13b-chat 990f930d55c5 7.4 GB 2 weeks ago qwen:14b-chat-q6_K 5967f08cc189 12 GB 2 days ago 试过这几个都在 M2 Air 24G 上跑的,无压力 |