V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
rizon
V2EX  ›  程序员

[LLM] 有哪位大佬指点下如何在 cpu 上分布式推理

  •  
  •   rizon ·
    othorizon · 2023-11-16 18:16:33 +08:00 · 1548 次点击
    这是一个创建于 409 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我有很多 32 核的 cpu 机器,想要跨这些机器使用所有的 cpu 算力进行推理。
    这个该怎么做啊?

    是不是部署 k8s 集群就可以,还是有更简单的办法?

    还是说用分布式的 spark 等计算框架?但是具体该怎么搞呢。没头绪
    第 1 条附言  ·  2023-11-16 19:36:03 +08:00
    场景是跑开源大语言模型
    8 条回复    2023-11-20 13:20:29 +08:00
    murmur
        1
    murmur  
       2023-11-16 18:28:09 +08:00
    你做科学计算么,有的科学计算是 cpu 运算+大内存,不过也不是用框架,直接买现成的软件,比如电磁学的 feko
    rizon
        2
    rizon  
    OP
       2023-11-16 19:35:36 +08:00
    @murmur #1 我就是想跑大模型
    lozzow
        3
    lozzow  
       2023-11-16 22:07:21 +08:00
    @rizon 可以尝试下 ray ,理论上是支持 transformer 模型的,但是怎么做,我也就看了个文档
    israinbow
        4
    israinbow  
       2023-11-17 03:19:13 +08:00
    TorchServe 或者黄核弹的 TensorRT? 我们做边缘计算的还有用 ONNX 的, 挑一个吧🫡
    max1911
        5
    max1911  
       2023-11-17 10:24:32 +08:00
    op 可以试试 ggml 库重新,基于 ggml 上的项目 llama.cpp ,可以实现用 C++运行语言模型
    max1911
        6
    max1911  
       2023-11-17 10:30:50 +08:00
    max1911
        7
    max1911  
       2023-11-17 10:34:41 +08:00   ❤️ 1
    @usazcx 如果是 Intel 集群,也可以试试 bigdl.
    https://bigdl.readthedocs.io/en/latest/doc/Serving/index.html
    t133
        8
    t133  
       2023-11-20 13:20:29 +08:00 via iPhone
    大矩阵的乘法除非你有 infiniband 并行效率惨不忍睹
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2615 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 10:17 · PVG 18:17 · LAX 02:17 · JFK 05:17
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.