其实用cpu硬跑满血LLM是相当可用的啊

HouseMD

5.6 token/s 还行吧

苍井吱

HouseMD 写了： 2025年 8月 18日 18:43
5.6 token/s 还行吧

又慢又费电，图啥

HouseMD

苍井吱写了： 2025年 8月 18日 18:46
又慢又费电，图啥

嘿嘿，有些情况还是只能本地跑的

苍井吱

HouseMD 写了： 2025年 8月 18日 18:51
嘿嘿，有些情况还是只能本地跑的

不明觉厉

写小黄文？

oxo · 帖子由 **oxo** » 2025年 8月 18日 19:52

点着看了一下。这个是玩票性质，简直跑个空调。目前本地LLM大模型最实际的是apple silicon 的统一内存架构，就是贵，只为了本地跑inference得想想值不值。LLM模型的问题的得上到一定规模才智商在线，而且愿意开源的很多略次的模型，恶心竞争对手的。我的老机器用hybrid模式跑llama 70B也能有大概2 T/S，不过表现不怎么样。

其实APU跑这个很效率，有点类似apple的架构。就是目前还没有一款支持大容量高频DDR5的APU。之前的5700G也就最大16GB 显存，还是DDR4。这点intel可能比AMD先发布，它家显卡本来就是搅局的，vram舍得给。之前的iris xe核显其实挺不错了。

HouseMD

oxo 写了： 2025年 8月 18日 19:52
点着看了一下。这个是玩票性质，简直跑个空调。目前本地LLM大模型最实际的是apple silicon 的统一内存架构，就是贵，只为了本地跑inference得想想值不值。LLM模型的问题的得上到一定规模才智商在线，而且愿意开源的很多略次的模型，恶心竞争对手的。我的老机器用hybrid模式跑llama 70B也能有大概2 T/S，不过表现不怎么样。

其实APU跑这个很效率，有点类似apple的架构。就是目前还没有一款支持大容量高频DDR5的APU。之前的5700G也就最大16GB 显存，还是DDR4。这点intel可能比AMD先发布，它家显卡本来就是搅局的，vram舍得给。之前的iris xe核显其实挺不错了。

x86 cpu硬跑有个好处，就是加内存不怎么费劲.
能不能跑，和跑起来快不快，是两个维度的事。

oxo · 帖子由 **oxo** » 2025年 8月 18日 23:05

HouseMD 写了： 2025年 8月 18日 22:55
x86 cpu硬跑有个好处，就是加内存不怎么费劲.
能不能跑，和跑起来快不快，是两个维度的事。

对啊，DIY就是开放平台的乐趣。Mac配超大内存得克肾。

HouseMD

oxo 写了： 2025年 8月 18日 23:05
对啊，DIY就是开放平台的乐趣。Mac配超大内存得克肾。

其实他这个cpu相当于12个9700x 串起来了，所以功耗惊人，cpu硬跑LLM的瓶颈主要在内存带宽，弄个一样8通道但是少点core的thread ripper/epyc不会比他慢太多。

oxo · 帖子由 **oxo** » 2025年 8月 18日 23:36

HouseMD 写了： 2025年 8月 18日 23:09
其实他这个cpu相当于12个9700x 串起来了，所以功耗惊人，cpu硬跑LLM的瓶颈主要在内存带宽，弄个一样8通道但是少点core的thread ripper/epyc不会比他慢太多。

对，关键是RAM的I/O throughput，这点我Apple silicon是消费级PC平台的4倍以上。记得以前AMD还有四通道内存控制器，现在桌面平台都是双通道了。

anesthetic · 帖子由 **anesthetic** » 2025年 8月 19日 11:09

oxo 写了： 2025年 8月 18日 23:36
对，关键是RAM的I/O throughput，这点我Apple silicon是消费级PC平台的4倍以上。记得以前AMD还有四通道内存控制器，现在桌面平台都是双通道了。

苏妈ai 395 max 早就把你的apple打趴下了,1000多刀就128gb vram

单机+rocm跑出50% h100的水平，灰常牛x

oxo · 帖子由 **oxo** » 2025年 8月 19日 12:04

anesthetic 写了： 2025年 8月 19日 11:09
苏妈ai 395 max 早就把你的apple打趴下了,1000多刀就128gb vram

单机+rocm跑出50% h100的水平，灰常牛x

我的apple？纯属typo，个人不喜欢抠门mac。酥麻这个还没上市，如果实际疗效好可以考虑。上面也说了，我更期待这类带AI unit的CPU出桌面版。

anesthetic · 帖子由 **anesthetic** » 2025年 8月 19日 12:17

oxo 写了： 2025年 8月 19日 12:04
我的apple？纯属typo，个人不喜欢抠门mac。酥麻这个还没上市，如果实际疗效好可以考虑。上面也说了，我更期待这类带AI unit的CPU出桌面版。

你搞笑吧，3月就上市了，小林还专门做了评测

oxo · 帖子由 **oxo** » 2025年 8月 19日 12:28

anesthetic 写了： 2025年 8月 19日 12:17
你搞笑吧，3月就上市了，小林还专门做了评测

搜了一下，有个测试：
https://forum.level1techs.com/t/strix-h ... lts/233796

第二张图是text generation。这个Shisa model的速度大概是4 T/S。
Shisa V2 70B i1-Q4_K_M Llama 3 70 70
我目前电脑hybrid mode跑Llama 3 70B Q4大概是2.x T/S。

大致两倍提升。我记得Apple silicon比我的电脑要快很多。这东西有潜力，目前还是等等看。

RobotII · 帖子由 **RobotII** » 2025年 8月 19日 12:46

落伍了吧，Ebay 上搞一个10年前的Xeon 双 CPU workstation，再加上500G以上的DDR4 内存，搞个魔改2080 22G GPU，就可以在家跑满血MOE LLM（DeepSeek 或 Kimi).关键是CPU core要足够多（大于30个物理cores).

用清华学生们做的transformer (FastLLM 或 Ktransformers),满血Q4 Deepseek实测可以做到3-5TPS,超过个人阅读速度，你就拥有了一个属于自己的LLM.

全套装备～$2000。模型是满血671B的，效果刚刚的。

YouHi · 帖子由 **YouHi** » 2025年 8月 19日 12:48

RobotII 写了： 2025年 8月 19日 12:46
落伍了吧，Ebay 上搞一个10年前的Xeon 双 CPU workstation，再加上500G以上的DDR4 内存，搞个魔改2080 22G GPU，就可以在家跑满血MOE LLM（DeepSeek 或 Kimi).关键是CPU core要足够多（大于30个物理cores).

用清华学生们做的transformer (FastLLM 或 Ktransformers),满血Q4 Deepseek实测可以做到3-5TPS,超过个人阅读速度，你就拥有了一个属于自己的LLM.

全套装备～$2000。模型是满血671B的，效果刚刚的。

冬天跑，暖气都不用开了。

RobotII · 帖子由 **RobotII** » 2025年 8月 19日 12:51

YouHi 写了： 2025年 8月 19日 12:48
冬天跑，暖气都不用开了。

实测小于500瓦，房间微热

oxo · 帖子由 **oxo** » 2025年 8月 19日 12:57

RobotII 写了： 2025年 8月 19日 12:46
落伍了吧，Ebay 上搞一个10年前的Xeon 双 CPU workstation，再加上500G以上的DDR4 内存，搞个魔改2080 22G GPU，就可以在家跑满血MOE LLM（DeepSeek 或 Kimi).关键是CPU core要足够多（大于30个物理cores).

用清华学生们做的transformer (FastLLM 或 Ktransformers),满血Q4 Deepseek实测可以做到3-5TPS,超过个人阅读速度，你就拥有了一个属于自己的LLM.

全套装备～$2000。模型是满血671B的，效果刚刚的。

是个思路，就是折腾，一堆旧的/魔改部件，出了问题也麻烦。更重要的是这看似省钱性价比高，经常只是满足玩票内心需求，本质上是买了个玩具，享受折腾的乐趣

oxo · 帖子由 **oxo** » 2025年 8月 19日 12:59

RobotII 写了： 2025年 8月 19日 12:51
实测小于500瓦，房间微热

杀一娃测的？大概10年前玩过双路Xeon，只有64GB 内存，记得待机就有100W+，满载200-300W。

RobotII · 帖子由 **RobotII** » 2025年 8月 19日 13:19

oxo 写了： 2025年 8月 19日 12:59
杀一娃测的？大概10年前玩过双路Xeon，只有64GB 内存，记得待机就有100W+，满载200-300W。

对呀，再加200W给GPU

anesthetic · 帖子由 **anesthetic** » 2025年 8月 19日 13:23

RobotII 写了： 2025年 8月 19日 12:46
落伍了吧，Ebay 上搞一个10年前的Xeon 双 CPU workstation，再加上500G以上的DDR4 内存，搞个魔改2080 22G GPU，就可以在家跑满血MOE LLM（DeepSeek 或 Kimi).关键是CPU core要足够多（大于30个物理cores).

用清华学生们做的transformer (FastLLM 或 Ktransformers),满血Q4 Deepseek实测可以做到3-5TPS,超过个人阅读速度，你就拥有了一个属于自己的LLM.

全套装备～$2000。模型是满血671B的，效果刚刚的。

不需要这么麻烦，m3 pro魔改512gb更便宜还更快，还可以stack。

新未名空间

其实用cpu硬跑满血LLM是相当可用的啊

#1 其实用cpu硬跑满血LLM是相当可用的啊

#2 Re: 其实用cpu硬跑满血LLM是相当可用的啊

#3 Re: 其实用cpu硬跑满血LLM是相当可用的啊

#4 Re: 其实用cpu硬跑满血LLM是相当可用的啊

#5 Re: 其实用cpu硬跑满血LLM是相当可用的啊

#6 Re: 其实用cpu硬跑满血LLM是相当可用的啊

#7 Re: 其实用cpu硬跑满血LLM是相当可用的啊

#8 Re: 其实用cpu硬跑满血LLM是相当可用的啊

#9 Re: 其实用cpu硬跑满血LLM是相当可用的啊

#10 Re: 其实用cpu硬跑满血LLM是相当可用的啊

#11 Re: 其实用cpu硬跑满血LLM是相当可用的啊

#12 Re: 其实用cpu硬跑满血LLM是相当可用的啊

#13 Re: 其实用cpu硬跑满血LLM是相当可用的啊

#14 Re: 其实用cpu硬跑满血LLM是相当可用的啊

#15 Re: 其实用cpu硬跑满血LLM是相当可用的啊

#16 Re: 其实用cpu硬跑满血LLM是相当可用的啊

#17 Re: 其实用cpu硬跑满血LLM是相当可用的啊

#18 Re: 其实用cpu硬跑满血LLM是相当可用的啊

#19 Re: 其实用cpu硬跑满血LLM是相当可用的啊

#20 Re: 其实用cpu硬跑满血LLM是相当可用的啊