5.6 token/s 还行吧
其实用cpu硬跑满血LLM是相当可用的啊
版主: Jack12345
#5 Re: 其实用cpu硬跑满血LLM是相当可用的啊
点着看了一下。这个是玩票性质,简直跑个空调。目前本地LLM大模型最实际的是apple silicon 的统一内存架构,就是贵,只为了本地跑inference得想想值不值。LLM模型的问题的得上到一定规模才智商在线,而且愿意开源的很多略次的模型,恶心竞争对手的。我的老机器用hybrid模式跑llama 70B也能有大概2 T/S,不过表现不怎么样。
其实APU跑这个很效率,有点类似apple的架构。就是目前还没有一款支持大容量高频DDR5的APU。之前的5700G也就最大16GB 显存,还是DDR4。这点intel可能比AMD先发布,它家显卡本来就是搅局的,vram舍得给。之前的iris xe核显其实挺不错了。
#6 Re: 其实用cpu硬跑满血LLM是相当可用的啊
oxo 写了: 2025年 8月 18日 19:52点着看了一下。这个是玩票性质,简直跑个空调。目前本地LLM大模型最实际的是apple silicon 的统一内存架构,就是贵,只为了本地跑inference得想想值不值。LLM模型的问题的得上到一定规模才智商在线,而且愿意开源的很多略次的模型,恶心竞争对手的。我的老机器用hybrid模式跑llama 70B也能有大概2 T/S,不过表现不怎么样。
其实APU跑这个很效率,有点类似apple的架构。就是目前还没有一款支持大容量高频DDR5的APU。之前的5700G也就最大16GB 显存,还是DDR4。这点intel可能比AMD先发布,它家显卡本来就是搅局的,vram舍得给。之前的iris xe核显其实挺不错了。
x86 cpu硬跑有个好处,就是加内存不怎么费劲.
能不能跑,和跑起来快不快,是两个维度的事。

#8 Re: 其实用cpu硬跑满血LLM是相当可用的啊
其实他这个cpu相当于12个9700x 串起来了,所以功耗惊人,cpu硬跑LLM的瓶颈主要在内存带宽,弄个一样8通道但是少点core的thread ripper/epyc不会比他慢太多。

#9 Re: 其实用cpu硬跑满血LLM是相当可用的啊
HouseMD 写了: 2025年 8月 18日 23:09其实他这个cpu相当于12个9700x 串起来了,所以功耗惊人,cpu硬跑LLM的瓶颈主要在内存带宽,弄个一样8通道但是少点core的thread ripper/epyc不会比他慢太多。
对,关键是RAM的I/O throughput,这点我Apple silicon是消费级PC平台的4倍以上。记得以前AMD还有四通道内存控制器,现在桌面平台都是双通道了。
#10 Re: 其实用cpu硬跑满血LLM是相当可用的啊
oxo 写了: 2025年 8月 18日 23:36对,关键是RAM的I/O throughput,这点我Apple silicon是消费级PC平台的4倍以上。记得以前AMD还有四通道内存控制器,现在桌面平台都是双通道了。
苏妈ai 395 max 早就把你的apple打趴下了,1000多刀就128gb vram
单机+rocm跑出50% h100的水平,灰常牛x
#11 Re: 其实用cpu硬跑满血LLM是相当可用的啊
anesthetic 写了: 2025年 8月 19日 11:09苏妈ai 395 max 早就把你的apple打趴下了,1000多刀就128gb vram
单机+rocm跑出50% h100的水平,灰常牛x
我的apple?纯属typo,个人不喜欢抠门mac。酥麻这个还没上市,如果实际疗效好可以考虑。上面也说了,我更期待这类带AI unit的CPU出桌面版。
#12 Re: 其实用cpu硬跑满血LLM是相当可用的啊
oxo 写了: 2025年 8月 19日 12:04我的apple?纯属typo,个人不喜欢抠门mac。酥麻这个还没上市,如果实际疗效好可以考虑。上面也说了,我更期待这类带AI unit的CPU出桌面版。
你搞笑吧,3月就上市了,小林还专门做了评测
#13 Re: 其实用cpu硬跑满血LLM是相当可用的啊
搜了一下,有个测试:
https://forum.level1techs.com/t/strix-h ... lts/233796
第二张图是text generation。这个Shisa model的速度大概是4 T/S。
Shisa V2 70B i1-Q4_K_M Llama 3 70 70
我目前电脑hybrid mode跑Llama 3 70B Q4大概是2.x T/S。
大致两倍提升。我记得Apple silicon比我的电脑要快很多。这东西有潜力,目前还是等等看。
#14 Re: 其实用cpu硬跑满血LLM是相当可用的啊
落伍了吧,Ebay 上搞一个10年前的Xeon 双 CPU workstation,再加上500G以上的DDR4 内存,搞个魔改2080 22G GPU,就可以在家跑满血MOE LLM(DeepSeek 或 Kimi).关键是CPU core要足够多 (大于30个物理cores).
用清华学生们做的transformer (FastLLM 或 Ktransformers),满血Q4 Deepseek实测可以做到3-5TPS,超过个人阅读速度,你就拥有了一个属于自己的LLM.
全套装备~$2000。模型是满血671B的,效果刚刚的。
#15 Re: 其实用cpu硬跑满血LLM是相当可用的啊
RobotII 写了: 2025年 8月 19日 12:46落伍了吧,Ebay 上搞一个10年前的Xeon 双 CPU workstation,再加上500G以上的DDR4 内存,搞个魔改2080 22G GPU,就可以在家跑满血MOE LLM(DeepSeek 或 Kimi).关键是CPU core要足够多 (大于30个物理cores).
用清华学生们做的transformer (FastLLM 或 Ktransformers),满血Q4 Deepseek实测可以做到3-5TPS,超过个人阅读速度,你就拥有了一个属于自己的LLM.
全套装备~$2000。模型是满血671B的,效果刚刚的。
冬天跑,暖气都不用开了。
#17 Re: 其实用cpu硬跑满血LLM是相当可用的啊
RobotII 写了: 2025年 8月 19日 12:46落伍了吧,Ebay 上搞一个10年前的Xeon 双 CPU workstation,再加上500G以上的DDR4 内存,搞个魔改2080 22G GPU,就可以在家跑满血MOE LLM(DeepSeek 或 Kimi).关键是CPU core要足够多 (大于30个物理cores).
用清华学生们做的transformer (FastLLM 或 Ktransformers),满血Q4 Deepseek实测可以做到3-5TPS,超过个人阅读速度,你就拥有了一个属于自己的LLM.
全套装备~$2000。模型是满血671B的,效果刚刚的。
是个思路,就是折腾,一堆旧的/魔改部件,出了问题也麻烦。更重要的是这看似省钱性价比高,经常只是满足玩票内心需求,本质上是买了个玩具,享受折腾的乐趣
#20 Re: 其实用cpu硬跑满血LLM是相当可用的啊
RobotII 写了: 2025年 8月 19日 12:46落伍了吧,Ebay 上搞一个10年前的Xeon 双 CPU workstation,再加上500G以上的DDR4 内存,搞个魔改2080 22G GPU,就可以在家跑满血MOE LLM(DeepSeek 或 Kimi).关键是CPU core要足够多 (大于30个物理cores).
用清华学生们做的transformer (FastLLM 或 Ktransformers),满血Q4 Deepseek实测可以做到3-5TPS,超过个人阅读速度,你就拥有了一个属于自己的LLM.
全套装备~$2000。模型是满血671B的,效果刚刚的。
不需要这么麻烦,m3 pro魔改512gb更便宜还更快,还可以stack。