英伟大gpu这么牛逼,但是goog ai从来不用
版主: Jack12345
#4 Re: 英伟大gpu这么牛逼,但是goog ai从来不用
要理解一下文科生。
文科生不爱看文档,就是爱跟着视频下载个打包好的script来跑。
让他们弄“set -x TRITON_USE_ROCM ON” 会让他们难受得不行

#6 Re: 英伟大gpu这么牛逼,但是goog ai从来不用
你的直觉没错:深度学习底层确实“只是大量的矩阵乘加(GEMM / Convolution)”,理论上 FPGA、CPU、GPU、甚至 ASIC 都能做。但“CUDA 粘性”并不是因为 GPU 算不出别的硬件算得出的东西,而是由生态、工具链、开发效率和软件兼容性导致的。
⸻
- CUDA 粘性真正的来源
- 成熟度和生态
• NVIDIA 用十多年构建了 CUDA 的编译器、驱动、调试工具(Nsight)、数学库(cuBLAS / cuDNN / NCCL)以及分布式训练工具链。
• PyTorch、TensorFlow 等主流框架默认优先优化 CUDA,大部分新算子、优化、模型 first-class support 都出现在 CUDA 上。
• 当你只需要一行 model.cuda() 就能用上高性能硬件时,很少有人愿意重写底层内核。 - 性能“开箱即用”
• NVIDIA 的 GPU 驱动+库封装了各种底层优化(memory coalescing、tensor core、kernel fusion)。
• FPGA 虽然可以做得更快/更省电,但需要大量手工设计数据流、调度、RTL/高层综合,工程成本高,迭代慢。
• GPU 资源可以云端按小时租,FPGA 资源则稀缺且配置成本高。 - 软件栈标准化
• 目前大部分深度学习科研成果、模型开源代码都天然假设 CUDA。
• 即便 PyTorch 提供 FPGA/ROCm/oneAPI backend,但其社区模型、预训练权重和教程几乎全是 CUDA 优先。
• CUDA 版本升级通常保持向后兼容,移植成本低。
- 成熟度和生态
⸻
- 那 FPGA、ASIC 不行吗?
• FPGA 的优势是灵活、低延迟、功耗低,但开发周期长;任何算子变动都要重新综合,调试成本高。
• ASIC(TPU 等) 的优势是能做到极高的能效比,但缺乏通用性,且设计周期更长(1–2 年)。
• GPU 的优势是灵活、通用、随买随用,开发者只要写 PyTorch / TensorFlow 代码,不用考虑底层实现。
⸻
- PyTorch 的 FPGA backend 现状
• PyTorch 确实提供过 FPGA/自定义硬件 backend 的接口(通过 XLA、Glow 或第三方插件),但生态非常小:
• 社区模型没有 ready-to-run 的 bitstream;
• 优化工具链不完善,硬件编译(HLS/RTL)耗时长;
• 调试不方便,缺乏类似 Nsight 的完整工具。
• 对比之下,CUDA 只要装驱动、pip 安装 PyTorch,然后直接跑就能达到高性能。
⸻
- 直观总结
• 是的,数学上只是矩阵乘加;
• 但工程上,CUDA 是“零门槛+高性能”的标准方案,FPGA/ASIC 是“更优,但更贵/更麻烦”的方案。
• CUDA 粘性 ≈ 软件生态粘性,而非硬件能力粘性。
⸻
#7 Re: 英伟大gpu这么牛逼,但是goog ai从来不用
感谢你的这种无脑粘贴llm输出的行为
很好的解释了我的疑惑
不是内容 你贴的内容毫无价值
是你的行为
mrmaja 写了: 2025年 8月 15日 12:05你的直觉没错:深度学习底层确实“只是大量的矩阵乘加(GEMM / Convolution)”,理论上 FPGA、CPU、GPU、甚至 ASIC 都能做。但“CUDA 粘性”并不是因为 GPU 算不出别的硬件算得出的东西,而是由生态、工具链、开发效率和软件兼容性导致的。
⸻
- CUDA 粘性真正的来源
- 成熟度和生态
• NVIDIA 用十多年构建了 CUDA 的编译器、驱动、调试工具(Nsight)、数学库(cuBLAS / cuDNN / NCCL)以及分布式训练工具链。
• PyTorch、TensorFlow 等主流框架默认优先优化 CUDA,大部分新算子、优化、模型 first-class support 都出现在 CUDA 上。
• 当你只需要一行 model.cuda() 就能用上高性能硬件时,很少有人愿意重写底层内核。- 性能“开箱即用”
• NVIDIA 的 GPU 驱动+库封装了各种底层优化(memory coalescing、tensor core、kernel fusion)。
• FPGA 虽然可以做得更快/更省电,但需要大量手工设计数据流、调度、RTL/高层综合,工程成本高,迭代慢。
• GPU 资源可以云端按小时租,FPGA 资源则稀缺且配置成本高。- 软件栈标准化
• 目前大部分深度学习科研成果、模型开源代码都天然假设 CUDA。
• 即便 PyTorch 提供 FPGA/ROCm/oneAPI backend,但其社区模型、预训练权重和教程几乎全是 CUDA 优先。
• CUDA 版本升级通常保持向后兼容,移植成本低。⸻
- 那 FPGA、ASIC 不行吗?
• FPGA 的优势是灵活、低延迟、功耗低,但开发周期长;任何算子变动都要重新综合,调试成本高。
• ASIC(TPU 等) 的优势是能做到极高的能效比,但缺乏通用性,且设计周期更长(1–2 年)。
• GPU 的优势是灵活、通用、随买随用,开发者只要写 PyTorch / TensorFlow 代码,不用考虑底层实现。⸻
- PyTorch 的 FPGA backend 现状
• PyTorch 确实提供过 FPGA/自定义硬件 backend 的接口(通过 XLA、Glow 或第三方插件),但生态非常小:
• 社区模型没有 ready-to-run 的 bitstream;
• 优化工具链不完善,硬件编译(HLS/RTL)耗时长;
• 调试不方便,缺乏类似 Nsight 的完整工具。
• 对比之下,CUDA 只要装驱动、pip 安装 PyTorch,然后直接跑就能达到高性能。⸻
- 直观总结
• 是的,数学上只是矩阵乘加;
• 但工程上,CUDA 是“零门槛+高性能”的标准方案,FPGA/ASIC 是“更优,但更贵/更麻烦”的方案。
• CUDA 粘性 ≈ 软件生态粘性,而非硬件能力粘性。⸻
#8 Re: 英伟大gpu这么牛逼,但是goog ai从来不用
你没说到点子上,cuda一开始其实挺烂的,10多年前我就写cuda,那时候市面上cuda的书都不多,大家都看女大自己的教程。cuda一通江山主要是通过当年academic program. 老黄比较大方,只要你说你有项目能用cuda跑,老黄都给你发一台server,就是现在h100, b200这种档次的。当年和cuda竞争的只有一个mpi+openmp,后面就形成了很大的cuda社区,女大有专门的团队解决痛点。十多年前谁会有心思把blas, lapack重新实现一遍,但是女大就干了
mrmaja 写了: 2025年 8月 15日 12:05你的直觉没错:深度学习底层确实“只是大量的矩阵乘加(GEMM / Convolution)”,理论上 FPGA、CPU、GPU、甚至 ASIC 都能做。但“CUDA 粘性”并不是因为 GPU 算不出别的硬件算得出的东西,而是由生态、工具链、开发效率和软件兼容性导致的。
⸻
- CUDA 粘性真正的来源
- 成熟度和生态
• NVIDIA 用十多年构建了 CUDA 的编译器、驱动、调试工具(Nsight)、数学库(cuBLAS / cuDNN / NCCL)以及分布式训练工具链。
• PyTorch、TensorFlow 等主流框架默认优先优化 CUDA,大部分新算子、优化、模型 first-class support 都出现在 CUDA 上。
• 当你只需要一行 model.cuda() 就能用上高性能硬件时,很少有人愿意重写底层内核。- 性能“开箱即用”
• NVIDIA 的 GPU 驱动+库封装了各种底层优化(memory coalescing、tensor core、kernel fusion)。
• FPGA 虽然可以做得更快/更省电,但需要大量手工设计数据流、调度、RTL/高层综合,工程成本高,迭代慢。
• GPU 资源可以云端按小时租,FPGA 资源则稀缺且配置成本高。- 软件栈标准化
• 目前大部分深度学习科研成果、模型开源代码都天然假设 CUDA。
• 即便 PyTorch 提供 FPGA/ROCm/oneAPI backend,但其社区模型、预训练权重和教程几乎全是 CUDA 优先。
• CUDA 版本升级通常保持向后兼容,移植成本低。⸻
- 那 FPGA、ASIC 不行吗?
• FPGA 的优势是灵活、低延迟、功耗低,但开发周期长;任何算子变动都要重新综合,调试成本高。
• ASIC(TPU 等) 的优势是能做到极高的能效比,但缺乏通用性,且设计周期更长(1–2 年)。
• GPU 的优势是灵活、通用、随买随用,开发者只要写 PyTorch / TensorFlow 代码,不用考虑底层实现。⸻
- PyTorch 的 FPGA backend 现状
• PyTorch 确实提供过 FPGA/自定义硬件 backend 的接口(通过 XLA、Glow 或第三方插件),但生态非常小:
• 社区模型没有 ready-to-run 的 bitstream;
• 优化工具链不完善,硬件编译(HLS/RTL)耗时长;
• 调试不方便,缺乏类似 Nsight 的完整工具。
• 对比之下,CUDA 只要装驱动、pip 安装 PyTorch,然后直接跑就能达到高性能。⸻
- 直观总结
• 是的,数学上只是矩阵乘加;
• 但工程上,CUDA 是“零门槛+高性能”的标准方案,FPGA/ASIC 是“更优,但更贵/更麻烦”的方案。
• CUDA 粘性 ≈ 软件生态粘性,而非硬件能力粘性。⸻
#10 Re: 英伟大gpu这么牛逼,但是goog ai从来不用
苹果跟nvda有仇,不肯买卡,高调宣传的AI产品已成业界笑柄。llama4的败退还可以说公司管理不善导致惜贩,苹果是决策层纯傻逼。
你没跟上新闻啊,特斯拉dojo团队已凉凉,车机不好说,但超算中心肯定是用不上自己的芯片了。
#11 Re: 英伟大gpu这么牛逼,但是goog ai从来不用
fantasist 写了: 2025年 8月 15日 13:15苹果跟nvda有仇,不肯买卡,高调宣传的AI产品已成业界笑柄。llama4的败退还可以说公司管理不善导致惜贩,苹果是决策层纯傻逼。
你没跟上新闻啊,特斯拉dojo团队已凉凉,车机不好说,但超算中心肯定是用不上自己的芯片了。
我不觉的苹果有你说得这么不堪,人的M4芯片集成了NPU,苹果的unified memory等等,都是未来硬件的发展方向。至于特斯拉DOJO是凉了,但还有AI6
#12 Re: 英伟大gpu这么牛逼,但是goog ai从来不用
CNM01 写了: 2025年 8月 15日 13:26我不觉的苹果有你说得这么不堪,人的M4芯片集成了NPU,苹果的unified memory等等,都是未来硬件的发展方向。只于特斯拉DOJO是凉了,但还又AI6
只谈超算中心的GPU。苹果的M系列好用但都是个人设备,离能在服务器端提供生产力差了十万八千里。AI6号称28-29年上,你知道公司plan好几年后launch的东西,基本就是不会实现的low priority / stretch goal么。以马教主的尿性,这团队能活到明年就不错了。
#13 Re: 英伟大gpu这么牛逼,但是goog ai从来不用
赖美豪中 写了: 2025年 8月 15日 13:06你没说到点子上,cuda一开始其实挺烂的,10多年前我就写cuda,那时候市面上cuda的书都不多,大家都看女大自己的教程。cuda一通江山主要是通过当年academic program. 老黄比较大方,只要你说你有项目能用cuda跑,老黄都给你发一台server,就是现在h100, b200这种档次的。当年和cuda竞争的只有一个mpi+openmp,后面就形成了很大的cuda社区,女大有专门的团队解决痛点。十多年前谁会有心思把blas, lapack重新实现一遍,但是女大就干了
主要競爭對手不是MPI,是OpenCL
#14 Re: 英伟大gpu这么牛逼,但是goog ai从来不用
大哥opencl根本没有任何用户好么。
#16 Re: 英伟大gpu这么牛逼,但是goog ai从来不用
那是你们amd粉的希望,从来没有任何正经用户把opencl当回事
#19 Re: 英伟大gpu这么牛逼,但是goog ai从来不用
自信一点,出钱的主要是amd, intel根本看不上opencl,intel的牛b产品多了,但是在fab军头那里都是垃圾。