英伟大gpu这么牛逼，但是goog ai从来不用

GreatCanada · 帖子由 **GreatCanada楼主** » 2025年 8月 12日 22:31

属实

HouseMD

一定要用cuda的都是文科生转码的,因为他们都是看油管视频自学的。
别瞧不起文科生，现在他们是主要人群。

宇宙 · 帖子由宇宙 » 2025年 8月 13日 04:15

一直搞不清楚为什么会有人有cuda粘性
不就是一些矩阵相乘相加的计算吗
就连pytorch都有fpga的backend了。

GreatCanada 写了： 2025年 8月 12日 22:31属实

HouseMD

宇宙写了： 2025年 8月 13日 04:15 一直搞不清楚为什么会有人有cuda粘性
不就是一些矩阵相乘相加的计算吗
就连pytorch都有fpga的backend了。

要理解一下文科生。
文科生不爱看文档，就是爱跟着视频下载个打包好的script来跑。
让他们弄“set -x TRITON_USE_ROCM ON” 会让他们难受得不行

buyandhold

googl ai 就是gemini? 太差了。

mrmaja

宇宙写了： 2025年 8月 13日 04:15
一直搞不清楚为什么会有人有cuda粘性
不就是一些矩阵相乘相加的计算吗
就连pytorch都有fpga的backend了。

你的直觉没错：深度学习底层确实“只是大量的矩阵乘加（GEMM / Convolution）”，理论上 FPGA、CPU、GPU、甚至 ASIC 都能做。但“CUDA 粘性”并不是因为 GPU 算不出别的硬件算得出的东西，而是由生态、工具链、开发效率和软件兼容性导致的。

⸻

CUDA 粘性真正的来源
1. 成熟度和生态
  • NVIDIA 用十多年构建了 CUDA 的编译器、驱动、调试工具（Nsight）、数学库（cuBLAS / cuDNN / NCCL）以及分布式训练工具链。
  • PyTorch、TensorFlow 等主流框架默认优先优化 CUDA，大部分新算子、优化、模型 first-class support 都出现在 CUDA 上。
  • 当你只需要一行 model.cuda() 就能用上高性能硬件时，很少有人愿意重写底层内核。
2. 性能“开箱即用”
  • NVIDIA 的 GPU 驱动＋库封装了各种底层优化（memory coalescing、tensor core、kernel fusion）。
  • FPGA 虽然可以做得更快/更省电，但需要大量手工设计数据流、调度、RTL/高层综合，工程成本高，迭代慢。
  • GPU 资源可以云端按小时租，FPGA 资源则稀缺且配置成本高。
3. 软件栈标准化
  • 目前大部分深度学习科研成果、模型开源代码都天然假设 CUDA。
  • 即便 PyTorch 提供 FPGA/ROCm/oneAPI backend，但其社区模型、预训练权重和教程几乎全是 CUDA 优先。
  • CUDA 版本升级通常保持向后兼容，移植成本低。

⸻

那 FPGA、ASIC 不行吗？
• FPGA 的优势是灵活、低延迟、功耗低，但开发周期长；任何算子变动都要重新综合，调试成本高。
• ASIC（TPU 等）的优势是能做到极高的能效比，但缺乏通用性，且设计周期更长（1–2 年）。
• GPU 的优势是灵活、通用、随买随用，开发者只要写 PyTorch / TensorFlow 代码，不用考虑底层实现。

⸻

PyTorch 的 FPGA backend 现状
• PyTorch 确实提供过 FPGA/自定义硬件 backend 的接口（通过 XLA、Glow 或第三方插件），但生态非常小：
• 社区模型没有 ready-to-run 的 bitstream；
• 优化工具链不完善，硬件编译（HLS/RTL）耗时长；
• 调试不方便，缺乏类似 Nsight 的完整工具。
• 对比之下，CUDA 只要装驱动、pip 安装 PyTorch，然后直接跑就能达到高性能。

⸻

直观总结
• 是的，数学上只是矩阵乘加；
• 但工程上，CUDA 是“零门槛＋高性能”的标准方案，FPGA/ASIC 是“更优，但更贵/更麻烦”的方案。
• CUDA 粘性 ≈ 软件生态粘性，而非硬件能力粘性。

⸻

宇宙 · 帖子由宇宙 » 2025年 8月 15日 12:55

感谢你的这种无脑粘贴llm输出的行为
很好的解释了我的疑惑
不是内容你贴的内容毫无价值
是你的行为

mrmaja 写了： 2025年 8月 15日 12:05
你的直觉没错：深度学习底层确实“只是大量的矩阵乘加（GEMM / Convolution）”，理论上 FPGA、CPU、GPU、甚至 ASIC 都能做。但“CUDA 粘性”并不是因为 GPU 算不出别的硬件算得出的东西，而是由生态、工具链、开发效率和软件兼容性导致的。

⸻

CUDA 粘性真正的来源
成熟度和生态
• NVIDIA 用十多年构建了 CUDA 的编译器、驱动、调试工具（Nsight）、数学库（cuBLAS / cuDNN / NCCL）以及分布式训练工具链。
• PyTorch、TensorFlow 等主流框架默认优先优化 CUDA，大部分新算子、优化、模型 first-class support 都出现在 CUDA 上。
• 当你只需要一行 model.cuda() 就能用上高性能硬件时，很少有人愿意重写底层内核。

性能“开箱即用”
• NVIDIA 的 GPU 驱动＋库封装了各种底层优化（memory coalescing、tensor core、kernel fusion）。
• FPGA 虽然可以做得更快/更省电，但需要大量手工设计数据流、调度、RTL/高层综合，工程成本高，迭代慢。
• GPU 资源可以云端按小时租，FPGA 资源则稀缺且配置成本高。

软件栈标准化
• 目前大部分深度学习科研成果、模型开源代码都天然假设 CUDA。
• 即便 PyTorch 提供 FPGA/ROCm/oneAPI backend，但其社区模型、预训练权重和教程几乎全是 CUDA 优先。
• CUDA 版本升级通常保持向后兼容，移植成本低。

⸻

那 FPGA、ASIC 不行吗？
• FPGA 的优势是灵活、低延迟、功耗低，但开发周期长；任何算子变动都要重新综合，调试成本高。
• ASIC（TPU 等）的优势是能做到极高的能效比，但缺乏通用性，且设计周期更长（1–2 年）。
• GPU 的优势是灵活、通用、随买随用，开发者只要写 PyTorch / TensorFlow 代码，不用考虑底层实现。

⸻

PyTorch 的 FPGA backend 现状
• PyTorch 确实提供过 FPGA/自定义硬件 backend 的接口（通过 XLA、Glow 或第三方插件），但生态非常小：
• 社区模型没有 ready-to-run 的 bitstream；
• 优化工具链不完善，硬件编译（HLS/RTL）耗时长；
• 调试不方便，缺乏类似 Nsight 的完整工具。
• 对比之下，CUDA 只要装驱动、pip 安装 PyTorch，然后直接跑就能达到高性能。

⸻

直观总结
• 是的，数学上只是矩阵乘加；
• 但工程上，CUDA 是“零门槛＋高性能”的标准方案，FPGA/ASIC 是“更优，但更贵/更麻烦”的方案。
• CUDA 粘性 ≈ 软件生态粘性，而非硬件能力粘性。

⸻

赖美豪中

你没说到点子上，cuda一开始其实挺烂的，10多年前我就写cuda，那时候市面上cuda的书都不多，大家都看女大自己的教程。cuda一通江山主要是通过当年academic program. 老黄比较大方，只要你说你有项目能用cuda跑，老黄都给你发一台server，就是现在h100, b200这种档次的。当年和cuda竞争的只有一个mpi+openmp，后面就形成了很大的cuda社区，女大有专门的团队解决痛点。十多年前谁会有心思把blas, lapack重新实现一遍，但是女大就干了

mrmaja 写了： 2025年 8月 15日 12:05
你的直觉没错：深度学习底层确实“只是大量的矩阵乘加（GEMM / Convolution）”，理论上 FPGA、CPU、GPU、甚至 ASIC 都能做。但“CUDA 粘性”并不是因为 GPU 算不出别的硬件算得出的东西，而是由生态、工具链、开发效率和软件兼容性导致的。

⸻

CUDA 粘性真正的来源
成熟度和生态
• NVIDIA 用十多年构建了 CUDA 的编译器、驱动、调试工具（Nsight）、数学库（cuBLAS / cuDNN / NCCL）以及分布式训练工具链。
• PyTorch、TensorFlow 等主流框架默认优先优化 CUDA，大部分新算子、优化、模型 first-class support 都出现在 CUDA 上。
• 当你只需要一行 model.cuda() 就能用上高性能硬件时，很少有人愿意重写底层内核。

性能“开箱即用”
• NVIDIA 的 GPU 驱动＋库封装了各种底层优化（memory coalescing、tensor core、kernel fusion）。
• FPGA 虽然可以做得更快/更省电，但需要大量手工设计数据流、调度、RTL/高层综合，工程成本高，迭代慢。
• GPU 资源可以云端按小时租，FPGA 资源则稀缺且配置成本高。

软件栈标准化
• 目前大部分深度学习科研成果、模型开源代码都天然假设 CUDA。
• 即便 PyTorch 提供 FPGA/ROCm/oneAPI backend，但其社区模型、预训练权重和教程几乎全是 CUDA 优先。
• CUDA 版本升级通常保持向后兼容，移植成本低。

⸻

那 FPGA、ASIC 不行吗？
• FPGA 的优势是灵活、低延迟、功耗低，但开发周期长；任何算子变动都要重新综合，调试成本高。
• ASIC（TPU 等）的优势是能做到极高的能效比，但缺乏通用性，且设计周期更长（1–2 年）。
• GPU 的优势是灵活、通用、随买随用，开发者只要写 PyTorch / TensorFlow 代码，不用考虑底层实现。

⸻

PyTorch 的 FPGA backend 现状
• PyTorch 确实提供过 FPGA/自定义硬件 backend 的接口（通过 XLA、Glow 或第三方插件），但生态非常小：
• 社区模型没有 ready-to-run 的 bitstream；
• 优化工具链不完善，硬件编译（HLS/RTL）耗时长；
• 调试不方便，缺乏类似 Nsight 的完整工具。
• 对比之下，CUDA 只要装驱动、pip 安装 PyTorch，然后直接跑就能达到高性能。

⸻

直观总结
• 是的，数学上只是矩阵乘加；
• 但工程上，CUDA 是“零门槛＋高性能”的标准方案，FPGA/ASIC 是“更优，但更贵/更麻烦”的方案。
• CUDA 粘性 ≈ 软件生态粘性，而非硬件能力粘性。

⸻

CNM01 · 帖子由 **CNM01** » 2025年 8月 15日 13:07

不用英伟大gpu的多了去了，苹果也不用，将来特斯拉可能也不用

fantasist · 帖子由 **fantasist** » 2025年 8月 15日 13:15

CNM01 写了： 2025年 8月 15日 13:07
不用英伟大gpu的多了去了，苹果也不用，将来特斯拉可能也不用

苹果跟nvda有仇，不肯买卡，高调宣传的AI产品已成业界笑柄。llama4的败退还可以说公司管理不善导致惜贩，苹果是决策层纯傻逼。
你没跟上新闻啊，特斯拉dojo团队已凉凉，车机不好说，但超算中心肯定是用不上自己的芯片了。

CNM01 · 帖子由 **CNM01** » 2025年 8月 15日 13:26

fantasist 写了： 2025年 8月 15日 13:15
苹果跟nvda有仇，不肯买卡，高调宣传的AI产品已成业界笑柄。llama4的败退还可以说公司管理不善导致惜贩，苹果是决策层纯傻逼。
你没跟上新闻啊，特斯拉dojo团队已凉凉，车机不好说，但超算中心肯定是用不上自己的芯片了。

我不觉的苹果有你说得这么不堪，人的M4芯片集成了NPU，苹果的unified memory等等，都是未来硬件的发展方向。至于特斯拉DOJO是凉了，但还有AI6

fantasist · 帖子由 **fantasist** » 2025年 8月 15日 13:30

CNM01 写了： 2025年 8月 15日 13:26
我不觉的苹果有你说得这么不堪，人的M4芯片集成了NPU，苹果的unified memory等等，都是未来硬件的发展方向。只于特斯拉DOJO是凉了，但还又AI6

只谈超算中心的GPU。苹果的M系列好用但都是个人设备，离能在服务器端提供生产力差了十万八千里。AI6号称28-29年上，你知道公司plan好几年后launch的东西，基本就是不会实现的low priority / stretch goal么。以马教主的尿性，这团队能活到明年就不错了。

magagop · 帖子由 **magagop** » 2025年 8月 15日 14:05

赖美豪中写了： 2025年 8月 15日 13:06
你没说到点子上，cuda一开始其实挺烂的，10多年前我就写cuda，那时候市面上cuda的书都不多，大家都看女大自己的教程。cuda一通江山主要是通过当年academic program. 老黄比较大方，只要你说你有项目能用cuda跑，老黄都给你发一台server，就是现在h100, b200这种档次的。当年和cuda竞争的只有一个mpi+openmp，后面就形成了很大的cuda社区，女大有专门的团队解决痛点。十多年前谁会有心思把blas, lapack重新实现一遍，但是女大就干了

主要競爭對手不是MPI，是OpenCL

赖美豪中

大哥opencl根本没有任何用户好么。

magagop 写了： 2025年 8月 15日 14:05
主要競爭對手不是MPI，是OpenCL

magagop · 帖子由 **magagop** » 2025年 8月 15日 15:21

赖美豪中写了： 2025年 8月 15日 14:58
大哥opencl根本没有任何用户好么。

2010年以前OpenCL還是全村的希望。

赖美豪中

那是你们amd粉的希望，从来没有任何正经用户把opencl当回事

magagop 写了： 2025年 8月 15日 15:21
2010年以前OpenCL還是全村的希望。

magagop · 帖子由 **magagop** » 2025年 8月 15日 15:24

赖美豪中写了： 2025年 8月 15日 15:23
那是你们amd粉的希望，从来没有任何正经用户把opencl当回事

現在Intel的oneAPI還是基於OpenCL的，你不知道嗎？2010年前，Intel買下Nvidia不成問題。

GreatCanada · 帖子由 **GreatCanada楼主** » 2025年 8月 15日 15:28

magagop 写了： 2025年 8月 15日 15:24
現在Intel的oneAPI還是基於OpenCL的，你不知道嗎？2010年前，Intel買下Nvidia不成問題。

现在NV买的下intc 吗

赖美豪中

自信一点，出钱的主要是amd, intel根本看不上opencl，intel的牛b产品多了，但是在fab军头那里都是垃圾。

magagop 写了： 2025年 8月 15日 15:24
現在Intel的oneAPI還是基於OpenCL的，你不知道嗎？2010年前，Intel買下Nvidia不成問題。

GreatCanada · 帖子由 **GreatCanada楼主** » 2025年 8月 15日 15:37

赖美豪中写了： 2025年 8月 15日 15:31
自信一点，出钱的主要是amd, intel根本看不上opencl，intel的牛b产品多了，但是在fab军头那里都是垃圾。

AMD的rocm知道不

新未名空间

英伟大gpu这么牛逼，但是goog ai从来不用

#1 英伟大gpu这么牛逼，但是goog ai从来不用

#2 Re: 英伟大gpu这么牛逼，但是goog ai从来不用

#3 Re: 英伟大gpu这么牛逼，但是goog ai从来不用

#4 Re: 英伟大gpu这么牛逼，但是goog ai从来不用

#5 Re: 英伟大gpu这么牛逼，但是goog ai从来不用

#6 Re: 英伟大gpu这么牛逼，但是goog ai从来不用

#7 Re: 英伟大gpu这么牛逼，但是goog ai从来不用

#8 Re: 英伟大gpu这么牛逼，但是goog ai从来不用

#9 Re: 英伟大gpu这么牛逼，但是goog ai从来不用

#10 Re: 英伟大gpu这么牛逼，但是goog ai从来不用

#11 Re: 英伟大gpu这么牛逼，但是goog ai从来不用

#12 Re: 英伟大gpu这么牛逼，但是goog ai从来不用

#13 Re: 英伟大gpu这么牛逼，但是goog ai从来不用

#14 Re: 英伟大gpu这么牛逼，但是goog ai从来不用

#15 Re: 英伟大gpu这么牛逼，但是goog ai从来不用

#16 Re: 英伟大gpu这么牛逼，但是goog ai从来不用

#17 Re: 英伟大gpu这么牛逼，但是goog ai从来不用

#18 Re: 英伟大gpu这么牛逼，但是goog ai从来不用

#19 Re: 英伟大gpu这么牛逼，但是goog ai从来不用

#20 Re: 英伟大gpu这么牛逼，但是goog ai从来不用