英伟大gpu这么牛逼,但是goog ai从来不用

电脑,手机,硬件,软件,电子产品等

版主: Jack12345

GreatCanada楼主
论坛元老
论坛元老
帖子互动: 652
帖子: 38109
注册时间: 2022年 7月 25日 23:54

#1 英伟大gpu这么牛逼,但是goog ai从来不用

帖子 GreatCanada楼主 »

属实
最后一粒米,拿去充军粮;最后一块布,拿去做军装;最后一美刀, 拿去买dip
头像
HouseMD(黄皮川黑)
著名点评
著名点评
帖子互动: 635
帖子: 4438
注册时间: 2022年 7月 28日 14:44

#2 Re: 英伟大gpu这么牛逼,但是goog ai从来不用

帖子 HouseMD(黄皮川黑) »

一定要用cuda的都是文科生转码的,因为他们都是看油管视频自学的。
别瞧不起文科生,现在他们是主要人群。
图片
宇宙
职业作家
职业作家
帖子互动: 110
帖子: 596
注册时间: 2025年 2月 26日 07:12

#3 Re: 英伟大gpu这么牛逼,但是goog ai从来不用

帖子 宇宙 »

一直搞不清楚为什么会有人有cuda粘性
不就是一些矩阵相乘相加的计算吗
就连pytorch都有fpga的backend了。
GreatCanada 写了: 2025年 8月 12日 22:31属实
头像
HouseMD(黄皮川黑)
著名点评
著名点评
帖子互动: 635
帖子: 4438
注册时间: 2022年 7月 28日 14:44

#4 Re: 英伟大gpu这么牛逼,但是goog ai从来不用

帖子 HouseMD(黄皮川黑) »

宇宙 写了: 2025年 8月 13日 04:15 一直搞不清楚为什么会有人有cuda粘性
不就是一些矩阵相乘相加的计算吗
就连pytorch都有fpga的backend了。
要理解一下文科生。
文科生不爱看文档,就是爱跟着视频下载个打包好的script来跑。
让他们弄“set -x TRITON_USE_ROCM ON” 会让他们难受得不行
图片
buyandhold(离岸爱国者)
论坛点评
论坛点评
帖子互动: 162
帖子: 2860
注册时间: 2022年 12月 31日 11:41

#5 Re: 英伟大gpu这么牛逼,但是goog ai从来不用

帖子 buyandhold(离岸爱国者) »

googl ai 就是gemini? 太差了。
头像
mrmaja(Tacoma)
见习点评
见习点评
帖子互动: 148
帖子: 1286
注册时间: 2022年 7月 30日 12:25

#6 Re: 英伟大gpu这么牛逼,但是goog ai从来不用

帖子 mrmaja(Tacoma) »

宇宙 写了: 2025年 8月 13日 04:15

一直搞不清楚为什么会有人有cuda粘性
不就是一些矩阵相乘相加的计算吗
就连pytorch都有fpga的backend了。

你的直觉没错:深度学习底层确实“只是大量的矩阵乘加(GEMM / Convolution)”,理论上 FPGA、CPU、GPU、甚至 ASIC 都能做。但“CUDA 粘性”并不是因为 GPU 算不出别的硬件算得出的东西,而是由生态、工具链、开发效率和软件兼容性导致的。

  1. CUDA 粘性真正的来源
    1. 成熟度和生态
      • NVIDIA 用十多年构建了 CUDA 的编译器、驱动、调试工具(Nsight)、数学库(cuBLAS / cuDNN / NCCL)以及分布式训练工具链。
      • PyTorch、TensorFlow 等主流框架默认优先优化 CUDA,大部分新算子、优化、模型 first-class support 都出现在 CUDA 上。
      • 当你只需要一行 model.cuda() 就能用上高性能硬件时,很少有人愿意重写底层内核。
    2. 性能“开箱即用”
      • NVIDIA 的 GPU 驱动+库封装了各种底层优化(memory coalescing、tensor core、kernel fusion)。
      • FPGA 虽然可以做得更快/更省电,但需要大量手工设计数据流、调度、RTL/高层综合,工程成本高,迭代慢。
      • GPU 资源可以云端按小时租,FPGA 资源则稀缺且配置成本高。
    3. 软件栈标准化
      • 目前大部分深度学习科研成果、模型开源代码都天然假设 CUDA。
      • 即便 PyTorch 提供 FPGA/ROCm/oneAPI backend,但其社区模型、预训练权重和教程几乎全是 CUDA 优先。
      • CUDA 版本升级通常保持向后兼容,移植成本低。

  1. 那 FPGA、ASIC 不行吗?
    • FPGA 的优势是灵活、低延迟、功耗低,但开发周期长;任何算子变动都要重新综合,调试成本高。
    • ASIC(TPU 等) 的优势是能做到极高的能效比,但缺乏通用性,且设计周期更长(1–2 年)。
    • GPU 的优势是灵活、通用、随买随用,开发者只要写 PyTorch / TensorFlow 代码,不用考虑底层实现。

  1. PyTorch 的 FPGA backend 现状
    • PyTorch 确实提供过 FPGA/自定义硬件 backend 的接口(通过 XLA、Glow 或第三方插件),但生态非常小:
    • 社区模型没有 ready-to-run 的 bitstream;
    • 优化工具链不完善,硬件编译(HLS/RTL)耗时长;
    • 调试不方便,缺乏类似 Nsight 的完整工具。
    • 对比之下,CUDA 只要装驱动、pip 安装 PyTorch,然后直接跑就能达到高性能。

  1. 直观总结
    • 是的,数学上只是矩阵乘加;
    • 但工程上,CUDA 是“零门槛+高性能”的标准方案,FPGA/ASIC 是“更优,但更贵/更麻烦”的方案。
    • CUDA 粘性 ≈ 软件生态粘性,而非硬件能力粘性。

宇宙
职业作家
职业作家
帖子互动: 110
帖子: 596
注册时间: 2025年 2月 26日 07:12

#7 Re: 英伟大gpu这么牛逼,但是goog ai从来不用

帖子 宇宙 »

感谢你的这种无脑粘贴llm输出的行为
很好的解释了我的疑惑
不是内容 你贴的内容毫无价值
是你的行为

mrmaja 写了: 2025年 8月 15日 12:05

你的直觉没错:深度学习底层确实“只是大量的矩阵乘加(GEMM / Convolution)”,理论上 FPGA、CPU、GPU、甚至 ASIC 都能做。但“CUDA 粘性”并不是因为 GPU 算不出别的硬件算得出的东西,而是由生态、工具链、开发效率和软件兼容性导致的。

  1. CUDA 粘性真正的来源
    1. 成熟度和生态
      • NVIDIA 用十多年构建了 CUDA 的编译器、驱动、调试工具(Nsight)、数学库(cuBLAS / cuDNN / NCCL)以及分布式训练工具链。
      • PyTorch、TensorFlow 等主流框架默认优先优化 CUDA,大部分新算子、优化、模型 first-class support 都出现在 CUDA 上。
      • 当你只需要一行 model.cuda() 就能用上高性能硬件时,很少有人愿意重写底层内核。
    2. 性能“开箱即用”
      • NVIDIA 的 GPU 驱动+库封装了各种底层优化(memory coalescing、tensor core、kernel fusion)。
      • FPGA 虽然可以做得更快/更省电,但需要大量手工设计数据流、调度、RTL/高层综合,工程成本高,迭代慢。
      • GPU 资源可以云端按小时租,FPGA 资源则稀缺且配置成本高。
    3. 软件栈标准化
      • 目前大部分深度学习科研成果、模型开源代码都天然假设 CUDA。
      • 即便 PyTorch 提供 FPGA/ROCm/oneAPI backend,但其社区模型、预训练权重和教程几乎全是 CUDA 优先。
      • CUDA 版本升级通常保持向后兼容,移植成本低。

  1. 那 FPGA、ASIC 不行吗?
    • FPGA 的优势是灵活、低延迟、功耗低,但开发周期长;任何算子变动都要重新综合,调试成本高。
    • ASIC(TPU 等) 的优势是能做到极高的能效比,但缺乏通用性,且设计周期更长(1–2 年)。
    • GPU 的优势是灵活、通用、随买随用,开发者只要写 PyTorch / TensorFlow 代码,不用考虑底层实现。

  1. PyTorch 的 FPGA backend 现状
    • PyTorch 确实提供过 FPGA/自定义硬件 backend 的接口(通过 XLA、Glow 或第三方插件),但生态非常小:
    • 社区模型没有 ready-to-run 的 bitstream;
    • 优化工具链不完善,硬件编译(HLS/RTL)耗时长;
    • 调试不方便,缺乏类似 Nsight 的完整工具。
    • 对比之下,CUDA 只要装驱动、pip 安装 PyTorch,然后直接跑就能达到高性能。

  1. 直观总结
    • 是的,数学上只是矩阵乘加;
    • 但工程上,CUDA 是“零门槛+高性能”的标准方案,FPGA/ASIC 是“更优,但更贵/更麻烦”的方案。
    • CUDA 粘性 ≈ 软件生态粘性,而非硬件能力粘性。

赖美豪中(my pronouns: ha/ha)
论坛元老
论坛元老
2023年度优秀版主
帖子互动: 3964
帖子: 43794
注册时间: 2022年 9月 6日 12:50

#8 Re: 英伟大gpu这么牛逼,但是goog ai从来不用

帖子 赖美豪中(my pronouns: ha/ha) »

你没说到点子上,cuda一开始其实挺烂的,10多年前我就写cuda,那时候市面上cuda的书都不多,大家都看女大自己的教程。cuda一通江山主要是通过当年academic program. 老黄比较大方,只要你说你有项目能用cuda跑,老黄都给你发一台server,就是现在h100, b200这种档次的。当年和cuda竞争的只有一个mpi+openmp,后面就形成了很大的cuda社区,女大有专门的团队解决痛点。十多年前谁会有心思把blas, lapack重新实现一遍,但是女大就干了

mrmaja 写了: 2025年 8月 15日 12:05

你的直觉没错:深度学习底层确实“只是大量的矩阵乘加(GEMM / Convolution)”,理论上 FPGA、CPU、GPU、甚至 ASIC 都能做。但“CUDA 粘性”并不是因为 GPU 算不出别的硬件算得出的东西,而是由生态、工具链、开发效率和软件兼容性导致的。

  1. CUDA 粘性真正的来源
    1. 成熟度和生态
      • NVIDIA 用十多年构建了 CUDA 的编译器、驱动、调试工具(Nsight)、数学库(cuBLAS / cuDNN / NCCL)以及分布式训练工具链。
      • PyTorch、TensorFlow 等主流框架默认优先优化 CUDA,大部分新算子、优化、模型 first-class support 都出现在 CUDA 上。
      • 当你只需要一行 model.cuda() 就能用上高性能硬件时,很少有人愿意重写底层内核。
    2. 性能“开箱即用”
      • NVIDIA 的 GPU 驱动+库封装了各种底层优化(memory coalescing、tensor core、kernel fusion)。
      • FPGA 虽然可以做得更快/更省电,但需要大量手工设计数据流、调度、RTL/高层综合,工程成本高,迭代慢。
      • GPU 资源可以云端按小时租,FPGA 资源则稀缺且配置成本高。
    3. 软件栈标准化
      • 目前大部分深度学习科研成果、模型开源代码都天然假设 CUDA。
      • 即便 PyTorch 提供 FPGA/ROCm/oneAPI backend,但其社区模型、预训练权重和教程几乎全是 CUDA 优先。
      • CUDA 版本升级通常保持向后兼容,移植成本低。

  1. 那 FPGA、ASIC 不行吗?
    • FPGA 的优势是灵活、低延迟、功耗低,但开发周期长;任何算子变动都要重新综合,调试成本高。
    • ASIC(TPU 等) 的优势是能做到极高的能效比,但缺乏通用性,且设计周期更长(1–2 年)。
    • GPU 的优势是灵活、通用、随买随用,开发者只要写 PyTorch / TensorFlow 代码,不用考虑底层实现。

  1. PyTorch 的 FPGA backend 现状
    • PyTorch 确实提供过 FPGA/自定义硬件 backend 的接口(通过 XLA、Glow 或第三方插件),但生态非常小:
    • 社区模型没有 ready-to-run 的 bitstream;
    • 优化工具链不完善,硬件编译(HLS/RTL)耗时长;
    • 调试不方便,缺乏类似 Nsight 的完整工具。
    • 对比之下,CUDA 只要装驱动、pip 安装 PyTorch,然后直接跑就能达到高性能。

  1. 直观总结
    • 是的,数学上只是矩阵乘加;
    • 但工程上,CUDA 是“零门槛+高性能”的标准方案,FPGA/ASIC 是“更优,但更贵/更麻烦”的方案。
    • CUDA 粘性 ≈ 软件生态粘性,而非硬件能力粘性。

If printing money would end poverty, printing diplomas would end stupidity.
CNM01
见习点评
见习点评
帖子互动: 122
帖子: 1960
注册时间: 2023年 3月 9日 14:33

#9 Re: 英伟大gpu这么牛逼,但是goog ai从来不用

帖子 CNM01 »

不用英伟大gpu的多了去了,苹果也不用,将来特斯拉可能也不用

fantasist
见习点评
见习点评
帖子互动: 207
帖子: 1547
注册时间: 2022年 7月 24日 19:52

#10 Re: 英伟大gpu这么牛逼,但是goog ai从来不用

帖子 fantasist »

CNM01 写了: 2025年 8月 15日 13:07

不用英伟大gpu的多了去了,苹果也不用,将来特斯拉可能也不用

苹果跟nvda有仇,不肯买卡,高调宣传的AI产品已成业界笑柄。llama4的败退还可以说公司管理不善导致惜贩,苹果是决策层纯傻逼。
你没跟上新闻啊,特斯拉dojo团队已凉凉,车机不好说,但超算中心肯定是用不上自己的芯片了。

CNM01
见习点评
见习点评
帖子互动: 122
帖子: 1960
注册时间: 2023年 3月 9日 14:33

#11 Re: 英伟大gpu这么牛逼,但是goog ai从来不用

帖子 CNM01 »

fantasist 写了: 2025年 8月 15日 13:15

苹果跟nvda有仇,不肯买卡,高调宣传的AI产品已成业界笑柄。llama4的败退还可以说公司管理不善导致惜贩,苹果是决策层纯傻逼。
你没跟上新闻啊,特斯拉dojo团队已凉凉,车机不好说,但超算中心肯定是用不上自己的芯片了。

我不觉的苹果有你说得这么不堪,人的M4芯片集成了NPU,苹果的unified memory等等,都是未来硬件的发展方向。至于特斯拉DOJO是凉了,但还有AI6

fantasist
见习点评
见习点评
帖子互动: 207
帖子: 1547
注册时间: 2022年 7月 24日 19:52

#12 Re: 英伟大gpu这么牛逼,但是goog ai从来不用

帖子 fantasist »

CNM01 写了: 2025年 8月 15日 13:26

我不觉的苹果有你说得这么不堪,人的M4芯片集成了NPU,苹果的unified memory等等,都是未来硬件的发展方向。只于特斯拉DOJO是凉了,但还又AI6

只谈超算中心的GPU。苹果的M系列好用但都是个人设备,离能在服务器端提供生产力差了十万八千里。AI6号称28-29年上,你知道公司plan好几年后launch的东西,基本就是不会实现的low priority / stretch goal么。以马教主的尿性,这团队能活到明年就不错了。

magagop
论坛点评
论坛点评
帖子互动: 152
帖子: 2225
注册时间: 2024年 12月 5日 17:35

#13 Re: 英伟大gpu这么牛逼,但是goog ai从来不用

帖子 magagop »

赖美豪中 写了: 2025年 8月 15日 13:06

你没说到点子上,cuda一开始其实挺烂的,10多年前我就写cuda,那时候市面上cuda的书都不多,大家都看女大自己的教程。cuda一通江山主要是通过当年academic program. 老黄比较大方,只要你说你有项目能用cuda跑,老黄都给你发一台server,就是现在h100, b200这种档次的。当年和cuda竞争的只有一个mpi+openmp,后面就形成了很大的cuda社区,女大有专门的团队解决痛点。十多年前谁会有心思把blas, lapack重新实现一遍,但是女大就干了

主要競爭對手不是MPI,是OpenCL

赖美豪中(my pronouns: ha/ha)
论坛元老
论坛元老
2023年度优秀版主
帖子互动: 3964
帖子: 43794
注册时间: 2022年 9月 6日 12:50

#14 Re: 英伟大gpu这么牛逼,但是goog ai从来不用

帖子 赖美豪中(my pronouns: ha/ha) »

大哥opencl根本没有任何用户好么。

magagop 写了: 2025年 8月 15日 14:05

主要競爭對手不是MPI,是OpenCL

If printing money would end poverty, printing diplomas would end stupidity.
magagop
论坛点评
论坛点评
帖子互动: 152
帖子: 2225
注册时间: 2024年 12月 5日 17:35

#15 Re: 英伟大gpu这么牛逼,但是goog ai从来不用

帖子 magagop »

赖美豪中 写了: 2025年 8月 15日 14:58

大哥opencl根本没有任何用户好么。

2010年以前OpenCL還是全村的希望。

赖美豪中(my pronouns: ha/ha)
论坛元老
论坛元老
2023年度优秀版主
帖子互动: 3964
帖子: 43794
注册时间: 2022年 9月 6日 12:50

#16 Re: 英伟大gpu这么牛逼,但是goog ai从来不用

帖子 赖美豪中(my pronouns: ha/ha) »

那是你们amd粉的希望,从来没有任何正经用户把opencl当回事

magagop 写了: 2025年 8月 15日 15:21

2010年以前OpenCL還是全村的希望。

If printing money would end poverty, printing diplomas would end stupidity.
magagop
论坛点评
论坛点评
帖子互动: 152
帖子: 2225
注册时间: 2024年 12月 5日 17:35

#17 Re: 英伟大gpu这么牛逼,但是goog ai从来不用

帖子 magagop »

赖美豪中 写了: 2025年 8月 15日 15:23

那是你们amd粉的希望,从来没有任何正经用户把opencl当回事

現在Intel的oneAPI還是基於OpenCL的,你不知道嗎?2010年前,Intel買下Nvidia不成問題。

GreatCanada楼主
论坛元老
论坛元老
帖子互动: 652
帖子: 38109
注册时间: 2022年 7月 25日 23:54

#18 Re: 英伟大gpu这么牛逼,但是goog ai从来不用

帖子 GreatCanada楼主 »

magagop 写了: 2025年 8月 15日 15:24

現在Intel的oneAPI還是基於OpenCL的,你不知道嗎?2010年前,Intel買下Nvidia不成問題。

现在NV买的下intc 吗

最后一粒米,拿去充军粮;最后一块布,拿去做军装;最后一美刀, 拿去买dip
赖美豪中(my pronouns: ha/ha)
论坛元老
论坛元老
2023年度优秀版主
帖子互动: 3964
帖子: 43794
注册时间: 2022年 9月 6日 12:50

#19 Re: 英伟大gpu这么牛逼,但是goog ai从来不用

帖子 赖美豪中(my pronouns: ha/ha) »

自信一点,出钱的主要是amd, intel根本看不上opencl,intel的牛b产品多了,但是在fab军头那里都是垃圾。

magagop 写了: 2025年 8月 15日 15:24

現在Intel的oneAPI還是基於OpenCL的,你不知道嗎?2010年前,Intel買下Nvidia不成問題。

If printing money would end poverty, printing diplomas would end stupidity.
GreatCanada楼主
论坛元老
论坛元老
帖子互动: 652
帖子: 38109
注册时间: 2022年 7月 25日 23:54

#20 Re: 英伟大gpu这么牛逼,但是goog ai从来不用

帖子 GreatCanada楼主 »

赖美豪中 写了: 2025年 8月 15日 15:31

自信一点,出钱的主要是amd, intel根本看不上opencl,intel的牛b产品多了,但是在fab军头那里都是垃圾。

AMD的rocm知道不

最后一粒米,拿去充军粮;最后一块布,拿去做军装;最后一美刀, 拿去买dip
回复

回到 “电脑手机(IT)”