[00:00] 我们已经看到一批软件公司的估值暴跌,因为人们预期 AI 会把软件变成大宗商品。有一种可能比较天真的思考方式是:你看,Nvidia 把 GDS2 文件发给 TSMC,TSMC 制造逻辑芯片、制造交换芯片,然后把它们和 SK Hynix、Micron、Samsung 生产的 HBM 封装在一起。 然后发给台湾的 ODM 组装成机架。Nvidia 本质上是在做软件,硬件是别人制造的——如果软件被大宗商品化了,Nvidia 会不会也被大宗商品化?归根结底,总得有什么东西把电子变成 token。 把电子变成 token、并让这些 token 随时间变得越来越有价值——这件事很难被彻底大宗商品化。从电子到 token 的转化是一段令人难以置信的旅程。让一个 token 有价值,就像让一个分子比另一个分子更有价值一样,让一个 token 比另一个 token 更有价值。 为了让那个 token 有价值,所投入的艺术性、工程能力、科学和发明创造——很显然我们正在实时见证这一切。这其中的转化、制造、所有的科学远远没有被完全理解,这段旅程也远远没有结束。我怀疑它会被大宗商品化。 我们当然会让它变得更高效。你提问的方式正是我对我们公司的心智模型。输入是电子,输出是 token,中间是 Nvidia。我们的工作是做尽可能多的必要工作、尽可能少的不必要工作,来实现这种转化,使其具备惊人的能力。 我说"尽可能少"的意思是,凡是我不需要自己做的,我就跟合作伙伴协作,把它变成我生态系统的一部分。如果你看今天的 Nvidia,我们可能拥有最大的合作伙伴生态系统,无论是上游供应链还是下游供应链,所有的计算机公司、应用开发者和模型制作者。 AI 就像一个五层蛋糕。我们在这五层中每一层都有生态系统。我们尽量做得少,但我们必须做的那部分,事实证明,极其困难。我不认为那部分会被大宗商品化。实际上,我也不认为企业软件公司、工具制造商……今天大多数 软件公司都是工具制造商。有些不是,有些是工作流编码系统。但很多公司是工具制造商。比如 Excel 是工具,PowerPoint 是工具,Cadence 做工具,Synopsys 做工具。我看到的恰恰跟大家看到的相反。我认为 agent 的数量将会 呈指数级增长,工具使用者的数量也会呈指数级增长。这些工具的实例数量很可能会暴增。Synopsys Design Compiler 的实例数量很可能会暴增,使用布局规划器、我们的版图 工具和设计规则检查器的 agent 数量也一样。今天我们受限于工程师的数量。未来,这些工程师会有一大群 agent 来辅助。我们将以前所未见的方式探索设计空间,而且我们会使用今天正在用的那些工具。我认为工具的使用会让 [04:10] 软件公司的价值暴涨。之所以还没发生,是因为 agent 还不够擅长使用它们的工具。要么这些公司自己构建 agent,要么 agent 会变得足够好来使用这些工具。我认为两者都会发生。 我记得你们最新的财报中,跟代工厂、内存和封装相关的采购承诺接近 1000 亿美元。SemiAnalysis 报告说你们将有 2500 亿美元这类采购承诺。一种解读是,Nvidia 的护城河其实在于你们锁定了多年的这些稀缺组件。 别人可能也有加速器,但他们能拿到内存来制造吗?能拿到逻辑芯片来制造吗?这是不是 Nvidia 未来几年真正的护城河?这是我们能做到而别人很难做到的事情之一。我们在上游做了巨大的承诺。有些是 明确的,就是你提到的那些承诺。有些是隐含的。比如,很多上游的投资是我们的供应链合作伙伴做出的,因为我跟那些 CEO 说:"让我告诉你这个行业会有多大,让我解释为什么,让我跟你一起推演,让我给你看我看到的东西。"通过这个告知、 激励、对齐各行各业上游 CEO 的过程,他们愿意做投资。为什么他们愿意为我投资而不是为别人?原因是他们知道我有能力买下他们的产能,并通过我的下游卖出去。 事实是 Nvidia 的下游供应链和我们的下游需求如此庞大,他们愿意在上游做投资。如果你看 GTC,人们惊叹于它的规模和参会者。它是完整的 360 度,整个 AI 宇宙汇聚在一个地方。他们都聚在一个地方,因为 他们需要看到彼此。我把他们聚在一起,让下游看到上游,上游看到下游,所有人都能看到 AI 的最新进展。非常重要的是,他们都能见到 AI 原生公司、所有正在建设的 AI 创业公司,以及所有正在发生的精彩事物,这样他们就能 亲眼看到我告诉他们的一切。我花很多时间直接或间接地向我们的供应链、合作伙伴和生态系统传达我们面前的机遇。有些人总说:"Jensen,大多数主题演讲都是一个接一个地发布公告。"但我们的主题演讲总有一部分有点让人煎熬, 几乎像是在上课。事实上,那正是我脑子里想的。我需要确保整个供应链,无论上游还是下游,整个生态系统,都理解什么在向我们涌来、为什么会来、什么时候来、规模有多大,并且能够像我一样系统性地推演。 [07:40] 关于你所说的护城河,我们有能力为未来而建设。如果我们未来几年的规模是万亿美元级别,我们有供应链来支撑。没有我们的触达能力、我们业务的速度……就像有现金流一样,也有 供应链流,有周转率。如果业务周转率低,没有人会为一个架构建设供应链。我们能维持这个规模,完全是因为我们的下游需求如此巨大。他们看得到,他们听得到,他们看到一切正在到来。这让我们能够以现在的规模 做到我们正在做的事情。我确实想更具体地了解上游能否跟上。这么多年来,你们每年收入翻倍。你们每年向世界提供的算力增长超过三倍。而在这个规模下还能翻倍,真的太不可思议了。 没错。但你再看逻辑芯片。你们是 TSMC N3 节点最大的客户,也是 N2 最大的客户之一。今年 AI 整体将占 N3 的 60%。根据 SemiAnalysis 的数据,明年将占到 86%。如果你已经是大多数了,怎么翻倍? 而且怎么年复一年地翻倍?我们是否已经进入一个 AI 算力增长速度必须因为上游而放缓的阶段?你看到绕过这个问题的办法了吗?归根结底,我们怎么每年多建 2 倍的晶圆厂?在某种程度上,瞬时需求大于 全世界上下游的供应。在任何一个时刻,我们都可能受限于水管工的数量——这真的会发生。水管工们已经被邀请参加明年的 GTC 了。顺便说一句,好主意。但这是个好状态。你希望你所在的行业 瞬时需求大于全行业的总供应。反过来显然不太妙。如果差距太大,如果某个特定组件差得太远,整个行业就会一拥而上。比如,你注意到人们不怎么谈论 CoWoS 了吧。原因是过去两年 我们疯狂地猛攻这个问题。我们翻倍、翻倍、再翻倍,连续翻了好几次。现在我觉得我们的状态相当不错了。TSMC 现在知道 CoWoS 的供应必须跟上逻辑需求和内存需求的步伐。他们正在以 与逻辑芯片相同的速度扩展 CoWoS 和未来的封装技术。这太棒了,因为很长一段时间里,CoWoS 和 HBM 内存都是相当小众的。但它们不再小众了。人们现在意识到它们是主流计算技术。当然,我们现在能够影响更大范围的供应链。在 AI 革命初期,我现在说的这些话,五年前我就在说了。有些人相信并投资了,比如 Sanjay 和 Micron 团队。我至今清楚地记得那次会议,我非常明确地说了会发生什么、为什么会发生,以及对今天的预测。 [11:31] 他们真的全力押注了。我们在 LPDDR 和 HBM 内存方面与他们合作,他们确实大力投入了。这显然为公司带来了巨大回报。有些人来得晚一些,但现在他们都来了。每一个这样的瓶颈 都得到了高度关注。现在我们提前好几年就在预判瓶颈。比如,过去几年我们与 Lumentum、Coherent 以及硅光子生态系统所做的投资,真正重塑了供应链。我们围绕 TSMC 建立了整个供应链。 我们与他们在 COUPE 上合作,发明了一大批技术,并将那些专利授权给供应链以保持开放性。我们通过发明新技术、新工作流、新测试设备(比如双面探针)、投资公司、帮助他们扩大产能,来为供应链做准备。 你可以看到我们正在努力塑造生态系统,让供应链准备好支撑这个规模。看起来有些瓶颈比其他的更容易解决。扩展 CoWoS 与扩展——顺便说一句,我说的是最难的那个。是什么? 水管工。水管工和电工。这是我对那些末日论者描述工作终结、工作岗位消失最担心的一件事。如果我们劝阻人们不要成为软件工程师,我们就会缺软件工程师。 十年前也有过同样的预测。当时一些末日论者告诉人们:"无论如何,不要去做放射科医生。"你可能在网上还能看到那些视频,说放射科将是第一个被淘汰的职业,世界不再需要放射科医生了。猜猜我们现在短缺什么?放射科医生。 回到这个问题——有些东西你可以扩展,而有些……你怎么实际上每年制造 2 倍的逻辑芯片?归根结底,内存和逻辑芯片都受制于 EUV。你怎么每年获得 2 倍的 EUV 光刻机?这些都不是不可能快速扩展的。 所有这些在两三年内都很容易做到。你只需要一个需求信号。一旦你能造一台,你就能造十台,一旦你能造十台,你就能造一百万台。这些东西并不难复制。你会往供应链多深的地方走?你会不会去找 ASML 说:"嘿, 如果我看三年后,Nvidia 要实现每年两万亿美元的收入,我们需要多得多的 EUV 光刻机"?有些我必须直接去说,有些间接地说,还有些……如果我能说服 TSMC,ASML 就会被说服。我们必须考虑关键的卡点。但如果 TSMC 被说服了,几年内你就会有 [14:55] 足够多的 EUV 光刻机。我的意思是,没有哪个瓶颈会持续超过两三年,没有一个。与此同时,我们在把计算效率提升 10 倍、20 倍,在 Hopper 到 Blackwell 的情况下是 30 倍到 50 倍。我们在想出新的算法, 因为 CUDA 非常灵活。我们在开发各种新技术来提升效率,同时增加产能。这些事情没有一个让我担心。让我担心的是我们下游的东西。阻碍能源的能源政策……没有能源,你就无法创造一个产业。 没有能源,你就无法创造一个全新的制造业。我们想要让美国重新工业化。我们想把芯片制造、计算机制造和封装带回来。我们想要制造新东西,比如电动汽车和机器人。我们想建造 AI 工厂。没有 能源,这些东西一个都造不了,而且这些东西都需要很长时间。更多的芯片产能,那是两到三年的问题。更多的 CoWoS 产能,也是两到三年的问题。有意思。我觉得有时候嘉宾跟我说的完全相反。这个问题嘛,我确实没有足够的技术知识来判断。好在 你现在正在跟专家对话。没错。我想问问你的竞争对手。看看 TPU,可以说世界上排名前三的模型中有两个——Claude 和 Gemini——是在 TPU 上训练的。这对 Nvidia 的未来意味着什么?我们造的东西非常不一样。Nvidia 造的是加速 计算,不是张量处理单元。加速计算用于各种各样的事情:分子动力学、量子色动力学、数据处理、数据帧、结构化数据和非结构化数据。它还用于流体动力学和粒子物理学。此外,我们还把它用于 AI。 加速计算要多样化得多。虽然 AI 是今天的话题,显然也非常重要和有影响力,但计算远不止于此。Nvidia 重新发明了计算的方式,从通用计算转向了加速计算。我们的市场覆盖面远远超过 任何 TPU 或 ASIC 所能达到的。看看我们的定位,我们是唯一一家能加速所有类型应用的公司。我们有一个庞大的生态系统。所以各种框架和算法都运行在 Nvidia 上。因为我们的计算机是设计给别人来运营的,任何运营商都可以购买我们的系统。 大多数这些自建系统,你必须自己当运营商,因为它们从来就不是设计成有足够灵活性让别人来运营的。因为任何人都可以运营我们的系统,我们出现在每一个云平台上,包括 Google、Amazon、Azure 和 OCI。如果你想运营它来出租,你 最好有一个庞大的客户生态系统,覆盖很多行业,来做承接方。如果你想自己运营,我们显然也有能力帮你自己运营,就像我们帮 Elon 做 xAI 那样。而且因为我们可以赋能任何公司、任何行业的运营商,你可以用它来为科学 研究和药物发现建造超级计算机,比如在 Lilly。我们可以帮他们运营自己的超级计算机,并将其用于我们所加速的药物发现和生物科学的全部多样化领域。有大量的应用是我们能做而 TPU 做不了的。Nvidia 把 CUDA 也打造成了一个出色的 [19:28] 张量处理单元,但它同时也处理数据处理、计算、AI 等等的每一个生命周期环节。我们的市场机会要大得多,覆盖范围也广得多。因为我们现在支持世界上每一种应用,你可以在任何地方构建 Nvidia 系统,并且知道会有 客户来使用它。这是一个非常不同的东西。这个问题会比较长。你们的营收非常惊人,而你们每季度 600 亿美元的收入不是来自制药和量子计算。你们赚这么多是因为 AI 是一项前所未有的技术,正在以前所未有的速度增长。那么问题就是 什么对 AI 来说才是最好的。我不了解细节,但我跟我的 AI 研究员朋友们聊,他们说:"你看,当我用 TPU 的时候,它是一个很大的脉动阵列,非常适合做矩阵乘法,而 GPU 非常灵活。当你有大量分支或不规则的内存访问时它很好。"但 AI 是什么?它就是这些非常可预测的矩阵乘法,一遍又一遍又一遍。你不需要为 warp 调度器或线程和内存库之间的切换牺牲任何芯片面积。而 TPU 真的是为目前正在上线的这些计算需求的大部分收入增长和使用场景做了优化的。 我想知道你怎么看这个。矩阵乘法是 AI 的重要组成部分,但不是唯一的部分。如果你想提出一种新的注意力机制,以不同的方式解耦,或者发明一种全新的架构——比如混合 SSM——你就需要一个通用可编程的架构。 如果你想创建一个融合扩散和自回归技术的模型,你就需要一个通用可编程的架构。我们能运行你能想到的一切。这就是优势所在。它让发明新算法变得容易得多,因为它是一个可编程系统。发明新算法的能力 才是 AI 进步如此迅速的真正原因。TPU 跟其他东西一样,受摩尔定律的影响,我们知道大约每年提升 25%。真正实现 10 倍或 100 倍飞跃的唯一方法,是每年从根本上改变算法和计算方式。这就是 Nvidia 的根本优势。我们之所以能够 让 Blackwell 比 Hopper 快 50 倍……当我最初宣布 Blackwell 的能效将比 Hopper 高 35 倍时,没有人相信。然后 Dylan 写了篇文章说我在低调处理,实际上是五十倍。你不可能仅靠 摩尔定律合理地做到这一点。我们解决这个问题的方式是用新模型,比如 MoE,它们是并行化的、解耦的,分布在整个计算系统中。如果没有能力真正深入下去、用 CUDA 创造新的内核,这真的很难做到。正是我们架构的可编程性 [23:15] 加上 Nvidia 是一家极致的协同设计公司,这两者的结合。我们甚至可以把一些计算卸载到互联结构本身,比如 NVLink,或者通过 Spectrum-X 卸载到网络中。我们可以同时在处理器、系统、互联结构、库和算法层面推动变革。 没有 CUDA 来做这些,我都不知道从哪里开始。我的赞助商 Crusoe 是最早提供 NVIDIA Blackwell 和 Blackwell Ultra 平台的云服务商之一。他们刚刚宣布了计划在今年晚些时候部署 NVIDIA Vera Rubin。但获得最先进的 硬件只是故事的一部分。例如,大多数推理引擎已经为单个用户的前向传递做了 KV 缓存。但 Crusoe 跨用户和 GPU 来做。所以如果一千个智能体运行在同一个系统提示上,Crusoe 只需要计算一次 KV 缓存,就能让集群中的每一个 GPU 都可以使用。 这一点尤其重要,因为系统变得越来越智能体化,需要更长的前缀来使用工具和访问文件。在最近的基准测试中,Crusoe 能够提供比 vLLM 快最多 10 倍的首 token 时间和最多 5 倍的吞吐量提升。这只是你应该在 Crusoe 上运行推理工作负载的众多理由之一。 如果你需要 GPU 来训练,也不需要换云服务商。Crusoe 在训练方面同样能满足你。访问 crusoe.ai/dwarkesh 了解更多。这引出了一个关于 Nvidia 客户群的有趣问题。你们 60% 的收入来自五大超大规模云厂商。在一个不同的时代,面对不同的客户——比如说 跑实验的教授——他们需要 CUDA。他们没法用别的加速器。他们只需要用 CUDA 运行 PyTorch,一切都是优化好的。但这些超大规模云厂商有资源来编写自己的内核。事实上,为了榨出他们特定架构所需的最后那 5% 的性能, 他们必须这么做。Anthropic 和 Google 基本上都在运行自己的加速器,或者用 TPU 和 Trainium。但即使是 OpenAI,用的是 GPU,也有 Triton,因为他们需要自己的内核。深入到 CUDA C++ 层面,他们不用 cuBLAS 和 NCCL,而是有自己的一套栈,也可以编译到其他加速器上。 如果你的大多数客户都能够而且确实在为 CUDA 做替代品,那么 CUDA 到底在多大程度上是让前沿 AI 在 Nvidia 上实现的关键?CUDA 是一个丰富的生态系统。如果你想在任何计算机上先构建,首先在 CUDA 上构建是非常明智的。因为这个生态系统如此 丰富,我们支持每一个框架。如果你想创建自定义内核……比如说,我们对 Triton 做了巨大的贡献。所以 Triton 的后端有大量 Nvidia 的技术。我们很乐意帮助每一个框架变得尽可能出色。有很多很多框架。 有 Triton、vLLM、SGLang,还有更多。现在有一大批新的强化学习框架涌现出来,比如 verl 和 NeMo RL。后训练和强化学习这整个领域正在爆发式增长。所以如果你想在一个架构上构建,在 CUDA 上构建最有意义, 因为你知道生态系统是出色的。你知道如果出了问题,更可能是你的代码有问题,而不是底层那座代码大山的问题。别忘了构建这些系统时你要处理的代码量。当某个东西不工作时,是你的问题还是计算机的问题? [27:13] 你希望问题总是出在你这边,你能信任计算机。显然,我们自己也还有很多 bug,但我们的系统经过了如此充分的验证,你至少可以在这个基础上构建。这是第一点:生态系统的丰富性、可编程性和能力。第二点是,如果你是一个 构建任何东西的开发者,你最想要的就是装机量。你希望你写的软件能跑在一大堆其他计算机上。你不是只为自己写软件。你是为你的机群或所有人的机群写的,因为你是一个框架构建者。Nvidia 的 CUDA 生态系统 归根结底是它最大的宝藏。我们现在有好几亿个 GPU 在外面。每一个云都有。从 A10、A100、H100、H200 到 L 系列、P 系列。种类繁多。各种尺寸和形态都有。如果你是一家机器人公司,你希望那个 CUDA 栈能直接运行在机器人本身里。 我们真的无处不在。装机量意味着一旦你开发了软件或模型,它在任何地方都能用。这是极其有价值的。最后一点,我们出现在每一个云平台这件事让我们真正独一无二。如果你是一家 AI 公司或开发者,你不确定你会跟 哪个云服务商合作,或者你想在哪里运行。我们在所有地方都能运行,如果你愿意,也包括本地部署。生态系统的丰富性、装机量的广泛性,以及我们所在位置的多样性,这三者结合使得 CUDA 无可替代。这很有道理。我想我好奇的 是这些优势对你们的主要客户到底有多重要。有很多人可能会在意这些。但那些真正有能力构建自己软件栈的人,贡献了你们大部分的收入。尤其是如果走向一个 AI 在那些有紧密验证 闭环的事情上变得特别擅长的世界……比如怎么在一个 scale up 的规模上写一个最高效地做 attention 或 MLP 的内核?这是一种非常可验证的反馈循环。所有的超大规模云厂商都能为自己写这些自定义内核吗?Nvidia 仍然有很好的性价比, 所以他们可能仍然更愿意用 Nvidia。但问题就变成了,这是不是只是一个谁能提供最好的规格、每美元最多的浮点运算和内存带宽的问题。而历史上 Nvidia 在 AI 的硬件和软件领域一直拥有,而且现在仍然拥有最高的利润率, 超过 70%,因为有这个 CUDA 护城河。问题是,如果你的大多数客户实际上有能力自己构建而不是依赖 CUDA 护城河,你能维持这些利润率吗?我们分配给这些 AI 实验室的工程师数量是惊人的,跟他们一起工作,优化他们的栈。原因是因为没有人 比我们更了解我们自己的架构。这些架构不像 CPU 那样通用。CPU 有点像 Cadillac。它是一辆不错的巡航车。它从不开太快。每个人都能开得很好。它有定速巡航,一切都很简单。但在很多方面,Nvidia 的 GPU, [31:10] 也就是加速器,更像 F1 赛车。我能想象每个人都能开到每小时一百英里,但要把它推到极限,需要相当多的专业技能。我们大量使用 AI 来创建我们现有的内核。我非常确定在相当长一段时间内,我们仍然会被需要。 我们的专长帮助我们的 AI 实验室合作伙伴轻松从他们的技术栈中再榨出 2 倍的性能。等我们优化完他们的技术栈或某个特定 kernel 之后,模型速度提升 3 倍、2 倍、50%,这都是常有的事。这是个巨大的数字,尤其当你 考虑到他们所拥有的整个机队的装机量——所有那些 Hopper 和 Blackwell。当你把性能提升了两倍,那就等于收入翻倍。这直接转化为收入。Nvidia 的计算栈是全球最佳的性价比,没有之一。没有人能向我证明世界上任何一个 平台有更好的性能-TCO 比。没有一家公司。事实上,公开的基准测试就在那里。Dylan 的 InferenceMAX 就摆在那让所有人用,结果没有一个……TPU 不来,Trainium 不来。我鼓励他们去用 InferenceMAX,展示他们令人难以置信的推理 成本。真的很难。没人愿意出来比。MLPerf 也是。我非常欢迎 Trainium 来证明他们一直声称的 40% 优势。我也很想听他们展示 TPU 的成本优势。在我看来这说不通。完全说不通。从第一性原理来看,根本说不通。 所以我认为我们如此成功的原因很简单,就是因为我们的 TCO 太好了。第二,你说我们 60% 的客户是前五大客户,但大部分业务是面向外部的。比如,Nvidia 在 AWS 上的大部分业务是面向外部客户的,不是内部使用。我们在 Azure 的大部分客户,显然也都是外部客户。 我们在 OCI 的所有客户也是外部客户,不是内部使用。他们青睐我们的原因是我们的覆盖面太广了。我们能给他们带来全世界所有优秀的客户。他们都基于 Nvidia 构建。而所有这些公司选择基于 Nvidia 构建的原因是 因为我们的覆盖面和通用性太强了。所以我认为飞轮效应的核心是装机量、我们架构的可编程性、生态系统的丰富度,以及世界上有这么多 AI 公司。现在已经有数万家了。如果你是其中一家 AI 初创公司,你会选择什么架构? 你会选择最普及的架构。我们是全球最普及的。你会选择拥有最大装机量的那个。我们拥有最大的装机量。你还会选择拥有丰富生态系统的那个。所以这就是飞轮。这就是原因所在,归结起来就是以下几点的结合: [34:41] 第一,我们的每美元性能非常出色,所以他们能获得最低成本的 token。第二,我们的每瓦性能是全球最高的。所以如果这些公司中的某一家,如果我们的合作伙伴建了一个一吉瓦的数据中心,那个一吉瓦的数据中心最好能产出最大量的收入和 token 数量, 而这直接转化为收入。你希望它生成尽可能多的 token,最大化那个数据中心的收入。我们是全球每瓦 token 产出最高的架构。最后,如果你的目标是出租基础设施, 我们拥有全球最多的客户。所以这就是飞轮运转的原因。有意思。我想问题归结为,这里实际的市场结构是什么?因为即使有其他公司……本来可能存在一个世界,数万家 AI 公司大致平均分配算力。 但即便通过这五大超大规模云厂商,实际上在 Amazon 上使用算力的是 Anthropic、OpenAI 和这些大型基础模型实验室,他们自己有能力也有财力让不同的加速器跑起来。不,我觉得你的前提是错的。也许吧。但让我问你一个稍微不同的问题。 回头再来纠正我的前提。好的。让我先问另一个问题。但还是要确保你回来纠正,因为这对 AI 太重要了。对科学的未来太重要了。对行业的未来太重要了。那个前提……你看——让我先把问题问完,然后 我们一起来讨论。好。如果你说的关于价格、性能、每瓦性能等等这些都是真的,你认为为什么,比如 Anthropic,几天前刚刚宣布他们与 Broadcom 和 Google 达成了一个多吉瓦的 TPU 交易,而且他们的大部分算力都是 TPU?对 Google 来说显然 TPU 是主要算力。所以如果我看这些大型 AI 公司,似乎他们很多算力……曾经有一段时间全是 Nvidia,现在不是了。所以我很好奇,如果这些在纸面上都是真的, 他们为什么还要选择其他加速器?Anthropic 是一个特例,不是趋势。如果没有 Anthropic,TPU 怎么会有增长?百分之百是 Anthropic。如果没有 Anthropic,Trainium 怎么会有增长?百分之百是 Anthropic。我觉得这一点是众所周知的。并不是说有大量的 ASIC 机会。Anthropic 只有一个。但 OpenAI 和 AMD 的交易……他们还在自研 Titan 加速器。是的,但我想我们都承认他们绝大部分还是 Nvidia。我们还会继续做大量合作。别人用点其他东西试试,我不会介意。 如果他们不去试试那些东西,怎么知道我们的有多好呢?有时候你得被提醒一下。我们必须持续地赢得我们现在所处的位置。总有人会放大话。看看有多少 ASIC 项目已经被取消了。你说要做 ASIC 是一回事……你还得做出比 Nvidia 更好的东西。 做出比 Nvidia 更好的东西没那么容易。实际上也不合理。Nvidia 一定是漏掉了什么,说真的。因为我们的规模、我们的迭代速度,我们是世界上唯一一家每年都在猛推新产品的公司。每年都是大幅跃升。我猜他们的逻辑是,"嘿,不需要更好。 [38:34] 只需要不比你差超过 70% 就行,"因为他们在给你付 70% 的利润率。不,别忘了,即使是 ASIC 的利润率也相当高。Nvidia 的利润率大概 70%。但 ASIC 利润率是 65%。你到底省了多少?哦,你是说从 Broadcom 之类的公司?对,当然。你总得付钱给某人。我觉得 ASIC 的利润率高得令人难以置信,从我能看到的来说。他们自己也是这么认为的。他们对自己惊人的 ASIC 利润率相当自豪。所以,你问为什么。很久以前,我们根本没有能力去做这件事。当时,我没有深刻意识到建立一个像 OpenAI 和 Anthropic 这样的基础 AI 实验室有多难,也没意识到他们需要供应商本身进行巨额投资。我们当时根本没有条件向 Anthropic 投入数十亿美元,让他们来使用我们的算力。但 Google 和 AWS 可以。他们在早期就投入了巨额资金,这样 Anthropic 作为回报就使用了他们的算力。我们当时没有条件做这件事。我会说我的失误是没有深刻意识到他们真的别无选择,风投不可能投入 50 到 100 亿美元到一个 AI 实验室,然后指望它 能变成 Anthropic。所以那是我的疏忽。但即使我当时意识到了,我觉得我们也没有条件那样做。但同样的错误我不会再犯了。我很高兴能投资 OpenAI,也很高兴能帮助他们扩大规模,我认为这样做是必要的。然后,当我有能力的时候, 当 Anthropic 来找我们的时候,我很高兴成为投资者,也很高兴帮助他们扩大规模。我们只是在当时没有能力做到。如果我能把一切倒回去——如果 Nvidia 当时就能像现在这么大——我会非常乐意去做。这其实挺有意思的。多年来 Nvidia 一直是 AI 领域赚钱的公司, 赚很多钱。现在你在往外投资。据报道你在 OpenAI 投了高达 300 亿美元,在 Anthropic 投了 100 亿美元。但现在他们的估值已经上去了,我相信还会继续涨。所以如果这些年来你一直在给他们提供算力,你看到了发展方向,而他们几年前的价值只有现在的十分之一—— 有些情况下甚至只是一年前——而你手上有这么多现金——那存在一种可能性,要么 Nvidia 自己成为一个基础模型实验室,做一笔巨额投资来实现这一点,要么以现在的估值做的这些交易在更早的时候就做了。而且你当时就有现金。所以我确实很好奇, 为什么没有更早做这些?我们是一有能力就做了。我们是一有能力就做了,如果能更早我也会更早做。在 Anthropic 需要我们做这件事的时候,我们就是没有条件做。那不在我们当时的思维模式里。怎么说?是资金的问题? 对,投资的规模。我们当时从来没有对外投资过,更别说那么大的金额。我们没有意识到我们需要这样做。我一直以为他们可以去找风投融资,就像所有公司那样。但他们要做的事情,靠风投是做不成的。 OpenAI 想做的事情靠风投是做不成的。我现在认识到了。当时我不知道。但这就是他们的天才之处。这就是他们聪明的地方。他们当时就意识到必须那样做。我很高兴他们做了。即使我们导致 Anthropic 不得不去找别人,我仍然很高兴这一切发生了。 [43:17] Anthropic 的存在对世界是好事。我很欣慰。我想你们仍然在赚很多钱,而且每个季度赚得越来越多。有遗憾也是正常的。所以问题仍然存在。好,既然我们到了这个阶段,你手上有这些不断增加的钱, Nvidia 应该怎么用?有一种答案是,现在出现了一整个中间商生态系统,把资本支出转化为运营支出,这样这些实验室就可以租用算力。因为芯片确实很贵,但在其生命周期内能赚很多钱,因为 AI 模型在不断变好。 所以它们创造的价值,它们的 token,在增值,但前期搭建成本很高。Nvidia 有钱做资本支出。事实上据报道,你给 CoreWeave 提供了高达 63 亿美元的担保,还投资了 20 亿美元。为什么 Nvidia 不自己做云呢?为什么不自己成为一个超大规模云厂商 然后把算力租出去?你有这么多现金。这是公司的一个理念,我认为是明智的。我们应该做尽量多需要做的事,但尽量少做不必要的。意思是,我们在构建计算平台上所做的工作,如果我们不做, 我真心相信没有人会做。如果我们不承担我们所承担的风险——如果我们没有以我们的方式构建 NVLink,如果我们没有构建整个软件栈,如果我们没有按照我们的方式打造生态系统,如果我们没有在大部分时间都亏损的情况下坚持 CUDA 二十年——如果我们不做,没有别人会做。 如果我们没有创建所有这些 CUDA-X 库,让它们都是领域专用的……十五年前,我们开始推动领域专用库,因为我们意识到如果我们不创建这些领域专用库——无论是光线追踪、图像生成,还是 AI 的早期工作、这些模型、数据处理、结构化数据 处理、或者向量数据处理——如果我们不做,没有人会做。对此我完全确定。我们为计算光刻创建了一个库叫 cuLitho。如果我们不做,没有人会做。所以如果我们没有做我们做的这些事,加速计算就不会像现在这样发展。所以我们 应该做这些。我们应该把整个公司的全部力量倾注于此。然而,世界上有很多云服务商。如果我不做,自然会有人来做。所以按照这个配方、这个理念——做尽量多需要做的,但尽量少做不必要的——这个理念今天存在于我们公司。 我做的每一件事,都是用这个视角来审视的。就云服务而言,如果我们不支持 CoreWeave 的存在,这些新兴云、这些 AI 云就不会存在。如果我们不帮助 CoreWeave,他们就不会存在。如果我们不支持 Nscale,他们不会有今天的发展。 如果我们不支持 Nebius,他们也不会有今天的成就。现在他们都做得非常好。这算是一种商业模式吗[听不清]?我们应该做尽量多需要做的,但尽量少做不必要的。所以我们投资于我们的生态系统,因为我希望我们的生态系统蓬勃发展。我希望这个架构和 AI, 能够与尽可能多的行业、尽可能多的国家建立连接,让整个地球都构建在 AI 之上,构建在美国的技术栈之上。这个愿景正是我们在追求的。你刚提到的一件事……有非常多出色的基础模型公司,我们尽量投资所有这些公司。 这也是我们做的另一件事。我们不挑赢家。我们需要支持每一家。这是我们乐于做的事情,也是我们业务的必然要求。但我们也会刻意避免挑选赢家。所以当我投资其中一家时,我会投资所有公司。你为什么要刻意不挑赢家? [47:29] 因为第一,这不是我们的工作。第二,Nvidia 刚成立时,有 60 家 3D 图形公司。我们是唯一活下来的。如果你拿那 60 家图形公司来问哪家会活下来,Nvidia 会排在最不可能活下来的名单最前面。 这是你之前很久的事了,但 Nvidia 的图形架构恰恰是错的。不是有一点点错,我们创造了一个完全错误的架构,开发者根本不可能支持。它绝不可能成功。我们从很好的第一性原理出发去推导, 但最终得出了错误的方案。所有人都会把我们排除在外。但我们走到了今天。所以我有足够的谦逊来认识到这一点。不要挑赢家。要么让他们各自发展,要么就照顾所有人。有一点我没理解,你说"看,我们不是因为这些 neocloud 是 neocloud 就优先扶持他们。" 但你也列举了一堆 neocloud,说没有 NVIDIA 他们就不会存在。这两件事怎么能兼容?首先,他们自己得想要存在,他们来找我们寻求帮助。当他们想要存在,并且有商业计划、有专业能力、 有热情……他们自己显然也要有一些能力。但如果最终他们需要一些投资才能起步,我们会为他们提供支持。但他们越快让自己的飞轮转起来越好……你的问题是"我们想做融资业务吗?"答案是不想。 有专门做融资的人,我们宁愿跟所有做融资业务的人合作,也不愿自己当融资方。我们的目标是专注于我们擅长的事,让商业模式尽可能简单,支持我们的生态系统。当像 OpenAI 这样的公司需要 300 亿美元级别的投资,因为他们还没有 IPO, 而我们深深相信他们,我也深信他们将成为……好吧,他们今天已经是一家非凡的公司了。他们会成为一家不可思议的公司。世界需要他们存在。世界希望他们存在。我希望他们存在。他们势头正劲。让我们支持他们,帮助他们扩大规模。 这类投资我们会做,因为他们需要我们这么做。但我们不是想做越多越好,而是想做越少越好。我花了太多时间在 Google Docs 和聊天机器人之间来回复制粘贴文本。所以我做了一个基本上是"写作版 Cursor"的工具,它按照我认为 AI 协同研究员应有的方式来运行。我可以标记它,它能通过行内评论线程跟我对话,帮我深入挖掘和头脑风暴。我用 Cursor 和他们新的 Composer 2 模型,一个周末就把整个东西做出来了。很多 agentic 编程工具让我觉得完全不知道底层在发生什么。 我只能放弃控制权,然后祈祷一切顺利。但 Cursor 让我在掌控实现细节的同时,可以尝试各种不同的想法。我大部分头脑风暴都在 agents 窗口里完成,等基础文件搭好之后,我用 diff 窗口来追踪变化。少数几次需要 手动快速调整的时候,我就直接用编辑器。如果你想试试我的 AI 协同研究员,我在描述里放了 GitHub 仓库链接。如果你有一个一直想做的工具,你应该动手去做。去 cursor.com/dwarkesh 开始吧。这可能是个很明显的问题,但我们在 GPU 短缺的情况下生活了很多年, [51:19] 而且现在因为模型越来越好,短缺更加严重。我们确实短缺 GPU。是的。Nvidia 以分配稀缺产能而闻名,不只是基于最高出价者,而是"嘿,我们要确保这些 neocloud 能存在。分一些给 CoreWeave,分一些给 Crusoe,分一些给 Lambda。"这对 Nvidia 有什么好处?首先,你同意这种"分裂市场"的说法吗?不。不。你的前提就是错的。我们对这些事情非常审慎。我们非常审慎。首先,如果你不下采购订单, 说再多也没用。在我们收到 PO 之前,我们能做什么?所以第一件事是,我们非常努力地跟每个人一起做预测,因为这些东西建造周期很长,数据中心建造也需要很长时间。我们通过预测来协调供需。明白吗? 这是第一要务。第二,我们尽量跟尽可能多的人一起做预测,但归根结底,你还是得下订单。也许出于某种原因,你没有下单。我能怎么办?到了某个时候,先到先得。但除此之外, 如果你因为数据中心还没准备好,或者某些组件还没就绪导致无法搭建数据中心,我们可能会决定先服务另一个客户。这只是在最大化我们自己工厂的吞吐量。我们可能会做一些调整。除此之外,优先级 就是先到先得。你得下 PO。如果你不下 PO……当然,关于这个有一些故事。比如,这一切某种程度上起源于一篇文章,说 Larry 和 Elon 跟我吃晚饭时求我要 GPU。那从未发生过。我们确实一起吃了晚饭。我们确实 一起吃了晚饭,而且是一顿很棒的晚饭。他们从未求过 GPU。他们只是需要下订单。一旦他们下了订单,我们会尽最大努力把产能交付给他们。我们没那么复杂。好的。所以听起来有一个队列,然后根据你的数据中心是否准备好以及你何时下采购订单, 你在某个时间点拿到货。但听起来仍然不是出价最高者优先。有什么原因要这样做……?我们从不那样做。好的。我们从不那样。为什么不按最高出价来? 因为那是糟糕的商业惯例。你定好价格,然后人们决定买不买。我知道芯片行业的其他公司在需求高时会调整价格,但我们就是不这样做。这从来不是我们的做法。你可以信赖我们。我更愿意做一个可靠的、 作为行业基石的公司。你不需要猜来猜去。如果我给你报了一个价,那就是我们的报价。就这样。如果需求暴涨,那就暴涨吧。另一方面,这也是为什么你跟 TSMC 有良好的合作关系,对吧?是的,Nvidia 跟 TSMC 合作差不多快 30 年了。 Nvidia 和 TSMC 之间没有法律合同。总会有某种粗略的公平。有时候我占便宜,有时候我吃亏。有时候我拿到更好的价格,有时候拿到更差的。但总体来说,这段关系非常好。我完全信任他们。我完全可以依赖他们。 [55:37] 关于 Nvidia 你可以确定的一件事是,今年 Vera Rubin 会非常出色。明年 Vera Rubin Ultra 会到来。后年 Feynman 会到来。再下一年,我还没公布名字。每一年你都可以信赖我们。 你得去全世界找另一个 ASIC 团队——随便挑一个 ASIC 团队——然后说"我可以押上全部身家,押上我的整个业务,赌你每一年都会为我服务。你的 token 成本每年会下降一个数量级。我可以像相信时钟一样相信这件事。" 我刚才说了关于 TSMC 的话。历史上没有任何其他晶圆厂你能这样说。但今天你可以对 Nvidia 这样说。你可以每年都信赖我们。如果你想买价值 10 亿美元的 AI 工厂算力,没问题。如果你想买 1 亿美元的,没问题。你想买 1000 万美元的,或者只要一个机架,没问题。或者只要一张显卡,好,没问题。如果你想下 1000 亿美元的 AI 工厂订单,没问题。我们是世界上今天唯一一家你能这样说的公司。 我对 TSMC 也能这样说。想买一个,买 10 亿个,没问题。我们只需要经历规划的过程,以及所有成熟企业该做的事。所以我认为 Nvidia 能够成为全球 AI 产业基石的能力,是我们花了几十年才到达的位置。巨大的投入, 巨大的奉献。我们公司的稳定性、我们公司的一致性,非常重要。好的。我想问关于中国的问题。我其实不确定自己对于是否应该向中国出售芯片怎么看,但我喜欢跟嘉宾唱反调。所以当 Dario 上节目时,他支持出口管制, 我就问他,为什么美国和中国不能各自在数据中心里拥有一个天才之国?但既然你站在另一边,我就反过来问你。一种思考方式是,Anthropic 实际上几天前刚宣布了 Mythos Preview。这个模型 Mythos,他们甚至不公开发布,因为他们说 它具有如此强大的网络攻击能力,他们认为在确保这些零日漏洞被修补之前,世界还没准备好。但他们说它在每个主要操作系统、每个浏览器中发现了数千个高危漏洞。它在 OpenBSD 中发现了一个——那是一个专门设计为 没有零日漏洞的操作系统。它发现了一个存在了 27 年的漏洞。所以如果中国公司、中国实验室和中国政府能获得 AI 芯片来训练像 Claude Mythos 这样具有网络攻击能力的模型,并用更多算力运行数百万个实例,问题是,这是否对美国 公司、美国国家安全构成威胁?首先,Mythos 是用相当普通的算力训练的,量也相当普通。由一家非凡的公司训练。它所使用的算力数量和类型在中国已经大量存在。所以你首先要意识到中国有芯片。 他们制造了全球 60% 的主流芯片,可能更多。这对他们来说是一个非常大的产业。他们拥有一些世界上最优秀的计算机科学家。如你所知,所有这些 AI 实验室里的大多数 AI 研究人员都是中国人。他们拥有全球 50% 的 AI 研究人员。 [59:39] 所以问题是,考虑到他们已经拥有的所有资源——他们有充足的能源,有大量的芯片,有大部分 AI 研究人员——如果你担心他们,创造一个安全世界的最佳方式是什么?把他们当成受害者,把他们变成敌人,很可能不是最好的答案。他们是 对手。我们希望美国赢。但我认为保持对话,保持研究层面的对话,可能是最安全的做法。由于我们当前对中国作为对手的态度,这个领域存在明显的缺失。我们的 AI 研究人员和他们的 AI 研究人员进行交流,这是至关重要的。 我们双方都要试图就 AI 不应被用于什么达成共识,这是至关重要的。至于发现软件中的漏洞,当然了,AI 就是该干这个的。它会发现很多软件中的漏洞吗?当然会。有大量的漏洞。AI 软件本身也有很多漏洞。这就是 AI 应该做的事,我 很高兴 AI 已经达到了能帮助我们大幅提升生产力的水平。一个被低估的方面是围绕网络安全、AI 网络安全、AI 安全和 AI 隐私的生态系统有多丰富。有一整个 AI 创业公司的生态系统在努力为我们创造这样的未来, 其中你有一个非常强大的 AI agent,周围环绕着数千个 AI agent,保护它的安全,保护它不受侵害。这样的未来一定会到来。认为你会让一个 AI agent 四处运行而没人看管,这个想法有点疯狂。我们非常清楚 生态系统需要蓬勃发展。事实证明,这个生态系统需要开源。这个生态系统需要开放模型。它们需要开放的技术栈,这样所有这些 AI 研究人员和优秀的计算机科学家才能去构建同样强大的 AI 系统,并确保 AI 的安全。所以我们需要 确保做到的一件事就是保持开源生态系统的活力。这一点不能被忽视。其中很大一部分来自中国。我们不应该扼杀它。关于中国,我们当然希望美国拥有尽可能多的算力。我们受到能源的限制,但我们 有很多人在解决这个问题。我们不能让能源成为我们国家的瓶颈。但我们同样希望确保全世界所有的 AI 开发者都在美国技术栈上进行开发,并且让 AI 的贡献和进步——尤其是开源的部分——能够服务于美国的生态系统。 如果搞出两个生态系统,那将是极其愚蠢的:一个开源生态系统只能运行在外国技术栈上,一个封闭生态系统运行在美国技术栈上。我认为那对美国来说将是一个糟糕的结果。因为涉及的问题很多,让我先把回应分个优先级。 我认为,回到关于黑客攻击的算力差距问题,是的,他们有算力,但有一些估算认为,因为他们停留在 7nm——由于芯片制造出口管制他们没有 EUV——他们实际能产出的浮点运算量只有美国的十分之一。所以在这种情况下,他们最终能训练出像 Mythos 这样的模型吗?能。但问题是,因为我们有更多算力,美国的实验室能够率先达到这些能力水平。因为 Anthropic 先做到了,他们会说:"好,我们先保留一个月,同时让所有这些美国公司 [1:04:18] 获得访问权限。他们会修补所有漏洞,然后我们再发布。"此外,即使他们训练出这样的模型,大规模部署的能力……如果你有一个网络黑客,一百万个比一千个危险得多。所以推理算力真的非常重要。事实上,他们有这么多优秀的 AI 研究人员 才是最可怕的地方,因为是什么让那些工程师和研究人员更高效?是算力。如果你跟美国任何一家 AI 实验室聊,他们都会说瓶颈就是算力。DeepSeek 的创始人或者 Qwen 的领导层也有类似的言论。他们说他们的 瓶颈也是算力。那么问题就变成了,让美国公司——因为他们有更多算力——率先达到 Mythos 级别的能力,在中国因算力不足而无法达到之前,为我们的社会做好准备,这不是更好吗?我们应该始终领先,始终拥有更多。 但要让你描述的那个结果成立,你必须把它推到极端。他们必须完全没有算力。如果他们有一些算力,问题就是需要多少?他们在中国拥有的算力是巨大的。你说的可是 全球第二大计算市场。如果他们想聚合算力,他们有大量的算力可以聚合。但这是真的吗?人们做了这些估算,然后说"SMIC 在制程节点上确实落后。"我马上告诉你。 他们拥有的能源量是惊人的。对吧?AI 是一个并行计算问题,不是吗?为什么他们不能把 4 倍、10 倍的芯片组合在一起,反正能源几乎是免费的?他们有那么多能源。他们有完全空置的数据中心,全部通了电。你知道他们有鬼城, 他们也有鬼数据中心。他们有如此多的基础设施容量。如果他们愿意,就堆更多的芯片,即使是 7nm 的。他们的芯片制造能力是全球最大的之一。半导体行业都知道他们在主流芯片上占据垄断地位。 他们产能过剩,有太多产能。所以认为中国将无法拥有 AI 芯片的想法完全是胡说八道。当然,如果你问我,如果全世界除了美国都没有算力,美国会不会更领先?但那根本不是一个可能的结果。 那不是一个真实的场景。他们已经有大量算力了。你所担心的那个威胁所需的门槛,他们早就达到并超过了。所以我认为你没有理解 AI 是一个五层蛋糕,最底层是能源。 当你有充裕的能源时,它可以弥补芯片的不足。如果你有充裕的芯片,它可以弥补能源的不足。比如,美国的能源是稀缺的,这就是为什么 Nvidia 必须不断推进架构,做这种极致的协同设计,这样用 我们出货的少量芯片——因为能源非常有限——我们每瓦的吞吐量高得离谱。但如果你的电力完全充裕、几乎免费,你何必在乎每瓦性能呢?你有的是。你可以用老芯片来做。所以 7nm 芯片基本上就是 Hopper 级别。 Hopper 的能力……我得告诉你,今天的模型基本上都是在 Hopper 那一代上训练的。所以 7nm 芯片完全够用。充裕的能源是他们的优势。但接下来就有一个问题,他们能不能制造足够多的芯片。但他们确实能。证据是什么?Huawei [1:08:18] 刚刚创下了公司历史上最大的单年营收。他们出货了多少芯片?大量。数百万。数百万远超 Anthropic 拥有的。有人质疑 SMIC 能制造多少逻辑芯片,有人质疑内存产能——我在告诉你实际情况。 他们有大量的逻辑芯片,也有大量的 HBM2 内存。对。但如你所知,训练和推理这些模型的瓶颈往往是带宽。所以如果你用的是 HBM2……我不记得确切数字,但跟你们最新的产品相比,内存带宽可能差将近一个数量级, 这差距很大。Huawei 是一家网络公司。但这不能改变一个事实,最先进的 HBM 需要 EUV。不对。完全不对。你可以把它们组合在一起,就像我们用 NVL72 把它们组合在一起一样。他们已经展示了硅光子技术, 把所有这些算力连接成一台巨型超级计算机。你的前提就是错的。事实是,他们的 AI 发展进展得很好。全世界最优秀的 AI 研究人员,因为算力受限,他们也会想出极其聪明的算法。记住,我刚才说过 Moore's law 每年大约推进 25%。然而,通过出色的计算机科学,我们仍然可以把算法性能提升 10 倍。我想说的是,伟大的计算机科学才是真正的杠杆。毫无疑问,MoE 是一项伟大的发明。毫无疑问,所有令人惊叹的注意力机制都减少了所需的算力。 我们必须承认,AI 的大部分进步来自算法的进步,而不仅仅是硬件的堆砌。既然大部分进步来自算法、计算机科学和编程,那你告诉我,他们那支 AI 研究人员大军难道不是他们的根本优势吗?我们看到了。DeepSeek 不是一个无关紧要的进步。 当 DeepSeek 首先在 Huawei 平台上发布的那一天,那对我们国家来说将是一个糟糕的结果。为什么?因为目前像 DeepSeek 这样的模型,如果是开源的,可以在任何加速器上运行。为什么将来就不会是这样了?假设不会。假设它是为 Huawei 优化的,假设它是 为他们的架构优化的。那就会让我们处于劣势。你描述了一个我认为是好消息的情况。一家公司开发了软件、开发了一个 AI 模型,而且它在美国技术栈上运行得最好。我觉得这是好消息。 你却把它设定为坏消息的前提。我来告诉你什么才是坏消息:全世界的 AI 模型被开发出来,却在非美国硬件上运行得最好。那才是对我们的坏消息。我只是看不到有证据表明存在如此巨大的差距,以至于你无法切换加速器。 美国的实验室在所有云上、所有不同的加速器上运行他们的模型——我就是证据。你拿一个为 Nvidia 优化的模型,试着在别的东西上运行。但美国的实验室确实在这么做。而且跑得没那么好。Nvidia 的成功就是完美的证据。AI 模型 [1:11:51] 在我们的技术栈上创建、在我们的技术栈上运行得最好,这有什么难理解的?Anthropic 的模型在 GPU 上跑,在 Trainium 上跑,在 TPU 上跑。要切换需要做大量工作。但你去看全球南方,去看中东。开箱即用的情况下,如果所有 AI 模型在别人的技术栈上运行得最好,你 现在居然在论证这对美国是好事,这也太荒谬了。但我不太理解这个论点。假设中国公司率先做出了下一个 Mythos。他们率先发现了美国软件中的所有安全漏洞,但他们可以在 Nvidia 硬件上做到这一点,然后把它输送到全球南方。他们在 Nvidia 硬件上做到了。这怎么会是好事?好吧,它跑在 Nvidia 硬件上——这不是好事。这不是好事。对。这不是好事。所以我们别让它发生。你为什么认为这是完全可替代的,如果你不给他们出货算力,Huawei 就能完全取代?他们是落后的,对吧?他们的芯片比你差。这完全是……现在就有证据。他们的芯片产业规模庞大。你可以直接比较 H200 和 Huawei 910C 的算力、带宽或内存。大概是二分之一到三分之一。 他们用得更多。他们用两倍的量。看起来你的论点是,他们有所有这些准备就绪的能源,对吧?他们需要用芯片填满。他们擅长制造。我相信他们最终能在制造上超过所有人。但有这关键的几年。 你说的关键年份是什么?就这几年。我们已经有了能执行所有网络攻击的模型。如果是这样,如果接下来几年是关键的,那我们就必须确保全世界所有的 AI 模型都构建在美国技术栈上,在这关键几年里。如果它们构建在美国技术栈上, 那怎么能阻止他们——如果他们有更先进的能力——发动 Mythos 级别的网络攻击呢?两种情况都没有保证。但如果你早点拥有,我们可以提前做准备。听着,你为什么要让 AI 产业的一个层级丢掉整个市场,来让另一个层级获益? 一共有五个层级,每一个都必须成功。最需要成功的其实是 AI 应用层。你为什么这么执着于那个 AI 模型?那一家公司?原因是什么?因为那些模型使这些极具攻击性的能力成为可能, 而你需要算力来运行它们。能源、芯片和 AI 研究人员的生态系统使这一切成为可能。几个月前,Jane Street 花了大约 20,000 个 GPU 小时在三个不同的语言模型中训练后门。然后他们挑战我的观众去找出触发短语。 我刚刚跟设计这个谜题的 Ricson 聊了聊,了解了一些 Jane Street 收到的解题方案。"如果你认为基础模型在这里,后门模型在那里,你可以通过线性插值权重来调整后门的强度,但你也可以外推来让后门变得更强。 在某些情况下,如果你把它调得足够强,模型就会直接吐出预设的响应短语。"所以如果你不断放大基础版本和后门版本之间的差异,最终它应该会吐出触发短语。但这个技术只在三个模型中的两个上有效。 连 Ricson 自己也不确定为什么在另一个模型上不起作用。能够验证一个模型只做你认为它该做的事情,是 AI 安全中最重要的开放性问题之一。如果这类问题让你兴奋,Jane Street 正在招聘研究员和工程师。请访问 janestreet.com/dwarkesh 了解更多。 好,退一步说,中国必须有能力建造足够的7nm产能。记住,他们仍然停留在7nm,而你会继续推进到3nm,然后是2nm或1.6nm的 Feynman。所以当你在1.6nm的时候,他们还停留在7nm,他们必须生产足够多的芯片来弥补缺口。 [1:15:34] 他们有那么多能源,你给他们越多芯片,他们就拥有越多算力。所以归根结底,他们确实在获得更多算力。算力是训练和推理的输入—— 听着,我只是觉得你说话太绝对了。我认为美国应该保持领先。美国的算力是 全球其他任何地方的100倍。美国应该保持领先。好。美国确实领先。Nvidia 构建了最先进的技术。我们确保美国的实验室最先了解到这些技术,并拥有优先购买权。如果他们资金不够,我们甚至会投资他们。 美国应该保持领先。我们想尽一切办法确保美国保持领先。第一点,你同意吗?我们正在竭尽所能做到这一点。但如果他们的瓶颈就是算力,向中国出口芯片怎么能让美国保持领先?不不不。我们有 Vera Rubin 给美国用。我们有 Vera Rubin 给美国用。那么,我在美国吗?你认为我是美国的一部分吗?是的。Nvidia。你认为 Nvidia 是一家美国公司?好。第一,为什么我们不能制定 一个更平衡的监管政策,让 Nvidia 能在全球赢得市场,而不是把全球市场拱手让人?你为什么希望美国放弃全球市场?芯片产业是美国生态系统的一部分。是美国技术领导力的一部分。是 AI 生态系统的一部分。是 AI 领导力的一部分。为什么你的政策、你的理念,会导致美国放弃全球很大一部分市场?我觉得这里的论点是…… Dario 说过一句话,他说这就像 Boeing 吹嘘我们在向朝鲜卖核武器,但导弹外壳是 Boeing 造的。这就好像 在赋能美国技术栈一样。从根本上说,你是在给他们这种能力。把 AI 跟你刚才提到的那些东西相提并论简直是疯了。但 AI 类似于浓缩铀,对吧?它可以有正面用途,也可以有负面用途。我们仍然不想把浓缩 铀送到其他国家。谁在送浓缩——这个类比是说浓缩铀就像算力。这是个糟糕的类比。这是个不合逻辑的类比。但如果这些算力能运行一个可以对所有美国软件执行零日漏洞攻击的模型,那怎么不算武器? 首先,解决这个问题的方式是与研究人员对话,与中国对话,与所有国家对话,确保人们不会以那种方式使用技术。这种对话必须发生。好吗?第一点。第二点,我们还需要确保美国保持领先, 让 Vera Rubin、Blackwell 在美国大量供应,堆积如山。显然,我们的业绩可以说明这一点。大量供应,非常充足。我们拥有的算力非常强大。我们这里有出色的 AI 研究人员。很好。我们应该保持领先。但是,我们也必须认识到 AI 不只是一个模型。AI 是一个五层蛋糕。AI 产业在每一层都很重要,我们希望美国在每一层都能赢,包括芯片层。放弃整个市场不会让美国在芯片层、在计算栈上长期赢得技术竞赛。这就是事实。 我想关键问题在于,现在把芯片卖给他们,怎么帮助我们长期取胜?Tesla 长期向中国出售了非常优秀的电动车。iPhone 也在中国销售,非常出色。但这些并没有让他们被锁定。中国还是会造自己的电动车,而且他们正在 [1:19:28] 主导市场。他们的智能手机也在主导市场。今天我们开始对话时,你承认了 Nvidia 的地位非常不同。你用了"护城河"这样的词。对我们公司来说最重要的一件事是我们生态系统的丰富性,也就是开发者。50%的 AI 开发者在中国。美国不应该放弃这些。 但我们在美国也有很多 Nvidia 开发者,这并不妨碍美国实验室未来也能使用其他加速器。实际上,他们现在也在使用其他加速器,这完全没问题,很好。我不明白为什么中国的情况会不一样,如果你把 Nvidia 芯片卖给他们,就像 Google 可以用 TPU 也可以用 Nvidia 一样—— 我们必须持续创新,正如你可能知道的,我们的份额在增长,而不是下降。即使我们在中国竞争,我们也会丢掉那个市场这个前提…… 你面对的不是一个生来认输的人。那种输家心态,那种输家前提 对我来说毫无意义。我们不是汽车。我们不是汽车。今天我可以买这个品牌的车,明天换另一个品牌,很容易。计算不是那样的。x86 生态之所以存在是有原因的。ARM 之所以有如此强的粘性是有原因的。这些生态系统很难替代。替换它们需要耗费巨大的时间和 精力,大多数人不想这样做。所以我们的工作是继续培育这个生态系统,持续推进技术,这样我们才能在市场上竞争。基于你描述的那种前提去放弃一个市场,我完全无法认同。这毫无道理。因为我不认为美国是输家。 我们的行业不是输家。那种失败论调,那种失败心态,对我来说毫无意义。好吧。我换个话题。我只想确认—— 你不用换话题。我聊得很开心。好的,太好了。那我不换了。谢谢你。但我觉得也许关键点…… 感谢你跟我一起兜这些圈子,因为我 觉得这有助于揭示真正的关键分歧。关键在于你在走极端。你的论点从极端出发。说如果我们在这个关键时刻给他们任何算力,我们就会失去一切。不,我觉得我的论点是—— 那些极端论调,很幼稚。让我自己来阐述我的论点。 我的意思不是说存在某个关键的算力阈值。而是任何边际算力都是有帮助的。如果你有更多算力,你就能训练出更好的模型。我只是想让你承认,任何边际销售对美国技术产业都是有益的。 实际上我不…… 如果运行在那些芯片上的 AI 模型具有网络攻击能力,或者这些芯片正在训练具有网络攻击能力的模型并运行更多实例,它不是核武器,但它赋能了某种武器。你使用的这套逻辑,你同样可以套用到微处理器和 DRAM 上。 你甚至可以套用到电力上。但事实上我们确实对制造最先进 DRAM 的相关技术实施了出口管制。我们对中国各种芯片制造设备都有各种出口管制。我们向中国出售大量 DRAM 和 CPU,我认为这是对的。 [1:22:50] 我觉得这又回到了根本问题:AI 是否不同?如果你拥有那种能在软件中发现零日漏洞的技术,我们是否应该尽量减少中国率先达到、大规模部署的能力?我们希望美国保持领先。这一点我们可以控制。 如果芯片已经到位,他们正在用来训练那些模型,我们怎么控制?我们有大量算力。我们有大量 AI 研究人员。我们在尽全力奔跑。再说一次,我们拥有比任何人都多的核武器,但我们不想把浓缩铀送到任何地方。 我们不是浓缩铀。这是芯片,是他们自己也能制造的芯片。但他们从你这里买是有原因的。我们有中国公司创始人的引用,他们说自己的瓶颈就是算力。因为我们的芯片更好。总体而言,我们的芯片更好。 这毫无疑问。在没有我们芯片的情况下…… 你能承认 Huawei 去年创了营收纪录吗?你能承认一大批芯片公司已经上市了吗?你能承认这些吗?是的。你也能承认我们 曾经在那个市场有很大的份额,而现在我们不再有很大的份额了吗?我们也可以承认,中国占全球科技产业的约40%。为美国科技产业放弃那个市场,是对我们国家的损害。是对我们国家安全的损害。 是对我们技术领导力的损害,所有这些只是为了一家公司的利益。这对我来说毫无道理。我有点困惑。感觉你在同时说两件不同的事。一件是如果允许我们竞争,我们会赢下和 Huawei 的竞争,因为我们的芯片会好得多。 另一件是即使没有我们,他们也会做完全一样的事。这两件事怎么能同时成立?这显然是成立的。在没有更好选择的情况下,你会接受唯一的选择。这有什么不合逻辑的?这太合逻辑了。他们想要 Nvidia 芯片是因为它们 更好。对。更好就是更多算力。更多算力意味着你能训练更好的模型。不,就是更好。更好是因为更容易编程。我们有更好的生态系统。但不管"更好"体现在哪里,不管"更好"是什么…… 而且当然 我们会卖给他们算力。那又怎样?事实是我们能从中获益。别忘了,我们获得了美国技术领导力的收益。我们获得了开发者在美国技术栈上工作的收益。我们获得的收益是,当那些 AI 模型扩散到世界其他地方时,美国技术 栈因此成为最好的选择。我们可以继续推进和传播美国技术。这一点我认为是积极的。这是美国技术领导力非常重要的一部分。现在,你所倡导的那些政策导致美国电信产业基本上被 政策逼出了全球市场,以至于我们已经不再掌控自己的电信了。我不觉得这是明智之举。这有点目光短浅,并且导致了我正在向你描述的意外后果,而你似乎很难理解这些后果。 好吧,让我们退一步。这里的关键似乎是存在潜在收益也存在潜在成本。我们要弄清楚的是,收益是否值得承担成本。我想让你承认潜在的成本。算力是训练强大模型的输入。 [1:26:04] 强大的模型确实具有强大的攻击能力,比如网络攻击。美国公司率先达到 Mythos 级别的能力是一件好事,然后他们现在暂缓发布那些能力,以便美国公司和美国政府能在这个能力级别被公布之前,让他们的软件得到更好的保护。 如果中国拥有更多算力或更多集群算力,如果他们能更早做出 Mythos 级别的模型并大规模部署,那将非常糟糕。这种情况没有发生的原因之一,是因为我们在美国拥有更多算力,这要感谢像 Nvidia 这样的公司。这就是向中国出售芯片的一个成本。 所以先不说收益。你能承认这是一个潜在的成本吗?我也告诉你潜在的成本是,我们让 AI 技术栈中最重要的层之一——芯片层——放弃整个市场,全球第二大市场,让他们能够发展规模,让他们能够发展自己的生态系统, 让未来的 AI 模型以一种与美国技术栈非常不同的方式来优化。当 AI 扩散到世界其他地方时,他们的标准、他们的技术栈将优于我们的,因为他们的模型是开源的。我想说的是,我对 Nvidia 的内核工程师和 CUDA 工程师有足够的信心,相信他们能够优化—— AI 不仅仅是内核优化,你也知道。当然,但你可以做很多事情,从蒸馏到训练一个适配你芯片的模型。我们会尽全力。你拥有所有的软件。只是很难想象即使他们有了一个 在一段时间内稍微好一点的开源模型。中国是世界上最大的开源软件贡献者。事实。中国是世界上最大的开源模型贡献者。事实。今天这些都建立在美国的技术栈上,Nvidia 的技术栈。事实。AI 技术栈的五个层级都很重要。美国应该去赢下全部五个 层级。它们都很重要。其中最重要的当然是 AI 应用层。这个层渗透到社会中,使用最多的国家将从这场工业革命中获益最多。但我的观点是,每一层都必须成功。如果我们把这个国家吓到以为 AI 某种程度上是核弹,让所有人都讨厌 AI、所有人都害怕 AI,我不知道你怎么帮得了美国。你是在帮倒忙。如果我们吓得所有人都不敢做软件工程工作,因为它会杀死所有软件工程岗位——结果我们就没有软件工程师了——我们是在 帮美国的倒忙。如果我们把所有人吓得不敢学放射科,没人想当放射科医生了,因为计算机视觉完全免费而且没有 AI 会比放射科医生做得差,那我们就搞混了工作和任务的区别。放射科医生的工作是病人护理。任务才是看片子。 如果我们如此深刻地误解了这一点,把所有人都吓得不去读放射科,我们就不会有足够的放射科医生和足够好的医疗保健。所以我想说的是,当你做出一个如此极端的前提,所有事情不是零就是无穷大,我们最终只会用一种根本不真实的方式吓到人们。生活不是 那样的。我们想让美国领先吗?当然想。我们需要在那个技术栈的每一层都领先吗?当然需要。当然需要。今天你在谈 Mythos,因为 Mythos 很重要。当然。那很好。但几年后,我给你一个预测,当我们想要美国技术栈,当 [1:30:14] 我们想要美国技术扩散到全世界——扩散到印度、中东、非洲、东南亚——当我们的国家想要出口,因为我们想出口我们的技术,我们想出口我们的标准,到那一天,我希望你和我再进行同样的对话。我会跟你准确地说起今天的 对话,关于你的政策和你的设想如何实实在在地导致美国毫无理由地拱手让出了世界第二大市场。我们不应该主动让出。如果输了,那就输了。但为什么要主动让出呢?现在没有人主张全有或全无。没有人主张全有或全无,意思是 我们在任何时候都把所有东西运到中国。没有人主张那样。我们应该始终在国内拥有最好的技术。我们应该始终在国内拥有最多的技术,而且是最先获得的。但我们也应该努力在全球范围内竞争并取胜。这两件事可以同时发生。 这需要一定的细腻,一定的成熟,而不是绝对化。世界不是非黑即白的。好。关键论点在于这里。他们已经为自己能造的最好芯片构建了专门优化的模型,几年后那些芯片出口到全世界。那就定下了标准。因为 EUV 出口管制, 正如我们说的,你会推进到 1.6nm。他们即使几年后仍然会停留在 7nm。在国内他们可能会倾向于,"嘿,我们有这么多能源,可以大规模制造。我们还是继续用 7nm。"但在出口方面,他们的 7nm 芯片必须能与你的 1.6nm 芯片竞争。 他们的模型必须针对 7nm 优化到足够好,好到在 7nm 上跑他们的模型比在你的 1.6nm 上跑还强。那我们看看事实好了?Blackwell 在光刻技术上比 Hopper 先进 50 倍吗?是 50 倍吗?差远了。我反复说过很多遍了。Moore 定律已死。从 Hopper 到 Blackwell, 单从晶体管本身来说,大约 75% 的提升。两者相隔三年,75%。但 Blackwell 是 Hopper 的 50 倍。我的观点是,架构很重要。计算机科学很重要。半导体物理当然也很重要,但计算机科学很重要。AI 的影响力很大程度上来自 计算栈,这就是为什么 CUDA 如此高效,为什么 CUDA 如此受欢迎。这是一个生态系统,一个计算架构,它提供了如此大的灵活性——如果你想彻底改变一种架构,创造像 MoE 这样的东西,创造像 diffusion 这样的东西,创造 去中心化的东西——你都可以做到。很容易做到。所以事实是,AI 既关乎上层的软件栈,也关乎下层的架构。在我们拥有针对自己的栈、自己的生态系统进行优化的架构和软件栈的前提下,这显然是好事,因为我们今天对话一开始就聊到 Nvidia 的生态系统有多丰富。为什么人们总是喜欢先用 CUDA 编程?他们确实如此。他们确实如此。中国的研究人员也一样。但如果我们被迫离开中国,如果我们被迫离开中国,首先,这是一个政策错误。显然它产生了反效果。这对美国来说是不利的结果。它推动了、加速了他们的芯片产业。 它迫使他们整个 AI 生态系统专注于自己的内部架构。现在还不算太晚,但尽管如此,这已经发生了。你会看到未来,他们不会停留在 7nm,这是显然的。他们擅长制造。他们将继续从 7nm 往前推进。 [1:34:40] 那 5nm 和 7nm 之间有 10 倍的差距吗?答案是没有。架构很重要。网络很重要。这就是为什么 Nvidia 收购了 Mellanox。网络很重要。能源很重要。所以所有这些东西都很重要。这不像你试图简化的那样简单。我们可以从中国话题继续,但这 实际上引出了一个有趣的问题。我们之前讨论了 TSMC 和内存等方面的瓶颈。如果我们处于这样一个世界,你已经占了 N3 的大部分产能——在某个时候你会到 N2 并且也会占大部分——你是否考虑过回到 N7,利用老制程节点的闲置产能,然后 说,"嘿,AI 的需求太大了,我们扩展先进制程的能力跟不上,所以我们要做一个 Hopper 或者 Ampere,但用上我们今天在数值精度和你描述的所有其他改进方面的一切知识"?你觉得这种情况会在 2030 年之前发生吗?没有必要那样做。原因是每一代产品,架构 不仅仅是晶体管尺寸。你在封装、堆叠、数值精度和系统架构方面做了大量工程工作。当你用完产能想轻松回退到另一个节点时……那是 谁都承担不起的研发投入。我们承担得起往前走。我不认为我们承担得起往回走。现在,如果全世界只是说……如果在那一天,我们来做个思想实验,那一天我们说,"听着,我们永远不会再有更多产能了。"我会回去用 7nm 吗? 会,毫不犹豫,当然会。有人问过我一个问题,为什么 Nvidia 不同时运行多个完全不同架构的芯片项目?比如你可以做一个 Cerebras 风格的晶圆级芯片。你可以做一个 Dojo 风格的超大封装。 你可以做一个不用 CUDA 的。你有资源和工程人才同时做所有这些。那为什么把所有鸡蛋放在一个篮子里,谁知道 AI 会走向哪里,架构会怎么演变?哦,我们可以做。只不过我们没有更好的主意。 我们可以做所有那些事情。只是没有更好。我们在模拟器里全都模拟过了,可以证明都更差。所以我们不会那么做。我们正在做的项目正是我们想做的。如果工作负载发生了根本性变化—— 我不是指算法,我实际上是指工作负载,而这取决于市场的形态——我们可能会决定增加其他加速器。比如,最近我们收购了 Groq,我们将把 Groq 整合进我们的 CUDA 生态系统。我们现在这样做是因为 token 的价值已经涨得很高,你可以有不同的 token 定价。在过去,就几年前,token 要么免费要么几乎不花钱。但现在你可以有不同的客户,这些客户想要不同的答案。因为客户赚了很多钱——比如我们的软件工程师——如果我能 [1:38:23] 给他们响应速度更快的 token,让他们比现在更高效,我愿意为此付费。但这个市场是最近才出现的。所以我认为我们现在有能力让同一个模型,根据响应时间,有不同的细分市场。这就是为什么我们决定扩展 Pareto 前沿,创造一个推理的细分市场,响应时间更快,即使吞吐量更低。到目前为止,更高的吞吐量总是更好的。我们认为可能会有一个世界,有非常高 ASP 的 token,即使工厂的吞吐量较低,ASP 也能弥补。 这就是我们这么做的原因。但除此之外,从架构角度来看,如果我有更多钱,我会把更多投入到 Nvidia 的架构上。我觉得这个极致高端 token 和推理市场的分化是非常有趣的想法。它的细分化。 是的。好,最后一个问题。假设深度学习革命没有发生。Nvidia 会在做什么?显然是游戏,但考虑到—— 加速计算,和我们一直在做的一样。我们公司的前提是 Moore 定律将要……通用计算对很多事情来说是好的,但对于 很多计算来说并不理想。所以我们将一种叫 GPU 的架构,CUDA,与 CPU 结合,这样我们就可以加速 CPU 的工作负载。不同的代码内核或算法可以卸载到我们的 GPU 上。结果就是,你把一个应用加速了 100 倍、200 倍。这能用在哪里?显然是 工程、科学、物理学、数据处理、计算机图形学、图像生成,各种各样的领域。即使今天 AI 不存在,Nvidia 也会非常非常大。原因是相当根本的,那就是通用计算继续扩展的能力基本上已经走到了尽头。 而唯一的方式……不是唯一的方式,但做到这一点的方式是通过领域特定加速。我们最早开始的领域之一是计算机图形学,但还有很多其他领域。各种各样。粒子物理学和流体力学、结构化数据处理,各种不同类型的算法都能从 CUDA 中受益。 我们的使命真的是把加速计算带给全世界,推进通用计算做不到的应用类型,并扩展到能够突破某些科学领域的能力水平。一些早期的应用是分子动力学、用于能源发现的地震处理、图像处理等等,所有这些 通用计算效率太低而无法胜任的领域。如果没有 AI,我会非常难过。但由于我们在计算方面取得的进展,我们让深度学习民主化了。我们让任何研究人员、任何科学家、任何地方的任何学生都能用一台 PC 或一块 GeForce 独立显卡来做出色的科学研究。这个根本性的承诺没有改变,一点都没有。如果你看 GTC,最开始的整个部分都不是 AI。那整个部分关于计算光刻或者我们的量子化学工作、数据处理工作,所有那些东西都跟 AI 无关。而且仍然非常重要。 [1:42:45] 我知道 AI 非常有趣也非常令人兴奋,但有很多人在做很多非常重要的跟 AI 无关的工作,tensor 也不是唯一的计算方式。我们想帮助每一个人。Jensen,非常感谢。不客气。我很享受这次对话。我也是。