前几天有个炒股的朋友,跑过来问我,是不是英伟达不行了?感觉四面楚歌了:谷歌的NPU,OpenAI的Triton, 华为的昇腾甚至还有AMD的追赶。这让我意识到,好多股票大做手们,并没有真正理解工业时代,高科技企业的护城河是什么。
我们太习惯把知识产权、科学理论、渠道、品牌、规模、网络效应、用户认知当做护城河,这当然没错,但在科技领域,还有更重要的。我编造了一个词,叫“工程积淀”,就是由几十万几百万“微小的、枯燥的、代价昂贵的坑”填出来能力场,我们可以通俗的叫它微创新,但是它有两个特点:数量巨大,无法预测。这意味着这类创新,几乎只能通过实践和时间长出来。英伟达如此,ASML、ARM也是如此。就像ARM一样,指令集理论大家都知道,但是,要性能,要稳定,要低功耗,只有ARM做得到。
英伟达,就这样的无法跳过实践和时间的护城河,至少有两个:
- CUDA: 经过 20 年的积累,CUDA 的算子库(cuDNN, cuBLAS)几乎是“物理极限”的代名词。无论多冷门的数学模型,CUDA 里都有现成的、优化到极致的代码。
- NVLink: 如果你想训练一个超大规模模型(如 GPT-5),一块显卡是不够的,你需要上万块。显卡与显卡之间的数据传输速度决定了训练效率。英伟达通过 NVLink 和收来的 Mellanox(网络交换机) 技术,把成千上万个芯片连成一个整体,就像一个巨型大脑。AMD虽然在单卡上算力接近,但是大规模集群通信差距还是很大。
想象一下生态的“懒人引力”。搞AI算法的工程师,那是全世界最聪明、也最“懒”的一群人。他们的目标是把论文变成模型,而不是去调试驱动程序。 现在的局面是:你在Github上随便找个开源项目,99% 是基于 PyTorch + CUDA 写的。如果你用英伟达,代码 git clone 下来,Enter 一敲,跑起来了,你可以去喝咖啡了。 如果你为了省钱买了别的卡,好家伙,你得先当两天“环境配置工程师”,再当三天“Bug 调试员”,最后发现某个生僻算子不支持,还得自己手写。对于年薪百万的算法大牛来说,时间就是最大的成本,英伟达卖的不是卡,是“不折腾”的权利。
那么,对手们真的毫无机会吗?
谷歌的 TPU 很强,但那是自家后院种的菜,只供自己吃(Google Cloud),你买不到卡回家装机;OpenAI 的 Triton 确实想做“万能翻译官”,试图绕过 CUDA 的壁垒,让代码在谁家硬件上都能跑。但这就像是搞“世界语”,理想很丰满,但大家还是习惯说英语(CUDA)。
AMD 现在的策略是“我便宜大碗”,硬件参数确实追上来了,好比给你了一辆法拉利的引擎(GPU),但配的是拖拉机的变速箱(软件栈 ROCm)。虽然他们正在拼命补课,但那个“几百万个坑”的工程积淀,是无法通过“钞能力”在一夜之间填平的。
这就是“工程积淀”最残酷的地方:有些路,必须一步一步走。
这就好比生孩子,无论你哪怕你是世界首富,雇了最好的医生,甚至雇了十个孕妇,你也无法在一个月内把孩子生下来。英伟达现在享受的,是它过去二十年,在那无数个无人问津的寂寞夜晚里,一行行代码、一次次报错、一个个客户现场调试出来的“时间复利”。
所以,回答我朋友的问题:英伟达会被追上吗? 当然会,科技界没有永恒的王权。但这个过程不是“四面楚歌、一夜崩塌”,而是一场漫长的攻城战。
当下的英伟达,正坐在用二十年时间挖出来的护城河边上,看着城外挥舞着钞票和PPT的对手们,淡淡地说了一句: “想超车?行啊。但我踩过的那些坑,麻烦你们先挨个跳一遍。”
发表回复