不要用静态的观点投资

AI泡沫论甚嚣尘上,可惜每一个论据都站不住脚,因为它们都在用静态的方式在分析,用过去来衡量未来,而不是用过去来预测未来。

我说一个非专业人士很难理解的,就是AI成本会急剧下降,可能会下降90%。

为什么? 因为当前的云端推理模型成本不合理,将来必然会发展到云端和前端联合推理。而且这不是胡说,这是在实现的路上。

我们已经看到:

  • Apple 的 3B、7B 端侧模型在 iPhone16 上全速跑
  • Google 的 Gemini Nano 在 Pixel 处理器上达到实时语音推理
  • Mistral / Llama 8B 能在 4090 上跑 60–90 tokens/s
  • TinyLLaMA、Phi-3、Gemma2 都在冲击 1–3B 端模型极限

现在的态势不是“能不能跑”,而是:

能跑得多快、多省、多智能。

当 3B–7B 能解决 70% 任务时,端侧推理会像手机摄影一样爆发。

我当时买Pixel 8 Pro的时候就是想知道端侧推理的水平(2年前),在我到手的时候其实就被震惊了,可以实时识别任何语音,也就是我可以接听任何语言的电话和视频都会实时(延迟500ms左右)打出该语言的字幕,这在性能上只是个12G内存的破电脑。

过去一年,我们在试图做前端视频算法的时候,震惊的发现,iOS的前端推理算法,配合其集成GPU的优势,其推理速度不亚于台式机的3090显卡。(当然,现在Android还远远不行,但这是过去,不是未来)。

所以,未来前端推理,会分层分阶段的逐步实现,最终达到前端和后端共同推理的完美结合,结构如下(该PPT为gemini根据我的描述生成):

最有意思的是,巨头里的大部分,比如Google、Microsoft、Meta、Amazon、AMD、QualComm、Samsung、Intel等等,都会受益于端侧推理——甚至Netflix这种也是。这就决定了未来是一场一边倒的战争,英伟达一边偷偷发力端侧GPU,一边尽力避免推理的端侧转移;Google、QualComm、Apple等努力的整合端侧库、研发端侧推理芯片,尽早实现端侧的转移以规模性的降低成本。

这个时候黑马就出现了。

如果有一个优秀的大模型厂商——也可以不那么优秀,比如Claude、或者Kimi、或者Meta,突然想明白了,这是新的 MS DOS时代,就会跳出来搞一个协议去分离前后端,那么整个AI的格局就骤然一变,所有服务器成本都会规模性降低、所有的手机和电脑硬件厂商都高潮到合不拢腿。

这就是为什么AMD股价偏高的原因(除了市值小以外的第二个原因),这也是为什么下个阶段的策略投资,高通和Google都可能出现新的爆发式增长的原因(比如Google整合Android生态的NPU)。

从财务的角度静态分析快速发展的产业,是一种神奇的逻辑,我不懂这些大神是如何自洽的。


已发布

分类

,

来自

标签:

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注