软件日抛？ – 大碗闲说

昨天，我试着让 AI 帮我开发一个 YouTube 下载工具。

这件事看上去很简单。大模型也确实很聪明，它知道应该用 yt-dlp，知道必须装 ffmpeg，也知道写一段 Python 脚本去调用就好了。方向没错，方案也没错，甚至可以说，第一步判断比很多普通人都快。

但我折腾了 30 分钟，始终没有达到我想要的效果。后来我下载了一个现成的开源工具，反而很快就解决了。

后来我又试了一类我原本以为更简单的东西：Chrome 插件。我让 AI 写一个插件，用来清理网页垃圾、更高效地阅读正文，并支持导出 Markdown、PDF 和 PNG 长图。结果还是一样。严格说，也不是不行，它能跑，看上去也像那么回事，主流程大体能通。但如果打分，我会给它 65 分。

问题就出在这里。

65 分，不是“不会”，也不是“完全不能用”。65 分的意思是：功能出来了，但产品没出来。它能把主路径跑通，却处理不好边界；能把页面做出来，却处理不好交互；能把功能拼起来，却处理不好异常、状态和体验。你会感觉它总是差一点，可软件里最贵的部分，往往恰恰就是这“一点”。

所以，我觉得无招说的“软件日抛”，方向是对的，但说重了。

说它对，是因为 AI 确实把软件开发的门槛打下来了。很多过去要几天、几周才能搭出来的东西，现在 30 分钟就能做出一个原型。哪怕只是 65 分，它也已经足够验证一个想法，甚至在某些场景下已经够用了。这件事本身已经非常了不起。

但说它重了，是因为从 65 分到 85 分，补的往往已经不是“再加几个功能”，而是进入工程区了。代码结构稳不稳定，状态有没有打架，异常有没有补齐，边界有没有处理，交互顺不顺手，输出是否一致，体验能不能复用——这些东西，AI 现在并不会自动替你收口。

也就是说，AI 今天最强的，是快速生成功能；但它最弱的，恰恰是把功能压成稳定可交付的软件。它像一个非常聪明、反应很快、知识面很广的人，能立刻告诉你应该往哪走，却还不太擅长把现场一点点收干净，把所有缝都补齐，把那些“总差一点”的地方变成“真的顺手”。

我越来越觉得，很多人不是高估了 AI，而是高估了 demo。

有些朋友，看到一个 demo，就惊呼世界要翻天了，秩序要颠覆了。这其实不是因为他们看得太远，而是因为他们没有分清三件事：演示能力、产品能力和系统能力。一个 demo 能说明的，通常只是某个能力第一次被证明存在，某条路径大体可行，某种体验第一次被看见。它当然重要，因为它告诉你“这条路通了”。但它说明不了这个东西能不能稳定复现，能不能被普通人反复使用，能不能处理异常和边界，能不能接入真实流程，更说明不了它能不能承载责任、协作和成本。

很多人看到的是“能力显现”，却误以为“旧秩序已经替代完成”。这中间，其实隔着很长一段路。中间隔的，不是想象力，而是工程。

Demo 很像样板间。灯光一打，镜头一推，处处都显得高级，仿佛明天就能入住。可真到了交房那天，你才会发现，水电还没走稳，门缝还没收齐，下水还没压测，柜门一开就歪。AI 今天最擅长的，就是先把那个样板间做出来。它能快速搭出一个原型，跑通主流程，做出惊艳的一下子。但从“像样”到“好用”，从“能跑”到“稳定”，中间隔着的，往往不是再加几个功能，而是一整套工程。

所以，我对 AI 编程的判断是：它的工程能力一定会快速进化，但它的进化路径，不会是一夜之间变成一个资深工程总监，而更像一个越来越能干的施工队。先会搭脚手架，先把轮廓立起来；然后开始砌墙刷漆，把标准化、重复性的部分越做越顺；再往后，才是铺管线、补细节、做验收，慢慢逼近那些真正复杂、充满边界条件和责任约束的产品工程。

换句话说，65 分到 80 分，会越来越快；80 分到 90 分，会明显改善；但 90 分以上，短期内仍然很贵。因为软件最难的，从来不是第一次做出来，而是第一百次还不出错。不是功能存在，而是边界补齐。不是能演示，而是能交付。

所以，更准确的说法不是“软件日抛”，而是“原型日抛，成品不日抛”。AI 的确改变了软件开发的起点，让试错成本变得极低，让很多过去不值得做的小工具一下子变得值得试一试了。但它还没有消灭软件工程本身。只要大模型的编程能力还不能主动构建工程体系，软件就还不可能真正变成日抛品。

它可以很快长出功能，但离长成产品，还有一段距离。而这段距离，恰恰就是过去几十年软件行业里最值钱、也最不性感的那一部分：工程。