昨天,我试着让 AI 帮我开发一个 YouTube 下载工具。
这件事看上去很简单。大模型也确实很聪明,它知道应该用 yt-dlp,知道必须装 ffmpeg,也知道写一段 Python 脚本去调用就好了。方向没错,方案也没错,甚至可以说,第一步判断比很多普通人都快。
但我折腾了 30 分钟,始终没有达到我想要的效果。后来我下载了一个现成的开源工具,反而很快就解决了。
后来我又试了一类我原本以为更简单的东西:Chrome 插件。我让 AI 写一个插件,用来清理网页垃圾、更高效地阅读正文,并支持导出 Markdown、PDF 和 PNG 长图。结果还是一样。严格说,也不是不行,它能跑,看上去也像那么回事,主流程大体能通。但如果打分,我会给它 65 分。
问题就出在这里。
65 分,不是“不会”,也不是“完全不能用”。65 分的意思是:功能出来了,但产品没出来。它能把主路径跑通,却处理不好边界;能把页面做出来,却处理不好交互;能把功能拼起来,却处理不好异常、状态和体验。你会感觉它总是差一点,可软件里最贵的部分,往往恰恰就是这“一点”。
所以,我觉得无招说的“软件日抛”,方向是对的,但说重了。
说它对,是因为 AI 确实把软件开发的门槛打下来了。很多过去要几天、几周才能搭出来的东西,现在 30 分钟就能做出一个原型。哪怕只是 65 分,它也已经足够验证一个想法,甚至在某些场景下已经够用了。这件事本身已经非常了不起。
但说它重了,是因为从 65 分到 85 分,补的往往已经不是“再加几个功能”,而是进入工程区了。代码结构稳不稳定,状态有没有打架,异常有没有补齐,边界有没有处理,交互顺不顺手,输出是否一致,体验能不能复用——这些东西,AI 现在并不会自动替你收口。
也就是说,AI 今天最强的,是快速生成功能;但它最弱的,恰恰是把功能压成稳定可交付的软件。它像一个非常聪明、反应很快、知识面很广的人,能立刻告诉你应该往哪走,却还不太擅长把现场一点点收干净,把所有缝都补齐,把那些“总差一点”的地方变成“真的顺手”。
我越来越觉得,很多人不是高估了 AI,而是高估了 demo。
有些朋友,看到一个 demo,就惊呼世界要翻天了,秩序要颠覆了。这其实不是因为他们看得太远,而是因为他们没有分清三件事:演示能力、产品能力和系统能力。一个 demo 能说明的,通常只是某个能力第一次被证明存在,某条路径大体可行,某种体验第一次被看见。它当然重要,因为它告诉你“这条路通了”。但它说明不了这个东西能不能稳定复现,能不能被普通人反复使用,能不能处理异常和边界,能不能接入真实流程,更说明不了它能不能承载责任、协作和成本。
很多人看到的是“能力显现”,却误以为“旧秩序已经替代完成”。这中间,其实隔着很长一段路。中间隔的,不是想象力,而是工程。
Demo 很像样板间。灯光一打,镜头一推,处处都显得高级,仿佛明天就能入住。可真到了交房那天,你才会发现,水电还没走稳,门缝还没收齐,下水还没压测,柜门一开就歪。AI 今天最擅长的,就是先把那个样板间做出来。它能快速搭出一个原型,跑通主流程,做出惊艳的一下子。但从“像样”到“好用”,从“能跑”到“稳定”,中间隔着的,往往不是再加几个功能,而是一整套工程。
所以,我对 AI 编程的判断是:它的工程能力一定会快速进化,但它的进化路径,不会是一夜之间变成一个资深工程总监,而更像一个越来越能干的施工队。先会搭脚手架,先把轮廓立起来;然后开始砌墙刷漆,把标准化、重复性的部分越做越顺;再往后,才是铺管线、补细节、做验收,慢慢逼近那些真正复杂、充满边界条件和责任约束的产品工程。
换句话说,65 分到 80 分,会越来越快;80 分到 90 分,会明显改善;但 90 分以上,短期内仍然很贵。因为软件最难的,从来不是第一次做出来,而是第一百次还不出错。不是功能存在,而是边界补齐。不是能演示,而是能交付。
所以,更准确的说法不是“软件日抛”,而是“原型日抛,成品不日抛”。AI 的确改变了软件开发的起点,让试错成本变得极低,让很多过去不值得做的小工具一下子变得值得试一试了。但它还没有消灭软件工程本身。只要大模型的编程能力还不能主动构建工程体系,软件就还不可能真正变成日抛品。
它可以很快长出功能,但离长成产品,还有一段距离。而这段距离,恰恰就是过去几十年软件行业里最值钱、也最不性感的那一部分:工程。