站在2026年4月底这一个时间点上,谈论这个问题似乎是恰逢其会。
随着今年早期Openclaw热潮的逐渐平息(事实上,这个博客服务器就是当时阿里云搞得openclaw优惠套餐留下的基础设施遗产),回顾一下agents的发展与局限性是很有趣的一件事。作为一名非典型技术爱好者,我也较为长期的使用了cc,codex和openclaw以及一些不太知名的,乱七八糟的agents,其中有些工具体验相当混乱,几乎可以作为“AI 屎山”的样本。当前的基础模型与agent设计的确让自然语言->可用程序这一流程简化到了两年前无法想象的程度,agent也从24年的概念阶段逐渐走向工程可用,但在对Agents能力惊叹的同时,也存在一些隐藏的焦虑:
AI在多少程度上会取代程序员?
又会在多大程度上取代泛计算机学科的科研工作?
定量结论很难详细给出,不过我们可以讨论一个更有趣的话题角度,如果AI要在某个方面高度取代人类,其至少要做到任务闭环。
从控制论的角度讲,闭环控制是非常经典与核心的概念,从目标到反馈,再到比较与最终的控制,一个设计合理的闭环系统只需要通过一个目标设定就可以在工作范围内达成目的。其中,对与agents来讲最核心的部分我认为就是反馈,这也恰好对应上了llm令人印象深刻代码和数学能力:至少在某些子问题上,有相对明确的对错标准。
因此,我们这里想引入一个“飞轮效应”来讨论这一想法。
“飞轮效应”最初指为了让静止的飞轮开始旋转,需要持续的初始力,但当其动能累计后,只需要少量外力即可持续运转。后续被贝索斯等人引入到管理和商业领域,用于阐述系统/公司突破临界点后,可以高效自主运转与扩展的机制。
对于agent飞轮来讲,其能够调用工具,能够连续执行多个步骤,但飞轮并没有完全转起来,核心缺失就是任务闭环。如果该系统能够持续完成任务并得到可评价的结果,自动积累数据资产,为下一轮生产与基模迭代提供更多燃料,我们就能够认为飞轮已经转起来了。
可以简单定义为以下流程:
智能体执行任务 → 与环境交互,产生行动-观察-结果轨迹 → 从成功/失败中自动学习 → 能力提升 → 解锁更复杂场景 → 产生更多高质量交互数据 → 循环加速
能否利用任务结束后的反馈,是开环的”强大自动化工具“和闭环的”飞轮系统“间的主要区别。
正如我们之前所说,代码和数学领域,LLM驱动的agent飞轮似乎看起来像已经启动了,现有agent能够完成初始任务描述,操作代码库,编写测试,操作终端等等一系列任务,以cc为代表的coding agent更是展现出了超越大部分初级程序员的设计与实现能力。
在这些小领域,“飞轮”的旋转依赖于明确的对错/好坏评价与可自动验证的规则,与需要RLHF的大多数领域不同,这是一个简单的闭环任务(这里的简单并不是指任务简单,毕竟很多代码你让我打我也打不出来)。这些小飞轮的成立,核心原因是任务具有很强的外部验证器。
这个是我这篇博客最想谈的一个问题,
本文作者:ziqing luo
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!