
当AIagent花一小时反复通达归并封邮件却只生成一份省略清单时,咱们不得不再行凝视这类器具的实用性。本文深度拆解agent责任流的核肉痛点——从不可掂量的本钱蹂躏到造作积蓄效应,揭秘ReAct、Plan+Execute等步地在实质场景中的的确清晰,为居品司理提供关键决议框架。

前阵子我让agent帮我整理一周邮件,正本思望望目下的器具到底能不成用。跑了快一个小时,API账单跳了几刀,临了输出的是一份我两分钟我方就能写完的清单。中间它还反复通达了归并封邮件4次。
那次之后我对agent责任流的判断圭臬变了少量。
跟闲居prompt的永诀在哪
最直不雅的永诀:闲居prompt是一次性的——你问,它答,截至。agent不是,它会我方决定下一步作念什么,什么技能停。
这少量听起来小,影响很大。一次性prompt你能掂量本钱和时延;agent你不成。它可能3步处置,也可能跑30步还在原地打转。你写prompt的技能大致知说念模子这一轮要作念什么——agent跑的技能,模子每一步王人在我方判断”下一步作念什么”。
中间这个”自主判断”的过程,即是agent责任流的中枢,亦然总共辛苦的开头。
几种常见步地
我我方跑过和读过的几种,2026年世界杯中国官网各自的弃取:
ReAct(reason+act轮回):模子先思一下接下来作念什么,然后本质一个tool,看到效果再思下一步。最朴素也最常见。问题是容易在神圣任务上绕远——正本一步能作念完的,它非要reason一下。
Plan+Execute:先让模子出一个场合(几步,每步作念什么),然后按场合本质。刚正是可掂量,坏处是场合一朝定死,中间发现新信息也不太会回头改。
Reflection:跑完一遍,让模子我方review一下效果,2026世界杯比赛APP官网下载首页认为不行就重跑。能提质地,但本钱翻倍。
Multi-agent:几个agent各管一摊,彼此传音讯。听着很好意思,实质跑起来调试地狱。一个agent出错,你得追三四层调用链才知说念在哪儿崩的。
我目下的默许遴荐是ReAct,任务复杂到一定进度才上Plan+Execute。Multi-agent我只在能了了拆出寂寞职守的场景才用——比如一个agent写代码、一个agent跑测试、一个agent看log。才能之间有明确接缝才好拆。
的确难的是什么
模子toolcalling照旧很稳,这部分不是难点。
难的是另外几件:
停不下来。模子在神圣任务上跑得很欢,在没条理的任务上也跑得很欢——它很少会说”我搞不定”。你得在外面套一层最大步数、最大token数、超时机制。
豪门国际官网娱乐网造作积蓄。一个agent跑10步,每步95%准确率,举座就只消60%。链路越长,这个问题越理解。是以能短就短,能并行就并行,不要让模子伙同作念十几件依赖关连强的事。
高低文爆炸。每一步的tool输出王人堆进高低文里。20步之后高低文里塞满了中间效果,模子启动忽略早期信息,或者出现奇怪的hallucination。需要主动编订:每一步截至后,把无关的tool输出折叠掉,只留摘录。
调试费事。闲居prompt出错你看一遍输入输出就知说念。agent出错你赢得放总共这个词轨迹,看它在第几步走偏的、为什么走偏。我目下的民风是每个toolcall前后王人打log,出问题先看完满trace再下论断。
什么任务果然合适agent
复杂任务不见得就合适用agent。我目下的警戒是:
合适的——
步数不固定,中间需要把柄效果判断下一步
单步可考据(写代码+跑测试这种,每一步有客不雅响应)
失败本钱低,不错重跑
不合适的——
步数固定的历程(径直写剧本)
需要严格审计的(agent的不笃定性会形成事故)
单步要花很久才能考据对错(造作会一说念传到底)
好多东说念主把”复杂”等于”应该用agent”。其实复杂任务里特地一部分是历程明确的,这种东西用workflow把挨次写死比让agent我方推敲踏实得多。LLM在内部只崇敬该用判断的那几步。
这事的判断本钱不在框架遴荐2026世界杯比赛APP官网下载首页,在你愿不肯意花时辰把单步先调稳。






备案号: