米兰体彩app 花了1000倍的token, 恶果却莫得更好: AI Agent隐性账单长什么样

发布日期：2026-05-26 21:44 点击次数：61

米兰体彩app 花了1000倍的token，恶果却莫得更好: AI Agent隐性账单长什么样

如今的AIAgent正在大范围落地，其中运用最广且最受关切确当数ClaudeCode，Codex，Cursor这类codingagent。往日的一年里，这类codingagent产物迭代飞速，在一年内将在swe-bench-verified的准确率擢升到了78%+。

然则，比拟通俗的代码推理省略和代码有关的聊天，codingagent的token浮滥也极为显赫。在使用这种codingagent的经过中，最常听到的衔恨亦然：“为什么它惩办问题这样啰嗦”，“为什么要这样谈天休说”，以及“为什么我的credits这样快又用收场？”

这些衔恨的背后暴暴露现时codingagent的几大问题：

1.不透明：codingagent浮滥token的民俗不了了，行动款式以及不同模子之间的各异不透明；

2.不保底：在职务推论前难以知谈任务顺利与否，但岂论是否顺利，皆要支付相应支出；

3.不可瞻望：东谈主类揣测的问题难度简直和内容的token浮滥匹配吗？agent能否我方判断问题会浮滥些许token呢？

针对这些问题，来自密歇根大学、斯坦福大学等单元的守护者，使用开源的OpenHandsagent框架，分析了8个frontier模子在swe-bench-verified上的轨迹，第一次给出了一份系统性的解答。

AgenticCoding有多贵？

论文当先比较了和coding有关的3种任务：代码推理（和代码有关的单论对话推理任务），代码问答对话（对于代码问题的多轮对话聊天），以及swe-bench上的agentic代码任务。为止发现，agenticcoding任务在平均输出输入token比，平均总token浮滥，以及平均资产浮滥，均指数级高于其他两种任务。

这源自于agenticcoding任务的多轮交互和弘大而复杂的陡立文管束：巨量的代码查询，文献输出皆会被加入到对话历史中，导致浮滥执续加多，况兼agent会不停把历史陡立文、用具输出反复喂给模子，导致输入输出比高达154:1。这意味着agenticcoding任务的资本结构与咱们所闇练的对话和推理任务有显赫的不同。

AgenticCoding的支出就地性高，

且花的越多不一定作念得越好

论文统计了swe-bench-verified中500个问题的平均token浮滥，并将浮滥从小到大排序。从图中可以发现，最贵的任务可能比最低廉的任务多浮滥约700万token，况兼越贵的任务token浮滥的标准差也越大。

对湮灭任务的叠加初始来说，通过狡计最贵的一次初始和最低廉的一次初始的各异，为止发现即使是湮灭任务，最贵的初始仍可能比最低廉的初始贵2两倍足下。

进一步分析token浮滥些许与准确率的干系，论文发现更多的浮滥并不行保证更高的准确率。

对于不同任务来说，论文凭证平均token浮滥的数目进行分组，并统计每组任务的准确率，为止发现token浮滥更多的任务常常准确率较低。

对于湮灭个任务的不同初始来说，将4次初始按照token浮滥排序，分红四个支出等第，然后统计每一个支出等第的准确率。为止发现：平均统统模子来看，最高的准确率并不出当今支出最高的时候，而是出当今较低支出时。当支出最低时，任务初始的准确率最低，当擢升支出略微擢升时，准确率达到最高，不竭加多支出，当支出第二高和最高时，准确率不增反减——更多的资源浮滥并莫得带来更高的任务顺利率。

为了探索高支出失败背后的原因，论文检查并分析了agent惩办问题轨迹中的两类行动：阅读文献以及修改文献。为止发现：支出更大的初始轨迹中，叠加修改和叠加稽查湮灭文献的次数也光显更多，这标明更多的token浮滥其实陪同了好多往来复回的“折腾”，而不是高效的推理，尝试，和检查。通俗来说，一味通俗地堆token并不行显赫带来更好的恶果。

哪些模子贵，米兰体彩2026世界杯(中国)IOS/安卓官方下载哪些模子省？

不同模子之间的token效能各异极大

以上的分析是基于所测试的8个模子的举座泄漏特质，在此基础上，论文对每个模子进行了具体的分析，并比较了他们使用token的效能。

著作测试的八个模子包括OpenAI的GPT-5和GPT-5.2，Anthropic的ClaudeSonnet-3.7、ClaudeSonnet-4和ClaudeSonnet-4.5，Google的Gemini-3-ProPreview，MoonshotAI的Kimi-K2，以及阿里巴巴的Qwen3-Coder-480B。这八个模子隐蔽了五家不同的公司，同期包含闭源API模子（GPT、Claude、Gemini系列）和开源模子（Kimi-K2、Qwen3-Coder-480B）。其中ClaudeSonnet有三个版块、GPT有两个版块，这样既包含了跨公司的横向对比，也有湮灭家眷内不同代际的纵向对比。

通过不雅察不同模子的token浮滥与任务准确率的干系，发现不同模子间的各异是系统性的，不是因为任务难度不同，而是模子自身的行动民俗。举例GPT-5以及GPT-5.2可以以较低的token资本达到可以的准确率，但Kimi-K2在资本较高的同期准确率却并莫得很高。在相似的500个任务下，Kimi-K2和ClaudeSonnet-4.5比GPT-5多浮滥约150万token。

江南体育(JNsports)官网app下载

论文进一步选出了两个任务子集：统统模子皆顺利的任务和足下模子皆失败的任务，并再次统计不同模子的token浮滥。为止发现模子的token浮滥排序基本不变，况兼统统模子在失败任务子集上的token浮滥皆多于顺利子集，不同模子从失败子集到顺利子集的token浮滥增量也各不交流。

是否有办法对任务的token浮滥

进行提前瞻望？

东谈主类群众对任务难度的判断与agent内容token浮滥并不全皆吻合

当了解了agenticcoding的支出后，下一个问题即是：在推论任务之前，是否有办法凭证要推论的任务来瞻望支出？

著作当先分析东谈主类群众所连续的任务难度是否可以行为瞻望agenttoken支出的标准。在swe-bench-verified中，每一个任务皆有东谈主类群众所标志的任务难度，按照东谈主类群众预期的完成工夫分为三档：“1hr”。要是说东谈主类浮滥的工夫就荒谬于agent浮滥的token，那么东谈主类所揣测的任务难度是否和agent的token支出是吻合的呢？

论文将不同任务凭证token支出进行排序，并狡计它与东谈主类标注难度的有关性。为止发现Kendalltau=0.32，标明东谈主类群众对任务难度的判断和Agent内容浮滥的token之间只须很弱的有关性。

其中6.7%的"通俗"任务比平均"贫困"任务还贵，11.1%的"贫困"任务比平均"通俗"任务还低廉——更评释了东谈主类模样员和AIAgent对任务的"复杂度融会"是不同的维度。

Agent我方是否可以对任务的token浮滥作念出瞻望？

既然东谈主类瞻望的任务难度和agent的内容任务浮滥有所各异，那么是否可以让agent我方来瞻望我方的浮滥？

论文紧接着对agent的自瞻望进行了尝试：在这部分实践中agent统统的用具和harness的架构皆获得了保留，只须在系统教唆词中将任务从之前的“惩办问题”酿成了“预估支出”，这样一来，就可以最猛进度的表流agent自己的特征和功能，并让它得以使用相似的用具对代码库进行多轮探索，测试和推理。

论文顶用瞻望的支出和内容支出的有关性行为预计瞻望准确率的盘算，并同期统计了作念瞻望所浮滥的token。为止自满，模子作出的瞻望与内容的有关性最高只须0.39（ClaudeSonnet-4.5的outputtoken），大大皆模子皆在0.2-0.3之间，且对outputtoken的瞻望比inputtoken愈加准确。在资本方面，大部分模子作出瞻望所需要的资本皆小于内容任务推论资本的一半，除了早期的ClaudeSonnet-3.7和4，一度卓绝实在task推论资本的两倍。

著作进一步分析发现统统的模子皆低估了任务的内容浮滥，尤其对inputtoken的低估荒谬严重。

因此，非论是东谈主类群众仍是agent我方，对token浮滥瞻望面前只可行为粗粒度的信号，离精准的事先订价还有很大距离。

转头

著作通过对codingagent轨迹的分析，发现Agent的token浮滥以inputtoken为主导，且在不同问题之间以及湮灭问题的不同初始之间皆存在很高的就地性。不同模子的token效能各异显赫，且更多的token浮滥并不行保证更高的正确率。在推论前资本瞻望方面，东谈主类连续的任务难度与Agent的内容token浮滥并不吻合，Agent自身的预估也存在准确率较低和无边低估的问题。异日潜在的守护办法包括更高效的Agent想象，以及更好的支出瞻望与管束措施。

作家先容：

本文第一作家LongjuBai是密歇根大学一年事博士生米兰体彩app，通信作家JiaxinPei现为斯坦福大学博士后守护员，行将入职得克萨斯大学奥斯汀分校担任助清醒释。配合者包括来自斯坦福大学的ZheminHuang和ErikBrynjolfsson，来自AllHandsAI的XingyaoWang，来自GoogleDeepMind的JiaoSun，来自密歇根大学的RadaMihalcea，以及来自斯坦福大学和麻省理工学院的AlexPentland。

上一篇：米兰体彩app2026世界杯中国官方下载转发指示! 多地强降雨自驾出行需严慎

下一篇：米兰体彩app 湖东谈主休赛期第一签炸了! NASA工程师空降, 骑士被横扫詹姆斯要回家

热点资讯

推荐资讯