“BIGCO” · 近30天声量数据
作品数作品数趋势作品数分布
互动数互动数趋势互动数分布
- 公众号1933/45%
- 微博621/14%
- 抖音322/7%
- 快手205/5%
- B站24/1%
代表作品
作品导出
深度报告
| 内容 | 评论 | 分享 | 收藏 | 获赞 | 操作 |
|---|---|---|---|---|---|
![]() 「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2 量子位 发布时间2026/01/02 03:39:04 | 27 | - | - | 397 | 更多 |
![]() ![]() LLMs知道他们能做什么吗?
本文提出了一个非常简单的问题:在开始解决一项任务之前,LLMs能否估算出自己成功的概率?随着工作的进展,这些估算是否会变得更加准确?事实证明,这是一种独立的能力,而且发展不佳。
作者在三种不同的场景中测试了它,从单步问题到多步代理过程。
首先,他们使用BigCodeBench,这是一组1140个单步Python任务。对于每个任务,预先要求模型说明它成功的概率,只有这样它才实际尝试解决这个任务。这样可以直接比较信心和实际表现。
结果在所有模型中都是一致的:所有模型都系统地过度自信。预测的成功概率始终高于实际的成功率。重要的是,提高模型能力并不能保证更好的自我校准。对于GPT和LLaMA家族来说,这并没有显著改善。在克劳德家族内部,过度自信有所减少,但这种情况从未消失。
平均而言,他们比偶然更能区分较容易的任务和较难的任务。换句话说,他们有一定的相对困难感,但绝对信心仍然膨胀。
第二个实验引入了一个更现实的环境:契约与风险。
该模型接收九个任务序列。每次成功赚取+1,每次失败付出−1。在每项任务之前,模型必须根据其预测的成功概率来决定是否接受或拒绝合同。任务的选择使得成功概率大致为50/50——盲目接受一切并不会带来优势。
这里核心问题变得清晰了。即使在经历了一系列的失败后,模特们仍然相信下一个任务会成功。尽管有证据,他们的主观成功概率仍保持在0.5以上。
一些模型(特别是克劳德·索内特和GPT-4.5)最终赚得更多,但并不是因为它们更擅长判断哪些任务可以解决。相反,他们总的来说接受的任务更少,变得更加规避风险。他们的收益来自于更频繁的衰退,而不是更好的自我评估。
作者还检查了模型的决策是否基于他们自己陈述的概率合理。他们基本上是这样。问题不在于决策,而在于概率本身过于乐观。
第三个实验对代理系统最为相关。使用SWE-Bench Verified,作者评估了实际涉及工具的多步任务。模型的预算最多为70个步骤。在每个步骤之后,都要求模型估计它最终成功完成任务的概率。
对于大多数模型来说,过度自信并不会减少,对于一些模型来说,随着任务的展开,过度信心实际上会增加。克劳德·索内特特别清楚地表明了这一点:即使在最终成功不会变得更有可能的情况下,在执行过程中信心也会上升。在所有测试的车型中,只有GPT-4o随着时间的推移显示出明显的过度自信。
值得注意的是,所谓的推理模型在自我评估中并不显示出优势。推理时间更长的能力并不意味着能够准确判断一个人成功的机会。
这篇论文的总体结论颇为直白:LLMs在解决任务方面已相当出色,但在理解自身能力的局限性方面仍较为欠缺。他们可以行动,但无法可靠地判断何时可能失败。
对于未来的代理系统来说,这一点非常重要。在错误代价高昂的环境中——无论是在工程、自主代理还是安全关键环境中——避免无望情景的能力可能比顶峰问题解决能力更重要。
就目前而言,自我校准能力差是一个限制因素。但如果这种能力迅速提高,后果将是巨大的。#ai生活指南##ai创造营# ![]() 阿乐聊科技 发布时间2026/01/05 11:30:54 | 42 | 180 | - | 381 | - |
![]() ![]() #翻唱歌曲#热列的少年 #Bigcoli#会火 谢谢倔强又坚强的自己但是也同时这样和让人累我真的快坚持不住了什么时间是个头希望老天爷给我一条能看见的路因为太黑了…… 阿草爱唱歌 发布时间2026/01/05 03:40:37 | 45 | 11 | 6 | 260 | 更多 |
![]() 2026年AI学习路线图:AI硬核玩家必看!附100多篇经典论文免费下载 向阳乔木推荐看 发布时间2026/01/04 08:25:50 | 7 | - | - | 151 | 更多 |
![]() ![]() #光合计划 #翻唱歌曲 #热列的少年 #Bigcoli @佤族阿草(O1326304348) “我太懂没有钱的日子有多苦,所以我向生活低了头,每天两点一线,不是上班就是在上班的路上,就算上班很累,可为了那碎银几两,我也不得不起早贪黑。 ![]() 佤族阿草 发布时间2026/01/07 03:35:36 | 60 | 3 | 6 | 136 | 更多 |










