新榜讯 6月19日,小红书技术团队发布消息,其深度思考模型借助Test - Time Scaling(测试时扩展)显著提升了模型推理能力,不过也产生了大量冗余和无效思考情况。小红书Hi Lab团队为此提出Think When You Need的强化学习训练方式,在不影响最终效果的情况下,实现了动态CoT能力,让平均思考长度大幅降低。实验表明,这一理念在推理及非推理等各类任务中具有广泛适用性。此外,团队还有一项重要发现,在相同任务下,参数量大、更为“聪明”的模型所需的思考长度更短,该现象与当前深度思考模型的表现相悖,却高度契合人类认知。
扫描二维码
手机浏览
小红书Hi Lab团队提出可大幅降低平均思考长度的强化学习训练方式
分享文章链接
相似推荐

快手Kwaipilot-AutoThink模型正式发布,让大模型不再“过度思考”
新榜讯 快手Kwaipilot团队重磅发布自动思考大模型KAT - V1!该模型具备独特优势,能够依据任务难度自动切换“思考”与“非思考”模式,成功攻克大模型“过度推理”难题。

字节跳动ByteBrain团队提出秒级推理强化学习VMR系统
新榜讯 6月5日,字节跳动技术团队通过微信公众号发布消息。

字节豆包大模型团队提出稀疏模型架构UltraMem
新榜讯 2 月 12 日消息,据字节跳动豆包大模型团队透露,其 Foundation 团队于近期推出 UltraMem,这是一种能将计算和参数解耦的稀疏模型架构,在确保模型效果的基础上成功化解了推理的访存难题。