“Qwen” · 近30天声量数据
作品数作品数趋势作品数分布
互动数互动数趋势互动数分布
- B站27.2w/31%
- 公众号24.6w/28%
- 小红书15.5w/18%
- 抖音9.1w/10%
- 视频号7.7w/9%
- 微博4w/5%
- 快手870/0%
代表作品
作品导出
深度报告
内容 | 评论 | 分享 | 收藏 | 获赞 |
---|---|---|---|---|
![]() ![]() 【老司机必备】发Q小狐狸提示词来了~ 灰森森森 发布时间2025/09/05 11:39:15 | 857 | 228 | 1w | 2.2w |
![]() 该说不说…峰峻妹有自己的七字藏头。。。 Octoberynn_23 发布时间2025/08/28 13:19:40 | 458 | 2394 | 1539 | 1.3w |
![]() ![]() 【老司机必备】发Q小狐狸提示词上线 灰森森森 发布时间2025/09/02 09:50:50 | 850 | 71 | 3186 | 1w |
![]() 零代码小白,AI帮他做出月入百万App? 豆芽AI笔记本 发布时间2025/08/26 11:03:10 | 53 | 745 | 6938 | 9527 |
![]() ![]() RL 训练新思路:从“题海”到“精练” 如何最大化利用少量高质量可信示例,而非单纯堆砌数据量?
通义实验室将视角从数据中心转向样本中心,提出渐进式优化(Progressive Optimization)强化学习训练框架LPPO——突破推理瓶颈,不仅在"量",更需吃透每道题,其核心算法如下:
1、前缀引导采样(PG-Sampling):受人类"借助线索逐步推理"的认知模式启发,针对模型无法自行解决的难题,将专家示例中的部分解答前缀作为提示引导模型解题;
2、学习进度加权(LP-Weighting):借鉴人类"聚焦当前能力匹配的关键问题"的学习方式,根据模型当前进展自适应调整每个训练样本的权重。通过对每道题的通过率进行指数移动平均,估计样本级的学习进度,优先强化有进展的样本,淡化停滞/衰退样本。
仅使用817道带专家解答的题目及MATH L3-5的小规模数据集,我们在AIME24/25、AMC23、MATH-500、Minerva、OlympiadBench上较GRPO基线平均提升4.5%的pass@1准确率,收敛更快、上限更高。同时,LPPO在不同模型(Llama-3.2-3B-Instruct、Qwen-2.5-Math-7B、Qwen-2.5-14B)和策略梯度算法(GRPO、REINFORCE++)上均表现出良好通用性。
#通义 #大模型 #强化学习 #论文 #涨知识 ![]() 通义大模型 发布时间2025/09/04 03:59:17 | 413 | 92 | 850 | 5620 |