
; (서울=연합뉴스) 김성민 기자 = 2일 서울 영등포구 여의도한강공원 멀티플라자에서 열린 '2026 한강 잠퍼자기 대회'에서 참가자들이 잠을 자고 있다. 2026.5.2 ksm7976@yna.co.kr
十万个 token 后,仅依赖最终奖励,很难定位到底是哪一步决策出了问题。Composer 2.5 会在具体错误发生的位置插入简短反馈提示,把这个局部上下文下生成的分布当作教师信号,再用蒸馏 KL 损失拉近学生策略。这样能更精准地纠正错误工具调用、混乱解释和不符合要求的风格。为了继续提升编码能力,Cursor 还把合成任务规模扩大到 Composer 2 的 25 倍,并在训练中动态筛选更难任务。
当前文章:http://2m0o7f.ceqialuo.cn/iyfeujg/q2yvh.html
发布时间:00:00:00