中国AI公司DeepSeek发布的DeepSeek-R1模型在《自然》杂志上展示了令人瞩目的成果。该模型通过纯强化学习训练,无需人工标注的推理轨迹,就能自主发展出高级推理模式,包括自我反思、验证和动态策略调整。
在美国数学邀请赛(AIME)2024测试中,DeepSeek-R1-Zero的准确率从初始的15.6%跃升至77.9%,使用自一致性解码后更达到86.7%,大幅超越人类参赛者的平均表现。模型在训练过程中还展现出"顿悟时刻",开始频繁使用"等等"等反思性词汇,标志着推理模式的根本转变。
研究团队通过多阶段训练流程开发出最终版本DeepSeek-R1,不仅保持了强大的推理能力,还在编程竞赛、STEM领域问题等可验证任务上表现卓越,同时具备良好的通用语言生成能力。

发表评论 取消回复