中国AI公司DeepSeek发布的DeepSeek-R1模型在《自然》杂志上展示了令人瞩目的成果。该模型通过纯强化学习训练,无需人工标注的推理轨迹,就能自主发展出高级推理模式,包括自我反思、验证和动态策略调整。

在美国数学邀请赛(AIME)2024测试中,DeepSeek-R1-Zero的准确率从初始的15.6%跃升至77.9%,使用自一致性解码后更达到86.7%,大幅超越人类参赛者的平均表现。模型在训练过程中还展现出"顿悟时刻",开始频繁使用"等等"等反思性词汇,标志着推理模式的根本转变。

研究团队通过多阶段训练流程开发出最终版本DeepSeek-R1,不仅保持了强大的推理能力,还在编程竞赛、STEM领域问题等可验证任务上表现卓越,同时具备良好的通用语言生成能力。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部