
11月27日晚,DeepSeek悄然开启了新的Hugging Face模型DeepSeek-Math-V2。这是达到IMO(国际数学奥林匹克)金牌级别的数学模型,也是业界第一个开源的模型。
DeepSeek 在同期发布的白皮书中表示,Math-V2 的部分性能优于谷歌的 Gemini DeepThink,并在 IMO-ProofBench 基准测试和最近的数学竞赛中展示了该模型的性能。
具体来说,在Basic基准测试中,DeepSeek-Math-V2远远优于其他模型,达到了近99%的高分,而排名第二的Gemini Deep Think(IMO Gold)得分为89%。然而,在最难的高级子集上,Math-V2 得分为 61.9%,比 Gemini Deep Think 的稍差(国际海事组织黄金)65.7%。
在一篇题为“DeepSeek Math-V2:走向自我验证数学推理”的论文中,DeepSeek 指出大规模语言模型在数学推理方面取得了重大进展。这是人工智能的重要测试平台,未来的进步可能会影响科学研究。
然而,当前的人工智能在数值推理研究方面存在局限性。即最终的正确答案作为奖励,但正确答案并不能保证推理正确。许多数学任务,例如定理证明,需要严格的逐步推导而不是数字答案,因此不应用对最终答案的奖励。
DeepSeek认为,要克服深度学习根源的限制,必须考察数学推理的广度和严谨性。研究团队认为,在进行测试时,自我验证非常重要,尤其是对于没有已知解决方案的未解决问题。我们建议特别对于之间的比例计算非常重要。
DeepSeek发布的Math-V2从结果导向转向过程导向,展示了强大的定理证明能力。该模型并非基于数学问题答案的大量数据。相反,我们教人工智能如何像数学家一样严格地审查证明过程,从而不断提高其在无需人工干预的情况下解决困难的数学证明问题的能力。
论文称,Math-V2 在 IMO 2025 和 CMO 2024 上取得了金牌级别的成绩,并在 2024 年扩展 Putn 测试计算中取得了接近满分(118/120)的成绩。
在 DeepSeek,我们相信,虽然还有很多工作要做,但这些结果表明自我验证数学推理是一个可行的研究方向,可以帮助开发更强大的数学推理。学习人工智能系统。
国外对DeepSeek行为的反应是:“鲸鱼终于回来了”。有网友感叹d DeepSeek 的性能比谷歌荣获 IMO 金奖的 DeepThink 模型高出 10 个百分点,但这并不在预测范围内。 “想象一下当他们想出一个编程模型时会发生什么。我确信他们有一个编程模型。”
如今,行业领先厂商的模式再次被重复。 OpenAI 在 11 月份首次发布了 GPT-5.1,几天后,xAI 发布了 Grok 4.1。上周,谷歌推出了Gemini 3系列,在人工智能领域引起了爆炸。 “现在轮到 DeepSeek 来带头了。”不过,仍然引起外界关注的是DeepSeek的旗舰机型何时会更新。业界正在热切等待鲸鱼的下一步行动。
新浪财经公众号
我们每天24小时播放最新的财经新闻和视频。更多粉丝福利,请扫描二维码关注我们(新浪财经)