黄仁勋首次回应DeepSeek:后训练才是“智能核心”

AI每日新闻18小时前发布 shen
15 0

DeepSeek模型引发全球关注近一个月后,英伟达CEO黄仁勋终于在公开场合对其进行了回应。当地时间2月21日,在美国AI数据情报平台DataDirect Networks(DNN)公司举办的“Beyond Artificial”主题活动上,DNN CEO亚历克斯·布扎里(Alex Bouzari)与黄仁勋展开了一场面对面的深度对话。

在这场备受瞩目的对话中,黄仁勋对DeepSeek模型给予了肯定,认为其在推理阶段表现出色。然而,他话锋一转,强调后训练才是智能的真正核心。黄仁勋指出:“DeepSeek从天而降,让很多人误以为不再需要进行复杂计算,但事实恰恰相反。DeepSeek所做的工作让人们意识到,大模型可以比我们想象得更有效,因此它正在加速AI的普及和应用。”

那么,为何黄仁勋会将后训练视为智能的核心?他为何在面对DeepSeek这一强劲对手时仍能保持淡定?AI旋风将为您揭开这些问题的答案。黄仁勋首次回应DeepSeek:后训练才是“智能核心”

Scaling Law放缓,后训练“闪现智慧”

据了解,阿联酋阿布扎比先进技术研究所研究员邹航指出,大语言模型的训练成本主要集中在预训练阶段,通常需要庞大的计算资源。例如,DeepSeek V3在2048张英伟达H800集群上训练了14.8万亿个词元,一次完整训练的成本高达533万美金。相比之下,后训练的成本则要低得多,单次后训练仅花费约1万美金,相当于预训练的千分之二。

邹航进一步指出,目前预训练的缩放定律(Scaling Law)正在放缓。例如,马斯克的xAI公司发布的Grok3模型,虽然在20万个英伟达H100上完成训练,但相比GPT-4o和DeepSeek V3的提升却相当有限。这意味着预训练的边际成本正在急速加大,而边际收益却几乎停滞。

在此背景下,OpenAI于2024年9月发布的o1模型所代表的推理时缩放(inference-time scaling)正在成为业界的新范式。然而,在OpenAI o1模型发布后,业界思路一度陷入困境,围绕OpenAI o1类模型的复现模型几乎都无法达到与其相当的水平。

邹航认为,DeepSeek之所以能够轰动全球,关键在于它独立探索出了有效的推理时缩放范式。其中,DeepSeek R1模型在后训练过程中展现出了类似人类的反思、多角度验证及反证等认知过程,使得其性能达到甚至超过了OpenAI o1。因此,在预训练缩放规律放缓的前提下,可以认为DeepSeek R1所代表的深度思考类大模型的智慧是在后训练过程中出现的。

DeepSeek R1浪潮将刺激高性能GPU需求

DeepSeek V3的预训练成本虽然较高,但后训练成本相对较低。这是因为基础模型在训练时需要大量的语料,而使用人类反馈强化学习(RLHF)则能显著降低语料训练的需求。然而,这并不意味着后训练不会消耗更多资源。对于DeepSeek和OpenAI这样的产业级大模型来说,后训练仍然会消耗较多的资源。黄仁勋首次回应DeepSeek:后训练才是“智能核心”

中国人民大学陈旭教授指出,DeepSeek能够在短期内影响英伟达的股价,是因为它在训练上找到了一条捷径,降低了预训练阶段的算力成本。然而,对于小公司或小团队来说,这仍然是非常多的算力。但DeepSeek的开源为大家提供了一条“公开的路”,让大模型开发者更有信心进行复现和进一步开发,从而降低了算力成本的预期。

随着外部企业甚至中小学纷纷接入DeepSeek模型,这将产生更多的算力需求。对于一款大模型来说,预训练阶段所使用的算力是相对固定的,而推理阶段则发生于模型回答问题的时候。因此,每当DeepSeek回答一个真人用户的问题时,它就会进行一次推理,从而消耗算力。

邹航也表达了类似的观点。他认为,DeepSeek R1类深度思考模型在推理能力的增强上并非毫无代价。相比没有应用推理时计算缩放的大模型,DeepSeek R1必须先思考然后再回答,这会增加推理成本。例如,DeepSeek R1在解决数学竞赛难度的问题时思考时间常常会长达数分钟。

后训练与预训练:谁更重要?

关于预训练和后训练谁更重要的问题,目前业界尚未达成共识。OpenAI前首席科学家伊利亚·苏茨克维曾表示预训练已经走到尽头,即仅仅依靠预训练将无法再提高性能。因此,人们开始越来越侧重于在模型的推理阶段使用测试时扩展定律来做更复杂的推理,以提高模型性能。

然而,陈旭教授指出,如果没有针对基座模型开展大规模的训练,就很难实现较好的推理能力。这意味着预训练和后训练是相互依存、相辅相成的。因此,在AI模型的发展过程中,我们不能简单地忽视任何一方。

对于英伟达来说,DeepSeek的崛起虽然短期内可能对其股价产生一定影响,但长期来看并不一定是坏消息。因为DeepSeek在探索中所展现出来的训练和推理成本优化,将进一步推动大模型各方面成本的降低,从而让大模型能够更广泛地应用于各个领域。这将为英伟达等GPU厂商带来更多的市场机遇。

综上所述,AI旋风认为,黄仁勋关于后训练是智能核心的观点具有一定的前瞻性和指导意义。在AI模型日益复杂、算力成本不断攀升的背景下,我们需要更加关注后训练阶段的作用和价值,以推动AI技术的持续发展和创新。同时,我们也期待未来能够涌现出更多像DeepSeek这样的优秀模型,为AI领域注入新的活力和动力。

© 版权声明

相关文章

暂无评论

暂无评论...