深度求索大模型：“花小钱办大事”

[複製鏈接]

p30900

1181 主題	1 好友	3797 積分

大學生

Rank: 6 Rank: 6

TA的每日心情

	慵懶 10 小時前

簽到天數: 218 天

[LV.7]常住居民III

推廣值: 0
貢獻值: 0
金錢: 83
威望: 3797
主題: 1181

發消息

電梯直達

樓主

發表於 11 小時前 |只看該作者 |倒序瀏覽

一个来自中国的开源模型，在开年之际聚焦了人工智能（AI）行业的目光。

日前，杭州深度求索人工智能基础技术研究有限公司（以下简称“深度求索”）上线并同步开源DeepSeek-V3模型，同时公布长达53页的技术报告，介绍关键技术和训练细节。

和很多语焉不详的报告相比，这份报告真正做到了开源。其中最抓人眼球的部分是，V3模型能力大幅升级，但训练仅仅花费557.6万美元，仅用2048块H800显卡，耗时不到两个月。

美国人工智能初创公司Anthropic首席执行官达里奥·阿莫迪曾透露，GPT-4o的模型训练成本约为1亿美元。美国开放人工智能研究中心（OpenAI）创始成员之一安德烈·卡帕西点评，DeepSeek-V3让在有限算力预算内进行模型预训练这件事变得容易。

深度求索如何实现“花小钱办大事”？它是否走出了大模型发展的一条新路？

降低模型推理成本

深度求索一直是国内AI版图上位置相对独特的一家——它是唯一没有做2C（面向个人消费者）应用的公司，选择开源路线，至今没有融过资。

去年5月，深度求索发布DeepSeek-V2，以其创新的模型架构和史无前例的性价比爆火。模型推理成本被降至每百万Tokens（大模型用来表示自然语言文本的单位）仅1元钱，约等于开源大模型Llama3 70B的七分之一，GPT-4 Turbo的七十分之一，引发字节、阿里、百度等企业的模型降价潮。

个中关节在于，DeepSeek提出的MLA（多头潜在注意力机制）架构和DeepSeekMoESparse（采用稀疏结构的混合专家模型）结构，大幅降低了模型的计算量和显存占用，实现了高效推理和经济高效的训练。

简单来说，模型压缩、专家并行训练、FP8混合精度训练、数据蒸馏与算法优化等一系列创新技术大幅降低了V3模型成本。作为新兴的低精度训练方法，FP8技术通过减少数据表示所需的位数，显著降低了内存占用和计算需求。据报道，目前，谷歌等已将这项技术引入模型训练与推理中。

深度科技研究院院长张孝荣在接受媒体采访时说，DeepSeek的“出圈”是对其在大模型技术上的突破和创新的认可，其通过优化算法和工程实践，实现高性能与低成本的平衡。DeepSeek为整个行业的发展注入活力，也对大模型的技术路径和工程实践产生积极影响，推动高效训练、模型轻量化和工程优化。

有业内人士分析，V3在架构创新、训练效率和推理性能方面展现巨大潜力，尤其在成本和性能的平衡方面作出重要贡献。不过，与此同时，也仍有许多挑战需要解决，如需进一步扩展上下文长度、优化多模态数据处理等。未来的研究方向包括提升模型的推理速度、完善更高效的硬件架构设计，以及增强多模态学习和生成能力。

不堆算力创新算法

大参数、大算力、大投入，这条已经被验证行之有效的ChatGPT路径，实则是绝大部分创业公司难以承受之重。

据报道，仍处于研发过程中的GPT-5，已进行过至少两轮训练，每轮训练耗时数月，一轮计算成本接近5亿美元。一年半过去，GPT-5仍未问世。这意味着，新一代通用大模型的训练成本已达到十多亿美元甚至更高。未来这一数字可能持续攀升。

规模定律（Scaling law）是指在训练大模型时，数据量、参数量和计算资源越多，训练出的模型能力和效果越好。然而，一段时间以来，行业对规模定律可持续性的疑问不绝于耳。

V3的出现提供了新的解法。“Scaling Law不只停留在预训练阶段，而是往后训练，尤其是注重推理领域的后训练集、强化学习等领域扩展。”智源研究院副院长兼总工程师林咏华接受科技日报记者采访时说，这一点在国外以OpenAI o1发布为标志，国内则有DeepSeek使用强化学习训练发布DeepSeek R1这个具有很强挖掘和激活能力的模型。

在林咏华看来，V3的发布，也印证了利用R1可以很好进行能力提升。

行业相关探索还有很多，如Kimi将强化学习用到更多搜索场景，发布以逻辑思考和深度思考为核心功能的数学模型K0-math；蚂蚁技术研究院建立强化学习实验室，围绕如何在后训练及强化学习上进行更多模型能力的探索。林咏华期待，未来不仅是靠堆砌更多算力、参数和数据，而是靠真正的算法创新，持续在后训练阶段帮助模型提升基础能力。

值得注意的是，“省钱模式开启”并不意味着算力式微。

V3发布后，360集团创始人周鸿祎发文称赞“DeepSeek的进步对推动中国AI产业发展是极大利好”，但他也认为，这并非说中国AI发展不需要高端算力芯片。囤显卡建算力集群依旧必要，因为目前预训练算力需求或许没那么大，但像慢思考这类复杂推理模型对推理算力需求大，文生图、文生视频的应用也需消耗大量算力资源。巨头们提供AI云服务，构建庞大算力基础必不可少，这与 DeepSeek 降低训练算力需求是两回事，两者并不矛盾。

一位行业专家在接受科技日报记者采访时认为，2025年，大模型行业会进一步收敛，这种收敛既包括技术层面，也包括厂商层面。进入“百模大战”后期，要进一步提高模型计算效率，降低推理成本，对计算的架构分布、利用效率等都提出更为精细化的要求。

分享0 收藏0 「頂」0 「踩」0

回復

使用道具舉報

返回列表

		自動登錄	找回密碼
密碼			按這成為會員