分享免费福利活动资讯,绿色软件,视频教程,源自灵魂的分享 — 4分贝

DeepSeek 突围奥秘曝光:一招 MLA 让全世界抄作业,150 + 天才集结,开出千万年薪

2025-02-01 15:18:36 投稿人:小贝 围观 评论 收藏本文

DeepSeek 突围奥秘曝光:一招 MLA 让全世界抄作业,150 + 天才集结,开出千万年薪

外媒 SemiAnalysis 的一篇深度长文,全面分析了 DeepSeek 背后的秘密 —— 不是「副业」项目、实际投入的训练成本远超 600 万美金、150 多位高校人才千万年薪,攻克 MLA 直接让推理成本暴降......

DeepSeek 这波强攻,彻底把 OpenAI 逼急了 —— 深夜紧急上线 o3-mini。

整整半个月,中国 AI 承包了国内外各大头条,影响力只增不减。

关于 DeepSeek 模型训练数据、GPU 用量、成员构成、RL 训练算法,早已成为所有人的关注焦点。

SemiAnalysis 一篇深度报道中,从多个方面进行了推测 —— 训练成本、对闭源模型利润影响、团队等等。

DeepSeek 突围奥秘曝光:一招 MLA 让全世界抄作业,150 + 天才集结,开出千万年薪

其中一些关键亮点包括:
DeepSeek 不是「副业」,在 GPU 等硬件支出远超 5 亿美元,论文中 600 万美元仅是预训练运行 GPU 成本,研发、硬件总拥有成本(TCO)被排除在外

DeepSeek 大约有 5 万块 Hopper GPU,包括特供版 H800 和 H20

DeepSeek 大约有 150 名员工,并定期从北大、浙大等招募顶尖人才,据称有潜力的候选人能拿到超 130 万美元(934 万元)薪水

DeepSeek 一个关键创新 —— 多头潜注意力(MLA),耗时多月开发,将每个查询 KV 量减少 93.3%,显著降低推理价格

o3 性能远超 R1 和 o1,谷歌 Gemini 2.0 Flash Thinking 与 R1 不相上下

V3 和 R1 发布后,H100 价格猛涨,杰文斯悖论(Jevonʼs Paradox)正发挥作用

5 万块 Hopper GPU,投资超 5 亿美金

DeepSeek 背后顶级投资者幻方量化(High-Flyer),很早就洞察到了 AI 在金融领域之外的巨大潜力,以及规模化部署的关键重要性。

基于这一认知,他们持续扩大 GPU 投资规模。

在使用数千个 GPU 集群进行模型实验后,幻方在 2021 年投资购入了 10,000 块 A100,这一决策最终证明是极具前瞻性的。

随着业务发展,他们在 2023 年 5 月决定分拆成立「DeepSeek」,以更专注地推进 AI 技术发展。由于当时外部投资者对 AI 领域持谨慎态度,幻方选择自行提供资金支持。

目前,两家公司在人力资源和计算资源方面保持密切合作。

DeepSeek 突围奥秘曝光:一招 MLA 让全世界抄作业,150 + 天才集结,开出千万年薪

与媒体将其描述为「副业项目」不同,DeepSeek 已发展成为一个严肃且协调有序的重要项目。即使考虑到出口管制的影响,高级分析师估计他们在 GPU 方面的投资规模已超 5 亿美元。

据 SemiAnalysis 评估,他们拥有约 50,000 块 Hopper 架构 GPU,这些计算资源在幻方和 DeepSeek 之间共享使用,并在地理位置上进行了分散部署,用于交易、推理、训练和研究等多个领域。

根据分析,DeepSeek 在服务器方面的资本支出总额约为 16 亿美元,而运营这些计算集群的成本高达 9.44 亿美元。

DeepSeek 突围奥秘曝光:一招 MLA 让全世界抄作业,150 + 天才集结,开出千万年薪

150 + 顶尖人才,年薪 934 万

在人才战略方面,DeepSeek 专注于招募中国本土人才,不过分看重候选人的过往履历,而是更注重其实际能力和求知欲望。

他们经常在北京大学和浙江大学等顶尖高校举办招聘活动,现有员工中很多都来自这些学校。

公司的职位设置非常灵活,不会过分限定岗位职责,招聘广告甚至强调可以自由使用数万个 GPU 资源。

他们提供极具竞争力的薪酬待遇,据报道为优秀候选人提供的年薪可达 130 万美元以上,远超其他科技巨头和 AI 实验室的水平。

目前公司约有 150 名员工,并保持快速扩张态势。

历史经验表明,资金充足且目标明确的创业公司,往往能够突破现有技术边界。

与谷歌等大公司的繁琐决策流程相比,DeepSeek 凭借自主融资的优势,能够更快速地将创新理念付诸实践。

有趣的是,DeepSeek 在运营模式上却与谷歌相似,主要依靠自建数据中心而非外部服务提供商。

这种模式为技术创新提供了更大的实验空间,使他们能够在整个技术栈上进行深度创新。

在 SemiAnalysis 看来,DeepSeek 已经成为当今最优秀的「开源权重」(open weights)实验室,其成就超越了 Meta Llama、Mistral 等竞争对手。

标签:DeepSeek   MLA   千万年薪

免责声明:
本站提供的一切内容信息、软件、教程、影音仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络收集整理,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序和内容,请支持正版,购买注册,得到更好的正版服务。我们非常重视版权问题,如有侵权请邮件与我们联系处理。敬请谅解!