内存价格暴涨
与 SORA 之死

AI 对高带宽内存的疯狂需求正在改写全球内存产业的供需结构，而 SORA 的死亡，是更深层算力经济学问题在视频生成领域的必然坍缩。

187%

2025 年 DRAM 现货价同比涨幅

4.5x

NAND 合约价三季度累计涨幅

$210万

SORA 全生命周期总收入

$1500万/天

SORA 峰值日均成本

$1.15万亿

OpenAI 基础设施总承诺

90万片/月

OpenAI 直签 DRAM 晶圆

纵向分析

内存价格的周期宿命

内存芯片可能是人类工业史上最具周期性的产品。全球只有三家公司——Samsung、SK Hynix、Micron——控制着约 95% 的 DRAM 产能。理论上这种寡头格局应该带来稳定的定价权，但事实恰好相反。过去三十年，这个行业反复跌进同一个坑：扩产 → 过剩 → 暴跌 → 减产 → 短缺 → 暴涨，每轮周期大约 3 到 5 年。

为什么会这样？因为建一座新晶圆厂需要 2-3 年时间和 150-200 亿美元投资。建成之后固定成本巨大，只能满产运行才划算，这反过来又加剧了供给过剩。等到需求侧突然爆发的时候（比如智能手机普及、云计算起飞），供给侧来不及响应，价格就暴涨。等供给终于追上来，需求往往已经走弱，又变成暴跌。

DRAM 价格周期示意 (1995-2026)

数据来源：TrendForce, TechInsights, Fabricated Knowledge, IDC。纵轴为示意性价格指数，反映各周期的相对涨跌幅度。

上图中每个低谷都对应一次危机：1997 年亚洲金融危机、2000 年互联网泡沫、2008 年全球金融危机。每个高峰都对应一波新需求：PC 普及、智能手机、云计算。2016-2018 年出现了所谓的「超级周期」，Micron 在 2018 年做到了营收 304 亿美元、营业利润率 49.3% 的历史巅峰。但紧接着 2019 年需求停滞，价格又断崖下跌。2022-2023 年 SK Hynix 单季亏损 27 亿美元，创下公司史上最大亏损。

2024-2026：这一轮为什么可能真的不一样

2024 年下半年开始，AI 大模型从实验室走向大规模部署，NVIDIA H100/H200 出货量攀升，一种叫 HBM（高带宽内存）的特殊内存需求暴增。HBM 是什么？简单说，它是一种通过把多层 DRAM 芯片垂直叠在一起（用硅通孔连接）来实现超高带宽的内存。如果把普通 DDR5 想象成四车道公路，HBM 就是一座 1024 车道的立交桥。AI 芯片需要它来快速读取模型参数。

关键问题在于：生产 1 GB 的 HBM 需要消耗 3 倍于 DDR5 的晶圆面积（Micron 财报确认）。这意味着每一片分配给 HBM 的晶圆，就是一片从你的笔记本内存和手机内存中拿走的晶圆。2026 年，AI 相关内存预计将消耗全球 DRAM 晶圆产能的 20%。这不是传统的供需错配，而是晶圆产能的结构性再分配。

于是我们看到了具体的涨价幅度：DDR5 32GB 套件从 $95 涨到 $184；DDR5 芯片单价从 2025 年 9 月的 $6.84 涨到 12 月的 $27.20（接近 4 倍）。NAND 更加剧烈——Phison CEO 确认 6 个月内翻倍，Kingston 报告年涨 246%。到了 2026 年第一季度，TrendForce 分析师 Tom Hsu 用了「前所未有」来形容：常规 DRAM 合约价单季环比涨 55-60%，NAND 合约价环比涨 85-90%。翻译成消费者能感知的数字：2TB NVMe SSD 从 $120-150 涨到 $300-480，Dell 宣布终端产品涨价 15-20%。

涨价数据的完整来源

TrendForce（DRAM/NAND 合约价季度数据），Tom's Hardware（Phison CEO 访谈，NAND 价格追踪），Sourceability（价格涨幅时间线追踪），IDC（全球内存短缺市场分析 2026）。

技术演进

HBM：为 AI 量身定制的内存

HBM 的诞生比 AI 大模型爆发早了整整十年。2013 年 SK Hynix 率先生产出第一代 HBM，2015 年首次用在 AMD 的 Fiji 显卡上。当时的市场很小，主要给高端游戏显卡用。但接下来的迭代轨迹几乎与 AI 发展同频——每一代 HBM 的带宽增长，都在追赶大模型对数据吞吐的胃口。

HBM 各代带宽增长 (GB/s per stack)

数据来源：JEDEC 标准、SK Hynix 官方、AnySilicon。HBM4E (2027) 为目标规格。

从 HBM1 (2013) 的 128 GB/s 到 HBM4 (2025) 的 2000+ GB/s，12 年间带宽翻了 15 倍以上。GPT-3 有 1750 亿参数，GPT-4 据估计是 1.8 万亿参数。模型越大，推理时需要从内存中读取的权重数据越多，对内存带宽的依赖就越深。HBM3 恰好赶上了 2022 年 NVIDIA H100 横空出世，HBM3E 对应 2024 年的 H200 和 Blackwell 一代。

这也意味着 HBM 从「显卡的小众配件」变成了「AI 基础设施的核心瓶颈」。Epoch AI 的研究发现，2025 年四大 AI 芯片设计公司消耗了全球约 90% 的 CoWoS 封装产能和 HBM 供应，但只用了 12% 的先进逻辑制程产能。换句话说，瓶颈不在芯片本身，而在封装和 HBM。HBM 现在占 AI 加速卡制造成本的 30-40%，NVIDIA B200 上的 HBM 内存成本（约 $2400）已经超过了芯片逻辑核心本身的成本。

1 GB HBM 消耗的晶圆面积 vs DDR5

来源：Micron 财报

30-40%

HBM 占 AI 加速卡制造成本

B200 上 HBM 成本已超逻辑 die

90%

CoWoS 封装产能被 AI 芯片消耗

来源：Epoch AI

案例分析

SORA：从惊艳到停服的 18 个月

2024 年 2 月，OpenAI 发布 SORA 的 demo 视频，整个互联网为之震撼。逼真的街景、流畅的镜头运动、一致的光照，让人觉得影视制作正在被颠覆。但技术惊艳不等于商业可行。

每段 10 秒视频需要约 40 分钟 GPU 总时间（4 个 GPU 并行跑 8-10 分钟），成本约 $1.30。这个数字看起来不大，但乘以用户量就变成了天文数字。以 450 万用户、25% 日活、日均 10 段视频计算，每天要生成约 1130 万段视频，日均成本约 $1500 万，年化 54 亿美元。即使 OpenAI 大幅限制使用量把日成本压到 $100 万（WSJ 数据），三个月也是 $9000 万。

而 SORA 从上线到关停的全部应用内购收入，总共只有 $210 万。不是每月，是总计。

$1500万/天

峰值日均运营成本

$210万

全生命周期总收入

下面的时间线标出了 SORA 的完整生命周期。注意绿色圆点代表里程碑/好消息，红色圆点代表危机节点。从 App Store 品类第一到关停，总共约 6 个月。

SORA 生死时间线

2024.02

Demo 发布，互联网震撼

逼真街景、流畅镜头运动，让人觉得影视制作正在被颠覆

2024.11

艺术家集体反水

380 名创作者签联名请愿，指控 OpenAI 将其当作"PR 人偶"

2024.12

正式上线 ChatGPT Plus/Pro

首日下载超 10 万，5 天破百万

2025.09

SORA 2 发布

加入社交媒体功能，向部分用户开放

2025.10.30

负责人公开承认经济不可持续

Bill Peebles 在 X 上："The economics are currently completely unsustainable."

2025.11

下载量达峰 333 万

同月 Claude Code 随 Claude 4 发布，6 个月内达 10 亿 ARR

2025.12

Disney 10 亿美元合作崩盘

创意控制限制、工会约束、质量差距，无一分钱到账

2026.02

下载量暴跌 66%

降至 113 万。同月 Claude Code ARR 超 25 亿，Anthropic ARR 超 OpenAI

2026.03.16

Fidji Simo 全员会议："no more side quests"

WSJ 获取会议记录，明确砍掉非核心项目集中资源给编码产品

2026.03.24

SORA 正式关停

4 月关闭 App，9 月关闭 API。从 App Store 第一到关停，共 6 个月。

来源：OpenAI 官方公告, WSJ, The Decoder, Appfigures, SaaStr, VentureBeat

为什么视频生成比文本贵 1000 倍

文本生成输出的是 token 序列，图像生成输出一帧，但视频必须输出多帧且保证帧之间的时间连贯性——人物动作、光照变化、镜头运动都要一致。一段 5 秒 24fps 的视频等于 120 帧，每帧需要空间一致性加帧间时间一致性。处理超过 8 万个 token，attention 操作占推理时间的 85% 以上，而且是二次方缩放（帧数翻倍，计算量翻四倍）。

图像上的小瑕疵可以容忍，但视频里的小瑕疵会在帧间立即暴露。修复这些需要更多计算，AI 视频经常需要多次尝试才能得到可用结果，每次失败的尝试都消耗了完整的计算资源。而且视频生成高度依赖内存带宽而非纯计算力（FLOPS），恰好撞上了 HBM 最紧缺的时点。

每模态单次请求成本对比（对数刻度）

注意纵轴是对数刻度。一次 ChatGPT 查询约 $0.005，一张 DALL-E 图像约 $0.03，一段 SORA 视频约 $1.30。差距不是几倍，是两到三个数量级。来源：Cantor Fitzgerald, abZ Global, Epoch AI

横向分析

HBM 三国杀 + AI 芯片军备竞赛

全球 HBM 市场只有三个玩家，但过去两年经历了剧烈洗牌。SK Hynix 在 2025 年第一季度以 36% 的份额首次超越 Samsung 成为全球 DRAM 市场第一，这是 SK Hynix 1983 年成立以来首次登顶，也是 Samsung 三十多年来首次失去龙头地位。在 HBM 细分市场上优势更悬殊：2025Q1 占据 70%+ 份额。原因是十年如一日在 3D 堆叠和 TSV 技术上的投入，加上与 NVIDIA 的深度绑定（NVIDIA 约 90% 的 HBM 来自 SK Hynix）。

Samsung 的故事是「综合实力强不等于特定领域强」。从 2023 年起尝试通过 NVIDIA 的 HBM 验证测试，反复失败（散热和功耗问题），直到 2025 年 9 月在新主管从底层重新设计 DRAM core 后才通过，但此时已被 Micron 反超跌至第三。Micron 从 2024 年 7% 份额增长到 2025Q2 的 21%，靠的是技术速度和灵活的客户策略。

HBM 市场份额演变

来源：Counterpoint Research, Astute Group, TweakTown

AI 芯片单卡 HBM 容量 (GB)

来源：NVIDIA, AMD, Google Cloud 官方规格页

右图展示了每代 AI 芯片的 HBM 容量几乎翻倍的趋势：从 H100 的 80 GB 到 Vera Rubin 的 288 GB（3.6 倍增长），带宽从 3.35 TB/s 到 13 TB/s（3.9 倍增长）。不只是 NVIDIA——AMD MI350X 升级到 288 GB HBM3E，Google TPU 8i 也到了 288 GB。每一代芯片都在加大对 HBM 供应链的压力。

Samsung HBM 验证失败的完整故事

2023 年起尝试通过 NVIDIA 验证，反复失败。2024.04 散热和功耗问题失败，SK Hynix 的 MR-MUF（模塑底部填充）封装工艺拉高了行业标准。2024.12 韩媒报道年内供货「几乎不可能」。2025.01 Jensen Huang 公开要求重新设计。2025.06 第三次验证再次失败。直到 2025.09 在新主管 Jun Young-hyun 领导下从底层重新设计 DRAM core 后才通过，但此时已是第三家获资质的供应商。

来源：CNBC, TrendForce, KED Global

交汇分析

SORA 之死的真正原因：Anthropic 的 wake-up call

如果只看 SORA 自身的数字，它早就该死了——日烧 $1500 万，总收入才 $210 万。但 OpenAI 并没有在 2025 年 10 月（负责人公开承认不可持续时）就关掉它，而是拖到了 2026 年 3 月才动刀。真正让高管层下定决心的催化剂，是一个外部事件：Anthropic 的 Claude Code 在编码领域的爆发式增长。

时间线说明一切。2025 年 5 月，Claude Code 随 Claude 4 发布，6 个月内达到 10 亿美元 ARR。到 2026 年 2 月，ARR 超过 25 亿美元。Anthropic 整体 ARR 从 2025 年底的 90 亿暴涨到 2026 年 4 月的 300 亿美元，超越了 OpenAI 的 250 亿。OpenAI 在企业 API 市场的份额从约 50% 跌到 25%，Anthropic 从 12% 升到 32%。

WSJ 获取了 OpenAI CEO Fidji Simo 在 2026 年 3 月 16 日的全员会议记录。她明确把 Anthropic 的崛起称为"wake-up call"，宣布公司不能再搞"side quests"，要集中所有资源在编码和企业产品上。八天后，3 月 24 日，SORA 正式关停。

下面这张图用对数刻度展示了 AI 编码工具的年化收入与 SORA 全生命周期总收入的对比。$210 万在 $25 亿旁边几乎不可见。

AI 编码工具 ARR 对比 vs SORA 总收入（对数刻度）

来源：SaaStr, VentureBeat, Sacra, Appfigures, GitHub

OpenAI 内部，研究员通过 dashboard 可以看到 GPU 芯片的分配情况。多名研究员对 SORA 占用大量算力资源却不贡献语言模型能力感到不满。CFO Sarah Friar 花大量时间寻找近期算力资源，「不得不决定搁置哪些项目」。API token 使用量从 2025 年 10 月的每分钟 60 亿涨到 2026 年 3 月底的 150 亿，5 个月增长了 150%。在算力严重供不应求的情况下，每一块 GPU 都是一道选择题：拿去跑 40 分钟 SORA 视频（产生约 $1.30 成本和接近于零的收入），还是跑代码辅助请求（可以服务数千次查询，产生显著更多的收入）？

OpenAI 企业 API 份额

50%→25%

被 Anthropic 蚕食

Anthropic 企业 API 份额

12%→32%

Claude Code 驱动

双方客户重合度

79%

企业在两边同时下注

深度拆解

OpenAI 的算力采购：一部万亿美元的购物清单

OpenAI 不只是「租几台服务器」。它正在同时走三条路径获取算力：租云、自建数据中心、造自己的芯片。甚至绕过 NVIDIA，直接跟内存厂签合同。

三条算力获取路径

OpenAI 同时走三条路径获取算力。路径 A 是当前主力（租云），路径 B (Stargate) 是未来产能主要来源，路径 C (Titan 自研芯片) 是降低长期推理成本的关键。来源：OpenAI 官方, CNBC, TechCrunch, Tom's Hardware

基础设施承诺金额分布 — 总计 $1.15 万亿 (2025-2035)

来源：OpenAI 官方公告, CNBC, TechCrunch, DCD, Tom's Hardware, Tomasz Tunguz 分析

算力采购合同签约时间线

2025.01

Stargate 项目公布 — $5000 亿

SoftBank + OpenAI 各 $190 亿、各持 40%。Oracle + MGX 各 $70 亿。$1000 亿即时部署。
来源：OpenAI 官方

2025.03

CoreWeave 首批合同 — $119 亿 / 5 年

后追加 $40 亿 (5 月) 和 $65 亿 (9 月)，总计 $224 亿。OpenAI 另投 $3.5 亿股权。
来源：CoreWeave 投资者公告

2025.09

Stargate Abilene 前两栋建筑投入运行

NVIDIA GB200 机架已交付。全部 8 栋计划 2026 年中完成，总功耗 1.2 GW。

2025.10

微软合同重新谈判 + HBM 直签

新增 $2500 亿 Azure 采购承诺，取消微软优先拒绝权。同月与 Samsung/SK Hynix 签 90 万片/月 DRAM 晶圆 LOI。
来源：OpenAI 官方, CNBC

2025.11

AWS 合同 — $380 亿 / 7 年

数十万块 GB200 + GB300，覆盖推理和训练。标志 OpenAI 正式摆脱微软单一依赖。
来源：OpenAI 官方

2026.02

Series G 公布 — $1100 亿融资

Amazon $500 亿, NVIDIA $300 亿, SoftBank $300 亿。估值 $7300 亿 pre-money。
来源：OpenAI 官方

2026.03

Samsung HBM4 独占供应 + Series G 关闭

Titan 芯片锁定 Samsung HBM4 独占。融资关闭 $1220 亿，估值 $8520 亿。累计融资 $1800 亿。
来源：Tech Insider, CNBC

2026.04

AWS 合同扩展 + 微软二次修改

AWS 新增 $1000 亿 / 8 年，总承诺升至 $1380 亿。微软许可变非独占，停止付分成。AMD 签 6 GW Instinct GPU (~$900 亿)。
来源：CNBC

微软关系的三次重新谈判

条款	原始协议	2025.10 修改	2026.04 修改
云独占	微软独占	取消优先拒绝权	完全自由选择
模型许可	微软独占	IP 权延至 2032	非独占许可
收入分成	双向支付	延长支付周期	微软停付；OpenAI 付至 2030 封顶
新模型上线	Azure 独占	放松	Azure 4 个月独占窗口
微软持股	—	27% ($1350 亿)	27%（不变）

来源：OpenAI 官方, CNBC, Microsoft Blog

供应链突破：OpenAI 直接跟内存厂签合同

通常只有 NVIDIA 级别的公司才会直接跟 HBM 厂签约。OpenAI 正在绕过传统供应链的中间层。

2025 年 10 月

Samsung + SK Hynix 意向书

每月供应 90 万片 DRAM 晶圆，为 Stargate 项目提供内存。这个月产量相当于全球 DRAM 产能的相当可观的比例。

来源：Tomasz Tunguz

2026 年 3 月

Samsung HBM4 独占供应协议

专为 Titan 自研推理芯片供货。独占意味着其他客户拿不到 Samsung 分配给 OpenAI 的那部分 HBM4 产能。

来源：Tech Insider

OpenAI 财务全景 (2025-2026)

2025 年收入

$131 亿

2026.02 ARR

$250 亿+

累计融资

$1800 亿

2025 年推理成本

$84 亿

2026 年算力预算

$500 亿

现金流转正预期

2029-30

毛利率仅 ~33%，主要被推理成本拖累。到盈利前累计亏损预计约 $440 亿。ChatGPT 9 亿+ 周活，5000 万+ 付费用户。策略核心：以低于成本价销售模型抢占份额，靠融资撑到规模效应显现。VP of Hardware Richard Ho：「目标不是造芯片，是让智能在规模上变得便宜。」

来源：Sacra, FutureSearch, OpenAI 官方, CNBC

一句话总结采购逻辑：OpenAI 在用 $1800 亿融资撬动 $1.15 万亿基础设施，同时在三条路径上并行推进，从「微软的最大客户」变成「自己造芯片、自己建数据中心、直接跟内存厂签合同」的垂直整合巨头。在这个版图里，SORA 每天烧掉 $1500 万的 GPU 时间而只产出 $210 万总收入，就像一个坐在万亿美元采购计划中间、只会消耗不会产出的黑洞。

横向对比

中国的成本牌：不只是电便宜

经常有人说中国做 AI 算力便宜，是因为电费低。这个说法有一定道理，但远不是全部。中美工业电价的全国平均值其实差距不大——美国约 $0.073/kWh，中国约 $0.09/kWh（折合约 0.65 元/kWh），美国平均值反而更低。中国的优势在于「东数西算」工程把算力引向了内蒙古（风电约 0.25 元/kWh）、贵州等西部枢纽，电价可以做到约 $0.035/kWh，与美国最低区域持平。但这只是冰山一角。

中国 AI 公司的推理成本可以做到美国竞品的 1/20 到 1/50，靠的是三根支柱的叠加效应。下面的图表直观展示了这个差距：

每百万 token 推理定价对比 ($)

数据截至 2026 年 5 月。来源：各厂商官方 API 定价页。注意 DeepSeek V4-Flash 的 $0.28 与 OpenAI 的 $30 之间差了 100 倍以上。

为什么差距这么大？不是因为 DeepSeek 在亏本卖，它自报的日推理利润率是 545%（日成本 $87,072，日理论收入 $562,027）。真正的原因是技术架构层面的效率差异。

支柱一：算法效率

DeepSeek MoE 架构：671B 参数只激活 37B。V3 训练 GPU 成本 $558 万。自报推理利润率 545%。

来源：DeepSeek V3 Technical Report (arxiv:2412.19437)

支柱二：芯片替代

华为昇腾 TCO 比 NVIDIA 低 60-70%。950PR 达 1.56 PFLOPS FP4，配 112GB HiBL 内存。字节下单 $56 亿。

来源：TrendForce, Tom's Hardware, Fortune

支柱三：工程师成本

中国 AI 工程师平均薪资比美国低 30-65%。中位数 ~$63K vs 美国 ~$176K。DeepSeek 团队约 150 人。

来源：Glassdoor, DIGITIMES

电力：被低估的第四个变量

电力占数据中心运营成本 15-25%。一块 H100 年电费约 $1,824，B200 满配约 $3,136。中国西部枢纽电价约 $0.035/kWh vs 美国平均 $0.073/kWh（最低区 < $0.04），差距不算悬殊。

但「东数西算」8 大枢纽已承载全国 70%+ 算力，西部 5 年 TCO 比东部低 35.2%。局限是网络时延不适合实时推理。

来源：IEA, Oxford Institute for Energy Studies, China Briefing, Spheron

补充调研

DeepSeek 为什么这么便宜：五层技术叠加

DeepSeek V4-Flash 的输出定价是 $0.28/百万 token，Claude Opus 4.7 是 $25/百万 token。差距 89 倍。这不是靠电费便宜或工程师加班实现的，而是五层技术优势叠加的结果。每一层都有具体的工程实现和可量化的成本影响。

第一层：MoE 稀疏激活——只点亮 3% 的参数

DeepSeek 使用 Mixture-of-Experts（MoE，混合专家）架构。1.6 万亿总参数里，每个 token 只激活 49 亿参数（V4-Pro）或 13 亿参数（V4-Flash），激活比分别是 3.1% 和 4.6%。对比之下，GPT-4 根据泄露信息（George Hotz 首曝，Soumith Chintala 间接证实）约 1.8 万亿总参数，16 个 expert 激活 2 个，激活比约 15.6%。Claude Opus 的架构未公开，行业估算在 300-500B 参数之间。

通俗地说：如果一个大脑有 1000 个区域，回答一个问题时 DeepSeek 只激活 30 个区域，GPT-4 要激活 150 个。计算量直接差 5 倍。而 V4-Flash 只激活 13B 参数，跟 GPT-4 的 280B 激活量相比，计算差距超过 20 倍。

第二层：混合注意力机制——压缩 73% 的计算量

V4 引入了 CSA（Compressed Sparse Attention）和 HCA（Heavily Compressed Attention）两种注意力机制交替使用。CSA 把每 4 个 token 的 KV 条目压缩为 1 个，再用 Lightning Indexer 从压缩后的条目中选出 top-1024 最相关的；HCA 更激进，每 128 个 token 合并为 1 个，提供低成本的全局上下文感知。

效果：在 100 万 token 上下文下，V4-Pro 的推理 FLOPs 降到 V3 的 27%（节省 73%），KV cache 内存占用降到 V3 的 10%（节省 90%）。V4-Flash 更极端：FLOPs 只有 V3 的 10%，KV cache 只有 7%。这意味着同样的 GPU 可以同时服务更多请求。

第三层：FP4 量化感知训练——GPU 数量减半

主流模型用 FP16 或 BF16（16 位浮点）训练，H100 原生支持 FP8（8 位），但 DeepSeek V4 对 MoE expert 权重直接用了 FP4（4 位浮点）做量化感知训练。不是训练完再量化（那会损失质量），而是训练过程中就在 FP4 约束下学习。FP4 是昇腾 950 的原生支持格式，这不是巧合。

结果：完整模型在 FP8 下需要约 1.6TB 显存（约 20 张 H100），FP4 下降到约 800GB（约 10 张）。V4-Flash 在 FP4 下只需约 4 张 H100。模型质量几乎没有明显下降——SWE-bench Verified 上 V4-Pro 80.6% vs Claude Opus 4.6 的 80.8%，LiveCodeBench 上 V4-Pro 93.5 分反超 Claude 的 88.8 分。

第四层：激进的缓存定价

DeepSeek V4-Flash 的 cache hit 价格是 $0.0028/百万 token——原价的 2%。在 agentic 编码循环中，系统 prompt 和代码库上下文在多轮对话中反复出现，典型 cache hit rate 在 65-70%。算下来，V4-Flash 的有效输入成本约 $0.014/百万 token，是 GPT-5.5 cache miss 价格的 1/357。

第五层：国产芯片协同——下半年还会更便宜

V4 是 DeepSeek 第一个为华为昇腾优化的模型。2026 年 4 月 24 日发布当天，华为昇腾、寒武纪、海光、摩尔线程同时完成 Day 0 适配——中国 AI 芯片首次实现「同日部署」。Goldman Sachs 预测，2026 下半年昇腾 950 大规模供货后，V4-Pro 的 API 价格将进一步明显下降。华为计划年内出货约 75 万片 950PR 芯片。

五层叠加的成本节省效果

每一层技术都在前一层基础上进一步降低成本。来源：DeepSeek V4 技术报告, Morph, VentureBeat, Fortune

为什么 OpenAI/Anthropic 没有采用这些技术

MoE：GPT-4 其实也用了 MoE，但激活比保守得多（15.6% vs 3.1%）。更极端的稀疏在 1.6T 参数规模训练 33T token 时梯度崩溃风险很大，DeepSeek 为此开发了 Muon 优化器和 mHC（流形约束超连接）替代传统残差连接。这是 15 个月硬件迁移工程的结果，不是读论文能复制的。

FP4：H100 没有 FP4 tensor core，需要 Blackwell 或昇腾 950。西方实验室的主力训练硬件是 H100/Blackwell，追求绝对 frontier 性能，FP4 的微小质量损失在 benchmark 竞赛中不可接受。DeepSeek 的定位是「在有限硬件上跑出实用性能」，是被 H800 的硬件限制逼出来的不同工程哲学。

来源：ChinaTalk, SoftmaxData

补充调研

Claude 和 OpenAI 的真实成本：API 定价里藏了多少利润

一个被广泛忽略的事实：Claude 和 OpenAI 的 API 定价并不反映实际推理成本。它们的定价中包含了巨额的品牌溢价和研发摊销。有几组数据可以帮助还原真实成本。

数据一：订阅方案暴露了成本下限

she-llac.com 的作者用逆向工程方法还原了 Anthropic 的内部额度分配。核心发现：Claude Max 5x（$100/月）每月给 180.6M credits，折算约 54.2M 个 Opus 级输出 token，按 API 定价计算等价 $1,354/月。也就是说订阅用户拿到了 API 标价 13.5 倍的价值。

在 warm-cache agentic 场景下（编码循环中系统 prompt 反复命中缓存），价值倍数进一步拉到 36.7 倍。如果 Anthropic 在 Max 5x 用户上不亏钱（Martin Alderson 的分析认为大部分用户上是盈利的），那实际每百万输出 token 的计算成本 < $1.85，不到 API 标价 $25 的 8%。

数据二：开源模型的竞争定价揭示了成本地板

OpenRouter 上多家供应商竞争提供同等规模开源模型（如 Qwen 3.5 397B）的 API 服务，能盈利的价格约 $0.39/百万输入 + $2.34/百万输出。这个价格约为 Claude Opus API 定价的 10%。如果多家供应商能在这个价格上盈利，那它就是计算成本的合理上限。

数据三：LLM 推理成本三年降了 1000 倍

a16z 的「LLMflation」追踪显示：GPT-3 级别性能的推理成本从 2021 年的 $60/百万 token 降到 2024 年的 $0.06/百万 token，降了 1000 倍。等效性能（MMLU 83 分）的成本每年降约 10 倍。但 API 定价的降幅远小于成本降幅——这中间的差距就是利润。

那 DeepSeek API 还有成本优势吗？

换一个角度：如果一个重度 Claude Code 用户每月消耗 500M token（50/50 输入输出），用 Claude Max 5x 订阅只需 $100/月。同等 token 量用 DeepSeek V4-Flash API 约 $105/月。价格几乎持平。

这揭示了一个关键事实：DeepSeek 的成本优势主要体现在 API 对 API 的直接比较中（$0.28 vs $25，差 89 倍）。但当 Anthropic 通过订阅方案大幅压低有效价格时，差距被显著缩小。对于已经买了 Max 5x 的个人开发者来说，切换到 DeepSeek API 并不能省钱。DeepSeek 的优势更多在于：(1) 不需要订阅就能拿到低价；(2) 对成本敏感的中小企业和批量调用场景；(3) 开源可自部署。

Claude API 定价 vs 估算实际成本

~10x

API 定价中约 90% 是品牌溢价 + 研发摊销

来源：Martin Alderson 分析，OpenRouter 竞争定价推算

Max 5x 订阅 vs DeepSeek V4-Flash（500M token/月）

$100 vs $105

订阅模式下差距几乎消失

来源：she-llac.com, DeepSeek API 定价页

补充调研

约束结构：电力、芯片、封装，谁才是根本瓶颈

AI 基础设施的扩张受到一系列约束的串联制约。理解这些约束之间的关系，比知道任何一个约束的具体数字更重要。

当前的约束排序：CoWoS > HBM > 电力

Epoch AI 的量化分析给出了最清晰的判断：2025 年四大 AI 芯片设计公司消耗了全球 CoWoS 先进封装产能的 >90% 和 HBM 供应的 >90%，但只消耗了先进逻辑晶圆制造产能的 ~12%。这个 90% vs 12% 的不对称说明瓶颈在封装和内存，不在芯片制造本身。

TSMC CEO 魏哲家确认 CoWoS 产能「售罄到 2026 年及以后」。NVIDIA 锁定了 CoWoS 产能的 60% 以上到 2027 年。即使芯片设计好了、HBM 也有了，如果没有 CoWoS 封装把它们组合起来，就是一堆散件。

但瓶颈正在转移

TSMC 的 CoWoS 产能从 2024 底的 35K 晶圆/月扩到 2026 底目标 130K 晶圆/月（约 4 倍扩产）。随着封装产能追上来，瓶颈正在向电力/电网转移。Satya Nadella 在 2026 年说：「最大的问题不是算力不够，而是电力不够……我的问题不是芯片供应，而是没有足够电力和冷却能力的设施来部署那些芯片。」Musk 也预判 2026 年会出现芯片产能超过能通电部署的情况。

电力约束为什么靠钱解决不了

你朋友 MBHH 的观点有一个很锐利的核心：芯片和内存产能可以靠下订单、付钱来解决（工厂不在美国，供应链是全球化的），但数据中心必须部署在本土电网上，而美国的电网扩容能力在去工业化之后严重退化。数据支持这个判断：

2026 年计划上线的 12 GW 数据中心容量中，只有 5 GW 实际在建，7 GW 延迟或取消
高压变压器交货期从疫情前 24-30 个月延长到 5 年
美国只生产自用 20% 的大型电力变压器，中国控制全球 60% 产能
弗吉尼亚并网排队等待时间 7 年（更悲观估计 15 年）
PJM 容量市场拍卖价格三连涨（$29→$270→$333/MW-day），数据中心承担 40-63% 的成本增量
Morgan Stanley 估计 2025-2028 年美国面临 55 GW 电力供应缺口

数据中心建设周期 12-18 个月，但变压器采购 5 年、并网排队 5-7 年、核电超 10 年。所有 2025 年宣布的数据中心，如果当时没有提前下单变压器，就不可能在 2026-2027 年投运。这是一个时间错配问题，资本解决不了。

中国的约束结构完全不同

中国的瓶颈是芯片，不是电力。出口管制切断了先进制程设备、高端 GPU 和 HBM 的供应。但电力方面，2024 年中国新增 543 GW 发电容量（净新增 429 GW），比印度全部装机还大 12%。中国总装机 3,349 GW，美国约 1,300 GW；中国发电量已超美国两倍。自 2021 年底以来中国新增的发电量，已超过美国整个电力系统的总量。

Oxford Institute for Energy Studies 2026 年 2 月的报告「The China data centre advantage: hype versus reality」给出了审慎的结论：中美批发电价区间重叠（中国 $43-58/MWh vs 美国 $40-50/MWh），中国电价优势没有流传的那么大。但中国的真正优势不在价格，而在不存在美国那种物理级别的电力瓶颈——没有 5 年变压器交货期、没有 7 年并网排队、没有社区反对导致的项目取消。

简单说：美国的约束是物理/基础设施层面的（hard constraint），解决周期 5-10 年。中国的约束是芯片/出口管制层面的（policy constraint），取决于地缘政治走向。两个国家都有自己跨不过去的坎，只是坎的性质不同。

各约束的紧张程度与解决时间线

约束	2026 紧张度	能否靠钱加速	解决时间线	对中国的影响
CoWoS 先进封装	极紧——最紧	部分能（TSMC 4x 扩产中）	1-2 年	完全被卡（出口管制）
HBM 内存	极紧（售罄到 2026 底）	部分能（下订单 + 建厂）	1-3 年	受限（CXMT 在追赶）
逻辑芯片制造	宽松（只用了 12%）	能	2-3 年	被卡（SMIC 卡在 7nm）
电力 / 电网	正在收紧（7/12 GW 延迟）	基本不能	5-10 年	无瓶颈（543 GW/年新增）

来源：Epoch AI, Fusion Worldwide, Tom's Hardware, Power Magazine

回应 MBHH 的核心判断：「芯片、存储这些产能好扩，美国只要下订单付钱就行了；而实际装机、训练要依赖美国电网，这一块对于去工业化后的美国就不是很擅长了。」数据基本支持这个判断。HBM/CoWoS 虽然现在也紧，但 TSMC 在 4 倍扩产、三家内存厂都在建新工厂，2-3 年可以缓解。电网扩容则需要 5-10 年以上。变压器、并网、发电设施的物理工期是没有快进键的。Gartner 预测到 2027 年电力短缺将限制 40% 的 AI 数据中心。

中美在不同 AI 任务上的比较优势

AI 任务	美国优势	中国优势	当前格局
前沿训练	最先进 GPU 集群、CUDA 生态	算法效率（MoE/FP4 降低训练资源需求）	美国主导，算力优势 21-49x
大规模推理	云生态成熟（AWS/Azure/GCP）	电力无瓶颈 + MoE/FP4 极低成本	中国追上中，推理占总算力 80-90%
视频/多模态	Google Veo 画质 frontier	可灵 $6.99/月，成本竞争力	各有千秋，质量 vs 成本
企业应用	订阅体系（Max 5x/Copilot）	API 直接低价，无需订阅门槛	中国结构性优势

来源：Epoch AI, CFR, IFP, OIES

未来推演

三个剧本

把内存涨价、SORA 之死、HBM 三国杀、OpenAI 万亿采购、中国成本优势这几条线汇合起来看，未来的走向取决于几个关键变量的互动。下面是三个可能的剧本，从最可能到最乐观排列。每个剧本的核心驱动力不同，但都建立在我们前面分析的事实基础上。

最可能

高价延续到 2028

新晶圆厂 2027-2028 逐步投产，HBM 供应追上需求。DRAM/NAND 价格 2027H2 见顶回落，但不会回到 2023 低点。视频生成 AI 变成窄赛道产品，面向专业用户高价收费。可灵等中国选手凭成本优势存活。

关键变量：SK Hynix M15X、Micron Idaho/New York 新工厂的投产进度

最危险

需求突然放缓

Scaling law 收益递减，hyperscaler 削减资本支出。$7250 亿投入没有产生回报。新建产能变搁浅资产。内存重演 2019 暴跌。

危险信号：Amazon 2026 预计负自由现金流 $170 亿，大科技已发行 $1000 亿债券

最乐观

替代技术突破

Cerebras 晶圆级芯片在训练场景接近 GPU 灵活性，或存内计算 2027-2028 商业化突破。HBM 供需矛盾从需求侧缓解。视频生成成本降一个数量级。

关键标志：Cerebras IPO 后规模部署、HBM4 logic die 的 PIM 能力验证

信息来源

TrendForce — DRAM/NAND 价格、产能、市场份额数据 (2024-2026)
IDC — 全球内存短缺危机市场分析 (2026)
Counterpoint Research — DRAM/HBM 市场份额季度数据
Epoch AI — AI 芯片供应链约束、OpenAI 算力支出分析
SK Hynix — HBM4 开发完成公告
NVIDIA — H100/H200/B200/GB200 产品规格
AMD — MI300X/MI350X 规格
Google Cloud — TPU v7 Ironwood / TPU 8 规格
OpenAI — SORA 停服公告, 微软合作更新, Stargate/AWS 合作公告, Codex 发布
OpenAI Help — SORA 停服详情
CNBC — Samsung HBM 验证失败, AI 内存短缺, 大科技 AI 资本支出, OpenAI-Microsoft 重新谈判
WSJ — OpenAI 内部全员会议, SORA 运营成本, 算力分配决策
Tom's Hardware — NAND 价格, HBM 挤出效应, Huawei AI 芯片, GPT-5 能耗
Sacra — OpenAI/Runway/Pika 收入与估值
VentureBeat — Anthropic $300 亿 ARR
SaaStr — Anthropic 超越 OpenAI 收入分析
arxiv — DeepSeek V3 Technical Report
Tech Insider — OpenAI Titan 芯片, Samsung HBM4 独占协议, Cerebras IPO
Tomasz Tunguz — OpenAI $1T 基础设施支出分析
Futurum Group — AI 基础设施 $690B 资本支出分析
IEA — 全球数据中心能源需求报告
Oxford Energy — The China Data Centre Advantage (2026)
DIGITIMES — Samsung HBM4 供应, 中国 AI 成本分析
AnySilicon / Introl / Rambus — HBM 技术规格与演进

研究方法：横纵分析法（数字生命卡兹克）。纵向沿时间轴还原内存市场和 SORA 的完整发展脉络，横向以当前时间点为切面对比竞争格局，交汇处提炼判断。研究时间 2026 年 5 月。

内存价格暴涨与 SORA 之死

内存价格的周期宿命

2024-2026：这一轮为什么可能真的不一样

HBM：为 AI 量身定制的内存

SORA：从惊艳到停服的 18 个月

为什么视频生成比文本贵 1000 倍

HBM 三国杀 + AI 芯片军备竞赛

SORA 之死的真正原因：Anthropic 的 wake-up call

OpenAI 的算力采购：一部万亿美元的购物清单

中国的成本牌：不只是电便宜

DeepSeek 为什么这么便宜：五层技术叠加

第一层：MoE 稀疏激活——只点亮 3% 的参数

第二层：混合注意力机制——压缩 73% 的计算量

第三层：FP4 量化感知训练——GPU 数量减半

第四层：激进的缓存定价

第五层：国产芯片协同——下半年还会更便宜

Claude 和 OpenAI 的真实成本：API 定价里藏了多少利润

数据一：订阅方案暴露了成本下限

数据二：开源模型的竞争定价揭示了成本地板

数据三：LLM 推理成本三年降了 1000 倍

那 DeepSeek API 还有成本优势吗？

约束结构：电力、芯片、封装，谁才是根本瓶颈

当前的约束排序：CoWoS > HBM > 电力

但瓶颈正在转移

电力约束为什么靠钱解决不了

中国的约束结构完全不同

三个剧本

高价延续到 2028

需求突然放缓

替代技术突破

信息来源

内存价格暴涨
与 SORA 之死