内存价格暴涨
SORA 之死

AI 对高带宽内存的疯狂需求正在改写全球内存产业的供需结构,而 SORA 的死亡,是更深层算力经济学问题在视频生成领域的必然坍缩。

187%
2025 年 DRAM 现货价同比涨幅
4.5x
NAND 合约价三季度累计涨幅
$210万
SORA 全生命周期总收入
$1500万/天
SORA 峰值日均成本
$1.15万亿
OpenAI 基础设施总承诺
90万片/月
OpenAI 直签 DRAM 晶圆
纵向分析

内存价格的周期宿命

内存芯片可能是人类工业史上最具周期性的产品。全球只有三家公司——Samsung、SK Hynix、Micron——控制着约 95% 的 DRAM 产能。理论上这种寡头格局应该带来稳定的定价权,但事实恰好相反。过去三十年,这个行业反复跌进同一个坑:扩产 → 过剩 → 暴跌 → 减产 → 短缺 → 暴涨,每轮周期大约 3 到 5 年。

为什么会这样?因为建一座新晶圆厂需要 2-3 年时间和 150-200 亿美元投资。建成之后固定成本巨大,只能满产运行才划算,这反过来又加剧了供给过剩。等到需求侧突然爆发的时候(比如智能手机普及、云计算起飞),供给侧来不及响应,价格就暴涨。等供给终于追上来,需求往往已经走弱,又变成暴跌。

DRAM 价格周期示意 (1995-2026)
数据来源:TrendForce, TechInsights, Fabricated Knowledge, IDC。纵轴为示意性价格指数,反映各周期的相对涨跌幅度。

上图中每个低谷都对应一次危机:1997 年亚洲金融危机、2000 年互联网泡沫、2008 年全球金融危机。每个高峰都对应一波新需求:PC 普及、智能手机、云计算。2016-2018 年出现了所谓的「超级周期」,Micron 在 2018 年做到了营收 304 亿美元、营业利润率 49.3% 的历史巅峰。但紧接着 2019 年需求停滞,价格又断崖下跌。2022-2023 年 SK Hynix 单季亏损 27 亿美元,创下公司史上最大亏损。

2024-2026:这一轮为什么可能真的不一样

2024 年下半年开始,AI 大模型从实验室走向大规模部署,NVIDIA H100/H200 出货量攀升,一种叫 HBM(高带宽内存)的特殊内存需求暴增。HBM 是什么?简单说,它是一种通过把多层 DRAM 芯片垂直叠在一起(用硅通孔连接)来实现超高带宽的内存。如果把普通 DDR5 想象成四车道公路,HBM 就是一座 1024 车道的立交桥。AI 芯片需要它来快速读取模型参数。

关键问题在于:生产 1 GB 的 HBM 需要消耗 3 倍于 DDR5 的晶圆面积(Micron 财报确认)。这意味着每一片分配给 HBM 的晶圆,就是一片从你的笔记本内存和手机内存中拿走的晶圆。2026 年,AI 相关内存预计将消耗全球 DRAM 晶圆产能的 20%。这不是传统的供需错配,而是晶圆产能的结构性再分配。

于是我们看到了具体的涨价幅度:DDR5 32GB 套件从 $95 涨到 $184;DDR5 芯片单价从 2025 年 9 月的 $6.84 涨到 12 月的 $27.20(接近 4 倍)。NAND 更加剧烈——Phison CEO 确认 6 个月内翻倍,Kingston 报告年涨 246%。到了 2026 年第一季度,TrendForce 分析师 Tom Hsu 用了「前所未有」来形容:常规 DRAM 合约价单季环比涨 55-60%,NAND 合约价环比涨 85-90%。翻译成消费者能感知的数字:2TB NVMe SSD 从 $120-150 涨到 $300-480,Dell 宣布终端产品涨价 15-20%。

技术演进

HBM:为 AI 量身定制的内存

HBM 的诞生比 AI 大模型爆发早了整整十年。2013 年 SK Hynix 率先生产出第一代 HBM,2015 年首次用在 AMD 的 Fiji 显卡上。当时的市场很小,主要给高端游戏显卡用。但接下来的迭代轨迹几乎与 AI 发展同频——每一代 HBM 的带宽增长,都在追赶大模型对数据吞吐的胃口。

HBM 各代带宽增长 (GB/s per stack)
数据来源:JEDEC 标准SK Hynix 官方AnySilicon。HBM4E (2027) 为目标规格。

从 HBM1 (2013) 的 128 GB/s 到 HBM4 (2025) 的 2000+ GB/s,12 年间带宽翻了 15 倍以上。GPT-3 有 1750 亿参数,GPT-4 据估计是 1.8 万亿参数。模型越大,推理时需要从内存中读取的权重数据越多,对内存带宽的依赖就越深。HBM3 恰好赶上了 2022 年 NVIDIA H100 横空出世,HBM3E 对应 2024 年的 H200 和 Blackwell 一代。

这也意味着 HBM 从「显卡的小众配件」变成了「AI 基础设施的核心瓶颈」。Epoch AI 的研究发现,2025 年四大 AI 芯片设计公司消耗了全球约 90% 的 CoWoS 封装产能和 HBM 供应,但只用了 12% 的先进逻辑制程产能。换句话说,瓶颈不在芯片本身,而在封装和 HBM。HBM 现在占 AI 加速卡制造成本的 30-40%,NVIDIA B200 上的 HBM 内存成本(约 $2400)已经超过了芯片逻辑核心本身的成本。

3x
1 GB HBM 消耗的晶圆面积 vs DDR5
来源:Micron 财报
30-40%
HBM 占 AI 加速卡制造成本
B200 上 HBM 成本已超逻辑 die
90%
CoWoS 封装产能被 AI 芯片消耗
来源:Epoch AI
案例分析

SORA:从惊艳到停服的 18 个月

2024 年 2 月,OpenAI 发布 SORA 的 demo 视频,整个互联网为之震撼。逼真的街景、流畅的镜头运动、一致的光照,让人觉得影视制作正在被颠覆。但技术惊艳不等于商业可行。

每段 10 秒视频需要约 40 分钟 GPU 总时间(4 个 GPU 并行跑 8-10 分钟),成本约 $1.30。这个数字看起来不大,但乘以用户量就变成了天文数字。以 450 万用户、25% 日活、日均 10 段视频计算,每天要生成约 1130 万段视频,日均成本约 $1500 万,年化 54 亿美元。即使 OpenAI 大幅限制使用量把日成本压到 $100 万(WSJ 数据),三个月也是 $9000 万。

而 SORA 从上线到关停的全部应用内购收入,总共只有 $210 万。不是每月,是总计。

$1500万/天
峰值日均运营成本
vs
$210万
全生命周期总收入

下面的时间线标出了 SORA 的完整生命周期。注意绿色圆点代表里程碑/好消息,红色圆点代表危机节点。从 App Store 品类第一到关停,总共约 6 个月。

SORA 生死时间线
2024.02
Demo 发布,互联网震撼
逼真街景、流畅镜头运动,让人觉得影视制作正在被颠覆
2024.11
艺术家集体反水
380 名创作者签联名请愿,指控 OpenAI 将其当作"PR 人偶"
2024.12
正式上线 ChatGPT Plus/Pro
首日下载超 10 万,5 天破百万
2025.09
SORA 2 发布
加入社交媒体功能,向部分用户开放
2025.10.30
负责人公开承认经济不可持续
Bill Peebles 在 X 上:"The economics are currently completely unsustainable."
2025.11
下载量达峰 333 万
同月 Claude Code 随 Claude 4 发布,6 个月内达 10 亿 ARR
2025.12
Disney 10 亿美元合作崩盘
创意控制限制、工会约束、质量差距,无一分钱到账
2026.02
下载量暴跌 66%
降至 113 万。同月 Claude Code ARR 超 25 亿,Anthropic ARR 超 OpenAI
2026.03.16
Fidji Simo 全员会议:"no more side quests"
WSJ 获取会议记录,明确砍掉非核心项目集中资源给编码产品
2026.03.24
SORA 正式关停
4 月关闭 App,9 月关闭 API。从 App Store 第一到关停,共 6 个月。
来源:OpenAI 官方公告, WSJ, The Decoder, Appfigures, SaaStr, VentureBeat

为什么视频生成比文本贵 1000 倍

文本生成输出的是 token 序列,图像生成输出一帧,但视频必须输出多帧且保证帧之间的时间连贯性——人物动作、光照变化、镜头运动都要一致。一段 5 秒 24fps 的视频等于 120 帧,每帧需要空间一致性加帧间时间一致性。处理超过 8 万个 token,attention 操作占推理时间的 85% 以上,而且是二次方缩放(帧数翻倍,计算量翻四倍)。

图像上的小瑕疵可以容忍,但视频里的小瑕疵会在帧间立即暴露。修复这些需要更多计算,AI 视频经常需要多次尝试才能得到可用结果,每次失败的尝试都消耗了完整的计算资源。而且视频生成高度依赖内存带宽而非纯计算力(FLOPS),恰好撞上了 HBM 最紧缺的时点。

每模态单次请求成本对比(对数刻度)
注意纵轴是对数刻度。一次 ChatGPT 查询约 $0.005,一张 DALL-E 图像约 $0.03,一段 SORA 视频约 $1.30。差距不是几倍,是两到三个数量级。来源:Cantor Fitzgerald, abZ Global, Epoch AI
横向分析

HBM 三国杀 + AI 芯片军备竞赛

全球 HBM 市场只有三个玩家,但过去两年经历了剧烈洗牌。SK Hynix 在 2025 年第一季度以 36% 的份额首次超越 Samsung 成为全球 DRAM 市场第一,这是 SK Hynix 1983 年成立以来首次登顶,也是 Samsung 三十多年来首次失去龙头地位。在 HBM 细分市场上优势更悬殊:2025Q1 占据 70%+ 份额。原因是十年如一日在 3D 堆叠和 TSV 技术上的投入,加上与 NVIDIA 的深度绑定(NVIDIA 约 90% 的 HBM 来自 SK Hynix)。

Samsung 的故事是「综合实力强不等于特定领域强」。从 2023 年起尝试通过 NVIDIA 的 HBM 验证测试,反复失败(散热和功耗问题),直到 2025 年 9 月在新主管从底层重新设计 DRAM core 后才通过,但此时已被 Micron 反超跌至第三。Micron 从 2024 年 7% 份额增长到 2025Q2 的 21%,靠的是技术速度和灵活的客户策略。

HBM 市场份额演变
AI 芯片单卡 HBM 容量 (GB)
来源:NVIDIA, AMD, Google Cloud 官方规格页

右图展示了每代 AI 芯片的 HBM 容量几乎翻倍的趋势:从 H100 的 80 GB 到 Vera Rubin 的 288 GB(3.6 倍增长),带宽从 3.35 TB/s 到 13 TB/s(3.9 倍增长)。不只是 NVIDIA——AMD MI350X 升级到 288 GB HBM3E,Google TPU 8i 也到了 288 GB。每一代芯片都在加大对 HBM 供应链的压力。

交汇分析

SORA 之死的真正原因:Anthropic 的 wake-up call

如果只看 SORA 自身的数字,它早就该死了——日烧 $1500 万,总收入才 $210 万。但 OpenAI 并没有在 2025 年 10 月(负责人公开承认不可持续时)就关掉它,而是拖到了 2026 年 3 月才动刀。真正让高管层下定决心的催化剂,是一个外部事件:Anthropic 的 Claude Code 在编码领域的爆发式增长

时间线说明一切。2025 年 5 月,Claude Code 随 Claude 4 发布,6 个月内达到 10 亿美元 ARR。到 2026 年 2 月,ARR 超过 25 亿美元。Anthropic 整体 ARR 从 2025 年底的 90 亿暴涨到 2026 年 4 月的 300 亿美元,超越了 OpenAI 的 250 亿。OpenAI 在企业 API 市场的份额从约 50% 跌到 25%,Anthropic 从 12% 升到 32%。

WSJ 获取了 OpenAI CEO Fidji Simo 在 2026 年 3 月 16 日的全员会议记录。她明确把 Anthropic 的崛起称为"wake-up call",宣布公司不能再搞"side quests",要集中所有资源在编码和企业产品上。八天后,3 月 24 日,SORA 正式关停。

下面这张图用对数刻度展示了 AI 编码工具的年化收入与 SORA 全生命周期总收入的对比。$210 万在 $25 亿旁边几乎不可见。

AI 编码工具 ARR 对比 vs SORA 总收入(对数刻度)
来源:SaaStr, VentureBeat, Sacra, Appfigures, GitHub

OpenAI 内部,研究员通过 dashboard 可以看到 GPU 芯片的分配情况。多名研究员对 SORA 占用大量算力资源却不贡献语言模型能力感到不满。CFO Sarah Friar 花大量时间寻找近期算力资源,「不得不决定搁置哪些项目」。API token 使用量从 2025 年 10 月的每分钟 60 亿涨到 2026 年 3 月底的 150 亿,5 个月增长了 150%。在算力严重供不应求的情况下,每一块 GPU 都是一道选择题:拿去跑 40 分钟 SORA 视频(产生约 $1.30 成本和接近于零的收入),还是跑代码辅助请求(可以服务数千次查询,产生显著更多的收入)?

OpenAI 企业 API 份额
50%→25%
被 Anthropic 蚕食
Anthropic 企业 API 份额
12%→32%
Claude Code 驱动
双方客户重合度
79%
企业在两边同时下注
深度拆解

OpenAI 的算力采购:一部万亿美元的购物清单

OpenAI 不只是「租几台服务器」。它正在同时走三条路径获取算力:租云、自建数据中心、造自己的芯片。甚至绕过 NVIDIA,直接跟内存厂签合同。

三条算力获取路径
路径 A:云租赁(主力) HBM 厂 (SK Hynix/Samsung) NVIDIA (封装成 GPU) Azure / AWS / Oracle / CoreWeave (部署在云厂商数据中心) OpenAI (租用) Azure $2500亿 + AWS $1380亿 Oracle $3000亿 + CoreWeave $224亿 合计 ~$7100 亿 路径 B:Stargate 自建 HBM 厂 (直签 LOI) NVIDIA / AMD (GPU 采购) OpenAI 自有数据中心 Stargate 合资 (SoftBank/Oracle/MGX) OpenAI (自有运营) 德州 Abilene: 45万+ GB200, 1.2GW + 5 个新站点 + 海外站点 总投资 $5000 亿 路径 C:自研芯片 Titan Samsung HBM4 (独占供应) Broadcom (设计) + TSMC 3nm (制造) 联合开发推理专用芯片 Titan 推理芯片 2026 年底首次部署,专攻推理成本 OpenAI (自有芯片) Broadcom $3500亿 + AMD $900亿 + Cerebras $100-200亿 (推理) 合计 ~$4500 亿
OpenAI 同时走三条路径获取算力。路径 A 是当前主力(租云),路径 B (Stargate) 是未来产能主要来源,路径 C (Titan 自研芯片) 是降低长期推理成本的关键。来源:OpenAI 官方, CNBC, TechCrunch, Tom's Hardware
基础设施承诺金额分布 — 总计 $1.15 万亿 (2025-2035)
来源:OpenAI 官方公告, CNBC, TechCrunch, DCD, Tom's Hardware, Tomasz Tunguz 分析
算力采购合同签约时间线
2025.01
Stargate 项目公布 — $5000 亿
SoftBank + OpenAI 各 $190 亿、各持 40%。Oracle + MGX 各 $70 亿。$1000 亿即时部署。
来源:OpenAI 官方
2025.03
CoreWeave 首批合同 — $119 亿 / 5 年
后追加 $40 亿 (5 月) 和 $65 亿 (9 月),总计 $224 亿。OpenAI 另投 $3.5 亿股权。
来源:CoreWeave 投资者公告
2025.09
Stargate Abilene 前两栋建筑投入运行
NVIDIA GB200 机架已交付。全部 8 栋计划 2026 年中完成,总功耗 1.2 GW。
2025.10
微软合同重新谈判 + HBM 直签
新增 $2500 亿 Azure 采购承诺,取消微软优先拒绝权。同月与 Samsung/SK Hynix 签 90 万片/月 DRAM 晶圆 LOI。
来源:OpenAI 官方, CNBC
2025.11
AWS 合同 — $380 亿 / 7 年
数十万块 GB200 + GB300,覆盖推理和训练。标志 OpenAI 正式摆脱微软单一依赖。
来源:OpenAI 官方
2026.02
Series G 公布 — $1100 亿融资
Amazon $500 亿, NVIDIA $300 亿, SoftBank $300 亿。估值 $7300 亿 pre-money。
来源:OpenAI 官方
2026.03
Samsung HBM4 独占供应 + Series G 关闭
Titan 芯片锁定 Samsung HBM4 独占。融资关闭 $1220 亿,估值 $8520 亿。累计融资 $1800 亿。
来源:Tech Insider, CNBC
2026.04
AWS 合同扩展 + 微软二次修改
AWS 新增 $1000 亿 / 8 年,总承诺升至 $1380 亿。微软许可变非独占,停止付分成。AMD 签 6 GW Instinct GPU (~$900 亿)。
来源:CNBC
微软关系的三次重新谈判
条款 原始协议 2025.10 修改 2026.04 修改
云独占 微软独占 取消优先拒绝权 完全自由选择
模型许可 微软独占 IP 权延至 2032 非独占许可
收入分成 双向支付 延长支付周期 微软停付;OpenAI 付至 2030 封顶
新模型上线 Azure 独占 放松 Azure 4 个月独占窗口
微软持股 27% ($1350 亿) 27%(不变)
供应链突破:OpenAI 直接跟内存厂签合同

通常只有 NVIDIA 级别的公司才会直接跟 HBM 厂签约。OpenAI 正在绕过传统供应链的中间层。

2025 年 10 月
Samsung + SK Hynix 意向书
每月供应 90 万片 DRAM 晶圆,为 Stargate 项目提供内存。这个月产量相当于全球 DRAM 产能的相当可观的比例。
来源:Tomasz Tunguz
2026 年 3 月
Samsung HBM4 独占供应协议
专为 Titan 自研推理芯片供货。独占意味着其他客户拿不到 Samsung 分配给 OpenAI 的那部分 HBM4 产能。
来源:Tech Insider
OpenAI 财务全景 (2025-2026)
2025 年收入
$131 亿
2026.02 ARR
$250 亿+
累计融资
$1800 亿
2025 年推理成本
$84 亿
2026 年算力预算
$500 亿
现金流转正预期
2029-30
毛利率仅 ~33%,主要被推理成本拖累。到盈利前累计亏损预计约 $440 亿。ChatGPT 9 亿+ 周活,5000 万+ 付费用户。策略核心:以低于成本价销售模型抢占份额,靠融资撑到规模效应显现。VP of Hardware Richard Ho:「目标不是造芯片,是让智能在规模上变得便宜。」
一句话总结采购逻辑:OpenAI 在用 $1800 亿融资撬动 $1.15 万亿基础设施,同时在三条路径上并行推进,从「微软的最大客户」变成「自己造芯片、自己建数据中心、直接跟内存厂签合同」的垂直整合巨头。在这个版图里,SORA 每天烧掉 $1500 万的 GPU 时间而只产出 $210 万总收入,就像一个坐在万亿美元采购计划中间、只会消耗不会产出的黑洞。
横向对比

中国的成本牌:不只是电便宜

经常有人说中国做 AI 算力便宜,是因为电费低。这个说法有一定道理,但远不是全部。中美工业电价的全国平均值其实差距不大——美国约 $0.073/kWh,中国约 $0.09/kWh(折合约 0.65 元/kWh),美国平均值反而更低。中国的优势在于「东数西算」工程把算力引向了内蒙古(风电约 0.25 元/kWh)、贵州等西部枢纽,电价可以做到约 $0.035/kWh,与美国最低区域持平。但这只是冰山一角。

中国 AI 公司的推理成本可以做到美国竞品的 1/20 到 1/50,靠的是三根支柱的叠加效应。下面的图表直观展示了这个差距:

每百万 token 推理定价对比 ($)
数据截至 2026 年 5 月。来源:各厂商官方 API 定价页。注意 DeepSeek V4-Flash 的 $0.28 与 OpenAI 的 $30 之间差了 100 倍以上

为什么差距这么大?不是因为 DeepSeek 在亏本卖,它自报的日推理利润率是 545%(日成本 $87,072,日理论收入 $562,027)。真正的原因是技术架构层面的效率差异。

支柱一:算法效率
DeepSeek MoE 架构:671B 参数只激活 37B。V3 训练 GPU 成本 $558 万。自报推理利润率 545%。
来源:DeepSeek V3 Technical Report (arxiv:2412.19437)
支柱二:芯片替代
华为昇腾 TCO 比 NVIDIA 低 60-70%。950PR 达 1.56 PFLOPS FP4,配 112GB HiBL 内存。字节下单 $56 亿。
来源:TrendForce, Tom's Hardware, Fortune
支柱三:工程师成本
中国 AI 工程师平均薪资比美国低 30-65%。中位数 ~$63K vs 美国 ~$176K。DeepSeek 团队约 150 人。
来源:Glassdoor, DIGITIMES
补充调研

DeepSeek 为什么这么便宜:五层技术叠加

DeepSeek V4-Flash 的输出定价是 $0.28/百万 token,Claude Opus 4.7 是 $25/百万 token。差距 89 倍。这不是靠电费便宜或工程师加班实现的,而是五层技术优势叠加的结果。每一层都有具体的工程实现和可量化的成本影响。

第一层:MoE 稀疏激活——只点亮 3% 的参数

DeepSeek 使用 Mixture-of-Experts(MoE,混合专家)架构。1.6 万亿总参数里,每个 token 只激活 49 亿参数(V4-Pro)或 13 亿参数(V4-Flash),激活比分别是 3.1% 和 4.6%。对比之下,GPT-4 根据泄露信息(George Hotz 首曝,Soumith Chintala 间接证实)约 1.8 万亿总参数,16 个 expert 激活 2 个,激活比约 15.6%。Claude Opus 的架构未公开,行业估算在 300-500B 参数之间。

通俗地说:如果一个大脑有 1000 个区域,回答一个问题时 DeepSeek 只激活 30 个区域,GPT-4 要激活 150 个。计算量直接差 5 倍。而 V4-Flash 只激活 13B 参数,跟 GPT-4 的 280B 激活量相比,计算差距超过 20 倍。

第二层:混合注意力机制——压缩 73% 的计算量

V4 引入了 CSA(Compressed Sparse Attention)和 HCA(Heavily Compressed Attention)两种注意力机制交替使用。CSA 把每 4 个 token 的 KV 条目压缩为 1 个,再用 Lightning Indexer 从压缩后的条目中选出 top-1024 最相关的;HCA 更激进,每 128 个 token 合并为 1 个,提供低成本的全局上下文感知。

效果:在 100 万 token 上下文下,V4-Pro 的推理 FLOPs 降到 V3 的 27%(节省 73%),KV cache 内存占用降到 V3 的 10%(节省 90%)。V4-Flash 更极端:FLOPs 只有 V3 的 10%,KV cache 只有 7%。这意味着同样的 GPU 可以同时服务更多请求。

第三层:FP4 量化感知训练——GPU 数量减半

主流模型用 FP16 或 BF16(16 位浮点)训练,H100 原生支持 FP8(8 位),但 DeepSeek V4 对 MoE expert 权重直接用了 FP4(4 位浮点)做量化感知训练。不是训练完再量化(那会损失质量),而是训练过程中就在 FP4 约束下学习。FP4 是昇腾 950 的原生支持格式,这不是巧合。

结果:完整模型在 FP8 下需要约 1.6TB 显存(约 20 张 H100),FP4 下降到约 800GB(约 10 张)。V4-Flash 在 FP4 下只需约 4 张 H100。模型质量几乎没有明显下降——SWE-bench Verified 上 V4-Pro 80.6% vs Claude Opus 4.6 的 80.8%,LiveCodeBench 上 V4-Pro 93.5 分反超 Claude 的 88.8 分。

第四层:激进的缓存定价

DeepSeek V4-Flash 的 cache hit 价格是 $0.0028/百万 token——原价的 2%。在 agentic 编码循环中,系统 prompt 和代码库上下文在多轮对话中反复出现,典型 cache hit rate 在 65-70%。算下来,V4-Flash 的有效输入成本约 $0.014/百万 token,是 GPT-5.5 cache miss 价格的 1/357

第五层:国产芯片协同——下半年还会更便宜

V4 是 DeepSeek 第一个为华为昇腾优化的模型。2026 年 4 月 24 日发布当天,华为昇腾、寒武纪、海光、摩尔线程同时完成 Day 0 适配——中国 AI 芯片首次实现「同日部署」。Goldman Sachs 预测,2026 下半年昇腾 950 大规模供货后,V4-Pro 的 API 价格将进一步明显下降。华为计划年内出货约 75 万片 950PR 芯片。

五层叠加的成本节省效果
每一层技术都在前一层基础上进一步降低成本。来源:DeepSeek V4 技术报告, Morph, VentureBeat, Fortune
补充调研

Claude 和 OpenAI 的真实成本:API 定价里藏了多少利润

一个被广泛忽略的事实:Claude 和 OpenAI 的 API 定价并不反映实际推理成本。它们的定价中包含了巨额的品牌溢价和研发摊销。有几组数据可以帮助还原真实成本。

数据一:订阅方案暴露了成本下限

she-llac.com 的作者用逆向工程方法还原了 Anthropic 的内部额度分配。核心发现:Claude Max 5x($100/月)每月给 180.6M credits,折算约 54.2M 个 Opus 级输出 token,按 API 定价计算等价 $1,354/月。也就是说订阅用户拿到了 API 标价 13.5 倍的价值。

在 warm-cache agentic 场景下(编码循环中系统 prompt 反复命中缓存),价值倍数进一步拉到 36.7 倍。如果 Anthropic 在 Max 5x 用户上不亏钱(Martin Alderson 的分析认为大部分用户上是盈利的),那实际每百万输出 token 的计算成本 < $1.85,不到 API 标价 $25 的 8%

数据二:开源模型的竞争定价揭示了成本地板

OpenRouter 上多家供应商竞争提供同等规模开源模型(如 Qwen 3.5 397B)的 API 服务,能盈利的价格约 $0.39/百万输入 + $2.34/百万输出。这个价格约为 Claude Opus API 定价的 10%。如果多家供应商能在这个价格上盈利,那它就是计算成本的合理上限。

数据三:LLM 推理成本三年降了 1000 倍

a16z 的「LLMflation」追踪显示:GPT-3 级别性能的推理成本从 2021 年的 $60/百万 token 降到 2024 年的 $0.06/百万 token,降了 1000 倍。等效性能(MMLU 83 分)的成本每年降约 10 倍。但 API 定价的降幅远小于成本降幅——这中间的差距就是利润。

那 DeepSeek API 还有成本优势吗?

换一个角度:如果一个重度 Claude Code 用户每月消耗 500M token(50/50 输入输出),用 Claude Max 5x 订阅只需 $100/月。同等 token 量用 DeepSeek V4-Flash API 约 $105/月。价格几乎持平。

这揭示了一个关键事实:DeepSeek 的成本优势主要体现在 API 对 API 的直接比较中($0.28 vs $25,差 89 倍)。但当 Anthropic 通过订阅方案大幅压低有效价格时,差距被显著缩小。对于已经买了 Max 5x 的个人开发者来说,切换到 DeepSeek API 并不能省钱。DeepSeek 的优势更多在于:(1) 不需要订阅就能拿到低价;(2) 对成本敏感的中小企业和批量调用场景;(3) 开源可自部署。

Claude API 定价 vs 估算实际成本
~10x
API 定价中约 90% 是品牌溢价 + 研发摊销
来源:Martin Alderson 分析,OpenRouter 竞争定价推算
Max 5x 订阅 vs DeepSeek V4-Flash(500M token/月)
$100 vs $105
订阅模式下差距几乎消失
来源:she-llac.com, DeepSeek API 定价页
补充调研

约束结构:电力、芯片、封装,谁才是根本瓶颈

AI 基础设施的扩张受到一系列约束的串联制约。理解这些约束之间的关系,比知道任何一个约束的具体数字更重要。

当前的约束排序:CoWoS > HBM > 电力

Epoch AI 的量化分析给出了最清晰的判断:2025 年四大 AI 芯片设计公司消耗了全球 CoWoS 先进封装产能的 >90% 和 HBM 供应的 >90%,但只消耗了先进逻辑晶圆制造产能的 ~12%。这个 90% vs 12% 的不对称说明瓶颈在封装和内存,不在芯片制造本身。

TSMC CEO 魏哲家确认 CoWoS 产能「售罄到 2026 年及以后」。NVIDIA 锁定了 CoWoS 产能的 60% 以上到 2027 年。即使芯片设计好了、HBM 也有了,如果没有 CoWoS 封装把它们组合起来,就是一堆散件。

但瓶颈正在转移

TSMC 的 CoWoS 产能从 2024 底的 35K 晶圆/月扩到 2026 底目标 130K 晶圆/月(约 4 倍扩产)。随着封装产能追上来,瓶颈正在向电力/电网转移。Satya Nadella 在 2026 年说:「最大的问题不是算力不够,而是电力不够……我的问题不是芯片供应,而是没有足够电力和冷却能力的设施来部署那些芯片。」Musk 也预判 2026 年会出现芯片产能超过能通电部署的情况。

电力约束为什么靠钱解决不了

你朋友 MBHH 的观点有一个很锐利的核心:芯片和内存产能可以靠下订单、付钱来解决(工厂不在美国,供应链是全球化的),但数据中心必须部署在本土电网上,而美国的电网扩容能力在去工业化之后严重退化。数据支持这个判断:

  • 2026 年计划上线的 12 GW 数据中心容量中,只有 5 GW 实际在建,7 GW 延迟或取消
  • 高压变压器交货期从疫情前 24-30 个月延长到 5 年
  • 美国只生产自用 20% 的大型电力变压器,中国控制全球 60% 产能
  • 弗吉尼亚并网排队等待时间 7 年(更悲观估计 15 年)
  • PJM 容量市场拍卖价格三连涨($29→$270→$333/MW-day),数据中心承担 40-63% 的成本增量
  • Morgan Stanley 估计 2025-2028 年美国面临 55 GW 电力供应缺口

数据中心建设周期 12-18 个月,但变压器采购 5 年、并网排队 5-7 年、核电超 10 年。所有 2025 年宣布的数据中心,如果当时没有提前下单变压器,就不可能在 2026-2027 年投运。这是一个时间错配问题,资本解决不了。

中国的约束结构完全不同

中国的瓶颈是芯片,不是电力。出口管制切断了先进制程设备、高端 GPU 和 HBM 的供应。但电力方面,2024 年中国新增 543 GW 发电容量(净新增 429 GW),比印度全部装机还大 12%。中国总装机 3,349 GW,美国约 1,300 GW;中国发电量已超美国两倍。自 2021 年底以来中国新增的发电量,已超过美国整个电力系统的总量。

Oxford Institute for Energy Studies 2026 年 2 月的报告 「The China data centre advantage: hype versus reality」 给出了审慎的结论:中美批发电价区间重叠(中国 $43-58/MWh vs 美国 $40-50/MWh),中国电价优势没有流传的那么大。但中国的真正优势不在价格,而在不存在美国那种物理级别的电力瓶颈——没有 5 年变压器交货期、没有 7 年并网排队、没有社区反对导致的项目取消。

简单说:美国的约束是物理/基础设施层面的(hard constraint),解决周期 5-10 年。中国的约束是芯片/出口管制层面的(policy constraint),取决于地缘政治走向。两个国家都有自己跨不过去的坎,只是坎的性质不同。

各约束的紧张程度与解决时间线
约束 2026 紧张度 能否靠钱加速 解决时间线 对中国的影响
CoWoS 先进封装 极紧——最紧 部分能(TSMC 4x 扩产中) 1-2 年 完全被卡(出口管制)
HBM 内存 极紧(售罄到 2026 底) 部分能(下订单 + 建厂) 1-3 年 受限(CXMT 在追赶)
逻辑芯片制造 宽松(只用了 12%) 2-3 年 被卡(SMIC 卡在 7nm)
电力 / 电网 正在收紧(7/12 GW 延迟) 基本不能 5-10 年 无瓶颈(543 GW/年新增)
回应 MBHH 的核心判断:「芯片、存储这些产能好扩,美国只要下订单付钱就行了;而实际装机、训练要依赖美国电网,这一块对于去工业化后的美国就不是很擅长了。」数据基本支持这个判断。HBM/CoWoS 虽然现在也紧,但 TSMC 在 4 倍扩产、三家内存厂都在建新工厂,2-3 年可以缓解。电网扩容则需要 5-10 年以上。变压器、并网、发电设施的物理工期是没有快进键的。Gartner 预测到 2027 年电力短缺将限制 40% 的 AI 数据中心。
中美在不同 AI 任务上的比较优势
AI 任务 美国优势 中国优势 当前格局
前沿训练 最先进 GPU 集群、CUDA 生态 算法效率(MoE/FP4 降低训练资源需求) 美国主导,算力优势 21-49x
大规模推理 云生态成熟(AWS/Azure/GCP) 电力无瓶颈 + MoE/FP4 极低成本 中国追上中,推理占总算力 80-90%
视频/多模态 Google Veo 画质 frontier 可灵 $6.99/月,成本竞争力 各有千秋,质量 vs 成本
企业应用 订阅体系(Max 5x/Copilot) API 直接低价,无需订阅门槛 中国结构性优势
来源:Epoch AI, CFR, IFP, OIES
未来推演

三个剧本

把内存涨价、SORA 之死、HBM 三国杀、OpenAI 万亿采购、中国成本优势这几条线汇合起来看,未来的走向取决于几个关键变量的互动。下面是三个可能的剧本,从最可能到最乐观排列。每个剧本的核心驱动力不同,但都建立在我们前面分析的事实基础上。

最可能

高价延续到 2028

新晶圆厂 2027-2028 逐步投产,HBM 供应追上需求。DRAM/NAND 价格 2027H2 见顶回落,但不会回到 2023 低点。视频生成 AI 变成窄赛道产品,面向专业用户高价收费。可灵等中国选手凭成本优势存活。

关键变量:SK Hynix M15X、Micron Idaho/New York 新工厂的投产进度
最危险

需求突然放缓

Scaling law 收益递减,hyperscaler 削减资本支出。$7250 亿投入没有产生回报。新建产能变搁浅资产。内存重演 2019 暴跌。

危险信号:Amazon 2026 预计负自由现金流 $170 亿,大科技已发行 $1000 亿债券
最乐观

替代技术突破

Cerebras 晶圆级芯片在训练场景接近 GPU 灵活性,或存内计算 2027-2028 商业化突破。HBM 供需矛盾从需求侧缓解。视频生成成本降一个数量级。

关键标志:Cerebras IPO 后规模部署、HBM4 logic die 的 PIM 能力验证

信息来源

研究方法:横纵分析法(数字生命卡兹克)。纵向沿时间轴还原内存市场和 SORA 的完整发展脉络,横向以当前时间点为切面对比竞争格局,交汇处提炼判断。研究时间 2026 年 5 月。