AI 对高带宽内存的疯狂需求正在改写全球内存产业的供需结构,而 SORA 的死亡,是更深层算力经济学问题在视频生成领域的必然坍缩。
内存芯片可能是人类工业史上最具周期性的产品。全球只有三家公司——Samsung、SK Hynix、Micron——控制着约 95% 的 DRAM 产能。理论上这种寡头格局应该带来稳定的定价权,但事实恰好相反。过去三十年,这个行业反复跌进同一个坑:扩产 → 过剩 → 暴跌 → 减产 → 短缺 → 暴涨,每轮周期大约 3 到 5 年。
为什么会这样?因为建一座新晶圆厂需要 2-3 年时间和 150-200 亿美元投资。建成之后固定成本巨大,只能满产运行才划算,这反过来又加剧了供给过剩。等到需求侧突然爆发的时候(比如智能手机普及、云计算起飞),供给侧来不及响应,价格就暴涨。等供给终于追上来,需求往往已经走弱,又变成暴跌。
上图中每个低谷都对应一次危机:1997 年亚洲金融危机、2000 年互联网泡沫、2008 年全球金融危机。每个高峰都对应一波新需求:PC 普及、智能手机、云计算。2016-2018 年出现了所谓的「超级周期」,Micron 在 2018 年做到了营收 304 亿美元、营业利润率 49.3% 的历史巅峰。但紧接着 2019 年需求停滞,价格又断崖下跌。2022-2023 年 SK Hynix 单季亏损 27 亿美元,创下公司史上最大亏损。
2024 年下半年开始,AI 大模型从实验室走向大规模部署,NVIDIA H100/H200 出货量攀升,一种叫 HBM(高带宽内存)的特殊内存需求暴增。HBM 是什么?简单说,它是一种通过把多层 DRAM 芯片垂直叠在一起(用硅通孔连接)来实现超高带宽的内存。如果把普通 DDR5 想象成四车道公路,HBM 就是一座 1024 车道的立交桥。AI 芯片需要它来快速读取模型参数。
关键问题在于:生产 1 GB 的 HBM 需要消耗 3 倍于 DDR5 的晶圆面积(Micron 财报确认)。这意味着每一片分配给 HBM 的晶圆,就是一片从你的笔记本内存和手机内存中拿走的晶圆。2026 年,AI 相关内存预计将消耗全球 DRAM 晶圆产能的 20%。这不是传统的供需错配,而是晶圆产能的结构性再分配。
于是我们看到了具体的涨价幅度:DDR5 32GB 套件从 $95 涨到 $184;DDR5 芯片单价从 2025 年 9 月的 $6.84 涨到 12 月的 $27.20(接近 4 倍)。NAND 更加剧烈——Phison CEO 确认 6 个月内翻倍,Kingston 报告年涨 246%。到了 2026 年第一季度,TrendForce 分析师 Tom Hsu 用了「前所未有」来形容:常规 DRAM 合约价单季环比涨 55-60%,NAND 合约价环比涨 85-90%。翻译成消费者能感知的数字:2TB NVMe SSD 从 $120-150 涨到 $300-480,Dell 宣布终端产品涨价 15-20%。
HBM 的诞生比 AI 大模型爆发早了整整十年。2013 年 SK Hynix 率先生产出第一代 HBM,2015 年首次用在 AMD 的 Fiji 显卡上。当时的市场很小,主要给高端游戏显卡用。但接下来的迭代轨迹几乎与 AI 发展同频——每一代 HBM 的带宽增长,都在追赶大模型对数据吞吐的胃口。
从 HBM1 (2013) 的 128 GB/s 到 HBM4 (2025) 的 2000+ GB/s,12 年间带宽翻了 15 倍以上。GPT-3 有 1750 亿参数,GPT-4 据估计是 1.8 万亿参数。模型越大,推理时需要从内存中读取的权重数据越多,对内存带宽的依赖就越深。HBM3 恰好赶上了 2022 年 NVIDIA H100 横空出世,HBM3E 对应 2024 年的 H200 和 Blackwell 一代。
这也意味着 HBM 从「显卡的小众配件」变成了「AI 基础设施的核心瓶颈」。Epoch AI 的研究发现,2025 年四大 AI 芯片设计公司消耗了全球约 90% 的 CoWoS 封装产能和 HBM 供应,但只用了 12% 的先进逻辑制程产能。换句话说,瓶颈不在芯片本身,而在封装和 HBM。HBM 现在占 AI 加速卡制造成本的 30-40%,NVIDIA B200 上的 HBM 内存成本(约 $2400)已经超过了芯片逻辑核心本身的成本。
2024 年 2 月,OpenAI 发布 SORA 的 demo 视频,整个互联网为之震撼。逼真的街景、流畅的镜头运动、一致的光照,让人觉得影视制作正在被颠覆。但技术惊艳不等于商业可行。
每段 10 秒视频需要约 40 分钟 GPU 总时间(4 个 GPU 并行跑 8-10 分钟),成本约 $1.30。这个数字看起来不大,但乘以用户量就变成了天文数字。以 450 万用户、25% 日活、日均 10 段视频计算,每天要生成约 1130 万段视频,日均成本约 $1500 万,年化 54 亿美元。即使 OpenAI 大幅限制使用量把日成本压到 $100 万(WSJ 数据),三个月也是 $9000 万。
而 SORA 从上线到关停的全部应用内购收入,总共只有 $210 万。不是每月,是总计。
下面的时间线标出了 SORA 的完整生命周期。注意绿色圆点代表里程碑/好消息,红色圆点代表危机节点。从 App Store 品类第一到关停,总共约 6 个月。
文本生成输出的是 token 序列,图像生成输出一帧,但视频必须输出多帧且保证帧之间的时间连贯性——人物动作、光照变化、镜头运动都要一致。一段 5 秒 24fps 的视频等于 120 帧,每帧需要空间一致性加帧间时间一致性。处理超过 8 万个 token,attention 操作占推理时间的 85% 以上,而且是二次方缩放(帧数翻倍,计算量翻四倍)。
图像上的小瑕疵可以容忍,但视频里的小瑕疵会在帧间立即暴露。修复这些需要更多计算,AI 视频经常需要多次尝试才能得到可用结果,每次失败的尝试都消耗了完整的计算资源。而且视频生成高度依赖内存带宽而非纯计算力(FLOPS),恰好撞上了 HBM 最紧缺的时点。
全球 HBM 市场只有三个玩家,但过去两年经历了剧烈洗牌。SK Hynix 在 2025 年第一季度以 36% 的份额首次超越 Samsung 成为全球 DRAM 市场第一,这是 SK Hynix 1983 年成立以来首次登顶,也是 Samsung 三十多年来首次失去龙头地位。在 HBM 细分市场上优势更悬殊:2025Q1 占据 70%+ 份额。原因是十年如一日在 3D 堆叠和 TSV 技术上的投入,加上与 NVIDIA 的深度绑定(NVIDIA 约 90% 的 HBM 来自 SK Hynix)。
Samsung 的故事是「综合实力强不等于特定领域强」。从 2023 年起尝试通过 NVIDIA 的 HBM 验证测试,反复失败(散热和功耗问题),直到 2025 年 9 月在新主管从底层重新设计 DRAM core 后才通过,但此时已被 Micron 反超跌至第三。Micron 从 2024 年 7% 份额增长到 2025Q2 的 21%,靠的是技术速度和灵活的客户策略。
右图展示了每代 AI 芯片的 HBM 容量几乎翻倍的趋势:从 H100 的 80 GB 到 Vera Rubin 的 288 GB(3.6 倍增长),带宽从 3.35 TB/s 到 13 TB/s(3.9 倍增长)。不只是 NVIDIA——AMD MI350X 升级到 288 GB HBM3E,Google TPU 8i 也到了 288 GB。每一代芯片都在加大对 HBM 供应链的压力。
如果只看 SORA 自身的数字,它早就该死了——日烧 $1500 万,总收入才 $210 万。但 OpenAI 并没有在 2025 年 10 月(负责人公开承认不可持续时)就关掉它,而是拖到了 2026 年 3 月才动刀。真正让高管层下定决心的催化剂,是一个外部事件:Anthropic 的 Claude Code 在编码领域的爆发式增长。
时间线说明一切。2025 年 5 月,Claude Code 随 Claude 4 发布,6 个月内达到 10 亿美元 ARR。到 2026 年 2 月,ARR 超过 25 亿美元。Anthropic 整体 ARR 从 2025 年底的 90 亿暴涨到 2026 年 4 月的 300 亿美元,超越了 OpenAI 的 250 亿。OpenAI 在企业 API 市场的份额从约 50% 跌到 25%,Anthropic 从 12% 升到 32%。
WSJ 获取了 OpenAI CEO Fidji Simo 在 2026 年 3 月 16 日的全员会议记录。她明确把 Anthropic 的崛起称为"wake-up call",宣布公司不能再搞"side quests",要集中所有资源在编码和企业产品上。八天后,3 月 24 日,SORA 正式关停。
下面这张图用对数刻度展示了 AI 编码工具的年化收入与 SORA 全生命周期总收入的对比。$210 万在 $25 亿旁边几乎不可见。
OpenAI 内部,研究员通过 dashboard 可以看到 GPU 芯片的分配情况。多名研究员对 SORA 占用大量算力资源却不贡献语言模型能力感到不满。CFO Sarah Friar 花大量时间寻找近期算力资源,「不得不决定搁置哪些项目」。API token 使用量从 2025 年 10 月的每分钟 60 亿涨到 2026 年 3 月底的 150 亿,5 个月增长了 150%。在算力严重供不应求的情况下,每一块 GPU 都是一道选择题:拿去跑 40 分钟 SORA 视频(产生约 $1.30 成本和接近于零的收入),还是跑代码辅助请求(可以服务数千次查询,产生显著更多的收入)?
OpenAI 不只是「租几台服务器」。它正在同时走三条路径获取算力:租云、自建数据中心、造自己的芯片。甚至绕过 NVIDIA,直接跟内存厂签合同。
| 条款 | 原始协议 | 2025.10 修改 | 2026.04 修改 |
|---|---|---|---|
| 云独占 | 微软独占 | 取消优先拒绝权 | 完全自由选择 |
| 模型许可 | 微软独占 | IP 权延至 2032 | 非独占许可 |
| 收入分成 | 双向支付 | 延长支付周期 | 微软停付;OpenAI 付至 2030 封顶 |
| 新模型上线 | Azure 独占 | 放松 | Azure 4 个月独占窗口 |
| 微软持股 | — | 27% ($1350 亿) | 27%(不变) |
通常只有 NVIDIA 级别的公司才会直接跟 HBM 厂签约。OpenAI 正在绕过传统供应链的中间层。
经常有人说中国做 AI 算力便宜,是因为电费低。这个说法有一定道理,但远不是全部。中美工业电价的全国平均值其实差距不大——美国约 $0.073/kWh,中国约 $0.09/kWh(折合约 0.65 元/kWh),美国平均值反而更低。中国的优势在于「东数西算」工程把算力引向了内蒙古(风电约 0.25 元/kWh)、贵州等西部枢纽,电价可以做到约 $0.035/kWh,与美国最低区域持平。但这只是冰山一角。
中国 AI 公司的推理成本可以做到美国竞品的 1/20 到 1/50,靠的是三根支柱的叠加效应。下面的图表直观展示了这个差距:
为什么差距这么大?不是因为 DeepSeek 在亏本卖,它自报的日推理利润率是 545%(日成本 $87,072,日理论收入 $562,027)。真正的原因是技术架构层面的效率差异。
DeepSeek V4-Flash 的输出定价是 $0.28/百万 token,Claude Opus 4.7 是 $25/百万 token。差距 89 倍。这不是靠电费便宜或工程师加班实现的,而是五层技术优势叠加的结果。每一层都有具体的工程实现和可量化的成本影响。
DeepSeek 使用 Mixture-of-Experts(MoE,混合专家)架构。1.6 万亿总参数里,每个 token 只激活 49 亿参数(V4-Pro)或 13 亿参数(V4-Flash),激活比分别是 3.1% 和 4.6%。对比之下,GPT-4 根据泄露信息(George Hotz 首曝,Soumith Chintala 间接证实)约 1.8 万亿总参数,16 个 expert 激活 2 个,激活比约 15.6%。Claude Opus 的架构未公开,行业估算在 300-500B 参数之间。
通俗地说:如果一个大脑有 1000 个区域,回答一个问题时 DeepSeek 只激活 30 个区域,GPT-4 要激活 150 个。计算量直接差 5 倍。而 V4-Flash 只激活 13B 参数,跟 GPT-4 的 280B 激活量相比,计算差距超过 20 倍。
V4 引入了 CSA(Compressed Sparse Attention)和 HCA(Heavily Compressed Attention)两种注意力机制交替使用。CSA 把每 4 个 token 的 KV 条目压缩为 1 个,再用 Lightning Indexer 从压缩后的条目中选出 top-1024 最相关的;HCA 更激进,每 128 个 token 合并为 1 个,提供低成本的全局上下文感知。
效果:在 100 万 token 上下文下,V4-Pro 的推理 FLOPs 降到 V3 的 27%(节省 73%),KV cache 内存占用降到 V3 的 10%(节省 90%)。V4-Flash 更极端:FLOPs 只有 V3 的 10%,KV cache 只有 7%。这意味着同样的 GPU 可以同时服务更多请求。
主流模型用 FP16 或 BF16(16 位浮点)训练,H100 原生支持 FP8(8 位),但 DeepSeek V4 对 MoE expert 权重直接用了 FP4(4 位浮点)做量化感知训练。不是训练完再量化(那会损失质量),而是训练过程中就在 FP4 约束下学习。FP4 是昇腾 950 的原生支持格式,这不是巧合。
结果:完整模型在 FP8 下需要约 1.6TB 显存(约 20 张 H100),FP4 下降到约 800GB(约 10 张)。V4-Flash 在 FP4 下只需约 4 张 H100。模型质量几乎没有明显下降——SWE-bench Verified 上 V4-Pro 80.6% vs Claude Opus 4.6 的 80.8%,LiveCodeBench 上 V4-Pro 93.5 分反超 Claude 的 88.8 分。
DeepSeek V4-Flash 的 cache hit 价格是 $0.0028/百万 token——原价的 2%。在 agentic 编码循环中,系统 prompt 和代码库上下文在多轮对话中反复出现,典型 cache hit rate 在 65-70%。算下来,V4-Flash 的有效输入成本约 $0.014/百万 token,是 GPT-5.5 cache miss 价格的 1/357。
V4 是 DeepSeek 第一个为华为昇腾优化的模型。2026 年 4 月 24 日发布当天,华为昇腾、寒武纪、海光、摩尔线程同时完成 Day 0 适配——中国 AI 芯片首次实现「同日部署」。Goldman Sachs 预测,2026 下半年昇腾 950 大规模供货后,V4-Pro 的 API 价格将进一步明显下降。华为计划年内出货约 75 万片 950PR 芯片。
一个被广泛忽略的事实:Claude 和 OpenAI 的 API 定价并不反映实际推理成本。它们的定价中包含了巨额的品牌溢价和研发摊销。有几组数据可以帮助还原真实成本。
she-llac.com 的作者用逆向工程方法还原了 Anthropic 的内部额度分配。核心发现:Claude Max 5x($100/月)每月给 180.6M credits,折算约 54.2M 个 Opus 级输出 token,按 API 定价计算等价 $1,354/月。也就是说订阅用户拿到了 API 标价 13.5 倍的价值。
在 warm-cache agentic 场景下(编码循环中系统 prompt 反复命中缓存),价值倍数进一步拉到 36.7 倍。如果 Anthropic 在 Max 5x 用户上不亏钱(Martin Alderson 的分析认为大部分用户上是盈利的),那实际每百万输出 token 的计算成本 < $1.85,不到 API 标价 $25 的 8%。
OpenRouter 上多家供应商竞争提供同等规模开源模型(如 Qwen 3.5 397B)的 API 服务,能盈利的价格约 $0.39/百万输入 + $2.34/百万输出。这个价格约为 Claude Opus API 定价的 10%。如果多家供应商能在这个价格上盈利,那它就是计算成本的合理上限。
a16z 的「LLMflation」追踪显示:GPT-3 级别性能的推理成本从 2021 年的 $60/百万 token 降到 2024 年的 $0.06/百万 token,降了 1000 倍。等效性能(MMLU 83 分)的成本每年降约 10 倍。但 API 定价的降幅远小于成本降幅——这中间的差距就是利润。
换一个角度:如果一个重度 Claude Code 用户每月消耗 500M token(50/50 输入输出),用 Claude Max 5x 订阅只需 $100/月。同等 token 量用 DeepSeek V4-Flash API 约 $105/月。价格几乎持平。
这揭示了一个关键事实:DeepSeek 的成本优势主要体现在 API 对 API 的直接比较中($0.28 vs $25,差 89 倍)。但当 Anthropic 通过订阅方案大幅压低有效价格时,差距被显著缩小。对于已经买了 Max 5x 的个人开发者来说,切换到 DeepSeek API 并不能省钱。DeepSeek 的优势更多在于:(1) 不需要订阅就能拿到低价;(2) 对成本敏感的中小企业和批量调用场景;(3) 开源可自部署。
AI 基础设施的扩张受到一系列约束的串联制约。理解这些约束之间的关系,比知道任何一个约束的具体数字更重要。
Epoch AI 的量化分析给出了最清晰的判断:2025 年四大 AI 芯片设计公司消耗了全球 CoWoS 先进封装产能的 >90% 和 HBM 供应的 >90%,但只消耗了先进逻辑晶圆制造产能的 ~12%。这个 90% vs 12% 的不对称说明瓶颈在封装和内存,不在芯片制造本身。
TSMC CEO 魏哲家确认 CoWoS 产能「售罄到 2026 年及以后」。NVIDIA 锁定了 CoWoS 产能的 60% 以上到 2027 年。即使芯片设计好了、HBM 也有了,如果没有 CoWoS 封装把它们组合起来,就是一堆散件。
TSMC 的 CoWoS 产能从 2024 底的 35K 晶圆/月扩到 2026 底目标 130K 晶圆/月(约 4 倍扩产)。随着封装产能追上来,瓶颈正在向电力/电网转移。Satya Nadella 在 2026 年说:「最大的问题不是算力不够,而是电力不够……我的问题不是芯片供应,而是没有足够电力和冷却能力的设施来部署那些芯片。」Musk 也预判 2026 年会出现芯片产能超过能通电部署的情况。
你朋友 MBHH 的观点有一个很锐利的核心:芯片和内存产能可以靠下订单、付钱来解决(工厂不在美国,供应链是全球化的),但数据中心必须部署在本土电网上,而美国的电网扩容能力在去工业化之后严重退化。数据支持这个判断:
数据中心建设周期 12-18 个月,但变压器采购 5 年、并网排队 5-7 年、核电超 10 年。所有 2025 年宣布的数据中心,如果当时没有提前下单变压器,就不可能在 2026-2027 年投运。这是一个时间错配问题,资本解决不了。
中国的瓶颈是芯片,不是电力。出口管制切断了先进制程设备、高端 GPU 和 HBM 的供应。但电力方面,2024 年中国新增 543 GW 发电容量(净新增 429 GW),比印度全部装机还大 12%。中国总装机 3,349 GW,美国约 1,300 GW;中国发电量已超美国两倍。自 2021 年底以来中国新增的发电量,已超过美国整个电力系统的总量。
Oxford Institute for Energy Studies 2026 年 2 月的报告 「The China data centre advantage: hype versus reality」 给出了审慎的结论:中美批发电价区间重叠(中国 $43-58/MWh vs 美国 $40-50/MWh),中国电价优势没有流传的那么大。但中国的真正优势不在价格,而在不存在美国那种物理级别的电力瓶颈——没有 5 年变压器交货期、没有 7 年并网排队、没有社区反对导致的项目取消。
简单说:美国的约束是物理/基础设施层面的(hard constraint),解决周期 5-10 年。中国的约束是芯片/出口管制层面的(policy constraint),取决于地缘政治走向。两个国家都有自己跨不过去的坎,只是坎的性质不同。
| 约束 | 2026 紧张度 | 能否靠钱加速 | 解决时间线 | 对中国的影响 |
|---|---|---|---|---|
| CoWoS 先进封装 | 极紧——最紧 | 部分能(TSMC 4x 扩产中) | 1-2 年 | 完全被卡(出口管制) |
| HBM 内存 | 极紧(售罄到 2026 底) | 部分能(下订单 + 建厂) | 1-3 年 | 受限(CXMT 在追赶) |
| 逻辑芯片制造 | 宽松(只用了 12%) | 能 | 2-3 年 | 被卡(SMIC 卡在 7nm) |
| 电力 / 电网 | 正在收紧(7/12 GW 延迟) | 基本不能 | 5-10 年 | 无瓶颈(543 GW/年新增) |
| AI 任务 | 美国优势 | 中国优势 | 当前格局 |
|---|---|---|---|
| 前沿训练 | 最先进 GPU 集群、CUDA 生态 | 算法效率(MoE/FP4 降低训练资源需求) | 美国主导,算力优势 21-49x |
| 大规模推理 | 云生态成熟(AWS/Azure/GCP) | 电力无瓶颈 + MoE/FP4 极低成本 | 中国追上中,推理占总算力 80-90% |
| 视频/多模态 | Google Veo 画质 frontier | 可灵 $6.99/月,成本竞争力 | 各有千秋,质量 vs 成本 |
| 企业应用 | 订阅体系(Max 5x/Copilot) | API 直接低价,无需订阅门槛 | 中国结构性优势 |
把内存涨价、SORA 之死、HBM 三国杀、OpenAI 万亿采购、中国成本优势这几条线汇合起来看,未来的走向取决于几个关键变量的互动。下面是三个可能的剧本,从最可能到最乐观排列。每个剧本的核心驱动力不同,但都建立在我们前面分析的事实基础上。
新晶圆厂 2027-2028 逐步投产,HBM 供应追上需求。DRAM/NAND 价格 2027H2 见顶回落,但不会回到 2023 低点。视频生成 AI 变成窄赛道产品,面向专业用户高价收费。可灵等中国选手凭成本优势存活。
Scaling law 收益递减,hyperscaler 削减资本支出。$7250 亿投入没有产生回报。新建产能变搁浅资产。内存重演 2019 暴跌。
Cerebras 晶圆级芯片在训练场景接近 GPU 灵活性,或存内计算 2027-2028 商业化突破。HBM 供需矛盾从需求侧缓解。视频生成成本降一个数量级。
研究方法:横纵分析法(数字生命卡兹克)。纵向沿时间轴还原内存市场和 SORA 的完整发展脉络,横向以当前时间点为切面对比竞争格局,交汇处提炼判断。研究时间 2026 年 5 月。