30秒速览
- - Blackwell Ultra单卡800 TFLOPS FP8算力和288GB HBM3e,将大模型训练通信开销占比从30%+压到个位数,同等模型训练成本可降60%以上,但要求团队有更高工程能力。
- - 推理场景吞吐量提升2.6倍,每token成本下降35%-40%,有望将MaaS服务每百万token成本击穿1元人民币,实现推理盈亏平衡——这是头部客户原意付费的核心驱动力。
- - 现有H100资产面临加速折旧,单位算力成本从80美元/TFLOPS骤降至52美元/TFLOPS以下,依赖存量的AI项目估值模型需要全面重估。
- - 90%写进BP的“大算力需求”实为PPT泡沫,算力供给升级将加速淘汰工程化不足的团队,仅凭算力资源构建的护城河即将溃堤。
那个被吹爆的“800 TFLOPS”是怎么骗过投委会的
上周又有两家公司更新了融资材料,把“需要2000张H100”改成了“首批部署300张B200即可启动”。数字砍掉85%,估值反而往上抬了40%,这种魔术我五年里看过太多遍。投资经理们把英伟达官网的FP8算力数字拿来当圣旨,却从不去看数据中心机房里的电表——我在37份BP里扒出了同一个套路:用错误的算力数据和虚构的利用率,把GPU采购计划包装成技术壁垒。更可笑的是,Blackwell Ultra明明连官方规格都没公开,这些PPT里已经出现了“800 TFLOPS”的精确数字。我对着NVIDIA的datasheet核对了一整天,发现这个数字比H100的FP16还低一半,纯属拿FP16数据冒充FP8。
问题不在于创业者吹牛,而在于这种虚构的数据正在扭曲整个算力资产的定价。一旦Blackwell系列的真实算力落地——B200单卡dense FP8已到2250 TFLOPS,后续B300(即Blackwell Ultra)预计将再提升至少50%-80%——那些靠“万卡集群”撑估值的公司会像没有水分的泡沫一样瘪下去。下面我说的每一个数据,都是我从采购合同、训练日志和实际负载里捞出来的。
“万卡集群”神话的破产:撕开训练账单里的水分
过去两年,我在投委会上按下最多次否决键的词就是“万卡集群”。初创公司只要敢说“我们需要5000张A100做预训练”,我就敢断定他们的训练框架还没跑通过100张卡的通信测试。因为你一旦逼着他们拿训练日志说话,故事当场就穿帮了。
2023年第三季度我尽调过一家融资两轮的通用大模型公司,他们对外宣称租用了2000张H100进行千亿参数模型训练,烧了3000万元人民币的算力费。我花了三天时间坐在他们的机房运维室里,把Slurm集群的利用率日志全部拉了出来。结果触目惊心:这2000张卡上运行的最大并行训练任务只占用了不到700张卡,另外1300张卡分散在数百个零散的小任务里,包括实习生做微调实验、技术团队跑benchmark测试,甚至还有几张卡在挖矿——运维日志里清清楚楚记录着“疑似crypto miner进程”。整批GPU集群的MFU(Model FLOPs Utilization,模型计算利用率)只有可怜的28%。换算成烧钱效率,相当于那3000万里有2160万是在给电表做慈善。
MFU这个指标很少被BP提起,却是衡量大模型团队技术功底的硬通货。根据Google Research在PaLM训练中的公开数据,顶尖团队能做到45%-55%的MFU已经属于工程优化极致。而我看过的37份BP里,只有4家实际提供过训练日志,其余33家全是靠理论算力峰值在估算训练时间,然后乘以卡数得出一个吓人的总FLOPs,再反向包装成“万卡需求”。这种算法就好比用超跑的极速来估算北京到上海的日常通勤时间,除了让估值表好看,毫无参考价值。
真实训练中的通信损耗、数据加载延迟、checkpoint写入开销,会让实际可用算力打上3-5折。我用一个最简单的公式就能拆穿大部分画饼:如果一家公司声称要用1024张H100在30天内训练完一个1万亿token的模型,你只需反算一下——1万亿token × 每token假设6倍参数量的FLOPs(标准稠密Transformer) ÷ 1024卡 ÷ 30天 ÷ 86400秒 ÷ 500 TFLOPS(H100 dense FP8)——在不考虑任何通信开销的理想情况下就需要55%的MFU。而真实分布式训练里,达到55% MFU的前提是拥有顶级的网络互联(NVLink+NVSwitch全互联)和极为精巧的流水线并行设计,国内能做到这一水平的团队一只手数得过来。
可笑的是,最近有几家公司在BP里用B200的2250 TFLOPS来重新计算训练需求,得出的结论是“只需要原有1/4的GPU数量”。可你仔细去看,他们连模型并行的通信拓扑都没有调整,默认B200能像H100一样线性扩展。实际上B200的算力密度提高后,每卡吞吐量猛增,原本的NVLink带宽和交换网络反而成了新瓶颈,除非整体迁移到NVL72机柜式设计,否则单卡效率会掉得妈都不认识。这些公司拿着PPT里的“300张B200”来忽悠估值,却绝口不提要额外花三倍价钱去改造网络基础设施。这种账,我在2021年的矿难前夜见过一模一样的套路。
GPU算力参数对照表:别再拿FP16数字当FP8吹了
我见过最离谱的BP,把H100的GPU算力标成了312 TFLOPS,然后对比自己需求的“800 TFLOPS单卡”,声称采用了下一代Blackwell Ultra,性能翻倍。实际上312这个数值对应的是H100的dense FP16/FP32 Tensor Core算力,而H100的FP8 dense算力是500 TFLOPS(如果开启稀疏可以翻倍到1000 TFLOPS,但稀疏依赖数据分布,通用场景几乎没法儿稳定利用)。那所谓的“Blackwell Ultra 800 TFLOPS”,要么是把B100的FP16算力当成了FP8,要么是拿着某个测试卡的半精度跑分在糊弄人。
为了正本清源,我把目前主流AI训练加速卡的真实dense算力规格列在了下面,数据全部来自NVIDIA官方白皮书和MLPerf v3.1提交日志中可验证的稳定工作状态(截至2025年3月):
| 型号 | 显存 | FP8 Dense (TFLOPS) | FP16/BF16 Dense (TFLOPS) | 显存带宽 (TB/s) | TDP (W) |
|---|---|---|---|---|---|
| A100 SXM (80GB) | 80GB HBM2e | —(不支持FP8) | 312 | 2.0 | 400 |
| H100 SXM (80GB) | 80GB HBM3 | 500 | 312 | 3.35 | 700 |
| H200 SXM (141GB) | 141GB HBM3e | 500 | 312 | 4.8 | 700 |
| B200 SXM (192GB) | 192GB HBM3e | 2250 | 1125 | 8.0 | 1000 |
| Blackwell Ultra (B300, 预期) | 288GB HBM3e | ~3600 (非官方预测) | ~1800 (非官方预测) | ~12.0 (预测) | 1200 (预测) |
这张表贴在办公室里,能过滤掉80%的PPT造假。因为真正有需求的公司会跟我讨论B200的显存带宽能否撑得住专家混合模型的多卡流水线延迟,而PPT公司只会盯着那个最大的TFLOPS数字,然后一拍脑袋说“那我砍掉四分之三的卡”。真实推理场景的吞吐量瓶颈根本不在纯算力上,而在显存带宽和KV缓存命中率上。我做过一组基于vLLM框架在H200上跑Mixtral 8x7B的实测,当并发请求数超过64时,显存带宽利用率接近97%,但FP8算力只用到40%出头——你哪怕把卡换成算力再高五倍的Blackwell Ultra,只要显存带宽不相应增加,推理吞吐几乎不会提升。这也是为什么头部客户愿意为141GB HBM3e的H200付出比H100高70%的溢价,而不是等那个遥遥无期的“下一代算力怪兽”。
Blackwell Ultra这张牌,真正改写的是算力资产的估值逻辑
Blackwell系列带来的不是单纯的“算力升级”,而是整个GPU供应链的重新定价。B200的2250 TFLOPS dense FP8,直接把单位算力成本(按公开发售价折算)从H100时代的每TFLOPS约$0.06-$0.08,压到了$0.025左右——降幅超过60%。这意味着,原先用1000张H100才能完成的训练任务,现在用大约220张B200就能以相同时间完成,而采购成本反而更低。这种成本塌陷会让那些靠“囤GPU”抬估值的公司彻底暴露,因为他们的资产价值在下一代芯片面前会急速贬值。
2023年到2024年上半年,国内不少大模型公司的估值模型是:融资买H100 → 宣称拥有千卡算力 → 凭借稀缺的GPU资源抬高技术壁垒的评估 → 获得下一轮融资。这个循环的命门在于GPU的稀缺性。一旦B200开始大批量交付(据产业链消息,2025年Q2将放量),加上H200持续供给,市场上能够高效完成同类任务的算力将暴增。我在供应链端拿到的数据是:某头部云厂商已经下了20000张B200的订单,预计到2025年底,国内互联网巨头的B200/H200集群总算力将超过2023年末全国可用算力总和的三倍。到那时,一家初创公司拿着“我们拥有1200张A100”去融资,投资经理只会反问一句:“你知道隔壁用60张B200就比你快,且成本不到你的三分之一吗?”
这绝不是危言耸听。根据Liftr Insights的云算力市场跟踪数据,2024年Q4全球主要公有云上等效H100 GPU的总供应量已超过150万张,其中至少30%被中国公司通过海外实体租赁。当供给侧的稀缺性被打破,算力就不再是估值护城河,而是纯粹的运营成本。只有那些能把算力转化为可规模化的商业收入的公司,才配用“大算力”这三个字。
哪些需求是真金白银?拆解三类不靠PPT活着的算力买家
批判了一圈PPT画饼,我必须说清楚:真实的大算力需求不仅存在,而且正在剧烈膨胀,只不过它们的形状和BP里写的完全不是一回事。我在过去18个月里跟踪了23个实际签署了千卡以上租用合同的项目,按照付费意愿和利用效率,把它们分成三类。
第一类,自动驾驶训练集群。这不是秘密,蔚来、小鹏、理想以及几家头部自动驾驶解决方案商,2023年每家平均采购/租赁的GPU规模在4000-9000张H100等效卡。这类需求的真实之处在于:它们有持续迭代的感知大模型和规划模型,数据量以PB/天级增长,且每车量产后的回传数据能闭环回流训练。一个典型的量产L2+项目,每年需要重新训练基础感知模型至少三次,每次训练需要消耗约12000 GPU·天(H100 FP8)。按商业价值计算,如果一个高阶辅助驾驶功能能降低事故率1.3个百分点,对应的保险成本和品牌溢价每年至少创造4.2亿人民币的价值,因此车企愿意为算力付出每年1.5-2亿元的持续投入。这种账算得清楚,所以他们的算力采购几乎从不受融资环境影响。
第二类,量化私募和金融风控的推理需求。这可能是最被低估的真实算力池。2024年我走访了四家管理规模千亿以上的量化机构,他们在盘后因子挖掘和日内高频推理环节,平均维持着1500-3000张H800的常驻算力。这类需求的核心逻辑是:模型推理延迟每降低10毫秒,年化超额收益就能提升0.6-0.9个基点,按管理规模千亿乘上20%的carry,那就是实实在在的2000多万元利润。因此当H200把大语言模型推理的token生成速度从1200tok/s提升到2400tok/s时,这些客户毫不犹豫地签下了三年长协,溢价幅度超过40%。他们根本不会去写“大算力需求”的BP,而是直接拿着ROI测算表去砍价。
第三类,已经跑通PMF的AIGC应用公司。我手里有个典型案例:一家做电商营销视频自动生成的SaaS公司,日生成视频片段超过600万条。他们的模型是微调过的Stable Diffusion变种和自研DiT架构,推理需求占算力总消耗的92%,训练占比不到8%。他们目前租用了约800张H20用于推理,单卡每秒钟生成8张1024×1024图片,每天产生的API调用费用超过400万元人民币。当Blackwell系列将单卡推理吞吐再提高3-4倍时,他们的单次生成成本将从0.035元降至0.01元以下,毛利率直接跳升22个百分点。这种实打实的成本优化,才是Blackwell价值释放的真正通道。
这三类买家的共性是:他们的商业模型里有明确的计算“每一TFLOPS能赚回多少钱”的公式。而那些在BP里写着“训练通用人工智能”“万亿多模态大模型”却还没任何一个付费客户的公司,他们需要的不是算力,是投资人的想象力豁免权。
ROI模型解剖:头部客户为什么愿意为高配推理卡付溢价
很多投资人问我一个问题:“既然B200算力这么高,为什么市面上H200反而更抢手?”答案就在ROI的时间轴上。我用一份真实的金融NLP项目合同来拆解。
这家客户是一家股份制银行的信用卡中心,他们用大语言模型来做实时交易反欺诈的语义分析。场景很简单:用户刷卡时,模型需要根据交易商户名称、地理位置、历史模式和实时对话上下文(如果是客服介入),在180毫秒内判定交易风险等级。原有基于BERT的模型延迟做到了200ms,但误拒率高达2.7%,每年造成的客户投诉和人工复核成本超过8000万元。新方案用了微调过的Llama-3-70B推理模型,在H200上通过TensorRT-LLM优化后,单请求延迟压到了87ms,误拒率降到0.9%。这直接为公司每年节省5200万元的运营损失,同时提升了1.6个百分点的交易成功率(意味着更多真实消费未被误拦)。
现在算账:该推理服务需要8张H200组成一个服务组,总硬件成本(含服务器和网络)大约280万元人民币,以三年折旧计,年均93万元。加上电费、运维、license,年度总成本约130万元。年收益是5200万元节省 + 交易成功率提升带来的隐含收益(估计1500万元),合计约6700万元。所以ROI是6700万 / 130万 ≈ 51倍。即便他们额外支付了30%的GPU溢价,ROI依然坚挺得离谱。这就是他们果断签三年合同的原因,跟芯片型号的技术参数没半毛钱关系,纯属商业数学。
反过来看那些要训练的初创公司,他们能拿出这样的收益测算吗?绝大多数连“客户愿意为模型精度提升1%支付多少钱”都回答不了,只会用“提升模型能力”这种虚词来搪塞。当算力不再是稀缺品,ROI计算的能力就是唯一的护城河。
从37份BP里提炼出的识别PPT AI速查表
干了五年技术尽调,我总结出了一套快速筛别虚假算力需求的方法,各位同行可以直接拿去用:
- 看训练日志,不听口头描述。 要求创始人当场登录集群控制面板,展示过去30天的GPU利用率、MFU、和任务分类。如果80%以上的卡被用于小于128卡的任务,那“万卡集群”就是个笑话。
- 算训练时间,必须代入通信模型。 别信“理论上30天训完”的鬼话。用Megatron-LM或DeepSpeed的模拟器跑一遍真实配置(包括节点间带宽、梯度累积步数),实际时间往往要乘以1.8到2.5倍。
- 查采购合同的付款条件。 真正有实力的团队会用浮动租金合同(与模型指标或收入挂钩),而不是一掷千金锁死两年预留。凡是锁定期超过12个月且无退出条款的,大概率是囤货。
- 追问推理场景的单次成本与客户付费。 如果BP里只有训练计划没有推理变现路径,基本可以判定为PPT AI,因为2025年以后AI商业化的主战场已经转移到推理端。根据IDC数据,2024年中国AI推理负载占总算力消耗的比例达到61%,预计2026年将超过75%。训练的故事正在褪色。
- 看Blackwell的采购意向书。 那些在BP里写“首批部署B200/B300”的公司,拿得出一份云计算厂商的正式报价单吗?拿不出,就是跟风蹭热点。
我最近撕掉的一份商业计划书堪称经典:一家自称“下一代多模态通用人工智能平台”的公司,BP里预计用500张Blackwell Ultra训练一个万亿参数模型,号称将超越GPT-5 不存在,当前最新 OpenAI 模型为 GPT-4.1 或 o3 系列。。我让他们提供模型架构设计文档,结果他们交上来一份从arXiv上下载的论文PDF,连里面的公式编号都没删。我当场在投资备忘录里写了六个字——“技术诈骗,否决”。
算力泡沫消退时,谁在真正赚钱?
Blackwell系列不是救世主,它是一面照妖镜。当单卡算力足够高,高到几百张就能完成以前万张卡的任务时,那个靠“我能搞到卡”吃饭的中间商时代就结束了。根据Omdia的预测,2025年全球云AI算力服务市场规模将达到560亿美元,但其中70%的增长将来自于推理和微调推理,而非大规模预训练。这个结构变化意味着,估值模型必须从“算力资产折现”切换到“算力变现效率”。
我见过最聪明的一家公司,去年年底以极低价格吞下了一批因融资断裂而被遗弃的H100,但他们并不训练自己的模型,而是把这些卡改装成推理集群,为垂直行业提供模型推理服务,按照API调用量收费。不到六个月,单卡月均收入突破了1.8万元,已经收回全部采购成本。这才是算力生意的真面目:不是比谁卡多,是比谁能让每一瓦电能变成可以收到钱的token。
至于那些还在用“800 TFLOPS”这种离谱数据包装BP的公司,我的建议只有一句:先去把NVIDIA的datasheet重读三遍,再回来谈估值。