Blackwell Ultra推理调优手记:我为何押注FP8量化与MIG分区,却差点输给显存带宽

去年年底,我们拿到第一批Blackwell Ultra工程样卡时,整个团队都在算账:官方宣称FP8推理性能相比BF16翻倍,如果真能兑现,我们的在线推理集群规模可以砍掉60%的节点。但作为架构师,我见过太多“实验室性能”跟“线上跑起来的性能”之间的鸿沟。于是,我带着两个工程师,花了一整个迭代周期,从…