Qwen2.5-72B的128K上下文,我用10万份法律判决书测出了它的中文长文本天花板

上周组会,我带了一份很“长”的东西给大家看——不是年终总结,而是把10万份中国裁判文书网上的民事判决书灌进了Qwen2.5-72B,让它做摘要。跑完以后我盯着屏幕上的ROUGE分数愣了很久,脑子里反复回放的不是结果,而是大半年前读Qwen技术报告时,那张漂亮的128K上下文“大海捞针”测试图。报告里…