凌晨三点被GPT-4o的数学证明幻觉打爆告警电话,我开始怀疑它是不是真懂归纳法
那天凌晨3点14分,PagerDuty把我从梦里拽出来。告警消息写着:「proof-verification-pipeline失败率飙升,过去5分钟连续7次数学归纳法证明包含无效推导。」我眯着眼打开Grafana,看见那条代表“证明完备性得分”的曲线直接跌到0.3,正常阈值是0.85。我第一反应是A…
那天凌晨3点14分,PagerDuty把我从梦里拽出来。告警消息写着:「proof-verification-pipeline失败率飙升,过去5分钟连续7次数学归纳法证明包含无效推导。」我眯着眼打开Grafana,看见那条代表“证明完备性得分”的曲线直接跌到0.3,正常阈值是0.85。我第一反应是A…