技术洞察 – 第 3 页

LLM.int8()论文说8bit无害，但我把Qwen-7B搬到Arm上才发现功耗确实减半，延迟却暗藏杀机——基于Neoverse V3的K8s部署深度复盘

2026年5月28日 33 次浏览

上个月，我在公司内部的周五技术分享会上，当着CTO的面把一块功耗计插在了x86推理服务器和一台刚到的Arm云实例之间。当时我说：“同样的Qwen-7B，同样的INT4量化，咱们跑一个小时的locust压测，电表会告诉我们真相。”会议室里一半人觉得我在作秀，另一半人已经打开了手机计时器。结果出来后，我…

机器人在马拉松摔了7跤，每一跤都在打脸VLA的“物理理解”——因果推理缺位的60亿美金教训

2026年5月27日 34 次浏览

我是方瑾。过去5年我在一家投技术赛道的风投做技术顾问，看过的AI项目BP没有一千也有八百。我有个职业病：只要PPT里出现“世界模型”四个字，我直接翻到财务预测那页，看看营收和研发投入之间的缺口有多大。因为大部分团队压根没想清楚，让机器人理解物理世界到底需要什么——他们以为堆足够多的视频数据、把VLA…

我们试过给汽车厂上协作机械臂，结果六轴的钱只赚回三轴，才搞明白人形机器人的真实切口在哪

2026年5月26日 30 次浏览

我是沈青锋，现在是我第三个创业项目——给制造业做人形机器人的部署集成。前两个项目，一个做AGV调度系统，一个做工业视觉检测，都没能撑过B轮。这次我们把Walker S送进一家二线汽车零部件厂的产线做搬运和质检，干了快四个月，上个月刚刚跑通了连续20天无故障运行。今天这篇文章是这四个月的真实记录，包括…

我拿47个模型跑了一遍AWS Inf2，发现大模型部署成本砍半的核心条件90%的团队都不具备

2026年5月25日 34 次浏览

我见过不下30份BP，它们在“核心技术壁垒”那一页写着“自研推理优化引擎，成本可降至GPU的50%”。翻到ROI测算那张表，80%的团队直接用GPU按时长单价乘以调用量，算出一个“如果迁移到自研方案能省多少钱”的数字。然后我让他们把模型文件发过来，用Neuron SDK在一台inf2.8xlarge…

当单卡算力撞上800 TFLOPS，我翻了37份AI融资BP，发现90%的“大算力需求”都是PPT泡沫

2026年5月21日 20 次浏览

那个被吹爆的“800 TFLOPS”是怎么骗过投委会的上周又有两家公司更新了融资材料，把“需要2000张H100”改成了“首批部署300张B200即可启动”。数字砍掉85%，估值反而往上抬了40%，这种魔术我五年里看过太多遍。投资经理们把英伟达官网的FP8算力数字拿来当圣旨，却从不去看数据中心机房…

给工厂的缺陷检测模型搬到了Trainium2上，A100的账单终于不用咬牙还了

2026年5月20日 18 次浏览

去年秋天，我蹲在浙江一家汽车底盘件工厂的质检车间里，看着我们的AI模型把一片制动盘上的气孔误判成划痕，产线停了三分钟。车间主任老陈抱着胳膊，盯着屏幕上的误检图，只丢给我一句话：“你们这模型能一周更新一次不？现在的活，废品率又涨了。” 我是沈青锋，干了三个创业项目，现在这个公司搞制造业的AI视觉检测。…

📝

📁 技术洞察

LLM.int8()论文说8bit无害，但我把Qwen-7B搬到Arm上才发现功耗确实减半，延迟却暗藏杀机——基于Neoverse V3的K8s部署深度复盘

机器人在马拉松摔了7跤，每一跤都在打脸VLA的“物理理解”——因果推理缺位的60亿美金教训

我们试过给汽车厂上协作机械臂，结果六轴的钱只赚回三轴，才搞明白人形机器人的真实切口在哪

我拿47个模型跑了一遍AWS Inf2，发现大模型部署成本砍半的核心条件90%的团队都不具备

当单卡算力撞上800 TFLOPS，我翻了37份AI融资BP，发现90%的“大算力需求”都是PPT泡沫

给工厂的缺陷检测模型搬到了Trainium2上，A100的账单终于不用咬牙还了

我拆解了英伟达AI工厂的TCO模型，发现万卡集群的盈亏平衡点在18个月

我实现了AWS Bedrock多智能体协作：订单到物流全程无人干预，但半夜的报警让我怀疑人生

我在机械臂产线上熬了两年，发现最难的不是算法，是让操作工信这个铁疙瘩不会撞到人

我把三个AI Agent关进采购审批的黑盒，它们差点打起来——AWS Bedrock多智能体协作实录