技术教程 – 第 4 页

凌晨三点被报警叫醒后，我给仓库视频监控接上了GPT-4o实时API，结果月账单差点让我失业

2026年5月21日 27 次浏览

那天晚上又是同样的剧本：凌晨3点12分，Prometheus告警把我从梦里拽起来——“video_agent_request_latency_seconds”的P99飙到了8秒，远超我设的2秒红线。我一个激灵爬起来，SSH进去看，发现是后端管道里积压了17个未处理的视频帧请求，线程池被耗尽，最新的帧…

24GB显存，6秒视频：我用Stable Video Diffusion把Jetson Orin跑成幻灯片后，拆解了Sora的扩散Transformer

2026年5月21日 27 次浏览

两年前我从嵌入式系统跳到了AI部署组，每天面对的都是些“小东西”——Jetson Nano、树莓派4B、手机NPU。当我第一次看到Sora生成的视频时，我的第一反应不是惊叹其逼真程度，而是立刻在心里估算：如果把这个模型塞进Jetson Orin，会烧掉几块芯片？于是我动手了。在Jetson Ori…

标签： DiT Jetson部署 Sora技术架构扩散Transformer 视频生成

在Trainium2上微调Llama 3 8B，我实际跑了216轮实验，每token成本压到A100的41%

2026年5月20日 34 次浏览

我叫许彦，在机器人行业泡了5年，机械臂、人形、腿足都摸过一遍。按理说，一个搞ROS和具身智能的工程师突然写云上LLM微调，有点不务正业。但去年公司接了个内部知识库项目，需要微调私有化部署的Llama 3 8B，老板给的成本红线直接把我这个做硬件出身的人逼上了AWS Trainium2的货架。我带着“…

Qwen2.5-72B的128K上下文，我用10万份法律判决书测出了它的中文长文本天花板

2026年5月20日 20 次浏览

上周组会，我带了一份很“长”的东西给大家看——不是年终总结，而是把10万份中国裁判文书网上的民事判决书灌进了Qwen2.5-72B，让它做摘要。跑完以后我盯着屏幕上的ROUGE分数愣了很久，脑子里反复回放的不是结果，而是大半年前读Qwen技术报告时，那张漂亮的128K上下文“大海捞针”测试图。报告里…

标签： LoRA Qwen2.5-72B 中文长文本低成本微调法律文书摘要通义千问2.5微调

凌晨两点，我的Jetson Orin突然闭嘴了：Gemma 2端侧部署的血泪调优实录

2026年5月19日 25 次浏览

我叫赵一帆，干了8年DevOps，被报警短信吵醒的次数比我女儿半夜哭闹还多。这次的项目是在一台巴掌大的Jetson Orin上跑Gemma 2对话模型，要求延迟低于500毫秒、每秒至少输出20个token，而且必须是本地推理，数据不能出设备。领导的原话是：“边缘设备嘛，就是要又快又准，别跟上次K8s…

72B参数挤进消费级显卡：我用QLoRA在RTX 4090上驯服法律版Qwen2.5的显存博弈

2026年5月19日 52 次浏览

我桌上这台机器只有一张RTX 4090，24GB显存。三个月前，领导丢过来一句话：“咱们能不能自己做一个法律咨询助手？别老调OpenAI的API，数据安全过不了审。”我盯着显卡的显存容量，又看了看Qwen2.5-72B的权重文件——138GB，FP16。那一刻脑子里蹦出的第一个念头是：这玩意儿连加载…

我们花两年把人形机器人送上亦庄半马赛道，结果它跑到一半开始“跳舞”

2026年5月18日 35 次浏览

我们带双足机器人走上亦庄半马赛道，结果起步就栽进离线步态切换、ZMP震荡、RL步态诡变和电机过热的连环坑。本文从现场翻车经历出发，拆解了全身运动控制、模型预测控制实时调整、强化学习步态训练以及热管理动态降出力的工程细节，并给出代码片段的实战视角。

标签：人形机器人运动控制模型预测控制

我照着苹果私有云的白皮书搭了个山寨版，无状态设计差点让我把请求状态全丢了

2026年5月18日 13 次浏览

我从系统架构师角度拆解了Apple Private Cloud Compute：威胁模型直接假设数据中心管理员是内鬼，通过Swift on Server和Secure Enclave实现请求即焚的无状态推理；差分隐私在大模型上的噪声注入让我在延迟和准确率之间反复摇摆；最后聊聊二进制透明日志如何让第三方审计一个看不见代码的“黑盒”云。

标签： Apple私有云计算 LLM推理差分隐私机密计算隐私架构

我拿MI350在Llama 3-70B上跑了三周，能效是把NVIDIA按在地上摩擦，但差点被ROCm的坑送走

2026年5月16日 34 次浏览

我花三周深度对比了AMD MI350和NVIDIA H100、L40S在Llama 3-70B推理上的表现，从延迟、吞吐、功耗到TCO逐一拆解。MI350的能效惊艳，但软件栈的坑差点让我通宵重装系统。这篇文章适合正在做推理芯片选型的高级工程师，看完你会清楚MI350到底该不该上。

云IDE不卡了：从网络到GPU直通，我们如何将远程开发延迟降到50ms

2026年5月15日 32 次浏览

我把团队云IDE的延迟从300ms降到了50ms，不是靠换更快的网，而是拆解了五层瓶颈，把WebRTC塞进JetBrains Gateway，又搞定了GPU显存零拷贝。本文从系统性能工程角度，还原网络、协议、渲染的深层次优化，并对比自建方案与GitHub Codespaces的真实成本和体验，给出选型建议。