📁 技术教程

面向一线开发者的技术教程:涵盖 AI 模型部署、Kubernetes GPU 调度、LLM 微调、边缘计算、机器人视觉等前沿领域的完整实施指南。每篇教程包含可运行代码和真实数据。

24GB显存,6秒视频:我用Stable Video Diffusion把Jetson Orin跑成幻灯片后,拆解了Sora的扩散Transformer

两年前我从嵌入式系统跳到了AI部署组,每天面对的都是些“小东西”——Jetson Nano、树莓派4B、手机NPU。当我第一次看到Sora生成的视频时,我的第一反应不是惊叹其逼真程度,而是立刻在心里估算:如果把这个模型塞进Jetson Orin,会烧掉几块芯片? 于是我动手了。在Jetson Ori…

在Trainium2上微调Llama 3 8B,我实际跑了216轮实验,每token成本压到A100的41%

我叫许彦,在机器人行业泡了5年,机械臂、人形、腿足都摸过一遍。按理说,一个搞ROS和具身智能的工程师突然写云上LLM微调,有点不务正业。但去年公司接了个内部知识库项目,需要微调私有化部署的Llama 3 8B,老板给的成本红线直接把我这个做硬件出身的人逼上了AWS Trainium2的货架。我带着“…

Qwen2.5-72B的128K上下文,我用10万份法律判决书测出了它的中文长文本天花板

上周组会,我带了一份很“长”的东西给大家看——不是年终总结,而是把10万份中国裁判文书网上的民事判决书灌进了Qwen2.5-72B,让它做摘要。跑完以后我盯着屏幕上的ROUGE分数愣了很久,脑子里反复回放的不是结果,而是大半年前读Qwen技术报告时,那张漂亮的128K上下文“大海捞针”测试图。报告里…

凌晨两点,我的Jetson Orin突然闭嘴了:Gemma 2端侧部署的血泪调优实录

我叫赵一帆,干了8年DevOps,被报警短信吵醒的次数比我女儿半夜哭闹还多。这次的项目是在一台巴掌大的Jetson Orin上跑Gemma 2对话模型,要求延迟低于500毫秒、每秒至少输出20个token,而且必须是本地推理,数据不能出设备。领导的原话是:“边缘设备嘛,就是要又快又准,别跟上次K8s…

72B参数挤进消费级显卡:我用QLoRA在RTX 4090上驯服法律版Qwen2.5的显存博弈

我桌上这台机器只有一张RTX 4090,24GB显存。三个月前,领导丢过来一句话:“咱们能不能自己做一个法律咨询助手?别老调OpenAI的API,数据安全过不了审。”我盯着显卡的显存容量,又看了看Qwen2.5-72B的权重文件——138GB,FP16。那一刻脑子里蹦出的第一个念头是:这玩意儿连加载…

我们花两年把人形机器人送上亦庄半马赛道,结果它跑到一半开始“跳舞”

我们带双足机器人走上亦庄半马赛道,结果起步就栽进离线步态切换、ZMP震荡、RL步态诡变和电机过热的连环坑。本文从现场翻车经历出发,拆解了全身运动控制、模型预测控制实时调整、强化学习步态训练以及热管理动态降出力的工程细节,并给出代码片段的实战视角。

我照着苹果私有云的白皮书搭了个山寨版,无状态设计差点让我把请求状态全丢了

我从系统架构师角度拆解了Apple Private Cloud Compute:威胁模型直接假设数据中心管理员是内鬼,通过Swift on Server和Secure Enclave实现请求即焚的无状态推理;差分隐私在大模型上的噪声注入让我在延迟和准确率之间反复摇摆;最后聊聊二进制透明日志如何让第三方审计一个看不见代码的“黑盒”云。

云IDE不卡了:从网络到GPU直通,我们如何将远程开发延迟降到50ms

我把团队云IDE的延迟从300ms降到了50ms,不是靠换更快的网,而是拆解了五层瓶颈,把WebRTC塞进JetBrains Gateway,又搞定了GPU显存零拷贝。本文从系统性能工程角度,还原网络、协议、渲染的深层次优化,并对比自建方案与GitHub Codespaces的真实成本和体验,给出选型建议。