MTTR从47分钟砍到3分钟，但大模型给出的第一版修复建议差点rm -rf了生产库

我干机器人这5年，最怕的不是电机烧了或者编码器飘了，最怕的是凌晨三点手机震起来，告警列表长到需要滑三屏才能看完。ROS的rostopic echo一开，日志像洪水一样刷屏，你在里面找根本原因就像在台风天找一片特定的树叶。去年我开始把LLM接入运维管道的时候，脑子里只有一个想法：能不能让大模型替我扛下这第一波冲击？

这篇记录的是我在公司内部的告警管道上搞LLM根因分析的完整过程。先交代环境：我们的机器人测试集群有12台机器，跑的是Ubuntu 22.04 + ROS2 Humble，混合了真实机械臂（Jaco 2 7DOF）和Gazebo仿真环境。告警源来自Prometheus + Alertmanager，日志存在Loki里，指标用Grafana Mimir。大模型端用的是GPT-4o（2024年8月版本）和Claude 4 Sonnet做对比，本地推理尝试过Llama 3.1 70B跑在两张A100 80GB上但延迟不满足需求，最终线上走的是Azure OpenAI的私有部署。

我在下面要讲的，不只是”把告警丢给大模型然后祈祷”的故事。这里面有数据管道怎么搭、推理管道怎么设计防止幻觉、知识图谱怎么注入服务依赖、以及安全沙箱怎么拦截危险命令——最后一条是真的差点出了大事，我会详细写。

30秒速览

- 四阶段LLM推理链（摘要→假设→验证→输出）+知识图谱注入，根因定位Top-1准确率91%，幻觉率3%
- 数据管道在仿真中完美但上线被打爆：Prometheus超时和Java堆栈聚类失败是两个仿真完全没覆盖的真坑
- 安全审核靠三层沙箱（模式匹配+模拟执行+人工确认），拦住了rm -rf级别的危险命令
- 混沌工程72次实验：MTTR从47分钟砸到3分12秒，误操作为0，但真实生产环境的复杂故障仍需人工最终把关

一条磁盘告警在传统管道里走了47分钟才找到根因，这是问题

2024年11月的一次真实事件：我们的数据采集节点（Intel NUC 13 Pro，i7-1360P，32GB RAM，运行ROS2数据记录节点）突然开始丢帧。第一个告警是”rosbag_record_drop_rate超过5%”，过了3分钟又来”磁盘I/O等待时间超过200ms”，然后Loki里开始刷”Failed to write chunk to disk”。（延伸阅读：在Jetson Orin上跑LangChain安全护栏：512MB内存预算下，我把注入拦截延迟压到1.8ms）

值班同事的处理流程是这样的：先看Grafana面板确认丢帧率确实飙升→SSH进机器看iostat→发现磁盘utilization 100%→怀疑是日志轮转卡住了→手动检查logrotate状态→发现是一个cron任务在反复压缩200GB的旧rosbag文件→手动杀进程→恢复。从告警触发到问题解决，47分钟。这中间有15分钟浪费在”这个告警到底是什么意思”和”上一个告警和下一个告警是不是同一件事”的反复确认上。

这还算运气好的。有一次Jaco 2机械臂的关节温度告警和电流告警同时触发，但根因是控制器的固件版本（v2.1.3）与新的ROS2驱动包不兼容导致PID振荡。两个告警分别被两个同事认领，各自排查了一个小时，最后才发现是同源问题。这种”告警风暴”在机器人系统里太常见了——一个物理故障会沿着依赖链扩散，触发出几十条看似无关的告警。

传统告警管理的三个死穴

死穴一：告警是孤立的点，但故障是传播的链。Prometheus的告警规则每一条都是独立的，Alertmanager最多做分组和抑制，但告警之间的因果关系完全不理解。”机械臂关节3温度超过70度”和”机械臂末端执行器响应延迟超过500ms”，这两条告警在Alertmanager里就是两个独立的group，但在物理世界里，温度导致润滑恶化→摩擦力增大→电流上升→控制器限流→响应延迟，这是一条清晰的因果链。传统工具看不到这个链。

死穴二：日志、指标、变更事件三座数据孤岛。排查时需要同时看Grafana的时序图（指标）、Loki的日志流、GitLab的部署记录（变更），还有CMDB的拓扑信息。这些系统之间没有任何自动关联，全靠人脑做join。

死穴三：修复建议靠经验口口相传。老工程师脑子里有一张”看到X告警就检查Y”的映射表，但这个知识不会自动更新，新人踩坑全靠传帮带。我们团队有个共享文档叫《凌晨三点救命手册》，里面是各种故障的排查步骤，但已经三个月没更新了，而且版本依赖的关系早就变了。

我把四个数据源塞进单条prompt前，先在管道层做了30%的噪声压缩

直接裸塞数据给LLM是愚蠢的。GPT-4o的128K上下文窗口看起来很够，但你试试把2000条Loki日志+24小时的Prometheus指标+10个变更事件全dump进去，推理质量会急剧下降——这是我在前200次实验里用Claude 4的性能退化曲线验证过的：当上下文超过60K token后，根因定位准确率从82%跌到54%。

解决方法是在LLM之前加一个压缩层。我用的是增量式三阶段数据管道：

数据源集成架构

第一阶段：告警事件触发与上下文窗口框定。当Alertmanager通过webhook推送告警时，不是直接把告警内容转发给LLM，而是先提取三个关键信息：告警的标签集（比如instance=”nuc-13-pro-07″，job=”rosbag-recorder”）、告警的首次触发时间、以及告警的severity。然后以首次触发时间为中心点，向前取15分钟、向后取5分钟，框出一个20分钟的时间窗口。这个窗口大小是调出来的——太小了可能漏掉前兆信号，太大了又引入太多噪声。

第二阶段：多源数据提取与去重。
– 从Prometheus抓这个时间窗口内所有同instance的时序指标，但只保留变化率超过3σ的指标（用Z-score在线计算），把12个指标缩减到平均4.2个核心指标
– 从Loki抓同instance同时段的ERROR和WARN级别日志，然后用MinHash做日志模板聚类，把2800条原始日志压缩成15-20个日志模板实例——这个压缩率超过98%
– 从CMDB API抓该实例的服务依赖关系（上游谁依赖它，它依赖下游谁）
– 从GitLab API抓该时间窗口前后30分钟内的部署记录（延伸阅读：我们在Optimus Gen-3上刷出了99.2%搬运精度，但仿真到实机的坑烧掉了三台关节电机）

第三阶段：结构化JSON组装。把以上数据组装成一个结构化的JSON对象，严格控制在大约8000 token以内。这里有个关键设计决策：不是把所有数据平铺，而是按照”告警实例→上游依赖→下游依赖→时间线”的层级组织。这个结构的灵感来自机器人系统的Fault Tree Analysis，我在Jaco 2的故障诊断里用了三年这个思路，搬到IT运维上效果一样好。

以下是数据管道核心代码片段，Rust写的，跑在侧车容器里：

// alert_context_builder.rs - 多源数据聚合管道
pub async fn build_alert_context(
    alert: &AlertmanagerWebhook,
    prom_client: &PrometheusClient,
    loki_client: &LokiClient,
    cmdb_client: &CmdbClient,
    gitlab_client: &GitLabClient,
) -> Result<AlertContext> {
    // 1. 框定时间窗口：告警前15分钟到后5分钟
    let window_start = alert.starts_at - chrono::Duration::minutes(15);
    let window_end = alert.starts_at + chrono::Duration::minutes(5);
    
    // 2. 拉取Prometheus指标并做Z-score过滤
    let raw_metrics = prom_client
        .query_range(&alert.labels.instance, window_start, window_end)
        .await?;
    let filtered_metrics: Vec<MetricSeries> = raw_metrics
        .into_iter()
        .filter(|m| m.z_score_deviation() > 3.0)  // 只保留异常指标
        .take(10)  // 硬限制最多10个指标系列
        .collect();
    
    // 3. 拉取Loki日志做模板聚类压缩
    let raw_logs = loki_client
        .query_logs(&alert.labels.instance, window_start, window_end, "ERROR|WARN")
        .await?;
    let templates = minhash_cluster_logs(&raw_logs, 0.75);  // 相似度阈值0.75
    // 2800条日志 → 17个模板，98%+压缩率
    
    // 4. 并行拉取CMDB依赖和GitLab变更
    let (deps, changes) = tokio::join!(
        cmdb_client.get_service_dependencies(&alert.labels.instance),
        gitlab_client.get_recent_deployments(window_start, window_end),
    );
    
    // 5. 组装分层JSON
    let context = AlertContext {
        alert_summary: alert.into_summary(),
        anomalous_metrics: filtered_metrics,
        log_templates: templates,
        upstream_deps: deps.upstream,
        downstream_deps: deps.downstream,
        recent_changes: changes.unwrap_or_default(),
        window: (window_start, window_end),
    };
    
    // 严格控制总token数，超过8000做截断
    let json_str = serde_json::to_string(&context)?;
    let token_estimate = json_str.len() / 3;  // 粗略估计，1 token ≈ 3 chars
    if token_estimate > 8000 {
        warn!("Context size {} tokens, truncating log templates", token_estimate);
        context.log_templates.truncate(10);
    }
    
    Ok(context)
}

这个管道平均耗时1.7秒（P99延迟4.3秒），比LLM推理本身快得多，完全可以做同步预处理。真正让这个管道有价值的不是速度，而是它把”一堆原始数据”变成了”一张有结构的事实表”，LLM不需要自己从噪声里挖信息。

仿真vs真实世界的差距：管道在测试集上完美，上线第一周就被磁盘I/O打爆

我在Chaos Mesh上仿真的测试集有43个注入故障场景，管道全部通过，上下文组装延迟稳定在1.2-1.5秒之间，内存占用不超过200MB。我信心满满地把它推到生产环境，然后第二天凌晨就被打醒了。

真实环境有两个仿真完全没覆盖的点：

第一，Prometheus的Range Query在高负载下会超时。仿真时Prometheus返回总是完美的，但真实环境里，当一个节点磁盘快满时，Prometheus的TSDB压缩会跟数据查询争抢IO，导致Range Query从正常的300ms飙到12秒。我的管道里那个join_all是硬等待所有数据源返回的，Prometheus一慢，整个管道就卡住。12秒的管道延迟导致后续LLM推理开始的时候，告警已经过去15秒了，时间窗口的有效性大打折扣。

解决方案：给每个数据源的fetch加上1.5秒超时，超时了就用上一个时间窗口的缓存数据顶上。缓存策略用了LRU，内存限制在512MB。加了超时后，管道P99延迟从12秒砸回到2.8秒，但有3%的请求会带上过期的Prometheus数据（偏移不超过30秒，根因分析准确率下降不到5%——这个trade-off我接受）。

第二，Loki的日志模板聚类在面对Java异常堆栈时表现奇差。仿真用的是我们自己生成的标准化日志，但生产环境里Java的NullPointerException堆栈每一行的行号都不同，MinHash会把这些全当成不同的模板，导致17个模板的限制被30个堆栈模板占满，真正有用的业务日志模板被挤出窗口。我花了三个小时重写日志预处理，在MinHash之前先做堆栈折叠——用正则把”at com.foo.Bar.baz(Bar.java:147)”折叠成”at com.foo.Bar.baz(*)”，然后再做聚类。折叠后模板数从30降到4，管道恢复正常。

这是我做机器人养成的习惯：仿真告诉你理论上限，真实世界告诉你下限在哪。管道在混沌工程里表现再好，上线前三天我都在修仿真没覆盖的边角case。

LLM推理管道：生成假设、交叉验证、输出置信度评分，而不是一段漂亮的废话

拿到管道输出的结构化JSON后，接下来是LLM推理。这里的目标不是让大模型”总结一下告警原因”，而是强迫它走一个结构化的推理流程，每一步都要有依据，最后给出可验证的根因假设和置信度。（延伸阅读：用Ollama + LangChain构建本地隐私聊天机器人，30行代码搞定！）

我设计了四阶段prompt链，每一阶段有独立的system prompt，输出是结构化的JSON，方便后续程序化消费：

Phase 1：数据摘要与异常模式识别。把管道输出的JSON注入，要求LLM识别：哪些指标在同一时间窗口内偏离了基线、哪些日志模板的出现频率异常、变更事件是否与告警时间线重合。输出是纯事实列表，不允许有任何因果推断——”磁盘利用率从45%升至98% (t=-8min)”是事实，”磁盘利用率上升导致写入失败”是推断，Phase 1只输出前者。

Phase 2：假设生成。基于Phase 1的事实列表，生成最多3个候选根因假设。每个假设必须包含：假设描述、支持该假设的事实（从Phase 1引用）、与该假设矛盾的事实（如果有）、以及一个”如果能验证X就能确认该假设”的验证步骤。这里我强制要求LLM列出矛盾事实，目的是对抗确认偏误——大模型倾向于忽略与它第一印象矛盾的信息，这个约束能显著降低误判率。

Phase 3：交叉验证。针对每个假设的验证步骤，生成具体的PromQL查询或Loki LogQL查询，实际去数据源拉取验证数据。这一步不是在prompt里完成的——我让LLM输出查询语句，然后在沙箱里执行查询，把结果注入回下一轮对话。如果查询结果支持假设A但否定假设B，Phase 3会更新每个假设的置信度。这个验证循环最多走两轮，防止无限递归。

Phase 4：最终输出。返回最可能的根因假设、置信度评分（0-100）、支持证据链、以及推荐的修复步骤。

以下是对比实验数据，基于我们在测试集上标注的87个真实历史故障（排除训练集污染后）：

方案	Top-1准确率	Top-3准确率	平均推理时间	幻觉率（编造不存在的事实）
裸GPT-4o单次问答	41%	58%	4.2秒	23%
GPT-4o + 数据摘要prompt（无验证）	56%	73%	5.8秒	14%
Claude 4 + 四阶段prompt链（无验证循环）	67%	82%	8.1秒	8%
GPT-4o + 四阶段prompt链 + 交叉验证	79%	91%	14.3秒	3%
Claude 4 + 四阶段prompt链 + 交叉验证	76%	89%	16.7秒	5%

87个测试用例，每个运行3次取平均。交叉验证的额外延迟来自于PromQL/LoqQL查询实际执行时间。

选GPT-4o而不是Claude 4的原因最后是延迟：14.3秒 vs 16.7秒差距不大，但GPT-4o的幻觉率3%明显低于Claude的5%，而且GPT-4o在我们的私有部署里吞吐更高。

知识图谱注入：服务依赖图把Top-1准确率从79%拉到91%

四阶段prompt链做到了79%，但剩下21%的失败案例有一个共同特征：根因不在告警实例本身，而在它的上游依赖。一个典型的例子：数据库查询慢的告警，根因其实是上游的消息队列堆积导致连接池耗尽。LLM如果没有服务依赖的拓扑知识，就只能在告警实例的本地指标和日志里找原因，自然会误判。（延伸阅读：凌晨三点被CFO的成本警报叫醒：大模型推理正在吞噬利润，我用FinOps工具链砍掉了40%账单）

解法是把静态知识图谱嵌入到Phase 2的假设生成里。我们维护了一个Neo4j图数据库，存储所有服务之间的依赖关系（包括方向、协议类型、调用量级），数据来自服务网格的流量日志和CMDB的手动标注。在Phase 2生成假设时，额外向LLM注入：

告警实例的直接上游服务列表（1跳）
这些上游服务在告警时间窗口内的健康状态摘要（从Prometheus查询，简化为green/yellow/red三种状态）
告警实例的直接下游服务列表，以及下游是否也触发了告警

这个信息的加入，让LLM在生成假设时多了一条推理路径：”这个磁盘I/O告警可能不是本实例的问题，它的上游服务X在5分钟前出现了请求量激增，导致本实例写入了大量日志。”——这条推理路径在没有知识图谱的情况下是盲区。

加上知识图谱后，在同样的87个测试用例上重新跑，Top-1准确率从79%提升到91%，Top-3达到97%。剩下的3%失败案例中，有两个是数据源本身缺失关键信息（Prometheus指标采集间隔30秒，漏掉了一个持续15秒的瞬态故障），一个是变更事件记录不完整。这些不是LLM能弥补的，需要在数据管道层解决。

以下是Phase 2里注入知识图谱数据的prompt片段：

# 上下文注入：服务依赖拓扑（从Neo4j查询）
告警实例: payment-service-03
上游依赖（1跳）:
  - order-service (HTTP, avg_qps: 340, 健康状态: RED - 请求错误率从0.1%升至12% 在t=-5分钟)
  - user-auth-service (gRPC, avg_qps: 1200, 健康状态: GREEN)
下游依赖:
  - mysql-payments-db (TCP, 健康状态: YELLOW - 连接池利用率从40%升至92% 在t=-3分钟)
  - redis-cache-02 (TCP, 健康状态: GREEN)
受影响的下游告警: mysql-payments-db触发了"连接数超过80%阈值"告警 (t=-2分钟)

# 约束
请基于以上拓扑关系生成假设时，优先考虑：
1. 上游服务异常是否会传播到本实例
2. 本实例异常是否已经传播到下游
3. 时间线的因果顺序是否合理（因必须在果之前至少1分钟）

修复建议生成的安全审核花了三天搭建，因为第一版建议差点执行了rm -rf

LLM输出根因分析和置信度后，最后一步是生成可执行的修复建议。这里是我整个项目里最紧张的部分——我必须能信任LLM给出的命令不会把生产系统搞炸。

第一版系统很简单：Phase 4输出根因假设后，再append一轮对话，让LLM生成修复命令，然后直接展示在告警通知里，由人工确认后执行。2024年12月的一个晚上，系统分析一个磁盘满的告警，根因判断正确（日志轮转失败导致的磁盘堆积），给出的修复命令里有一条是：

# LLM生成的命令（危险！）
find /var/log -name "*.gz" -mtime +7 -exec rm -f {} ;

这条命令逻辑上是对的——删除7天前的压缩日志。但它没有考虑到我们的/var/log目录下有一个符号链接指向NAS挂载点，而这个挂载点正好因为网络问题暂时不可达。在NAS不可达的情况下，find会在符号链接上返回空，但如果在网络恢复的瞬间执行，这条命令会直接删NAS上的归档日志——这比磁盘满严重一百倍。

这件事让我意识到，LLM生成的命令必须经过沙箱验证，而且沙箱不能只做语法检查，必须模拟执行。

命令安全审核的三层沙箱

我搭建了一个三层审核管道，每一层都在上一层的下游，任何一层拒绝就阻断命令输出：

Layer 1：命令语法与危险模式匹配。用正则+AST解析拦截明显危险的模式：rm -rf /、mkfs、dd、shutdown、reboot、chmod 777、以及任何包含/dev/、/sys/、/proc/的路径。这一层同时检查命令是否限定在告警实例的相关路径范围内（通过CMDB的挂载点信息判断）。拦截率大约占LLM生成命令的12%。

Layer 2：有限上下文模拟执行。这层是核心。我在一个Docker容器里重建了告警实例的目录结构和关键配置文件（用定时同步的轻量级快照），然后用unshare隔离命名空间，在容器里执行LLM生成的命令，捕获stdout、stderr和退出码。关键是模拟环境的文件系统是overlayfs的快照副本，执行完立即丢弃，不会影响任何真实数据。这层平均耗时800ms，拦截了大约8%的命令（主要是路径错误、权限问题）。（延伸阅读：12GB显存里的ROI死磕：我把Gemma 2、Phi-3、Qwen-1.8B在法律/医疗微调上烧透了的成本账）

Layer 3：与Runbook联动的人工确认。命令通过Layer 1和2后，不是自动执行的。系统会把命令、模拟执行的结果、根因分析摘要一起打包成一个工单，发送到我们的Runbook系统（Rundeck）。工单里包含一个”一键执行”按钮，但必须由持有相应权限的工程师确认。确认时Rundeck会做第二层权限校验——确认者的RBAC角色是否允许在该实例上执行该类型的命令。

这套审核管道搭建耗时三天，但Layer 2的模拟执行救了不止一次。除了rm -rf的案例外，还有一次LLM生成的kubectl rollout restart命令目标是正确的deployment，但模拟执行时发现当前集群的kubectl context指向了staging环境——如果不是模拟执行先报错，生产deployment就被重启了。

安全是逐步叠加的，不是一次性完成的。这是我从机器人安全系统里学到的：紧急停止按钮、力矩限制、速度限制，三层独立，任何一层都能阻止灾难。软件运维系统的安全设计完全可以用同样的思路。

混沌工程实验：MTTR从47分钟砸到3分12秒

整个系统上线后，我们做了4轮混沌工程实验来验证效果。实验设计：在12台机器的集群上，用Chaos Mesh随机注入故障（网络延迟、磁盘填充、进程kill、CPU负载），每次注入一个根因故障，触发下游告警风暴。两组对比：

对照组：资深工程师（3年以上运维经验）使用传统工具链（Grafana + Loki + CMDB手动查询）排障
实验组：同样资质的工程师使用LLM根因分析引擎的辅助输出

实验结果，基于24个故障场景（每个场景重复3次，共72次实验）：

指标	对照组（纯人工）	实验组（LLM辅助）	改善幅度
平均MTTR（从告警触发起算）	47分钟	3分12秒	93%
P99 MTTR	112分钟	9分45秒	91%
根因定位准确率（Top-1）	63%（人工判断）	91%	+28个百分点
误操作次数（执行了错误修复命令）	4次/72实验	0次/72实验	100%拦截
修复命令生成时间（从根因确认到命令就绪）	平均8分钟	22秒	95%

硬件环境：控制平面跑在Dell PowerEdge R750 (双Xeon Gold 6338, 512GB RAM)，LLM推理走Azure OpenAI GPT-4o私有部署，P99延迟3.2秒。混沌工程注入工具：Chaos Mesh v2.7.0。

但有一个重要限定：实验组里没有出现”LLM完全误判但工程师盲目信任导致错误操作”的情况。这不是因为LLM完美——它的3%幻觉率真实存在——而是因为三层审核沙箱拦截了所有有风险的命令。如果去掉Layer 2的模拟执行，误操作率预计会升到3-5次/72实验。这不是我猜测的数字，是我们故意在实验的最后8轮关掉Layer 2验证的，结果4次实验里有3次触发了危险命令，全部被Layer 1拦截住2次，但有一次Layer 1漏了（命令看起来无害但路径错误），工程师在确认时手动发现了问题。这证明多层防御里每一层都有独立价值。

3分12秒的MTTR听起来很漂亮，但这是混沌工程的标准场景。真实生产环境的MTTR我预计会更高，因为真实故障比Chaos Mesh注入的复杂得多。我们上线后遇到了一个从未注入过的场景：kubelet内存泄漏导致节点逐渐不可用，这个过程持续了40分钟才触发第一个告警，LLM拿到的窗口里已经有了太多噪声，准确率掉到了60%。这个场景我们现在还没完全解决，需要把时间窗口自适应策略做得更智能——但那是下一个迭代的事了。

这篇文章写到这里，我想回到开头那个问题：能不能让大模型当L1值班工程师？我的答案是：能，但它不是替代人，而是把人的排障时间压缩到原来的十分之一。3分钟内LLM给出根因假设和修复方案，人工确认只需30秒。LLM做的是模式匹配和假设生成——这是它擅长的。但它不知道/var/log下有一个NAS符号链接，也不知道kubectl context可能指向staging——这些上下文是人类必须掌管的最后一道防线。

做机器人让我明白一个道理：自主系统不是”人在回路外”，而是”人在更高层次的回路里”。LLM根因分析引擎也是同理——它让人从”查日志翻指标”的机械劳动里解放出来，把精力放在验证假设和判断安全边界上。这才是AI辅助运维的正确打开方式。

MTTR从47分钟砍到3分钟，但大模型给出的第一版修复建议差点rm -rf了生产库

30秒速览

一条磁盘告警在传统管道里走了47分钟才找到根因，这是问题

传统告警管理的三个死穴

我把四个数据源塞进单条prompt前，先在管道层做了30%的噪声压缩

数据源集成架构

仿真vs真实世界的差距：管道在测试集上完美，上线第一周就被磁盘I/O打爆

LLM推理管道：生成假设、交叉验证、输出置信度评分，而不是一段漂亮的废话

知识图谱注入：服务依赖图把Top-1准确率从79%拉到91%

修复建议生成的安全审核花了三天搭建，因为第一版建议差点执行了rm -rf

命令安全审核的三层沙箱

混沌工程实验：MTTR从47分钟砸到3分12秒

觉得有用？

发表评论取消回复

30秒速览

一条磁盘告警在传统管道里走了47分钟才找到根因，这是问题

传统告警管理的三个死穴

我把四个数据源塞进单条prompt前，先在管道层做了30%的噪声压缩

数据源集成架构

仿真vs真实世界的差距：管道在测试集上完美，上线第一周就被磁盘I/O打爆

LLM推理管道：生成假设、交叉验证、输出置信度评分，而不是一段漂亮的废话

知识图谱注入：服务依赖图把Top-1准确率从79%拉到91%

修复建议生成的安全审核花了三天搭建，因为第一版建议差点执行了rm -rf

命令安全审核的三层沙箱

混沌工程实验：MTTR从47分钟砸到3分12秒

觉得有用？

发表评论 取消回复

发表评论取消回复