多 Agent 协作失败复盘：调用方式与运行态

本文最后更新于17 天前，其中的信息可能已经过时，如有错误请留言评论。

这次排障最值得记录的，不是问题特别复杂，而是它一开始很像“系统能力没开”，最后却发现真正卡住协作的，是两类不同层次的问题叠在了一起：一层是运行中的状态没有及时刷新，另一层是调用方把请求参数用错了。

如果只盯着表面报错，很容易一路误判。

排障路径图

问题现象  →  表层误判  →  真实根因  →  修复动作
   │             │             │             │
请求失败      误以为能力没开   运行态 + 调用方式   刷新状态 + 修正模板

验收方式：看真实往返，不只看静态结果

1. 问题现象：像能力没开，也像目标不可达

最初的异常集中出现在一次跨角色协作请求上，连续出现两类失败提示：

一类是“两个互斥字段被同时填写”，直接触发请求校验失败；
另一类是“把目标标识错当成别名使用”，结果系统回报找不到目标。

再结合当时一些不稳定的可见性表现，现场给人的第一印象非常像：

全局协作能力没开启；
会话可见范围没放开；
调用方没有拿到正确权限面；
甚至跨角色协作本身根本不可达。

这也是这类问题最容易把排障方向带偏的地方：报错看起来像链路问题，但不一定真是链路问题。

2. 表层误判：把调用失败误当成能力失效

排障初期最自然的推断，是先怀疑大开关没打开。因为从现象上看，请求发不出去，列表和可见性表现也不稳定，确实很像系统层没有准备好。

但后面的实测逐步说明，这个判断并不完整：

跨角色协作的全局能力并不是没开；
可见范围也不是最终根因；
目标对象并不是天然不可达；
调用方也不是完全不会发起协作请求。

也就是说，“不能协作”这个结论本身太粗了。更准确的问法应该是：

是全局能力没开？
是运行态没有刷新？
是目标真的不可见？
还是调用模板本身就错了？

这几个问题如果不拆开，排障就会一直在表层打转。

3. 真实根因：两层问题叠加，不是一条线故障

这次最终确认的根因，其实分成两层。

根因分层图

[运行态未及时刷新] ──┐
                      ├──→ 共同导致协作失败
[调用方式错误]     ──┘

第一层：运行中的状态没有及时刷新

从静态配置看，相关能力本身已经处于开启状态。但一段时间里的真实运行表现，仍然像拿着旧的规则面，尤其在跨会话读取和协作可见性相关动作上，还能看到像“旧状态没退干净”的行为。

后续在重载运行环境之后，这层矛盾消失了。这说明至少有一部分异常，并不是配置没写对，而是运行中的状态或权限面没有及时刷新。也就是说，静态配置已经正确，但执行现场还没完全跟上。

这是第一层问题。

第二层：真正让协作直接失败的，是参数模板用错

即使把第一层问题拿掉，调用方仍然会失败。原因更直接：它把请求工具的参数语义用错了。

具体表现是：本该用于唯一指向真实目标的字段，被同时塞进了另一个只适合作为辅助识别的字段里，于是先触发互斥校验错误；之后又把那个真实目标标识单独当成辅助别名去用，于是再次触发“找不到目标”。

这一步非常关键，因为它把问题性质彻底改写了。这里不是“目标不可达”，而是：

目标本来可达，但调用方把目标标识和辅助字段混用了。

这才是直接导致协作请求发不出去的真正原因。

4. 关键认知修正：别把探针、列表和真实往返混为一谈

这次排障里，有几个认知修正很重要。

列表探针不是成败判据

探针或列表接口更像“当前能看到什么”的局部视图，不是判断协作是否真正可达的最终依据。如果把它们当成唯一证据，很容易误判。

查不到，不等于不能打

列表结果会受到上下文、可见性、刷新时机等因素影响。当前查不到，只能说明“这一刻没给你看到”，不能直接推出“这个目标就不能触达”。

工具参数错误，不能误报成能力没开

如果一个调用方稳定把参数塞错，那表现出来当然也是失败，但这不是系统能力没开，而是调用模板有硬伤。这类问题如果不单独归类，后续会反复浪费排障时间。

5. 最终修复：不是改一处，而是同时做对几件事

最后真正打通，不是靠单点碰运气，而是几件事一起做到位。

修复闭环图

确认能力已开  →  刷新运行态  →  修正调用模板  →  真实往返验收

先确认全局能力本身已经开启，排除“底座没开”的误判；
再重载运行环境，清掉旧状态残留带来的干扰；
随后修正调用模板，明确哪些字段用于指向真实目标，哪些字段只是辅助信息，不能混用；
最后用兼容且语义清晰的请求方式重新发起协作。

这一组动作的价值在于：既处理了运行态问题，也处理了调用方式问题，不会留下“看起来好了，其实只是绕过了一个临时现象”的假恢复。

6. 最终验收：用真实往返，而不是只看静态结果

最后能确认问题真的修好，不是因为某个列表突然看起来正常了，而是因为出现了真实的往返成功证据：请求方真实发出请求，对端真实收到请求，并回传了可核对的结果。

这点非常重要。因为在多角色协作里，静态列表、探针接口，甚至局部成功日志，都不如一次带可验证返回的真实往返更有验收价值。只有这样，才能确认这不是“看起来通了”，而是真的通了。

7. 经验教训：协作排障要先分层，再验收

这次复盘之后，至少有四条经验值得固定下来：

先区分“系统没开”还是“调用错了”，两者表面都可能表现为失败，但处理方式完全不同；
不要把列表探针当最终证据，真正可靠的是带验证结果的真实往返；
目标标识和辅助字段不能混用，这是本次最直接的失败源；
对调用模板本身，也要设硬规则，否则同一个错误会被稳定重复。

一句话结论：这次协作失败，根因不是链路本身断了，而是运行中的状态一度没刷新，加上调用方把请求字段用错；把运行态和调用模板一起修正后，协作恢复正常。