Brainstorm 要成为决策基础设施：自解释与专家论坛的可执行闭环

一次 brainstorm 真正把人拖回原点，常见原因是问题边界、证据、争议和交接混在了一起。第一场会先聊目标读者，第二场会回头重问“这件事到底给谁看”，第三场会开始补链接，到了 handoff 时只剩一个谁都不敢接的结论。讨论看起来很多，系统里真正可复用的东西很少。

这篇文章只解决这一类返工：讨论已经发生过，参与者也投入了时间，后来者却仍然要从头重建上下文。判断标准不复杂。新参与者能否在 10 分钟内复原边界，会改变结论的争议是否只留在一个地方，执行方拿到的动作是否带着证据和适用范围。如果这三件事做不到，brainstorm 仍然只是一次高质量聊天。

下文把问题拆成两层。第一层是自解释，让问题边界和证据落到固定载体里。第二层是专家论坛，让会改变结论的争议只在一个可审计的位置收敛。两层都落下去，讨论结果才有资格进入实验和 handoff。

自解释解决的是重建成本

一轮典型返工通常是这样发生的：第一场会已经说清目标读者，第二场会又重新争论“这件事到底给谁看”，第三场会开始补证据，最后 outcome 里只剩一个谁都不敢接的结论。问题不在大家不努力，而在于边界、备选路线、争议和交接全都留在会话里。后来者要理解发生过什么，只能重新翻聊天记录。

要把这笔成本降下来，最直接的办法是把四类信息分开存放。这里说的 single source of truth，也就是单一事实来源，指的是四类信息各归其位。input_and_qa.md 放问题边界，finding_and_analyze.md 放备选路线，expert_forum.md 放争议收敛，outcome_and_handoff.md 放动作交接。四个载体还在，后来者面对的就是一个已经分区的决策现场。

支柱	固定载体	通过信号
连续性	`input_and_qa.md` + `finding_and_analyze.md`	新参与者 10 分钟内可复原边界
收敛性	`expert_forum.md`	关键争议不再旁路到群聊
验证性	`references/` + `experimental/`	结论可回链到证据与实验
交接性	`outcome_and_handoff.md`	执行方可直接领取 next action

四份文件是从失败模式里长出来的最小接口。边界和证据混在一起，会让后来者重复拆题。争议和动作混在一起，会让执行方拿到一句没有适用范围的结论。把这四类信息拆开之后，讨论才会把火力集中到真正有分歧的地方，不再一遍遍回到“我们到底在讨论什么”。

这套接口当然有成本。每次都维护四份文件，会多出一些前置整理工作，所以它不适合当天就能拍板、也不需要 handoff 的小决策。它更适合跨会话、跨角色、跨职能的议题，或者一旦做错就会带来明显返工成本的讨论。

专家论坛统一收敛会改变结论的争议

自解释解决了“后来者看不懂”的问题，专家论坛解决的是“后来者看到两套真相”的问题。所有会改变结论、适用边界或 handoff 动作的争议，都应该统一记录在 expert_forum.md。如果一半争议留在论坛，一半留在即时聊天，交接方最后拿到的往往是两个互相冲突的版本。

论坛流程可以固定为五步：锁边界、提证据、交叉质询、必要实验、输出动作。评分也可以先用一个试运行公式：DecisionScore = 平均论证分 + 实验附加分 - 风险惩罚项。例如论证分 7.6、附加分 1.0、惩罚 0.4，总分就是 8.2。这里的 7.0 更适合作为第一次试运行的起步门槛，不应被写成永久有效的制度数字。

flowchart LR
    A["锁问题边界"] --> B["提交证据与主张"]
    B --> C["交叉质询与评分"]
    C --> D{"需要最小实验?"}
    D -- "是" --> E["执行实验并回写结果"]
    E --> C
    D -- "否" --> F["形成结论与动作"]
    F --> G["进入 outcome_and_handoff"]

流程图只解决了路径顺序，责任还要靠文字补上。评分没有过门槛时，谁负责补实验、何时补齐、补齐后回写到哪个段落，都要提前写清。否则图是完整的，执行还是靠主持人临场追人。

论坛也不需要吞掉所有沟通。背景资料同步、措辞微调、执行过程中的小确认，仍然可以留在日常聊天里。论坛只处理那些会改变结论和动作的争议。要避免的情况只有一种：关键分歧散落在多个表面上，最后没人能说明哪个版本才是当前结论。

最小实验把观点压成边界决策

观点强，不等于路径可行。实验的作用，是把“可能正确”压缩成“在什么边界内可以执行”。讨论“是否引入向量检索”时，真正该比较的是延迟、召回和失败条件。如果离线评测显示召回只提升 1%，延迟却上升 40%，结论就应该收缩成“仅在离线批处理场景试点”。

实验目录来自前面那条分工。边界、证据、争议都已经分开以后，实验只需要回答一个问题：它改写了哪条判断。正因如此，最小实验适合固定落盘到 .bagakit/brainstorm/<discussion-id>/experimental/，然后在论坛里明确写出“实验如何改变结论”。正文只保留最小回放就够了：

python3 scripts/run_retrieval_eval.py --dataset sample_200 --output .bagakit/brainstorm/2026-02-21-retrieval/experimental/architect-mvp/eval.json
python3 scripts/summarize_eval.py --input .bagakit/brainstorm/2026-02-21-retrieval/experimental/architect-mvp/eval.json --output .bagakit/brainstorm/2026-02-21-retrieval/experimental/architect-mvp/summary.txt
rg -n "latency|recall|fail_case" .bagakit/brainstorm/2026-02-21-retrieval/experimental/architect-mvp/eval.json

这里真正要阻断的是三种假完成。第一，有链接无映射。第二，有评分无理由。第三，有实验目录无结论影响。实验文件存在但 expert_forum.md 没有引用，它就只是一份附件。结论已经改变但适用边界没有回写，执行团队仍然会按旧假设落地。

对于反馈周期很长、变量很多的战略判断，最小实验通常只消掉一个关键不确定性。它的任务是缩小不确定区间。若第一次试运行需要阈值，可以先用一组保守默认值，再随着回放样本增加调整。把这层说明写清，阈值才会停留在工作假设，而不会滑成空降制度。

门禁把讨论翻译成可领取的动作

讨论结束，不等于动作可领取。要让 Brainstorm 脱离主持人继续运转，至少要确认五件事。关键争议已经全部回写到 expert_forum.md。每个 next action 都写明 owner、deadline 和入口路径。证据映射完整度达到 >= 90%。新参与者能在 < 10 min 内重述边界。周报持续记录 scope_drift、evidence_gap、handoff_delay。

采样协议应该被当成试运行默认值。若团队第一次按这套方式跑，可以先看最近 14d 内进入 handoff 的议题，抽样 n=12，并让论坛主持人、执行代表、独立 reviewer 一起复盘。scope_drift > 0.20 或 handoff_delay > 2d 这类数字，更像起步阈值。它们的价值在于逼团队把“什么时候该收紧边界，什么时候该重写交接”说清，避免周报滑成一个看起来专业的仪表盘。

真正值得坚持的是这条因果链：边界先固定，争议再收敛，实验负责改写判断，门禁负责发放动作。只要其中任一环节悬空，系统就会退回对口头记忆和个人威望的依赖。下次遇到跨角色、预计会进入 handoff 的议题，可以先试运行一次四份文件、一个论坛和一次最小实验。如果第二次会议还在重复解释目标读者，或者 handoff_delay 连续超过 2 天，就该回头修入口和争议收敛面。是否真的优化成功，看三件事就够了：边界重述能否压到 10 分钟内，证据映射能否稳定在 90% 以上，交接延迟能否回到 2 天内。