维度 · 计分权重 0%
金丝雀 Prompt
本维度检测什么
金丝雀 Prompt 是带已知或预期答案的确定性行为探针。当前模型中,金丝雀行为只展示不计分;真正计分的地面真值硬题位于独立的能力地板维度。
算法
运行金丝雀 prompt 集;存在已知答案模板时与响应比较,并展示 miss 或意外备选。该诊断用于查看行为,但排除在顶部计分之外。
阈值
| 条件 | 对 verdict 的贡献 |
|---|---|
| 命中模板 | 诊断命中 |
| 未命中模板或出现意外备选 | 诊断 miss |
| 任意结果 | 计分贡献始终为 0 |
局限
已知答案模板可能是估算,或未覆盖声称模型。prompt 措辞与 system prompt 会改变输出。需计分的地面真值判分请看能力地板。
参考文献
- TrueLLMs lib/fingerprints/canaries-2026.ts