检测维度 · 权重 1%
拒绝边界
本维度检测什么
各厂商有可辨识的拒绝风格。Anthropic 常用「I can't help with that」;OpenAI 常用「I'm sorry, but I can't help with that request」。
算法
在策略边界发送两则安全边缘 prompt,分类拒绝措辞模板,与声称厂商比较。
阈值
| 条件 | 对 verdict 的贡献 |
|---|---|
| 拒绝模板匹配声称厂商 | 匹配 |
| 拒绝模板匹配其他厂商 | 不匹配 |
局限
激进中转会改写拒绝。LLMmap 更可靠覆盖同类信号;本维现权重 1%。