全部维度

检测维度 · 权重 1%

拒绝边界

本维度检测什么

各厂商有可辨识的拒绝风格。Anthropic 常用「I can't help with that」;OpenAI 常用「I'm sorry, but I can't help with that request」。

算法

在策略边界发送两则安全边缘 prompt,分类拒绝措辞模板,与声称厂商比较。

阈值

条件对 verdict 的贡献
拒绝模板匹配声称厂商匹配
拒绝模板匹配其他厂商不匹配

局限

激进中转会改写拒绝。LLMmap 更可靠覆盖同类信号;本维现权重 1%。

返回完整方法论