维度 · 计分权重 15%
缓存重放检测
本维度检测什么
temperature > 0 下,重复请求通常应表现出一定响应多样性。多次响应逐字一致,提示缓存重放、采样被覆盖,或其他新鲜度问题。
算法
按 testCaseId 对重复缓存探针分组。每组至少两条样本时,比对响应文本是否完全一致,并用简单字符相似度检测近似重复。分别统计逐字重复组与近似重复组;只有重复行为在多组中普遍出现时才作为缓存重放信号计分。
阈值
| 条件 | 对 verdict 的贡献 |
|---|---|
| ≥ 50% 重复组响应逐字一致 | 计分缓存重放 mismatch |
| ≥ 50% 重复组高度相似(> 95%) | 可能缓存或采样被覆盖 |
| 重复组表现出合理多样性 | 未观察到缓存重放 |
局限
短 prompt、temperature 下限、厂商侧确定性解码或显式 seed 都可能导致重复文本而非不诚实缓存。本维度标记新鲜度风险;它不识别具体由哪个模型响应。
参考文献
- TrueLLMs lib/identity-audit/index.ts detectCacheHit