维度 · 计分权重 0%
上下文窗口探测
本维度检测什么
宣称的上下文长度是有用的运维承诺,但当前上下文窗口表面只作诊断。
算法
启用时,发送递进长上下文 prompt,并在其中放置可恢复 needle,记录端点是否接受输入并找回 needle。未启用时报告探针未运行。
阈值
| 条件 | 对 verdict 的贡献 |
|---|---|
| 在宣称窗口内可恢复 needle | 诊断匹配 |
| 宣称窗口前报错或丢失 needle | 诊断异常 |
| 任意结果 | 计分贡献始终为 0 |
局限
长上下文探针昂贵且常被关闭。网关成本上限、截断策略、区域限制或请求大小限制都可能导致失败,而不代表模型偷换。
参考文献
- Liu et al. Lost in the Middle,2023