全部维度

维度 · 计分权重 0%

上下文窗口探测

本维度检测什么

宣称的上下文长度是有用的运维承诺,但当前上下文窗口表面只作诊断。

算法

启用时,发送递进长上下文 prompt,并在其中放置可恢复 needle,记录端点是否接受输入并找回 needle。未启用时报告探针未运行。

阈值

条件对 verdict 的贡献
在宣称窗口内可恢复 needle诊断匹配
宣称窗口前报错或丢失 needle诊断异常
任意结果计分贡献始终为 0

局限

长上下文探针昂贵且常被关闭。网关成本上限、截断策略、区域限制或请求大小限制都可能导致失败,而不代表模型偷换。

参考文献

  • Liu et al. Lost in the Middle,2023

返回完整方法论