全部维度

检测维度 · 权重 6%

Context 窗口探测

本维度检测什么

若声称 200k 上下文但 32k 即报错,路由或中间层与宣传不符。合理成因包括网关成本上限、安全截断、区域限制——本维只标不匹配,不断言偷换。

算法

发送递进 context 探针:4k、16k、64k、200k 的稳定填充,针尖置于末尾。每步验证针尖可恢复。

阈值

条件对 verdict 的贡献
在宣称窗口内可恢复针尖匹配
在宣称窗口前丢失针尖不匹配

局限

探针昂贵(≥ 200k 输入 token)故默认关闭。仅在深度预设启用。

参考文献

  • Liu et al. «Lost in the Middle» 长上下文评估,2023

返回完整方法论