全部维度

维度 · 计分权重 20%

能力地板

本维度检测什么

能力地板使用一小组可按地面真值判分的硬题,捕捉实际服务模型是否达不到声称 tier 的最低行为表现。

算法

运行覆盖数学、推理、指令遵循、知识的能力题集。每题有确定性 grader。绝对模式报告被测端点通过率;差分模式还对可信参照端点跑同题,报告 suspect-reference 通过率差,以及参照通过但被测失败的回退题。

阈值

条件对 verdict 的贡献
绝对通过率 ≥ 90% 且失败题 ≤ 1与声称前沿 tier 相符
绝对通过率在 75% 到 90% 之间证据不足;建议看差分对照
绝对通过率 < 75% 或失败题 ≥ 4能力地板偏弱信号
差分 delta ≤ -0.15 且回退题 ≥ 3差分模式下 likely downgrade
差分 delta ≤ -0.10 且回退题 ≥ 2差分模式下 possible downgrade

局限

地面真值硬题测的是能力,不是模型身份。专用微调、区域策略层或安全设置都可能导致失分而不代表偷换。绝对模式弱于差分模式,因为没有可信同题参照。

参考文献

  • TrueLLMs lib/capability/items.ts
  • TrueLLMs lib/capability/scorer.ts

返回完整方法论