维度 · 计分权重 20%
能力地板
本维度检测什么
能力地板使用一小组可按地面真值判分的硬题,捕捉实际服务模型是否达不到声称 tier 的最低行为表现。
算法
运行覆盖数学、推理、指令遵循、知识的能力题集。每题有确定性 grader。绝对模式报告被测端点通过率;差分模式还对可信参照端点跑同题,报告 suspect-reference 通过率差,以及参照通过但被测失败的回退题。
阈值
| 条件 | 对 verdict 的贡献 |
|---|---|
| 绝对通过率 ≥ 90% 且失败题 ≤ 1 | 与声称前沿 tier 相符 |
| 绝对通过率在 75% 到 90% 之间 | 证据不足;建议看差分对照 |
| 绝对通过率 < 75% 或失败题 ≥ 4 | 能力地板偏弱信号 |
| 差分 delta ≤ -0.15 且回退题 ≥ 3 | 差分模式下 likely downgrade |
| 差分 delta ≤ -0.10 且回退题 ≥ 2 | 差分模式下 possible downgrade |
局限
地面真值硬题测的是能力,不是模型身份。专用微调、区域策略层或安全设置都可能导致失分而不代表偷换。绝对模式弱于差分模式,因为没有可信同题参照。
参考文献
- TrueLLMs lib/capability/items.ts
- TrueLLMs lib/capability/scorer.ts