维度 · 计分权重 20%

能力地板

本维度检测什么

能力地板使用一小组可按地面真值判分的硬题，捕捉实际服务模型是否达不到声称 tier 的最低行为表现。

运行覆盖数学、推理、指令遵循、知识的能力题集。每题有确定性 grader。绝对模式报告被测端点通过率；差分模式还对可信参照端点跑同题，报告 suspect-reference 通过率差，以及参照通过但被测失败的回退题。

地面真值硬题测的是能力，不是模型身份。专用微调、区域策略层或安全设置都可能导致失分而不代表偷换。绝对模式弱于差分模式，因为没有可信同题参照。