全部维度

检测维度 · 权重 12%

Model Equality Testing(MMD)

本维度检测什么

Maximum Mean Discrepancy 是核双样本检验。ICLR 2025 论文(Gao et al.)用于 LLM 端点,称 31 个商业 Llama API 中有 11 个相对 Meta 参考 p < 0.05——分布差异,未必是偷换。TrueLLMs 在用户已录制 baseline 时展示该维;无 baseline 则报 `unavailable` 并把权重捐给其他维。

算法

在被审计端点于 temperature > 0 收集 N ≥ 25 条样本,另 N ≥ 25 条 baseline(用户录制或内置参考指纹)。每条响应取前 100 个原始字符(无 tokenizer、无大小写折叠——与 lib/identity-audit/mmd.ts 一致)。用 Hamming 核计算 MMD²。对联合样本做 1000 次随机置换估计 p 值。

阈值

条件对 verdict 的贡献
p ≥ 0.10同分布(无法拒绝 H₀)
0.05 ≤ p < 0.10边界
p < 0.05分布不同(多种成因可能)

局限

需要 temperature > 0 与 baseline。小 N 时随机种子差异可致假阳性。拒绝 H₀ 仅表示分布不同——量化、微调、系统提示与后处理均会偏移;p < 0.05 是信号而非偷换定论。自 v3.3 起置换按 prompt 块分层,prompt 混合失衡无法抬高零分布。

参考文献

  • Gao et al. Model Equality Testing: Which Model is this API Serving? ICLR 2025. arXiv:2410.20247

返回完整方法论