2026年4月22日 · TrueLLMs

你的 LLM 中转可能在骗你什么

ICLR 2025 Model Equality Testing 发现 31 个生产端点中有 11 个相对参考分布偏离。对你的账单意味着什么。

2024 年末，Gao et al. 向 ICLR 2025 提交论文，结论安静但惊人。他们测试 31 个均宣称同一 Llama 族权重的生产端点——混有官方 API 与第三方网关——相对 Meta 参考分布。其中 11 个在 Maximum Mean Discrepancy 双样本检验下 p < 0.05。

十一分之三十一。论文谨慎指出这意味着响应分布不同，而非提供商一定作弊。量化、微调、系统提示、区域路由与后处理都会造成偏移。但三分之一样本在无明示下出现任何一种偏移仍值得警惕，论文 Model Equality Testing: Which Model is this API Serving? 值得一读。

结构性原因

LLM 中转的单位经济极其残酷。用户为 gpt-5 每百万 token 支付 $X。中转运营商直连 OpenAI 时支付上游成本。毛利是 X − 成本。拓宽毛利只有四种路径：

向上游谈批量折扣——合法，难。
激进缓存——合法与否取决于披露。
抬高返回给你的 usage ——欺诈。
你要贵模型时偷偷换便宜模型——欺诈。

TrueLLMs 抓后两种。我们对前两种不置评。我们只给数据。

实际审计长什么样

直连 OpenAI API 的干净跑法：12 维全绿，置信度近 0。典型聚合网关：8 绿、2 黄、2 红，置信度约 35。糟糕网关：logprobs 不可用（红旗）、tokenizer 边界不一致（不匹配）、LLMmap 将响应分类为与声称不符的厂商、ITT 节奏缺少声称模型常见的推测解码双峰。置信度封顶 70。

封顶是故意的。没有 logprobs 时，足够精巧的中转仍可骗过最强的主动探针。该情形我们写「可能被替换」而非「确认被替换」，并附上原始证据供你判断。

若审计一片红该怎么办

三件事，按顺序：

换时段重跑。部分中转在负载下路由不同。
对官方上游跑同一审计。确认该模型的干净指纹长什么样。
向中转开工单并附上证据。靠谱提供商会解释或修复。

参考文献

Gao et al. Model Equality Testing: Which Model is this API Serving? ICLR 2025. arXiv:2410.20247.
Pasquini et al. LLMmap: Fingerprinting Large Language Models. USENIX Security 2025. arXiv:2407.15847.
Alhazbi et al. LLMs Have Rhythm. 2025. arXiv:2502.20589.

跑一次审计针对你自己的中转。大约一分钟，数据留在浏览器。