2026年4月22日 · TrueLLMs
你的 LLM 中转可能在骗你什么
ICLR 2025 Model Equality Testing 发现 31 个生产端点中有 11 个相对参考分布偏离。对你的账单意味着什么。
2024 年末,Gao et al. 向 ICLR 2025 提交论文,结论安静但惊人。他们测试 31 个均宣称同一 Llama 族权重的生产端点——混有官方 API 与第三方网关——相对 Meta 参考分布。其中 11 个在 Maximum Mean Discrepancy 双样本检验下 p < 0.05。
十一分之三十一。论文谨慎指出这意味着响应分布不同,而非提供商一定作弊。量化、微调、系统提示、区域路由与后处理都会造成偏移。但三分之一样本在无明示下出现任何一种偏移仍值得警惕,论文 Model Equality Testing: Which Model is this API Serving? 值得一读。
结构性原因
LLM 中转的单位经济极其残酷。用户为 gpt-5 每百万 token 支付 $X。中转运营商直连 OpenAI 时支付上游成本。毛利是 X − 成本。拓宽毛利只有四种路径:
- 向上游谈批量折扣——合法,难。
- 激进缓存——合法与否取决于披露。
- 抬高返回给你的 usage ——欺诈。
- 你要贵模型时偷偷换便宜模型——欺诈。
TrueLLMs 抓后两种。我们对前两种不置评。我们只给数据。
实际审计长什么样
直连 OpenAI API 的干净跑法:12 维全绿,置信度近 0。典型聚合网关:8 绿、2 黄、2 红,置信度约 35。糟糕网关:logprobs 不可用(红旗)、tokenizer 边界不一致(不匹配)、LLMmap 将响应分类为与声称不符的厂商、ITT 节奏缺少声称模型常见的推测解码双峰。置信度封顶 70。
封顶是故意的。没有 logprobs 时,足够精巧的中转仍可骗过最强的主动探针。该情形我们写「可能被替换」而非「确认被替换」,并附上原始证据供你判断。
若审计一片红该怎么办
三件事,按顺序:
- 换时段重跑。部分中转在负载下路由不同。
- 对官方上游跑同一审计。确认该模型的干净指纹长什么样。
- 向中转开工单并附上证据。靠谱提供商会解释或修复。
参考文献
- Gao et al. Model Equality Testing: Which Model is this API Serving? ICLR 2025. arXiv:2410.20247.
- Pasquini et al. LLMmap: Fingerprinting Large Language Models. USENIX Security 2025. arXiv:2407.15847.
- Alhazbi et al. LLMs Have Rhythm. 2025. arXiv:2502.20589.
跑一次审计 针对你自己的中转。大约一分钟,数据留在浏览器。