全部文章

2026年5月29日 · TrueLLMs

检测前沿模型偷换:2026 年什么方法真有用

旧方法失效,因为自洽性不等于身份、mock 指纹是虚构、行为探针可被 system prompt 伪造。真有用的信号是:确定性切词器家族指纹、能力地板、差分模式。

第一波 LLM 指纹依赖自我识别、风格计量与行为探针。这些方法在博客帖里看起来合理,中转运营者加五行 system prompt 就破了。第二波加入 logprobs 与 ITT 节奏,更强但仍不完整——网关可剥离 logprobs、可缓冲流式数据。到 2026 年中,检测面已收敛到三种大规模难以伪造的信号:确定性切词器家族斜率指纹、能力地板、以及以可信参照端点作对照的差分模式分布检验。

本文讲旧信号为何失效、三大真信号如何工作、以及诚实的边界仍在哪里。

旧测试为何站不住脚

三类虚假信心:

  • 自洽性不是身份。模型可以自我一致,却仍可能是降级微调或蒸馏变体。自洽只说明端点稳定,不说明是你付费购买的旗舰模型。
  • Mock 指纹库是虚构。任何从公开博客帖或估算 token 边界构建的「参考指纹」都不是实测真值。与虚构对比只能产出虚构。
  • 行为探针可被伪造。system prompt、输出改写层与网关后处理都能改变拒绝模板、Markdown 密度甚至「确定性谜题」答案,而不改变底层模型。知道探针集的中转可以全部通过探针,却在真实流量上服务更便宜模型。

三大真信号

TrueLLMs 当前在五个维度上计分,但权重最高且最难伪造的是这三项:

1. 确定性切词器家族指纹(斜率法)

斜率法回归 API 返回的 prompt_tokens 与重复探针单元次数。斜率即服务端切词器对一个探针单元的精确 token 数。由于 o200k_base 是当前 OpenAI 从 GPT-4o 到 GPT-5.x 全系旗舰的切词器,与精确 js-tiktoken 计数匹配就是确定性证据——服务端在用 OpenAI 家族计费,而对旗舰 tier 来说这意味着 GPT-5.x。

对于切词器闭源的 Claude 与 Gemini,绝对模式无法在本地算出精确计数。差分模式解决这一问题:可信参照端点返回的 prompt_tokens 斜率就是真模型切词器的精确计数。若被测端点对同单元的斜率与参照不同,即表明使用了不同切词器——无需本地切词器即可确定性识别偷换。

2. 能力地板

能力地板使用一小组可按地面真值判分的硬题。测试的不是风格或偏好,而是模型能否达到声称 tier 的最低行为门槛。差分模式下,同一组题对被测端点与可信参照端点同时运行。通过率的大幅 delta,特别是具体回退题,是降级的具体证据。它弱于切词器信号,因为微调或安全层也能导致失分;但它独立于切词器把戏。

3. 差分模式(MMD + 能力差分)

差分模式要求用户提供自己的可信官方 API key 作为参照。TrueLLMs 对两端点运行相同 prompt 并比对结果。MMD 检验响应分布是否不同;能力差分测量被测端点是否败给参照通过的题。两者都不虚构 baseline。

这是当前框架内最强的「是否真货」检验,但强度取决于参照端点本身。若你的参照 key 已 compromised,比对也就 compromised。

诚实边界

当前框架有四项无法消除的硬限制:

  • 闭源切词器需要差分模式。没有可信参照时,Claude 与 Gemini 的切词器无法在本地验证。
  • 图像模型不在覆盖范围内。gpt-image-2 等模型没有 chat prompt_tokens 切词斜率、没有文本能力探针,且 MMD 是文本分布检验。图像模型防掺水需要图像统计与延迟指纹,当前不支持。
  • 单独切词器 mismatch 只是 likely 证据。网关可用不同切词器家族做规范化计费,同时仍服务真模型。mismatch 需要另一计分维度佐证才能视为 confirmed。
  • MMD 需要 temperature > 0 与足够样本。temperature 为 0 或样本过小时,测试按设计报 unavailable。TrueLLMs 不会虚构 baseline。

参考文献

  • Gao et al. Model Equality Testing: Which Model is this API Serving? ICLR 2025. arXiv:2410.20247.
  • Pasquini et al. LLMmap: Fingerprinting Large Language Models. USENIX Security 2025. arXiv:2407.15847.
  • Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs. arXiv:2504.04715, 2025.
  • Auditing Black-Box LLM APIs with a Rank-Based Uniformity Test. arXiv:2506.06975, 2025.
  • IMMACULATE: A Practical LLM Auditing Framework via Verifiable Computation. arXiv:2602.22700, 2026.
  • Log Probability Tracking of LLM APIs. arXiv:2512.03816, 2025.

跑一次审计 针对你自己的中转。大约一分钟,数据留在浏览器。