方法论
最后审阅:2026 年 5 月。本页记录 TrueLLMs 使用的每个检测维度、所依托的学术工作,以及我们默认内置的阈值。如发现错误,请提 issue。
为什么要审计中转站?
LLM 中转与聚合网关常见两类问题:一是在 usage 区块抬高 token 计数使账单虚高;二是在用户不知情时用更便宜模型顶替所请求的模型。单次响应很难看出端倪,正确分析单位应是一小批探针及其统计特征。
TrueLLMs 在浏览器中运行这批探针。不持久化密钥、不保留响应,并打印每条信号的推导过程与原始数据,便于你核验结论。
两段审计流程
Usage 审计将 API 返回的 usage.prompt_tokens 与 usage.completion_tokens,与本地用模型 tokenizer 复算结果对比(GPT-3.5 类用 cl100k_base,GPT-4o/5 用 o200k_base,Claude 与 Gemini 用各自 BPE)。比值接近 1.0 属正常;持续高于 1.05 可疑;高于 1.20 需高度警惕。
身份审计将 12 个加权信号汇总为单一 verdict:与声称一致、证据不足、可能被替换、确认被替换。各信号并非完全统计独立——多条共享同一次探针响应——因此我们把聚合视为分层记分卡,而非 12 路贝叶斯更新。
12 个维度
- Logprobs 指纹 — 权重 17%
- Tokenizer 边界探测 — 权重 15%
- LLMmap 主动探测 — 权重 15%
- Model Equality Testing(MMD) — 权重 12%
- Inter-Token 节奏指纹 — 权重 8%
- 缓存命中检测 — 权重 8%
- 金丝雀 Prompt 行为 — 权重 7%
- Context 窗口探测 — 权重 6%
- Sparse-Token 压力测试 — 权重 5%
- 风格计量分析 — 权重 3%
- 延迟分布 — 权重 2%
- 自我识别探测 — 权重 1%
- 拒绝边界 — 权重 1%
Logprobs 作为最强单信号
当 API 返回 top-k logprobs 时,次优 token 的「形状」几乎是指纹级地区分底层模型。Tokenizer 族直接暴露:GPT-4o/5 吐出 o200k_base token 串,GPT-3.5/4 吐出 cl100k_base。Claude 与 Gemini 词表完全不同。若中转在仍声称 gpt-5 的同时剥离 logprobs,无论无意或有意,都是在移除最便宜、最可靠的身份校验。
LLMmap(USENIX Security 2025)
我们沿用 LLMmap 论文中的探针族:Fingerprinting Large Language Models(Pasquini et al., USENIX Security 2025, arXiv:2407.15847)。每类探针对准已知分叉行为:合成类拒绝模板、指令冲突消解、确定性谜题(如 strawberry 字母计数)与工具边界。
实现诚实声明。原论文在响应嵌入上训练深度对比分类器,报告在 42 个 LLM 版本上约 95% 厂商识别准确率。
本版本仅提供词法/结构模板启发式——非训练分类器——我们不对标论文的 95%。该维度宜作下界信号;未来版本将接入真实嵌入模型。
TrueLLMs 为探针集设两道安全闸:政策敏感探针(合成、冲突处理)默认关闭;响应文本仅用于特征提取,不会向用户回显这些 prompt 的内容。若未跑满探针集,分类器返回 unknown 而非猜测厂商。
Model Equality Testing(ICLR 2025)
来自论文 Model Equality Testing: Which Model is This API Serving?(Gao et al., ICLR 2025, arXiv:2410.20247)。双样本检验将响应视为分布样本,在定长字符串特征上对 Hamming 核运行 Maximum Mean Discrepancy。论文称 31 个商业 Llama 端点中有 11 个在 p < 0.05 下与 Meta 参考显著不同。我们并不据此断言欺诈——量化、微调、系统提示与后处理都会造成分布偏移。
我们计算 MMD²(Hamming 核),取每条响应前 100 个字符(无 tokenizer、无大小写折叠——与 lib/identity-audit/mmd.ts 实现一致),再用 1000 次置换估计 p 值。
如何启用。打开首页,对可信端点(如官方上游 API)在 temperature > 0 下完成审计,在 MMD baseline 面板点击「保存当前结果为 baseline」。
Baseline 存于浏览器 localStorage——永不上传——后续每次审计复用。置换检验按 prompt 分层(各 prompt 块内 api ↔ 参考标签独立打乱),因此 prompt 混合差异无法抬高零假设。
分块到达间隔(ITT)
启发于 LLMs Have Rhythm: Fingerprinting Large Language Models Using Inter-Token Times and Network Traffic Analysis(Alhazbi et al., 2025, arXiv:2502.20589)。流式 API 下,连续 SSE 数据块之间的间隔携带推理栈特征。纯自回归模型在稳定后端上间隙分布窄;推测解码部署(多数前沿 API)呈双峰;缓存前缀重放近零方差。我们提取均值、方差、偏度与小规模 DFT 谱,再分类节奏。
诚实披露。我们实际测量的是服务端读端看到的 SSE 分块到达间隔,而非模型内部真实 inter-token 时间。TCP 合并、SSE 刷新节奏、网关缓冲与 Date.now() 毫秒分辨率均引入噪声。缓存重放检测(gap < 1ms)低于当前分辨率,在切换高分辨率时间戳前应视为占位。每模型节奏指纹库目前由开发者估计种子初始化,非大规模实测。
如何启用。在配置面板开启 stream: true 并运行审计。直连模式下客户端本地测量 SSE 到达;代理模式下解析服务端发出的 audit.timing SSE 事件,更接近上游一跳。数值进入 TestResult.chunkTimestamps,ITT 维度自动消费。
稀疏 Token 压力(MiniMax 2026)
MiniMax 2026 年 5 月对「马嘉祺」案例的调查显示:SFT 期间低频 token 的 lm_head 向量漂移显著,而输入侧 embedding 仍稳定,导致生成端不对称:模型仍理解该 token,但在 top-p 采样下难以输出。遗忘 token 集合因各厂商 SFT 数据不同而异——使失效模式本身可成指纹。
TrueLLMs 提供约 10 个压力探针,覆盖五类:罕见 CJK 人名复合(如 嘉祺、王郸)、中文 SEO 垃圾(如 传奇私服、据介绍)、日语口语(相続税、気を付けてください)、LaTeX/Wikipedia 元数据(默认关闭)与预训练特殊 token(默认关闭)。每则探针要求模型逐字复述目标。失配分为 omit/substitute/partial/refuse;当代换匹配文档记载的近邻(祺→琪、嘉祺→千玺 等)时展示历史注释。
诚实范围。我们尚无 GPT-5 / Claude / Gemini / DeepSeek / Qwen / Llama 4 的实测失配表。当前维度报告失效模式,但不对具体「被替代模型」投票——仅贡献「该 SFT 管线有异」信号。未来加入实测基线后可投票。
权重重平衡
默认权重合计 100。某维度不可用(如 logprobs 关闭或无流式)时,其权重按比例分摊到其余可用维度。效果:verdict 仍反映 100% 的可用证据,而不会因为非实质性缺项拉低置信度。
logprobs 不可用时,我们额外将最终置信度上限封顶 70,且「确认被替换」标签(阈值 80)不可达——强证据仍强,但缺最强信号时标题数字不能到 99。这是有意在假阳性/假阴性之间倾向后者。
局限与诚实披露
- 12 维彼此相关。多条共享同批探针响应(tokenizer 探针同时喂 Logprobs 与 Tokenizer 边界;流式响应同时喂 ITT 与 Latency)。加权和是记分卡,非独立检验的贝叶斯组合。
- LLMmap 是对论文训练分类器的启发式近似。论文 95% 数字不适用于本实现。
- MMD 需要 baseline;ITT 需要流式。输入缺失时维度报「不可用」并把权重捐给其余维度。请先审计可信端点并保存 baseline,再审计可疑端点。
- 非对抗稳健。若中转识别探针集,仅对这些探针透传真模型,我们今天无力防御。
- 单条信号说明不了什么。MMD 显著、logprobs 被拒、或拒绝模板不符都有大量合理解释。标签报告模式;含义由你判断。
TrueLLMs 不是什么
- 不是诈骗指控。我们报告「可能被替换」,不说「骗局」。
- 不是持续监控。账单异样时手动跑一次即可。
- 不能、也无法证明正向身份。干净跑一次仍可能与「完美守法中转」一致。
参考文献
- Pasquini et al. LLMmap: Fingerprinting Large Language Models. USENIX Security 2025. arXiv:2407.15847.
- Gao et al. Model Equality Testing: Which Model is this API Serving? ICLR 2025. arXiv:2410.20247.
- Alhazbi et al. LLMs Have Rhythm: Fingerprinting Large Language Models Using Inter-Token Times and Network Traffic Analysis. 2025. arXiv:2502.20589.
- MiniMax. 稀疏 token 遗忘与 lm_head 漂移:「马嘉祺」案例。内部调查纪要,2026 年 5 月。
- OpenAI. tiktoken:OpenAI 模型的 BPE tokenizer。github.com/openai/tiktoken.
试一试
打开审计工具,对你的中转跑一遍「快速」预设。大约一分钟。