配置面板
API 凭据与采样参数。所有数据仅在浏览器内存中。
安全提示
API Key 仅保存在浏览器内存中,不会上传到任何服务器。强烈建议使用非生产 Key 进行审计。
Stream启用以测量 TTFT
Logprobs最强身份证据
Context Probe耗 token 较多
保存日志详情入表
测试集
选择启用的探测项。每组可独立开关。
基础 Usage
9/9全选
中文短文chinese
请用一句话解释什么是大语言模型。
中文长文long
请详细介绍 Transformer 架构的核心创新点,包括 self-attention 机制、multi-head attention、位置编码、残差连接以及 layer normalization 的作用,并说明它相比传统 RNN/CNN 的优势。
English shortenglish
Define machine learning in one sentence.
English longlong
Explain the difference between supervised learning, unsupervised learning, and reinforcement learning. Provide one concrete example for each, and discuss when you would choose each approach in practice.
代码片段code
用 Python 实现一个二叉搜索树,包含 insert、search、delete、in-order traversal 方法。
JSON 结构json
生成一个包含 5 个用户的 JSON 数组,每个用户有 id、name、email、age、tags(数组)字段。
中英混合mixed
用中文解释 backpropagation 的原理,并用英文给出 chain rule 的数学公式。
极短 promptshort
Hi.
数字密集code
请计算 1234567890 的平方,并说明结果中各位数字的特点。
运行区Mock 数据Direct
预检 → Usage → Identity 三阶段执行
待运行0 / 35
实时日志0 条
Dashboard A · Token Usage 审计
平均 Prompt Ratio
1.379
高于预期
平均 Completion Ratio
1.503
高于预期
固定偏移估计
-4.7
tokens / 请求
高风险样本
9
/ 26 样本
综合风险等级
严重异常
模式: Tokenizer 不匹配
线性回归证据
不同类别 prompt 的 ratio 离散度 2.34,疑似 tokenizer 与声称模型不匹配
slope a = 1.780intercept b = -4.75R² = 0.719置信度 = 90%
Dashboard B · Model Identity 审计
综合判定
Inconclusive基于 9 个独立维度加权汇总。任何单一信号不足以定性。
异常置信度
37/100
越高越偏离声称模型
模型对比
声称:
gpt-4o推测:
unknown9 维度信号灯
Logprobs 指纹
28.7%
Tokenizer 边界
23%
响应延迟与速率
11.5%
自我识别探测
5.7%
金丝雀 Prompt
11.5%
拒绝边界探测
3%
上下文窗口
10%
缓存命中检测
11.5%
风格计量
8%
证据链
展开每个维度查看完整推理过程与原始证据
可视化图表
核心散点图揭示偏差模式:固定偏移产生平移,比例上浮产生倾斜
详细结果
| 名称 | 类别 | 本地 Pt | 远端 Pt | P Ratio | 本地 Ct | 远端 Ct | C Ratio | TTFT | tok/s | Logp | 风险 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Emoji 探针 | tokenizer-probe | 20 | 22 | 1.100 | 30 | 32 | 1.067 | 210ms | 178 | 轻微差异 | ||
| CJK 探针 | tokenizer-probe | 18 | 19 | 1.056 | 12 | 13 | 1.083 | 200ms | 180 | 正常 | ||
| Strawberry r 计数 | canary | 14 | 14 | 1.000 | 12 | 12 | 1.000 | 190ms | 185 | 正常 | ||
| 9.11 vs 9.9 | canary | 16 | 16 | 1.000 | 4 | 4 | 1.000 | 195ms | 180 | 正常 | ||
| 直接询问 | self-id | 10 | 10 | 1.000 | 18 | 18 | 1.000 | 195ms | 178 | 正常 | ||
| 缓存样本 #1 (1/3) | cache | 12 | 12 | 1.000 | 32 | 32 | 1.000 | 210ms | 175 | 正常 | ||
| 缓存样本 #1 (2/3) | cache | 12 | 12 | 1.000 | 36 | 36 | 1.000 | 205ms | 178 | 正常 | ||
| 缓存样本 #1 (3/3) | cache | 12 | 12 | 1.000 | 38 | 38 | 1.000 | 200ms | 180 | 正常 | ||
| 风格样本 #1 | stylometry | 14 | 14 | 1.000 | 50 | 50 | 1.000 | 195ms | 175 | 正常 | ||
| 风格样本 #2 | stylometry | 14 | 14 | 1.000 | 53 | 53 | 1.000 | 200ms | 176 | 正常 | ||
| 风格样本 #3 | stylometry | 14 | 14 | 1.000 | 56 | 56 | 1.000 | 205ms | 177 | 正常 | ||
| 风格样本 #4 | stylometry | 14 | 14 | 1.000 | 59 | 59 | 1.000 | 210ms | 178 | 正常 | ||
| 风格样本 #5 | stylometry | 14 | 14 | 1.000 | 62 | 62 | 1.000 | 215ms | 179 | 正常 | ||
| 风格样本 #6 | stylometry | 14 | 14 | 1.000 | 65 | 65 | 1.000 | 220ms | 180 | 正常 | ||
| 中文短文 | chinese | 28 | 29 | 1.036 | 38 | 39 | 1.026 | 220ms | 165 | 正常 | ||
| English short | english | 12 | 12 | 1.000 | 28 | 28 | 1.000 | 195ms | 178 | 正常 | ||
| English long | long | 65 | 67 | 1.031 | 320 | 322 | 1.006 | 240ms | 172 | 正常 | ||
| 代码片段 | code | 22 | 102 | 4.636 | 180 | 188 | 1.044 | 230ms | 168 | 严重异常 | ||
| JSON 结构 | json | 35 | 117 | 3.343 | 220 | 226 | 1.027 | 215ms | 175 | 严重异常 | ||
| 中英混合 | mixed | 42 | 121 | 2.881 | 280 | 285 | 1.018 | 225ms | 170 | 严重异常 | ||
| 极短 prompt | short | 8 | 10 | 1.250 | 12 | 15 | 1.250 | 200ms | 180 | 高度可疑 | ||
| 数字密集 | code | 20 | 25 | 1.250 | 60 | 75 | 1.250 | 210ms | 175 | 高度可疑 | ||
| 中文长文 | long | 60 | 75 | 1.250 | 400 | 500 | 1.250 | 230ms | 168 | 高度可疑 | ||
| 完成异常 #1 | english | 10 | 11 | 1.100 | 22 | 38 | 1.727 | 200ms | 180 | 严重异常 | ||
| 完成异常 #2 | english | 8 | 9 | 1.125 | 1 | 12 | 12.000 | 195ms | 178 | 严重异常 | ||
| CJK 异常 | chinese | 100 | 180 | 1.800 | 150 | 200 | 1.333 | 220ms | 170 | 严重异常 |
免责声明 · 关于检测信号的解读
- 任何单一信号都不能证明中转站存在恶意行为。
- 中转站可能因合法原因导致部分信号异常:区域路由、A/B 测试、降级策略、缓存优化、合规过滤等。
- Logprobs 不可用本身可能是中转站的策略选择(隐私、成本),不必然代表偷换。
- 本工具识别的是异常模式,最终定性需用户结合上下文自行判断。
- 强烈建议在不同时间段、用多个独立中转站和官方 API 做交叉验证。
- Tokenizer 估算存在固有误差(典型 5-8%),仅作参考。
- 已知模型指纹库基于公开测试数据,可能过时;模型迭代后特征会变化。
报告中的措辞均为统计意义上的"偏离"或"信号不一致",请勿据此对任何服务方做出诈骗、欺诈等定性指控。