TrueLLMs

Token Usage & Model Identity Audit · OpenAI-Compatible

配置面板
API 凭据与采样参数。所有数据仅在浏览器内存中。
Stream启用以测量 TTFT
Logprobs最强身份证据
Context Probe耗 token 较多
保存日志详情入表
测试集
选择启用的探测项。每组可独立开关。

基础 Usage

9/9
全选
中文短文chinese

请用一句话解释什么是大语言模型。

中文长文long

请详细介绍 Transformer 架构的核心创新点,包括 self-attention 机制、multi-head attention、位置编码、残差连接以及 layer normalization 的作用,并说明它相比传统 RNN/CNN 的优势。

English shortenglish

Define machine learning in one sentence.

English longlong

Explain the difference between supervised learning, unsupervised learning, and reinforcement learning. Provide one concrete example for each, and discuss when you would choose each approach in practice.

代码片段code

用 Python 实现一个二叉搜索树,包含 insert、search、delete、in-order traversal 方法。

JSON 结构json

生成一个包含 5 个用户的 JSON 数组,每个用户有 id、name、email、age、tags(数组)字段。

中英混合mixed

用中文解释 backpropagation 的原理,并用英文给出 chain rule 的数学公式。

极短 promptshort

Hi.

数字密集code

请计算 1234567890 的平方,并说明结果中各位数字的特点。

运行区Mock 数据Direct
预检 → Usage → Identity 三阶段执行
待运行0 / 35
实时日志0
尚无日志
Dashboard A · Token Usage 审计
平均 Prompt Ratio
1.379
高于预期
平均 Completion Ratio
1.503
高于预期
固定偏移估计
-4.7
tokens / 请求
高风险样本
9
/ 26 样本
综合风险等级
严重异常
模式: Tokenizer 不匹配
线性回归证据

不同类别 prompt 的 ratio 离散度 2.34,疑似 tokenizer 与声称模型不匹配

slope a = 1.780intercept b = -4.75R² = 0.719置信度 = 90%
Dashboard B · Model Identity 审计
综合判定
Inconclusive
基于 9 个独立维度加权汇总。任何单一信号不足以定性。
37
异常置信度
37/100
越高越偏离声称模型
模型对比
声称:gpt-4o
推测:unknown
9 维度信号灯
Logprobs 指纹
28.7%
Tokenizer 边界
23%
响应延迟与速率
11.5%
自我识别探测
5.7%
金丝雀 Prompt
11.5%
拒绝边界探测
3%
上下文窗口
10%
缓存命中检测
11.5%
风格计量
8%
证据链
展开每个维度查看完整推理过程与原始证据

可视化图表
核心散点图揭示偏差模式:固定偏移产生平移,比例上浮产生倾斜
详细结果
名称类别本地 Pt远端 PtP Ratio本地 Ct远端 CtC RatioTTFTtok/sLogp风险
Emoji 探针tokenizer-probe20221.10030321.067210ms178轻微差异
CJK 探针tokenizer-probe18191.05612131.083200ms180正常
Strawberry r 计数canary14141.00012121.000190ms185正常
9.11 vs 9.9canary16161.000441.000195ms180正常
直接询问self-id10101.00018181.000195ms178正常
缓存样本 #1 (1/3)cache12121.00032321.000210ms175正常
缓存样本 #1 (2/3)cache12121.00036361.000205ms178正常
缓存样本 #1 (3/3)cache12121.00038381.000200ms180正常
风格样本 #1stylometry14141.00050501.000195ms175正常
风格样本 #2stylometry14141.00053531.000200ms176正常
风格样本 #3stylometry14141.00056561.000205ms177正常
风格样本 #4stylometry14141.00059591.000210ms178正常
风格样本 #5stylometry14141.00062621.000215ms179正常
风格样本 #6stylometry14141.00065651.000220ms180正常
中文短文chinese28291.03638391.026220ms165正常
English shortenglish12121.00028281.000195ms178正常
English longlong65671.0313203221.006240ms172正常
代码片段code221024.6361801881.044230ms168严重异常
JSON 结构json351173.3432202261.027215ms175严重异常
中英混合mixed421212.8812802851.018225ms170严重异常
极短 promptshort8101.25012151.250200ms180高度可疑
数字密集code20251.25060751.250210ms175高度可疑
中文长文long60751.2504005001.250230ms168高度可疑
完成异常 #1english10111.10022381.727200ms180严重异常
完成异常 #2english891.12511212.000195ms178严重异常
CJK 异常chinese1001801.8001502001.333220ms170严重异常