全部维度

检测维度 · 权重 15%

Tokenizer 边界探测

本维度检测什么

Tokenizer 会在非常规字符处以可预期边界切分。让模型复述已知 unicode 密集串,即便无 logprobs 也能暴露所用 tokenizer。

算法

发送三类复述 prompt:中文诗、带多字节键的 JSON、emoji 阶梯。按族计算 prompt_tokens / 本地计数的比值。三则比值标准差 < 0.10 表示 tokenizer 一致;> 0.15 强烈提示静默重分词或混合后端。

阈值

条件对 verdict 的贡献
std(ratio) < 0.10Tokenizer 一致
0.10 ≤ std < 0.15边界情况
std ≥ 0.15不匹配

局限

自定义 merge 或微调词表(如专有代码模型)可与基础 BPE 合理偏离。

参考文献

  • TrueLLMs lib/tokenizer/index.ts

返回完整方法论