OpenAI 隐私过滤器实测胜出 — 但严格匹配翻车，分词器偏移是元凶

有开发者在 600 条 PII（个人身份信息，如姓名、邮箱、电话等可识别个人的数据）样本上对比 OpenAI 开源的 privacy-filter 与 GLiNER，边界重叠 F1 达 0.498 对 0.416 — 但严格匹配下 OpenAI 只有 0.155，差了 20 个点。这提醒我们：评测数字会骗人，分词器的偏移才是真问题。

这是什么

两个模型都做同一件事：从文本中找出并标记 PII。GLiNER large-v2.1 约 300M 参数，零样本检测（不需要训练数据，直接输入实体类型名称即可识别），支持自定义实体类型。OpenAI 的 privacy-filter 总参数 1.5B，但采用稀疏 MoE（混合专家架构，每次推理只激活部分参数），实际每次前向传播仅 50M 参数活跃。

实测 CPU 推理速度：privacy-filter 约 2.8 条/秒，GLiNER 约 1.1 条/秒。OpenAI 快了 1.5 倍。但 privacy-filter 有一个坑：GPT 风格的 BPE 分词器会在大多数 token 前加空格，导致解码回字符位置时整体偏移一位。严格匹配评分下它惨不忍睹，换成边界重叠（只要字符范围有任何重叠且标签正确就算对）它反而赢了。

分类别看，privacy-filter 在人名、邮箱、电话、日期上胜出；GLiNER 在地址上更好。邮箱检测基本已解决：英文 0.987，多语言 1.000。

行业怎么看

我们注意到这个测试的核心价值不在谁赢谁输，而在于揭示了 PII 检测落地的两个现实问题：一是评测标准的选择直接影响结论，严格匹配对生产环境更安全，但边界重叠更接近实际需求；二是 GLiNER 的默认阈值 0.5 留了 F1 在桌上，调到 0.7 能提升约 8 个点，说明开源模型的默认配置未必是最优解。

反对声音同样值得重视：privacy-filter 目前需要 trust_remote_code=True 且依赖 transformers 的 dev 分支，模型类还没进稳定版。这意味着生产部署存在供应链风险。此外它只支持 8 种预设实体类型，无法扩展 — 如果你需要检测「工号」「合同编号」这类自定义字段，GLiNER 的零样本接口是唯一选择。

对普通人的影响

对企业 IT：PII 检测的本地部署方案多了一个高性能选项，但隐私过滤器的稳定性不足以上生产，建议等正式版。需要高召回率（宁可多删不能漏删）的场景仍选 GLiNER。

对个人职场：数据脱敏工具链在快速成熟，处理客户数据前的自动清洗正变成标配能力，值得了解。

对消费市场：普通人暂时无感，但企业级 PII 检测的进步意味着你的聊天记录、文档被 AI 训练前被自动脱敏的概率在提高。

OpenAI 隐私过滤器实测胜出 — 但严格匹配翻车，分词器偏移是元凶

这是什么

行业怎么看

对普通人的影响

相关推荐

开发者开始讨论模型“种子站”——开源大模型分发正暴露单点风险

OpenAI 拿黑洞模拟做案例，说明编程 Agent 正从写代码走向做科研助手

一则 Reddit 讨论点破本地 Agent 价值：省钱之外，更关键是可控与可持续

Miles 把强化学习从实验室搬进企业，AI Agent 训练开始补工程课

一则 Reddit 提问暴露新需求：本地大模型开始试探心理分析，但风险先于机会

4 比特量化没把模型“压坏”，关键不在压缩而在补偿计算