有开发者在 600 条 PII(个人身份信息,如姓名、邮箱、电话等可识别个人的数据)样本上对比 OpenAI 开源的 privacy-filter 与 GLiNER,边界重叠 F1 达 0.498 对 0.416 — 但严格匹配下 OpenAI 只有 0.155,差了 20 个点。这提醒我们:评测数字会骗人,分词器的偏移才是真问题。
这是什么
两个模型都做同一件事:从文本中找出并标记 PII。GLiNER large-v2.1 约 300M 参数,零样本检测(不需要训练数据,直接输入实体类型名称即可识别),支持自定义实体类型。OpenAI 的 privacy-filter 总参数 1.5B,但采用稀疏 MoE(混合专家架构,每次推理只激活部分参数),实际每次前向传播仅 50M 参数活跃。
实测 CPU 推理速度:privacy-filter 约 2.8 条/秒,GLiNER 约 1.1 条/秒。OpenAI 快了 1.5 倍。但 privacy-filter 有一个坑:GPT 风格的 BPE 分词器会在大多数 token 前加空格,导致解码回字符位置时整体偏移一位。严格匹配评分下它惨不忍睹,换成边界重叠(只要字符范围有任何重叠且标签正确就算对)它反而赢了。
分类别看,privacy-filter 在人名、邮箱、电话、日期上胜出;GLiNER 在地址上更好。邮箱检测基本已解决:英文 0.987,多语言 1.000。
行业怎么看
我们注意到这个测试的核心价值不在谁赢谁输,而在于揭示了 PII 检测落地的两个现实问题:一是评测标准的选择直接影响结论,严格匹配对生产环境更安全,但边界重叠更接近实际需求;二是 GLiNER 的默认阈值 0.5 留了 F1 在桌上,调到 0.7 能提升约 8 个点,说明开源模型的默认配置未必是最优解。
反对声音同样值得重视:privacy-filter 目前需要 trust_remote_code=True 且依赖 transformers 的 dev 分支,模型类还没进稳定版。这意味着生产部署存在供应链风险。此外它只支持 8 种预设实体类型,无法扩展 — 如果你需要检测「工号」「合同编号」这类自定义字段,GLiNER 的零样本接口是唯一选择。
对普通人的影响
对企业 IT:PII 检测的本地部署方案多了一个高性能选项,但隐私过滤器的稳定性不足以上生产,建议等正式版。需要高召回率(宁可多删不能漏删)的场景仍选 GLiNER。
对个人职场:数据脱敏工具链在快速成熟,处理客户数据前的自动清洗正变成标配能力,值得了解。
对消费市场:普通人暂时无感,但企业级 PII 检测的进步意味着你的聊天记录、文档被 AI 训练前被自动脱敏的概率在提高。