面壁智能这周放出 VoxCPM2:一个 20 亿参数、支持 30 种语言的开源 TTS(文本转语音)模型,这意味着高质量的声音克隆门槛正被大幅拉低。

这是什么

VoxCPM2 是面壁智能与清华联合推出的最新语音合成模型。传统 TTS 通常把声音切碎成编码(离散音频分词器),再拼起来,这个过程容易丢失呼吸、情绪等细节。VoxCPM2 则采用“连续语音表征”(直接在连续波形空间建模生成),相当于不切碎,直接画出完整的声音曲线,因此生成的语音更自然。它的核心卖点是:第一,支持 30 种语言和 9 种中文方言,直接输入文本即可合成;第二,音色设计和可控克隆——你可以用自然语言“捏”一个全新声音,也可以给一段音频克隆声音,还能用文字指令控制克隆声音的情绪和语速;第三,Apache-2.0 协议开源,原生输出 48kHz 高保真音频,可免费商用。

行业怎么看

我们注意到,开源语音模型在性能上正快速逼近闭源产品。VoxCPM2 在公开评测中已可与 MiniMax 等闭源模型比肩,这对中小型企业是个好消息,意味着他们有了低成本的本地化语音方案,不用再受制于大厂 API 的调用成本和隐私限制。但我们更应关心其落地门槛和风险。虽然模型开源,但 20 亿参数加上高保真输出,推理算力成本并不低(官方测试在 RTX 4090 上实时率约 0.3),中小企业真要跑起来还得掂量硬件投入。更棘手的是,随着克隆门槛降到只需几秒钟音频,Deepfake 语音诈骗风险在急剧上升,行业至今缺乏有效的声音溯源与防伪机制。

对普通人的影响

对企业 IT:客服系统、有声内容制作可直接本地部署开源模型,摆脱对外部 API 的依赖,降低长期运营成本。对个人职场:初级配音、有声书演播等纯语音执行工种将面临自动化挤压,个人“声音资产”的授权与确权会变成现实问题。对消费市场:我们将听到更自然、甚至带方言口音的 AI 语音,数字陪伴、车载助手的拟真体验会显著提升。