1. 项目概览
| 维度 | 信息 |
|---|---|
| 项目 | OpenMOSS/MOSS-TTS-Nano |
| 定位 | Multilingual tiny speech generation model |
| 参数规模 | 0.1B |
| 主要语言 | Python |
| 开源协议 | Apache-2.0 |
| 创建时间 | 2026-04-10 |
| 最近推送 | 2026-06-02 |
| GitHub 热度 | 2026-06-30 查询:约 3.8k stars、483 forks、58 open issues |
| 支持语言 | README 列出 20 种语言 |
| 关键能力 | 语音克隆、流式推理、CPU/ONNX、长文本分块、Web Demo、CLI |
官方概念图与架构图:


2. 它主要能做什么
| 能力 | 说明 | 售前价值 |
|---|---|---|
| 多语言 TTS | 支持中文、英文、日语、韩语、法语、德语等 20 种语言 | 适合出海、多语言播报、学习类产品 |
| 语音克隆 | 通过参考音频生成相似音色语音 | 可做品牌音色、虚拟老师、个性化朗读 |
| 流式推理 | 面向低延迟和首包音频速度 | 适合实时助手和交互式语音产品 |
| CPU 友好 | 0.1B 小模型,README 称流式生成可在 4 核 CPU 上运行 | 降低部署成本,适合边缘/本地演示 |
| ONNX CPU 版本 | 无 PyTorch 依赖,ONNX Runtime CPU 推理 | 更容易集成到轻量服务和端侧应用 |
| 浏览器/插件路线 | 官方提到 Reader 可直接在浏览器扩展中运行 | 适合本地阅读器、网页朗读、隐私场景 |
| Android 示例 | 提供 Android ONNX Runtime smoke example | 可验证移动端集成可行性 |
| 微调代码 | 2026-04-16 发布 finetuning code | 有定制音色/领域风格需求可进一步探索 |
3. 支持语言
README 当前列出 20 种语言:中文、英文、德语、西班牙语、法语、日语、意大利语、匈牙利语、韩语、俄语、波斯语、阿拉伯语、波兰语、葡萄牙语、捷克语、丹麦语、瑞典语、希腊语、土耳其语等。
售前上这意味着它不只适合中文朗读,也可以进入跨境电商、海外教育、出海客服、国际化内容播报等场景。但每种语言的实际自然度和口音表现仍需用客户样本验证。
4. 适用场景
| 场景 | 适配度 | 说明 |
|---|---|---|
| 教育产品朗读/陪练 | 高 | 小模型、低延迟、多语言,适合句子级/段落级朗读 |
| 企业知识库语音播报 | 高 | 将文本答案转语音,本地部署可保护隐私 |
| 浏览器阅读插件 | 高 | 官方已有 MOSS-TTS-Nano-Reader 方向 |
| 轻量语音助手 | 中高 | 低延迟 TTS 可作为语音 Agent 输出层 |
| 移动端/边缘端 TTS | 中高 | ONNX + Android 示例具备端侧探索价值 |
| 品牌音色克隆 | 中 | 支持参考音频,但商用需严格授权 |
| 影视级配音 | 中低 | 0.1B 小模型更偏实时和轻量,不应过度承诺顶级音质 |
5. 不太适合的场景
| 不适合点 | 原因 |
|---|---|
| 对极致拟人情感表达要求很高 | 小模型定位是轻量实时,复杂情感和表演力可能不如大模型/商业 TTS |
| 未获得音色授权的声音克隆 | 声音克隆涉及肖像权、人格权和合规风险 |
| 高并发云服务直接上线 | 需要服务化、限流、队列、缓存、监控、鉴权和合规审计 |
| 严格播音级质量 | 要用真实脚本评测发音、停顿、韵律、口音和长文本稳定性 |
6. 架构理解
MOSS-TTS-Nano 使用 Audio Tokenizer + LLM 的纯自回归架构。可以这样给客户解释:
- 音频先通过 MOSS-Audio-Tokenizer-Nano 转成离散音频 token。
- TTS 模型像语言模型生成文字 token 一样生成音频 token。
- 音频 tokenizer 再把 token 解码成 48 kHz、双声道音频。
官方还提供 MOSS-Audio-Tokenizer-Nano 架构与评测图:


这个架构的售前卖点是统一音频 token 表示,后续可以扩展到 MOSS-TTS 家族中的语音、对话、音效等模型。但对当前客户落地,最实际的还是 Nano 的轻量部署。
7. 怎么用
环境:
conda create -n moss-tts-nano python=3.12 -y
conda activate moss-tts-nano
git clone https://github.com/OpenMOSS/MOSS-TTS-Nano.git
cd MOSS-TTS-Nano
pip install -r requirements.txt
pip install -e .
语音克隆:
python infer.py \
--prompt-audio-path assets/audio/zh_1.wav \
--text "欢迎关注模思智能、上海创智学院与复旦大学自然语言处理实验室。"
本地 Web Demo:
python app.py
打开:
http://127.0.0.1:18083
ONNX CPU 推理:
python infer_onnx.py \
--prompt-audio-path assets/audio/zh_1.wav \
--text "Welcome to the ONNX Runtime CPU demo."
CLI:
moss-tts-nano generate \
--backend onnx \
--prompt-speech assets/audio/zh_1.wav \
--text "欢迎关注模思智能、上海创智学院与复旦大学自然语言处理实验室。"
服务模式:
moss-tts-nano serve --backend onnx8. 售前可以怎么讲
一句话定位:
“MOSS-TTS-Nano 是一个可本地运行、CPU 友好、支持语音克隆和多语言的轻量 TTS 模型,适合把 AI 应用的文本输出变成低延迟语音输出。”
客户价值映射:
| 客户痛点 | MOSS-TTS-Nano 价值 |
|---|---|
| 商业 TTS 成本高、隐私顾虑强 | 可本地部署,适合隐私数据和离线演示 |
| 端侧语音能力难集成 | ONNX CPU、Android 示例降低集成门槛 |
| AI 助手只有文字不够自然 | 可作为语音 Agent 的输出层 |
| 教育/阅读产品需要多语言朗读 | 支持多语言,适合学习、朗读、跟读 |
| 希望有品牌音色 | 参考音频 voice clone 可做概念验证 |
9. PoC 建议
| PoC 项 | 验收指标 |
|---|---|
| 中文长文本朗读 | 错读率、停顿自然度、长文本稳定性 |
| 多语言朗读 | 目标语言自然度、口音接受度、语速 |
| 语音克隆 | 音色相似度、授权流程、参考音频长度要求 |
| CPU/ONNX 性能 | 首包延迟、实时率、CPU 占用、内存 |
| 移动端验证 | Android demo 能否跑通,模型体积与耗电 |
| 语音助手链路 | LLM 生成文本 -> TTS 流式播放的端到端延迟 |
建议售前准备三类音频样本:普通朗读、业务话术、互动短句。不要只测一句短文本,必须测长文本、数字、英文缩写、人名、专业术语和中英混读。
10. 常见客户问题
| 问题 | 回答建议 |
|---|---|
| 它能在 CPU 上跑吗? | 官方强调 CPU 友好,并提供 ONNX CPU 版本;实际性能要按客户硬件压测。 |
| 能声音克��吗? | 可以用参考音频进行 voice clone,但必须确保声音授权和合规。 |
| 支持移动端吗? | 官方提供 Android ONNX Runtime 示例,适合做可行性验证,正式产品仍需优化模型包体和性能。 |
| 和商业 TTS 比怎么样? | 商业 TTS 可能在稳定性、音色库、SLA 上更成熟;MOSS-TTS-Nano 的优势是开源、轻量、本地、可定制。 |
| 能做实时语音助手吗? | 可以作为 TTS 输出层候选,但端到端体验还取决于 ASR、LLM、对话管理和音频播放管线。 |
11. 风险和注意事项
- 声音克隆合规:必须有明确授权,尤其是员工、主播、老师、客服等真人音色。
- 音质需实测:小模型追求部署效率,不能默认达到顶级商业配音质量。
- 语言覆盖不等于质量均等:20 种语言都要按目标市场单独验收。
- 依赖安装:README 提到 WeTextProcessing / pynini 可能需要额外处理。
- 生产化仍需服务层:鉴权、并发、缓存、日志、审计、文本清洗、敏感词控制都要补。
12. 我的售前判断
MOSS-TTS-Nano 的优势很明确:轻量、开源、可本地、可 ONNX、可语音克隆。它不是用来和最强商业 TTS 在情感表现上硬碰硬的,而是非常适合“需要把语音能力放到边缘、本地、浏览器或轻量服务里”的客户。
售前推荐用于教育、阅读、AI 助手、企业知识库语音播报、端侧语音 demo。推进时要用客户真实文本和目标硬件做 PoC:如果 CPU 延迟、音质和合规都能过关,它可以成为非常有性价比的 TTS 方案组件。
13. 参考资料
- GitHub: https://github.com/OpenMOSS/MOSS-TTS-Nano
- Demo: https://openmoss.github.io/MOSS-TTS-Nano-Demo/
- Hugging Face: https://huggingface.co/OpenMOSS-Team/MOSS-TTS-Nano
- ModelScope: https://modelscope.cn/models/openmoss/MOSS-TTS-Nano
- 论文: https://arxiv.org/abs/2603.18090
- ONNX 权重: https://huggingface.co/OpenMOSS-Team/MOSS-TTS-Nano-100M-ONNX