← 返回项目列表
MOSS-TTS-Nano 是 OpenMOSS/MOSI.AI 开源的 0.1B 参数多语言小型语音生成模型,主打实时语音生成、CPU 友好、语音克隆、ONNX 部署和轻量产品集成。它适合用于端侧朗读、浏览器阅读、轻量语音助手、教育/陪练产品、客服话术播报等对延迟和部署成本敏感的场景。售前上最大的亮点是“不是追求最大模型,而是追求可部署、低成本、可本地运行的 TTS 能力”。

1. 项目概览

维度信息
项目OpenMOSS/MOSS-TTS-Nano
定位Multilingual tiny speech generation model
参数规模0.1B
主要语言Python
开源协议Apache-2.0
创建时间2026-04-10
最近推送2026-06-02
GitHub 热度2026-06-30 查询:约 3.8k stars、483 forks、58 open issues
支持语言README 列出 20 种语言
关键能力语音克隆、流式推理、CPU/ONNX、长文本分块、Web Demo、CLI

官方概念图与架构图:

2. 它主要能做什么

能力说明售前价值
多语言 TTS支持中文、英文、日语、韩语、法语、德语等 20 种语言适合出海、多语言播报、学习类产品
语音克隆通过参考音频生成相似音色语音可做品牌音色、虚拟老师、个性化朗读
流式推理面向低延迟和首包音频速度适合实时助手和交互式语音产品
CPU 友好0.1B 小模型,README 称流式生成可在 4 核 CPU 上运行降低部署成本,适合边缘/本地演示
ONNX CPU 版本无 PyTorch 依赖,ONNX Runtime CPU 推理更容易集成到轻量服务和端侧应用
浏览器/插件路线官方提到 Reader 可直接在浏览器扩展中运行适合本地阅读器、网页朗读、隐私场景
Android 示例提供 Android ONNX Runtime smoke example可验证移动端集成可行性
微调代码2026-04-16 发布 finetuning code有定制音色/领域风格需求可进一步探索

3. 支持语言

README 当前列出 20 种语言:中文、英文、德语、西班牙语、法语、日语、意大利语、匈牙利语、韩语、俄语、波斯语、阿拉伯语、波兰语、葡萄牙语、捷克语、丹麦语、瑞典语、希腊语、土耳其语等。

售前上这意味着它不只适合中文朗读,也可以进入跨境电商、海外教育、出海客服、国际化内容播报等场景。但每种语言的实际自然度和口音表现仍需用客户样本验证。

4. 适用场景

场景适配度说明
教育产品朗读/陪练小模型、低延迟、多语言,适合句子级/段落级朗读
企业知识库语音播报将文本答案转语音,本地部署可保护隐私
浏览器阅读插件官方已有 MOSS-TTS-Nano-Reader 方向
轻量语音助手中高低延迟 TTS 可作为语音 Agent 输出层
移动端/边缘端 TTS中高ONNX + Android 示例具备端侧探索价值
品牌音色克隆支持参考音频,但商用需严格授权
影视级配音中低0.1B 小模型更偏实时和轻量,不应过度承诺顶级音质

5. 不太适合的场景

不适合点原因
对极致拟人情感表达要求很高小模型定位是轻量实时,复杂情感和表演力可能不如大模型/商业 TTS
未获得音色授权的声音克隆声音克隆涉及肖像权、人格权和合规风险
高并发云服务直接上线需要服务化、限流、队列、缓存、监控、鉴权和合规审计
严格播音级质量要用真实脚本评测发音、停顿、韵律、口音和长文本稳定性

6. 架构理解

MOSS-TTS-Nano 使用 Audio Tokenizer + LLM 的纯自回归架构。可以这样给客户解释:

  1. 音频先通过 MOSS-Audio-Tokenizer-Nano 转成离散音频 token。
  2. TTS 模型像语言模型生成文字 token 一样生成音频 token。
  3. 音频 tokenizer 再把 token 解码成 48 kHz、双声道音频。

官方还提供 MOSS-Audio-Tokenizer-Nano 架构与评测图:

这个架构的售前卖点是统一音频 token 表示,后续可以扩展到 MOSS-TTS 家族中的语音、对话、音效等模型。但对当前客户落地,最实际的还是 Nano 的轻量部署。

7. 怎么用

环境:

conda create -n moss-tts-nano python=3.12 -y
conda activate moss-tts-nano

git clone https://github.com/OpenMOSS/MOSS-TTS-Nano.git
cd MOSS-TTS-Nano

pip install -r requirements.txt
pip install -e .

语音克隆:

python infer.py \
  --prompt-audio-path assets/audio/zh_1.wav \
  --text "欢迎关注模思智能、上海创智学院与复旦大学自然语言处理实验室。"

本地 Web Demo:

python app.py

打开:

http://127.0.0.1:18083

ONNX CPU 推理:

python infer_onnx.py \
  --prompt-audio-path assets/audio/zh_1.wav \
  --text "Welcome to the ONNX Runtime CPU demo."

CLI:

moss-tts-nano generate \
  --backend onnx \
  --prompt-speech assets/audio/zh_1.wav \
  --text "欢迎关注模思智能、上海创智学院与复旦大学自然语言处理实验室。"

服务模式:

moss-tts-nano serve --backend onnx

8. 售前可以怎么讲

一句话定位:

“MOSS-TTS-Nano 是一个可本地运行、CPU 友好、支持语音克隆和多语言的轻量 TTS 模型,适合把 AI 应用的文本输出变成低延迟语音输出。”

客户价值映射:

客户痛点MOSS-TTS-Nano 价值
商业 TTS 成本高、隐私顾虑强可本地部署,适合隐私数据和离线演示
端侧语音能力难集成ONNX CPU、Android 示例降低集成门槛
AI 助手只有文字不够自然可作为语音 Agent 的输出层
教育/阅读产品需要多语言朗读支持多语言,适合学习、朗读、跟读
希望有品牌音色参考音频 voice clone 可做概念验证

9. PoC 建议

PoC 项验收指标
中文长文本朗读错读率、停顿自然度、长文本稳定性
多语言朗读目标语言自然度、口音接受度、语速
语音克隆音色相似度、授权流程、参考音频长度要求
CPU/ONNX 性能首包延迟、实时率、CPU 占用、内存
移动端验证Android demo 能否跑通,模型体积与耗电
语音助手链路LLM 生成文本 -> TTS 流式播放的端到端延迟

建议售前准备三类音频样本:普通朗读、业务话术、互动短句。不要只测一句短文本,必须测长文本、数字、英文缩写、人名、专业术语和中英混读。

10. 常见客户问题

问题回答建议
它能在 CPU 上跑吗?官方强调 CPU 友好,并提供 ONNX CPU 版本;实际性能要按客户硬件压测。
能声音克��吗?可以用参考音频进行 voice clone,但必须确保声音授权和合规。
支持移动端吗?官方提供 Android ONNX Runtime 示例,适合做可行性验证,正式产品仍需优化模型包体和性能。
和商业 TTS 比怎么样?商业 TTS 可能在稳定性、音色库、SLA 上更成熟;MOSS-TTS-Nano 的优势是开源、轻量、本地、可定制。
能做实时语音助手吗?可以作为 TTS 输出层候选,但端到端体验还取决于 ASR、LLM、对话管理和音频播放管线。

11. 风险和注意事项

  1. 声音克隆合规:必须有明确授权,尤其是员工、主播、老师、客服等真人音色。
  2. 音质需实测:小模型追求部署效率,不能默认达到顶级商业配音质量。
  3. 语言覆盖不等于质量均等:20 种语言都要按目标市场单独验收。
  4. 依赖安装:README 提到 WeTextProcessing / pynini 可能需要额外处理。
  5. 生产化仍需服务层:鉴权、并发、缓存、日志、审计、文本清洗、敏感词控制都要补。

12. 我的售前判断

MOSS-TTS-Nano 的优势很明确:轻量、开源、可本地、可 ONNX、可语音克隆。它不是用来和最强商业 TTS 在情感表现上硬碰硬的,而是非常适合“需要把语音能力放到边缘、本地、浏览器或轻量服务里”的客户。

售前推荐用于教育、阅读、AI 助手、企业知识库语音播报、端侧语音 demo。推进时要用客户真实文本和目标硬件做 PoC:如果 CPU 延迟、音质和合规都能过关,它可以成为非常有性价比的 TTS 方案组件。

13. 参考资料

  • GitHub: https://github.com/OpenMOSS/MOSS-TTS-Nano
  • Demo: https://openmoss.github.io/MOSS-TTS-Nano-Demo/
  • Hugging Face: https://huggingface.co/OpenMOSS-Team/MOSS-TTS-Nano
  • ModelScope: https://modelscope.cn/models/openmoss/MOSS-TTS-Nano
  • 论文: https://arxiv.org/abs/2603.18090
  • ONNX 权重: https://huggingface.co/OpenMOSS-Team/MOSS-TTS-Nano-100M-ONNX