Speech To Speech:使用开源模型构建本地语音智能体
方法
架构
本仓库实现了一个语音到语音的级联管道,包含以下部分:
- 语音活动检测(VAD)
- 语音转文本(STT)
- 语言模型(LM)
- 文本转语音(TTS)
模块化
该管道提供了一种完全开放且模块化的方法,重点是利用 Hugging Face Hub 上 Transformers 库提供的模型。代码设计易于修改,我们已经支持特定设备和外部库的实现:
VAD
STT
- 通过 Transformers 🤗 在 Hugging Face Hub 上的任何 Whisper 模型检查点,包括 whisper-large-v3 和 distil-large-v3
- Lightning Whisper MLX
- MLX Audio Whisper - 在 Apple Silicon 上快速推理 Whisper
- Parakeet TDT - 在 Apple Silicon 上实现亚 100 毫秒延迟的实时流式 STT(通过 nano-parakeet 支持 CUDA/CPU,无需 NeMo)
- Paraformer - FunASR
LLM
- 通过 Transformers 🤗 在 Hugging Face Hub 上的任何指令遵循模型
- mlx-lm
- OpenAI API
TTS ChatTTS Pocket TTS - Kyutai Labs 提供的支持语音克隆的流式 TTS Kokoro-



