openai-realtime - 标签 - 军舰的日志

方法

架构

本仓库实现了一个语音到语音的级联管道，包含以下部分：

模块化

该管道提供了一种完全开放且模块化的方法，重点是利用 Hugging Face Hub 上 Transformers 库提供的模型。代码设计易于修改，我们已经支持特定设备和外部库的实现：

VAD

STT

通过 Transformers 🤗 在 Hugging Face Hub 上的任何 Whisper 模型检查点，包括 whisper-large-v3 和 distil-large-v3
Lightning Whisper MLX
MLX Audio Whisper - 在 Apple Silicon 上快速推理 Whisper
Parakeet TDT - 在 Apple Silicon 上实现亚 100 毫秒延迟的实时流式 STT（通过 nano-parakeet 支持 CUDA/CPU，无需 NeMo）
Paraformer - FunASR

LLM

TTS ChatTTS Pocket TTS - Kyutai Labs 提供的支持语音克隆的流式 TTS Kokoro-

1 篇文章带有标签 “openai-realtime”