3 篇文章带有标签 “speech-to-speech”

2026年5月18日星期一

Reachy Mini Conversation App

源码安装

克隆 Reachy Mini Conversation App

git clone https://github.com/wang-junjian/reachy_mini_conversation_app
cd reachy_mini_conversation_app

创建虚拟环境并安装依赖

uv venv --python 3.12
source .venv/bin/activate
uv sync

⚠️ 注意：要完全复现此仓库 uv.lock 文件中的依赖关系，请运行 uv sync --frozen 命令。这将确保 uv 直接从 lock 文件安装依赖项，而无需重新解析或更新任何版本。

安装可选功能

uv sync --extra local_vision         # Local PyTorch/Transformers vision
uv sync --extra yolo_vision          # YOLO face-detection backend for head tracking
uv sync --extra mediapipe_vision     # MediaPipe-based head-tracking
uv sync --extra all_vision           # All vision features

合并额外功能或包含开发依赖项：

2026-05-18 20:00

2026年5月15日星期五

搭建 Reachy Mini 语音对话智能体

部署 Reachy Mini 语音智能体

安装 reachy_mini_conversation_app 到 Reachy Mini

在 MacBook 上运行 Reachy Mini Control，单击 Start 按钮。

在 Applications 页面，单击 Discover apps 后，搜索 reachy_mini_conversation_app。

单击 Install 按钮安装 reachy_mini_conversation_app。

MacBook 上实时模式运行 Speech To Speech

安装 Speech To Speech

uv venv --python 3.12
source .venv/bin/activate
uv pip install speech-to-speech
uv pip install "speech-to-speech[faster-whisper]"

中文

2026-05-15 20:00

reachy-mini 语音智能体 speech-to-speech reachy-mini-control hugging-face qwen3-tts mlx faster-whisper parakeet-tdt ollama

2026年5月13日星期三

Speech To Speech：使用开源模型构建本地语音智能体

方法

架构

本仓库实现了一个语音到语音的级联管道，包含以下部分：

语音活动检测（VAD）
语音转文本（STT）
语言模型（LM）
文本转语音（TTS）

模块化

该管道提供了一种完全开放且模块化的方法，重点是利用 Hugging Face Hub 上 Transformers 库提供的模型。代码设计易于修改，我们已经支持特定设备和外部库的实现：

VAD

Silero VAD v5

STT

通过 Transformers 🤗 在 Hugging Face Hub 上的任何 Whisper 模型检查点，包括 whisper-large-v3 和 distil-large-v3
Lightning Whisper MLX
MLX Audio Whisper - 在 Apple Silicon 上快速推理 Whisper
Parakeet TDT - 在 Apple Silicon 上实现亚 100 毫秒延迟的实时流式 STT（通过 nano-parakeet 支持 CUDA/CPU，无需 NeMo）
Paraformer - FunASR

LLM

通过 Transformers 🤗 在 Hugging Face Hub 上的任何指令遵循模型
mlx-lm
OpenAI API

TTS ChatTTS Pocket TTS - Kyutai Labs 提供的支持语音克隆的流式 TTS Kokoro-

2026-05-13 20:00

speech-to-speech 语音智能体 vad stt tts hugging-face whisper qwen3-tts mlx openai-realtime