2 篇文章带有标签 “stt”

2026年5月13日星期三

Speech To Speech：使用开源模型构建本地语音智能体

方法

架构

本仓库实现了一个语音到语音的级联管道，包含以下部分：

语音活动检测（VAD）
语音转文本（STT）
语言模型（LM）
文本转语音（TTS）

模块化

该管道提供了一种完全开放且模块化的方法，重点是利用 Hugging Face Hub 上 Transformers 库提供的模型。代码设计易于修改，我们已经支持特定设备和外部库的实现：

VAD

Silero VAD v5

STT

通过 Transformers 🤗 在 Hugging Face Hub 上的任何 Whisper 模型检查点，包括 whisper-large-v3 和 distil-large-v3
Lightning Whisper MLX
MLX Audio Whisper - 在 Apple Silicon 上快速推理 Whisper
Parakeet TDT - 在 Apple Silicon 上实现亚 100 毫秒延迟的实时流式 STT（通过 nano-parakeet 支持 CUDA/CPU，无需 NeMo）
Paraformer - FunASR

LLM

通过 Transformers 🤗 在 Hugging Face Hub 上的任何指令遵循模型
mlx-lm
OpenAI API

TTS ChatTTS Pocket TTS - Kyutai Labs 提供的支持语音克隆的流式 TTS Kokoro-

2026-05-13 20:00

speech-to-speech 语音智能体 vad stt tts hugging-face whisper qwen3-tts mlx openai-realtime

2026年2月26日星期四

OpenClaw Voice Call 插件使用方法和工作流程详解

一、插件概述

Voice Call 是 OpenClaw 的一个核心插件，允许用户通过 AI 助手发起和接收语音通话。它支持多种电话服务提供商（Twilio、Telnyx、Plivo），并提供两种主要通话模式：通知模式（Notify）和对话模式（Conversation）。

二、插件安装和配置

1. 安装方式

# 从 npm 安装（推荐）
openclaw plugins install @openclaw/voice-call

# 从本地开发（开发模式）
openclaw plugins install ./extensions/voice-call
cd ./extensions/voice-call && pnpm install

安装后需要重启 Gateway 网关。

2. 配置

在 ~/.openclaw/config.json 文件中配置插件：

2026-02-26 18:00

openclaw voice-call twilio telnyx plivo tts stt webhook cpaas sip