2 篇文章带有标签 “stt”

Speech To Speech:使用开源模型构建本地语音智能体

方法

架构

本仓库实现了一个语音到语音的级联管道,包含以下部分:

  1. 语音活动检测(VAD)
  2. 语音转文本(STT)
  3. 语言模型(LM)
  4. 文本转语音(TTS)

模块化

该管道提供了一种完全开放且模块化的方法,重点是利用 Hugging Face Hub 上 Transformers 库提供的模型。代码设计易于修改,我们已经支持特定设备和外部库的实现:

VAD

STT

LLM

TTS ChatTTS Pocket TTS - Kyutai Labs 提供的支持语音克隆的流式 TTS Kokoro-

OpenClaw Voice Call 插件使用方法和工作流程详解

一、插件概述

Voice Call 是 OpenClaw 的一个核心插件,允许用户通过 AI 助手发起和接收语音通话。它支持多种电话服务提供商(Twilio、Telnyx、Plivo),并提供两种主要通话模式:通知模式(Notify)和对话模式(Conversation)。

二、插件安装和配置

1. 安装方式

# 从 npm 安装(推荐)
openclaw plugins install @openclaw/voice-call

# 从本地开发(开发模式)
openclaw plugins install ./extensions/voice-call
cd ./extensions/voice-call && pnpm install

安装后需要重启 Gateway 网关。

2. 配置

~/.openclaw/config.json 文件中配置插件: