6 篇文章带有标签 “audio”

2023年5月26日星期五

Whisper 语音识别

Whisper

功能

将音频转录成音频所使用的任何语言。
将音频翻译并转录成英文。

文件上传目前限制为 25 MB，并且支持以下输入文件类型：mp3, mp4, mpeg, mpga, m4a, wav, webm.

语音内容

Mira Murati 是一位对人工智能技术充满热情的科技领袖，她的理念和影响对人工智能技术的发展和应用产生了深远的影响。

她认为人工智能技术应该是以人为本的，强调人工智能技术应该是一种能够服务于人类的工具，而不是取代人类的工具。

她指出，人工智能技术的最终目的是为人类服务，因此人工智能技术应该以人类的利益和需求为中心，以解决人类面临的实际问题。人工智能技术的应用需要深入了解人类社会的需要和价值，将其应用到真正有意义的领域中。

OpenAI Whisper

安装 OpenAI

!pip install -U openai

测试

语音识别

import openai
audio_file= open("data/audios/test.m4a", "rb")
transcript = openai.Audio.transcribe("whisper-1", audio_file)
print(transcript["text"])

Miramurati是一位对人工智能技术充满热情的科技领袖他的

2023-05-26 08:00

2023年5月5日星期五

OpenAI API Documentation Speech to Text

开发文档

Speech to text

API reference Audio

查看音频文件信息

file

data/podcast_clip.mp3: Audio file with ID3 version 2.4.0, contains: MPEG ADTS, layer III, v1, 64 kbps, 44.1 kHz, Stereo

ffprobe ffprobe -hide_banner data/podcast_clip.mp3 Input #0, mp3, from 'data/podcast_clip.mp3': Metadata: major_brand : M4A minor_version : 512 compatible_brands: M4A isomiso2 date : 2023-02-06 14:59 title : "Clip created on ListenNotes.com" encoder : Lavf58.76.100 Duration: 00:03:00.04, start: 0.025057, bitrate: 128 kb/s Stream #0:0: Audio: mp3, 44100 Hz, stereo, fltp, 128 kb/s Metadata: encoder : Lavc58.

2023-05-05 10:00

openai whisper speech-to-text audio api python transcription translation macos macbookpro

PaddleSpeech 快速入门

PaddleSpeech

介绍

PaddleSpeech 是基于飞桨 PaddlePaddle 的语音方向的开源模型库，用于语音和音频中的各种关键任务的开发，包含大量基于深度学习前沿和有影响力的模型。

功能

语音识别
语音合成
声音分类
声纹提取
标点恢复
语音翻译

学习

安装

conda create -n paddlespeech python==3.10.9
conda activate paddlespeech

pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple
pip install pytest-runner paddlespeech

pip install "numpy<1.24"

测试数据下载

wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/zh.wav
wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/en.wav

FAQ paddlespeech asr --lang zh --input zh.

2023-05-05 08:00

paddlespeech paddlepaddle audio python pip numpy machine-learning deep-learning text-to-speech speech-to-text

2023年4月30日星期日

Hugging Face 快速入门

Hugging Face

Hugging Face 是所有机器学习任务的大本营。您可以在这里找到开始一项任务所需的内容：演示、用例、模型、数据集等等！

创建和托管很棒的机器学习演示

Solutions

Expert Acceleration Program（专家加速计划）- 加速您的 ML 路线图

从我们屡获殊荣的机器学习专家那里获得指导。我们组建了一个世界一流的团队，帮助客户更快地构建更好的 ML 解决方案。

机器学习的成功取决于为用例找到最佳架构、微调模型并将它们部署到生产环境中。所有这些都需要经验和技能的正确结合。我们的专家加速计划提供必要的技术专长，以实施最先进的技术、做出更好的决策并更快地进入市场。

如何为我的用例微调（fine-tune）模型？哪些基础架构（base architectures）？多少训练数据？

如何优化我的模型以获得最小延迟（latency）？蒸馏（Distillation）。汇编（Compilation）。量化（Quantization）。修剪（Pruning）。我们可以指导您完成每一步。

如何优化我的生产环境？调整您的 CPU、GPU 或 AI 加速器配置以获得最大性能。

如何在 SageMaker 中使用 Transformers？模型并行性（model parallelism）、数据并行性（data parallelism）、部署（deployment）等。

2023-04-30 08:00

hugging-face transformers model-deployment datasets computer-vision nlp audio machine-learning ai

2023年3月4日星期六

在 MacBook Pro M2 Max 上使用 FFmpeg

Apple 芯片上进行硬件加速的框架

Video Toolbox

VideoToolbox 是一个低级框架，可提供对硬件编码器和解码器的直接访问。它提供视频压缩和解压缩服务，以及存储在 CoreVideo 像素缓冲区中的光栅图像格式之间的转换。这些服务以会话对象（压缩、解压缩和像素传输）的形式提供。

VideoToolbox还包括一些命令行工具，例如vttool、vtenc、vtdecode等，可以在终端中使用。这些工具可以用来检查视频的属性、转码视频、将视频转换为图像序列等任务。

Audio Toolbox

AudioToolbox 是一个音频处理框架，支持音频处理的硬件加速，它提供了一系列用于音频编码、解码、转换和处理的API接口。

安装 FFmpeg

static FFmpeg binaries for macOS 64-bit

创建目录

mkdir /opt/ffmpeg && cd /opt/ffmpeg

方法一：使用 curl

curl https://evermeet.cx/ffmpeg/ffmpeg-6.0.7z | tar -xz
curl https://evermeet.cx/ffmpeg/ffprobe-6.0.7z | tar -xz
curl https://evermeet.cx/ffmpeg/ffplay-6.0.7z | tar -xz

2023-03-04 08:00

ffmpeg macos macbookpro apple-silicon videotoolbox audiotoolbox hardware-acceleration video audio

2021年3月22日星期一

IoT 硬件：Raspberry Pi ReSpeaker 智能语音识别双麦克风阵列

树莓派4

硬件概述

烧录系统

wget https://downloads.raspberrypi.org/rpd_x86/images/rpd_x86-2021-01-12/2021-01-11-raspios-buster-i386.iso
dd if=2021-01-11-raspios-buster-i386.iso of=/dev/sdc bs=10M

ReSpeaker 2-Mics Pi HAT

ReSpeaker 2-Mics Pi HAT是专为AI和语音应用设计的Raspberry Pi双麦克风扩展板。这意味着您可以构建一个集成Amazona语音服务等的功能更强大，更灵活的语音产品。

该板是基于WM8960开发的低功耗立体声编解码器。电路板两侧有两个麦克风采集声音，还提供3个APA102 RGB LED，1个用户按钮和2个板载Grove接口，用于扩展应用程序。此外，3.5mm音频插孔或JST 2.0扬声器输出均可用于音频输出。

硬件概述

产品特征

配置

$ sudo raspi-config

打开 I2C

3 Interface Options Configure connections to peripherals
P5 I2C Enable/disable automatic loading of I2C kernel module
Yes

2021-03-22 00:00

raspberry-pi respeaker microphone iot hardware audio speech-to-text