7 篇文章带有标签 “Whisper”

WhisperLiveKit - 实时语音识别

实时、完全本地化的语音转文本,带说话人识别功能

docker run -it \
    --ipc=host \
    --net=host \
    --runtime=nvidia \
    --name=whisperlivekit \
    -v ~/.cache:/root/.cache \
    -v /models:/models \
    nvcr.io/nvidia/pytorch:25.10-py3 \
    bash
mkdir -p .cert && cd .cert

openssl req -x509 -newkey rsa:4096 \
  -keyout key.pem \
  -out cert.pem \
  -days 365 \
  -nodes \
  -subj "/C=CN/ST=ShanDong/L=JiNan/O=LNSoft/OU=LNSoft/CN=localhost/emailAddress=wjj@163.com"
  • -x509:生成自签名证书
  • -newkey rsa:4096:新建 4096 位 RSA 密钥
  • -keyout key.pem:输出私钥文件
  • -out cert.pem:输出证书文件
  • -days 365:证书有效期 365 天
  • -nodes:不加密私钥(即无需输入密码)
  • -subj:直接指定证书主题,跳过交互式输入

vLLM:快速易用的 LLM 推理和服务库

在下载前,请先通过如下命令安装 ModelScope

pip install modelscope

ModelScope 下载默认存储到 ~/.cache/modelscope/hub(Linux/macOS)或 C:\Users<用户名>.cache\modelscope\hub(Windows)。--local_dir 参数可以指定下载目录。

modelscope download --model Qwen/Qwen2.5-VL-7B-Instruct --local_dir Qwen2.5-VL-7B-Instruct
modelscope download --model openai-mirror/whisper-large-v3-turbo --local_dir whisper-large-v3-turbo

whisper.cpp

models/generate-coreml-model.sh large-v3 --encoder-only True
time ./main -m models/ggml-large-v3.bin -f test.wav -l auto 
Neon & MPS 👍 CoreML 🚀 (47%)
load time 1007.19 ms 859.73 ms
mel time 216.87 ms 224.71 ms
sample time 3550.35 ms 2659.66 ms
encode time 7821.69 ms 5801.61 ms
decode time 2958.22 ms 4105.18 ms
batchd time 88241.95 ms 54016.19 ms
prompt time 1618.32 ms 1218.58 ms
total time 105432.62 ms 71318.02 ms
cpu time 1:45.50 1:11.44

速度提高了,但效果下降了。

Whisper 语音识别

文件上传目前限制为 25 MB,并且支持以下输入文件类型:mp3, mp4, mpeg, mpga, m4a, wav, webm.

她认为人工智能技术应该是以人为本的,强调人工智能技术应该是一种能够服务于人类的工具,而不是取代人类的工具。

她指出,人工智能技术的最终目的是为人类服务,因此人工智能技术应该以人类的利益和需求为中心,以解决人类面临的实际问题。人工智能技术的应用需要深入了解人类社会的需要和价值,将其应用到真正有意义的领域中。

Miramurati是一位对人工智能技术充满热情的科技领袖 他的理念和影响对人工智能技术的发展和应用产生了深远的影响 他认为人工智能技术应该是以人为本的 强调人工智能技术应该是一种能够服务于人类的工具 而不是取代人类的工具 他指出人工智能技术的最终目的是为人类服务 因此人工智能技术应该以人类的利益和需求为中心 以解决人类面临的实际问题 人工智能技术的应用需要深入了解人类社会的需要和价值 将其应用到真正有意义的领域中

👍 可以看到转换的非常准确,但是缺少了标点符号,英文名字也有一点小小的问题。

Mira Murati 是一位对人工智能技术充满热情的科技领袖。 她的理念和影响对人工智能技术的发展和应用产生了深远的影响。 她认为人工智能技术应该是以人为本的, 强调人工智能技术应该是一种能够服务于人类的工具, 而不是取代人类的工具。

在 MacBook Pro M2 Max 上测试 Whisper

转录(X->X)

whisper test.wav --model small

翻译(X->English)

whisper test.wav --model small --task translate

使用 time 命令测试使用资源详情和度量

model user(s) system(s) cpu total(s) 内存
tiny 7.13 6.01 358% 3.664 370M
base 12.21 10.29 362% 6.211 430M
small 39.15 23.90 380% 16.569 1.2G
medium 117.27 68.43 377% 49.172 3.2G
large 184.13 114.85 361% 1:22.73 6.3G

tiny [00:00.000 --> 00:04.000] 荷蘭发布了一份主题为 [00:04.000 --> 00:09.500] 宣布即将对先进半道体知道设备采取的 [00:09.500 --> 00:13.000] 出口管制措施的公告表示 [00:13.000 --> 00:17.000] 坚于技术的发展和地缘政治的背景 [00:17.000 --> 00:20.000] 政府已经得出结论 [00:20.