hugging-face - 标签 - 军舰的日志

2026年5月15日星期五

搭建 Reachy Mini 语音对话智能体

部署 Reachy Mini 语音智能体

安装 reachy_mini_conversation_app 到 Reachy Mini

在 MacBook 上运行 Reachy Mini Control，单击 Start 按钮。

在 Applications 页面，单击 Discover apps 后，搜索 reachy_mini_conversation_app。

单击 Install 按钮安装 reachy_mini_conversation_app。

MacBook 上实时模式运行 Speech To Speech

安装 Speech To Speech

uv venv --python 3.12
source .venv/bin/activate
uv pip install speech-to-speech
uv pip install "speech-to-speech[faster-whisper]"

中文

2026-05-15 20:00

2026年5月13日星期三

Speech To Speech：使用开源模型构建本地语音智能体

方法

架构

本仓库实现了一个语音到语音的级联管道，包含以下部分：

语音活动检测（VAD）
语音转文本（STT）
语言模型（LM）
文本转语音（TTS）

模块化

该管道提供了一种完全开放且模块化的方法，重点是利用 Hugging Face Hub 上 Transformers 库提供的模型。代码设计易于修改，我们已经支持特定设备和外部库的实现：

VAD

Silero VAD v5

STT

通过 Transformers 🤗 在 Hugging Face Hub 上的任何 Whisper 模型检查点，包括 whisper-large-v3 和 distil-large-v3
Lightning Whisper MLX
MLX Audio Whisper - 在 Apple Silicon 上快速推理 Whisper
Parakeet TDT - 在 Apple Silicon 上实现亚 100 毫秒延迟的实时流式 STT（通过 nano-parakeet 支持 CUDA/CPU，无需 NeMo）
Paraformer - FunASR

LLM

通过 Transformers 🤗 在 Hugging Face Hub 上的任何指令遵循模型
mlx-lm
OpenAI API

TTS ChatTTS Pocket TTS - Kyutai Labs 提供的支持语音克隆的流式 TTS Kokoro-

2026-05-13 20:00

speech-to-speech 语音智能体 vad stt tts hugging-face whisper qwen3-tts mlx openai-realtime

2025年6月9日星期一

Qwen2.5-Omni：端到端多模态大模型

Qwen2.5-Omni是Qwen系列中全新的旗舰级端到端多模态大模型，专为全面的多模式感知设计，无缝处理包括文本、图像、音频和视频在内的各种输入，同时支持流式的文本生成和自然语音合成输出。

点击下方视频了解更多信息吧 😃

概览

简介

Qwen 2.5-Omni是一个端到端的多模态大语言模型，旨在感知包括文本、图像、音频和视频在内的多种模态，同时以流式的方式生成文本和自然语音响应。

主要特点

全能创新架构：我们提出了一种全新的Thinker-Talker架构，这是一种端到端的多模态模型，旨在支持文本/图像/音频/视频的跨模态理解，同时以流式方式生成文本和自然语音响应。我们提出了一种新的位置编码技术，称为TMRoPE（Time-aligned Multimodal RoPE），通过时间轴对齐实现视频与音频输入的精准同步。

实时音视频交互：架构旨在支持完全实时交互，支持分块输入和即时输出。

自然流畅的语音生成：在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

全模态性能优势：在同等规模的单模态模型进行基准测试时，表现出卓越的性能。Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio，并与Qwen2.5-VL-7B保持同等水平。

卓越的端到端语音指令跟随能力：Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果，在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。

2025-06-09 10:00

qwen2.5-omni qwen multimodal llm speech-recognition speech-synthesis transformers hugging-face thinker-talker tmrope

2025年2月7日星期五

Open-source DeepResearch – Freeing our search agents

Open-source DeepResearch

TLDR

Yesterday, OpenAI released Deep Research, a system that browses the web to summarize content and answer questions based on the summary. The system is impressive and blew our minds when we tried it for the first time.

昨天，OpenAI 发布了 Deep Research，这是一个浏览网页以总结内容并根据总结回答问题的系统。当我们第一次尝试时，这个系统给我们留下了深刻的印象。

One of the main results in the blog post is a strong improvement of performances on the General AI Assistants benchmark (GAIA), a benchmark we’ve been playing with recently as well, where they successfully reached near 67% correct answers on 1-shot on average, and 47.

2025-02-07 10:00

deep-research hugging-face agent smolagents gaia code-agent open-source web-search

2024年10月3日星期四

AutoTrain

安装

macOS

conda create -n autotrain python=3.10
conda activate autotrain
pip install autotrain-advanced
conda install pytorch torchvision torchaudio -c pytorch
pip install numpy==1.26.0
export HF_TOKEN=xxx
autotrain app --port 8080 --host 127.0.0.1

浏览器打开 http://127.0.0.1:8080/ui/ 以查看 AutoTrain 的界面。

2024-10-03 10:00

autotrain hugging-face model-training fine-tuning pytorch conda no-code

部署 LLM 多 LoRA 适配器的推理服务

Text Generation Inference

conda create -n text-generation-inference python=3.9
conda activate text-generation-inference

git clone https://github.com/huggingface/text-generation-inference.git && cd text-generation-inference
BUILD_EXTENSIONS=True make install

vLLM

conda create -n vllm python=3.10 -y
conda activate vllm
pip install vllm

cd ~/HuggingFace/mistralai/Mistral-7B-v0.1
git clone https://huggingface.co/predibase/magicoder adapters/magicoder

vllm serve `pwd` \
    --enable-lora \
    --lora-modules magicoder=`pwd`/adapters/magicoder

2024-10-03 10:00

lora vllm text-generation-inference multi-lora llm-inference hugging-face mistral nvidia-nim

2024年8月8日星期四

Continue 源码分析 - transformers.js 大模型提供者

Continue

Transformers.js 支持的模型

2024-08-08 08:00

continue transformers-js source-code-analysis llm-provider embeddings-provider onnx hugging-face bge ai-code-assistant

2024年4月19日星期五

Meta Llama 3

Llama3

模型

Meta-Llama-3-8b: 8B 基础模型
Meta-Llama-3-8b-instruct: 8B 基础模型的指令调优版
Meta-Llama-3-70b: 70B 基础模型
Meta-Llama-3-70b-instruct: 70B 基础模型的指令调优版
Llama Guard 2: Llama Guard 2 是基于 Llama 3 8B 微调的，为生产环境设计的，能够对大语言模型的输入（即提示）和响应进行分类，以便识别潜在的不安全内容。

下载

数据集

HuggingFaceH4/no_robots

No Robots 是由熟练的人类注释者创建的包含 10,000 条指令和演示的高质量数据集。该数据可用于监督微调（SFT），使语言模型更好地遵循指令。 No Robots 是根据 OpenAI 的 InstructGPT 论文中描述的指令数据集进行建模的。

介绍 Llama 3 最大的变化是采用了新的 Tokenizer，将词汇表大

2024-04-19 08:00

llama-3 meta ollama llm langchain transformers hugging-face llamaguard responsible-ai open-source

2023年12月20日星期三

Microsoft Phi-2

Phi-2: The surprising power of small language models

microsoft/phi-2

创建虚拟环境

conda create -n huggingface python==3.10.9
conda activate huggingface

安装依赖包

conda install pytorch torchvision -c pytorch
pip install transformers
pip install einops

下载模型

huggingface-cli download microsoft/phi-2 --local-dir microsoft/phi-2 --local-dir-use-symlinks False

代码 import torch from transformers import AutoModelForCausalLM, AutoTokenizer torch.set_default_device("mps") model = AutoModelForCausalLM.

2023-12-20 10:00

phi-2 llm hugging-face pytorch transformers microsoft apple-silicon mps small-language-models

SDXL Turbo

下载代码

git clone https://github.com/Stability-AI/generative-models.git Stability-AI/generative-models
cd Stability-AI/generative-models/

创建虚拟环境

python -m venv env
source env/bin/activate
pip install -r requirements/pt2.txt
pip install .

Apple Silicon 上没有安装成功，安装包 triton 不支持

下载模型

pip install "huggingface_hub[cli]"

SDXL-Turbo

huggingface-cli download stabilityai/sdxl-turbo --local-dir checkpoints --local-dir-use-symlinks False

CLIP huggingface-cli download openai/clip-vit-large-patch14 --lo

2023-12-20 08:00

sdxl-turbo stable-diffusion text-to-image diffusion-models hugging-face stability-ai clip image-generation apple-silicon

2023年12月19日星期二

Text Generation Inference

TGI 介绍

TGI 是一个用于部署和服务大型语言模型（LLM）的工具包。 TGI 为最流行的开源 LLM 提供高性能文本生成，包括 Llama、Falcon、StarCoder、BLOOM、GPT-NeoX 和 T5 。

张量并行性，可在多个 GPU 上进行更快的推理
批处理连续传入的请求，以增加总吞吐量
在最流行的架构上使用 [Flash Attention][Flash-Attention] 和 [Paged Attention][Paged-Attention] 优化 Transformers 代码进行推理
使用 [bitsandbytes][bitsandbytes] 和 [GPT-Q][GPT-Q] 进行量化
[safetensors][safetensors] 权重加载
给模型输出加水印（Watermark）
微调支持：定制针对特定任务的微调模型来实现更高的准确性和性能

系统架构

部署模型 HuggingFaceH4/zephyr-7b-beta model=HuggingFaceH4/zephyr-7b-beta volume=$PWD/data # Avoid downloading weights every run docker run --

2023-12-19 08:00

text-generation-inference hugging-face inference-serving docker llm flash-attention quantization zephyr model-deployment

2023年10月22日星期日

LangChain HuggingFaceEmbeddings + FAISS

数据

weather_texts = [
    "😀 今天天气舒适，心情大好。",
    "😀 今天天气晴朗，阳光明媚。",
    "😀 今天天气宜人，适合出门游玩。",
    "😀 今天天气没有下雨，真是太好了。",
    "😀 今天天气比昨天好多了，真是令人欣喜。",
    "😀 今天天气晴空万里，蓝天白云，真是美不胜收。",
    "😀 今天天气温暖如春，空气清新，让人心旷神怡。",
    "😀 今天天气风和日丽，微风徐徐，让人心情舒畅。",
    "😀 今天天气万里无云，阳光灿烂，让人精神振奋。",
    "😀 今天天气秋高气爽，天朗气清，让人心胸开阔。",
    "🥶 今天天气很糟糕。",
    "🥶 今天天气阴沉沉的，让人心情烦躁。",
    "🥶 今天天气下雨了，真是让人沮丧。",
    "🥶 今天天气太热了，出门都觉得热得受不了。",
    "🥶 今天天气太冷了，出门都要穿上厚衣服。",
    "🥶 今天天气乌云密布，风雨欲来，真是让人提心吊胆。",
    "🥶 今天天气寒风刺骨，道路结冰，真是让人寸步难行。",
    "🥶 今天天气闷热潮湿，空气污浊，真是让人喘不过气来。",
    "🥶 今天天气灰蒙蒙的，看不到蓝天白云，真是让人心情沉重。",
    "🥶 今天天气狂风暴雨，树木倒伏，道路封闭，真是让人措手不及。"
]

2023-10-22 08:00

langchain embeddings hugging-face faiss vector-search machine-learning python

2023年9月9日星期六

LLM Leaderboard

LLM

Embedding 模型

Massive Text Embedding Benchmark (MTEB) Leaderboard

sensenova/piccolo-large-zh

piccolo是一个通用embedding模型(中文), 由来自商汤科技的通用模型组完成训练。piccolo借鉴了E5以及GTE的训练流程，采用了两阶段的训练方式。在第一阶段中，我们搜集和爬取了4亿的中文文本对(可视为弱监督文本对数据)，并采用二元组的softmax对比学习损失来优化模型。在第二阶段中，我们搜集整理了2000万人工标注的中文文本对(精标数据)，并采用带有难负样本的三元组的softmax对比学习损失来帮助模型更好地优化。

BAAI/bge-large-zh

FlagEmbedding 将任意文本映射为低维稠密向量，以用于检索、分类、聚类或语义匹配等任务，并可支持为大模型调用外部知识。

不同的任务

google/owlvit-base-patch32

参考资料

2023-09-09 08:00

llm benchmarks embeddings hugging-face models evals

2023年9月2日星期六

2023年7月18日星期二

在 MacBook Pro M2 Max 上测试 ChatGLM2-6B

ChatGLM2-6B

ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本，在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上，ChatGLM2-6B 引入了如下新特性：

更强大的性能：基于 ChatGLM 初代模型的开发经验，我们全面升级了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数，经过了 1.4T 中英标识符的预训练与人类偏好对齐训练，评测结果显示，相比于初代模型，ChatGLM2-6B 在 MMLU（+23%）、CEval（+33%）、GSM8K（+571%）、BBH（+60%）等数据集上的性能取得了大幅度的提升，在同尺寸开源模型中具有较强的竞争力。
更长的上下文：基于 FlashAttention 技术，我们将基座模型的上下文长度（Context Length）由 ChatGLM-6B 的 2K 扩展到了 32K，并在对话阶段使用 8K 的上下文长度训练，允许更多轮次的对话。但当前版本的 ChatGLM2-6B 对单轮超长文档的理解能力有限，我们会在后续迭代升级中着重进行优化。
更高效的推理：基于 Multi-Query Attention 技术，ChatGLM2-6B 有更高效的推理速度和更低的显存占用：在官方的模型实现下，推理速度相比初代提升了 42%，INT4 量化下，6G 显存支持的对话长度由 1K 提升到了 8K。

2023-07-18 08:00

chatglm glm macos macbookpro apple hugging-face transformers pytorch apple-silicon quantization

2023年5月22日星期一

Stable Diffusion

模型 Stable Diffusion v1-5

数据集 LAION-5B

一个由 58.5 亿个 CLIP 过滤的图像-文本对组成的数据集

CLIP Retrieval

工作原理是将文本查询转换为 CLIP 嵌入，然后使用该嵌入来查询剪辑图像嵌入的 knn 索引，在搜索演示中搜索数据集。

Stable Diffusion GUI

Diffusion Bee - Stable Diffusion GUI App for MacOS

Diffusers

🤗 Diffusers 是最先进的预训练扩散模型的首选库，用于生成图像、音频，甚至分子的 3D 结构。无论您是在寻找简单的推理解决方案，还是想训练自己的扩散模型，🤗 Diffusers 都是一个支持两者的模块化工具箱。

知识扩展

Latent Representation

数据中的潜在特征表示，这些特征可能不易直接观察到，但对于模型的学习和预测等任务具有重要意义。例如，在图像识别中，一张图片的颜色、形状、纹理等特征可以被视为潜在特征表示。

Latent Space

由模型自动生成的潜在特征空间，其中每个点都表示一种可能的特征组合。在深度学习和人工智能领域，常常使用自编码器等技术来学习并探索数据的潜在特征空间，以期获得更深入的理解和更好的应用效果。

参考资料 AutoFaiss Multimodal search

2023-05-22 08:00

stable-diffusion clip laion diffusers generative-ai computer-vision text-to-image hugging-face

2023年4月30日星期日

Hugging Face 快速入门

Hugging Face

Hugging Face 是所有机器学习任务的大本营。您可以在这里找到开始一项任务所需的内容：演示、用例、模型、数据集等等！

创建和托管很棒的机器学习演示

Solutions

Expert Acceleration Program（专家加速计划）- 加速您的 ML 路线图

从我们屡获殊荣的机器学习专家那里获得指导。我们组建了一个世界一流的团队，帮助客户更快地构建更好的 ML 解决方案。

机器学习的成功取决于为用例找到最佳架构、微调模型并将它们部署到生产环境中。所有这些都需要经验和技能的正确结合。我们的专家加速计划提供必要的技术专长，以实施最先进的技术、做出更好的决策并更快地进入市场。

如何为我的用例微调（fine-tune）模型？哪些基础架构（base architectures）？多少训练数据？

如何优化我的模型以获得最小延迟（latency）？蒸馏（Distillation）。汇编（Compilation）。量化（Quantization）。修剪（Pruning）。我们可以指导您完成每一步。

如何优化我的生产环境？调整您的 CPU、GPU 或 AI 加速器配置以获得最大性能。

如何在 SageMaker 中使用 Transformers？模型并行性（model parallelism）、数据并行性（data parallelism）、部署（deployment）等。

2023-04-30 08:00

hugging-face transformers model-deployment datasets computer-vision nlp audio machine-learning ai

2023年4月29日星期六

在 Hugging Face 上搭建 ChatGPT 聊天机器人

Hugging Face 上创建 ChatGPT Space

克隆

git clone https://huggingface.co/spaces/wangjunjian/ChatGPT
cd ChatGPT

创建应用（聊天机器人）

chat.py

这里的 Conversation 记录了所有的对话消息，在提问前，会检查是否超过最大 token 数量，如果超过，会删除第一条与用户的对话消息，然后再提问。

import openai
import tiktoken


class Conversation:
    def __init__(self, prompt, model="gpt-3.5-turbo", temperature=0.8, max_tokens=250):
        self.prompt = prompt
        self.model = model
        self.temperature = temperature
        self.max_tokens = max_tokens

        self._init_messages()

    def _init_messages(self):
        self.messages = [{"role": "system", "content": self.prompt}]
// ...

2023-04-29 08:00

chatgpt hugging-face docker openai gradio chatbot tiktoken python ai

2023年4月4日星期二

人工智能服务 REST API 响应的 JSON 格式

什么是 REST API？

REST API 也称为 RESTful API，是遵循 REST 架构规范的应用编程接口（API 或 Web API），支持与 RESTful Web 服务进行交互。REST 是表述性状态传递的英文缩写，由计算机科学家 Roy Fielding 创建。

如何实现 RESTful API？

API 要被视为 RESTful API，必须遵循以下标准：

客户端-服务器架构由客户端、服务器和资源组成，并且通过 HTTP 管理请求。
无状态客户端-服务器通信，即 get 请求间隔期间，不会存储任何客户端信息，并且每个请求都是独立的，互不关联。
可缓存性数据：可简化客户端-服务器交互。
组件间的统一接口：使信息以标准形式传输。这要求：
- 所请求的资源可识别并与发送给客户端的表述分离开。
- 客户端可通过接收的表述操作资源，因为表述包含操作所需的充足信息。
- 返回给客户端的自描述消息包含充足的信息，能够指明客户端应该如何处理所收到的信息。
- 超文本/超媒体可用，是指在访问资源后，客户端应能够使用超链接查找其当前可采取的所有其他操作。
组织各种类型服务器（负责安全性、负载平衡等的服务器）的分层系统会参与将请求的信息检索到对客户端不可见的层次结构中。
按需编码（可选）：能够根据请求将可执行代码从服务器发送到客户端，从而扩展客户端功能。

虽然 REST API 需要遵循这些标准，但是

2023-04-04 08:00

ai json api rest-api computer-vision object-detection hugging-face machine-learning azure aws

2023年3月15日星期三

在 MacBook Pro M2 Max 上测试 LLaMA

LLaMA

LLaMA-13B 在大多数基准上的表现优于 GPT-3（175B），LLaMA-65B 与最好的型号 Chinchilla-70B 和 PaLM-540B 具有竞争力。

LLaMA: Open and Efficient Foundation Language Models

克隆

git clone https://github.com/facebookresearch/llama
cd llama

下载模型

修改 download.sh，配置下载模型的 地址(PRESIGNED_URL) 和 下载目录(TARGET_FOLDER)。

vim download.sh

PRESIGNED_URL="https://agi.gpt4.org/llama/LLaMA/*"             # replace with presigned url from email
TARGET_FOLDER="./"             # where all files should end up

bash download.sh

llama.cpp

构建

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make

拷贝 LLaMA 模型到当前目录 ls .

2023-03-15 08:00

llama llama-cpp gguf hugging-face macos macbookpro apple-silicon local-llms quantization python

20 篇文章带有标签 “hugging-face”

2026年5月15日星期五

搭建 Reachy Mini 语音对话智能体

2026年5月13日星期三

Speech To Speech：使用开源模型构建本地语音智能体

2025年6月9日星期一

Qwen2.5-Omni：端到端多模态大模型

2025年2月7日星期五

Open-source DeepResearch – Freeing our search agents

2024年10月3日星期四

AutoTrain

部署 LLM 多 LoRA 适配器的推理服务

2024年8月8日星期四

Continue 源码分析 - transformers.js 大模型提供者

2024年4月19日星期五

Meta Llama 3

2023年12月20日星期三

Microsoft Phi-2

SDXL Turbo

2023年12月19日星期二

Text Generation Inference

2023年10月22日星期日

LangChain HuggingFaceEmbeddings + FAISS

2023年9月9日星期六

LLM Leaderboard

2023年9月2日星期六

Private GPT

2023年7月18日星期二

在 MacBook Pro M2 Max 上测试 ChatGLM2-6B

2023年5月22日星期一

Stable Diffusion

2023年4月30日星期日

Hugging Face 快速入门

2023年4月29日星期六

在 Hugging Face 上搭建 ChatGPT 聊天机器人

2023年4月4日星期二

人工智能服务 REST API 响应的 JSON 格式

2023年3月15日星期三

在 MacBook Pro M2 Max 上测试 LLaMA

20 篇文章带有标签 “hugging-face”

2026年5月15日 星期五

2026年5月13日 星期三

2025年6月9日 星期一

2025年2月7日 星期五

2024年10月3日 星期四

2024年8月8日 星期四

2024年4月19日 星期五

2023年12月20日 星期三

2023年12月19日 星期二

2023年10月22日 星期日

2023年9月9日 星期六

2023年9月2日 星期六

2023年7月18日 星期二

2023年5月22日 星期一

2023年4月30日 星期日

2023年4月29日 星期六

2023年4月4日 星期二

2023年3月15日 星期三

2026年5月15日星期五

2026年5月13日星期三

2025年6月9日星期一

2025年2月7日星期五

2024年10月3日星期四

2024年8月8日星期四

2024年4月19日星期五

2023年12月20日星期三

2023年12月19日星期二

2023年10月22日星期日

2023年9月9日星期六

2023年9月2日星期六

2023年7月18日星期二

2023年5月22日星期一

2023年4月30日星期日

2023年4月29日星期六

2023年4月4日星期二

2023年3月15日星期三