27 篇文章带有标签 “ollama”

2026年5月28日星期四

LiteLLM 代理实践：安装、配置与测试

安装

uv tool install 'litellm[proxy]'

配置

编写配置文件：config.yaml

model_list:
  - model_name: gpt-5
    litellm_params:
      model: openai/LongCat-2.0-Preview
      api_base: https://api.longcat.chat/openai/
      api_key: sk-xxx
  - model_name: gpt-5-nano
    litellm_params:
      model: openai/qwen3.5:9b
      api_base: http://localhost:11434/v1
      api_key: none

运行

litellm --config config.yaml

测试

⚠️ 通过测试说明 LiteLLM 代理只支持中转，上游没有提供对应的API支持（LongCat 只支持 Chat Completions），LiteLLM 也不支持。

2026-05-28 08:00

2026年5月20日星期三

基于 Pi Agent SDK 适配 OpenAI 兼容接口

通过两种方式，在 TypeScript 中使用 @earendil-works 的 Pi Agent 框架连接本地运行的 Ollama 模型（以 qwen3.5:9b 为例）。

环境初始化

首先，初始化项目并配置为 ES Modules (ESM) 模式，以支持顶层 await 语法。

npm init -y

在生成的 package.json 中，手动添加 "type": "module"：

2026-05-20 08:00

pi-agent ollama typescript openai-compatible-api model-registry qwen longcat sdk esm

2026年5月15日星期五

搭建 Reachy Mini 语音对话智能体

部署 Reachy Mini 语音智能体

安装 reachy_mini_conversation_app 到 Reachy Mini

在 MacBook 上运行 Reachy Mini Control，单击 Start 按钮。

在 Applications 页面，单击 Discover apps 后，搜索 reachy_mini_conversation_app。

单击 Install 按钮安装 reachy_mini_conversation_app。

MacBook 上实时模式运行 Speech To Speech

安装 Speech To Speech

uv venv --python 3.12
source .venv/bin/activate
uv pip install speech-to-speech
uv pip install "speech-to-speech[faster-whisper]"

中文

2026-05-15 20:00

reachy-mini 语音智能体 speech-to-speech reachy-mini-control hugging-face qwen3-tts mlx faster-whisper parakeet-tdt ollama

2026年1月26日星期一

iFlow CLI

iFlow 登录

OpenAI 兼容 API

可以手动修改配置文件：~/.iflow/settings.json

{
  "cna": "dp3vIQIkkhcCAXyAlGrAY4my",
  "selectedAuthType": "openai-compatible",
  "searchApiKey": "sk-72c24939a1ac137a28e990cdee4d5d7f",
  "baseUrl": "http://localhost:11434/v1",
  "apiKey": "NONE",
  "modelName": "qwen3-coder:latest",
  "bootAnimationShown": true
}

不能使用工具（todo, write_file 等），不可用。

参考资料

iFlow CLI

2026-01-26 10:00

iflow cli agent openai-compatible-api qwen3-coder local-llm ollama ai-assistant

2026年1月21日星期三

Dify 定制您的政策解读智能体

📌 DSL

Dify

克隆代码仓库

git clone https://github.com/langgenius/dify

Docker 部署

Dify 提供了 Docker 部署方式，您可以通过以下步骤快速部署：

cd dify
cd docker
cp .env.example .env
docker compose up -d

运行后，可以在浏览器上访问 http://localhost/install 进入 Dify 控制台并开始初始化安装操作。

vLLM

vllm serve /data/models/llm/deepseek/DeepSeek-R1-Distill-Qwen-32B-AWQ/ \
    --served-model-name gpt-4o-mini \
    --tensor-parallel-size 4 \
    --max-model-len 102400 \
    --dtype half \
    --port 8111

Ollama

安装 Ollama 服务。

curl -fsSL https://ollama.com/install.sh | sh

编辑 systemd 服务，调用 systemctl edit ollama.service。这将打开一个编辑器。

sudo systemctl edit ollama.service

对于每个环境变量，在 [Service] 部分下添加一行

2026-01-21 10:00

dify agent policy-reading vllm ollama bge-m3 docker llm 智能体政策解读

2025年7月3日星期四

这些文档主要围绕着在 NVIDIA Jetson AGX Orin 开发者套件上部署 多模态大型语言模型 (LLMs) 所面临的 系统升级挑战。核心问题在于，当前系统的 JetPack、Ubuntu、CUDA 和 GPU 驱动版本 过低，无法满足 vLLM 和 Ollama 等主流推理框架对 更高 CUDA 和驱动版本 的要求。文章详细阐述了 升级至 JetPack 6.0 是解决兼容性问题的关键，但这将强制要求 将 Ubuntu 升级到 22.04，从而导致 需要重装系统 和 可能与 ROS1 产生兼容性问题 等一系列复杂挑战。此外，文档还探讨了 替代推理引擎和云端推理 等备选方案，但最终建议进行 系统全面升级 以实现长期兼容性和性能优化。

系统信息

硬件环境：ARM64 架构，具体为 NVIDIA Jetson AGX Orin 开发者套件。

当前系统配置

软件环境：
- Ubuntu版本：20.04
- GPU驱动版本：515
- JetPack版本：5.1.4
- CUDA版本：11.4
- Python版本：3.8
- 机器人操作系统：ROS1（Robot Operating System 1）

系统升级需求

Ubuntu版本：22.04
GPU驱动版本：535
JetPack版本：>=6.0
CUDA版本：>=12.2
Python版本: 3.9 - 3.12

2025-07-03 16:00

jetson jetson-agx-orin edge-ai multimodal vllm ollama cuda jetpack arm64 人形机器人

2025年4月3日星期四

Continue Agent 使用 GitHub MCP Server

Continue 智能体

必须使用 Agent 模式才支持 MCP Server。
Agent 模式不支持 DeepSeek 系列的模型（包括官方API和开源）。
大模型使用本地 Ollama 的模型：qwen2.5-coder:32b 和 qwq:latest。

申请 GitHub 个人访问令牌（Personal Access Token）

访问 GitHub 的 Settings 页面，点击 Developer settings。
点击 Personal access tokens，然后点击 Tokens (classic)。
点击 Generate new token 按钮。

Continue 配置

config.yaml 文件配置如下：

name: Local Assistant
version: 1.0.0
schema: v1
models:
  - name: Autodetect
    provider: ollama
    model: AUTODETECT
  - name: DeepSeek Chat
    provider: deepseek
    model: deepseek-chat
    apiKey: sk-xxx
  - name: DeepSeek Coder
    provider: deepseek
    model: deepseek-coder
    apiKey: sk-xxx
// ...

2025-04-03 10:00

continue github-mcp-server mcp ollama deepseek ai-coding-assistant agent-mode qwen code-review local-llm

2025年3月1日星期六

构建本地 AI 技术栈

构建环境

选择 Python 版本

Python Releases

安装 LiteLLM + LangFuse

conda create -n litellm python==3.12.9 -y
conda activate litellm                     

pip install "litellm[proxy]" langfuse openai

Cookbook: LiteLLM (Proxy) + Langfuse OpenAI Integration

LangFuse

部署（Docker）

git clone https://github.com/langfuse/langfuse.git
cd langfuse

docker compose up

注册用户

浏览器访问 http://localhost:3000/，单击 Sign up 注册一个新账户。

创建组织和工程

API Keys

LiteLLM

克隆 LiteLLM（可选）

git clone https://github.com/BerriAI/litellm
cd litellm

编辑配置 litellm_config.yaml

2025-03-01 10:00

litellm langfuse ollama chatbox local-ai llm proxy docker observability

2025年2月22日星期六

Cline: 自主编程助手

开发

克隆仓库

git clone https://github.com/cline/cline.git

打开项目

code cline

安装依赖

npm run install:all

安装 esbuild problem matchers 扩展

如果构建项目时遇到问题，请安装 esbuild problem matchers 扩展。

Activating task providers npm
错误: problemMatcher 引用无效: $esbuild-watch

启动

打开 运行和调试 侧边栏，运行 Run Extension，或者按 F5 键启动调试，打开一个新的 VSCode 窗口，加载扩展。

配置

配置模型 Ollama

智能体编码

查看 issue

显示 issue

创建分支

修复 issue

运行 RAGFlowAssistant

安装 GitHub MCP Server

2025-02-22 10:00

cline agent ollama llm vscode-extension github mcp coding-agent

2025年2月18日星期二

构建自主答题的智能体

目标

这里想探索使用多模态大模型答题的技术方案，包含单选题、多选题、判断题，最终构建自主答题的智能体。

工作流程：🏞️ -> MLM（多模态大模型）-> 答案

📝思路一

直接使用多模态大模型读题（转成文字），然后检索答案，把题和答案组合的提示词输入给语言大模型。

我使用了 Ollama 调用多模态大模型 minicpm-v:8b 来生成文字。llava:7b 的效果不好。

代码示例：

import ollama

response = ollama.chat(
	model="minicpm-v:8b",
	messages=[
		{
			'role': 'user',
			'content': '读取图像中的题。',
			'images': ['ti.png']
		}
	]
)

print(response['message']['content'])

2025-02-18 10:00

安规 agent ollama 多模态 llm prompt-engineering minicpm-v vision-language-model

2025年2月14日星期五

部署 DeepSeek-R1 蒸馏模型

GPU 服务器

T4 GPU 服务器，4卡16G。

安装 vLLM

conda create -n deepseek-r1 python=3.12 -y
conda activate deepseek-r1

pip install vllm

Installation GPU

错误处理

ImportError: undefined symbol: __nvJitLinkComplete_12_4, version libnvJitLink.so.12

2025-02-14 10:00

deepseek-r1 vllm qwen jan ollama model-deployment llm reasoning gpu

2025年1月17日星期五

CodeGate - 让 AI 编码助手更安全

什么是 CodeGate

CodeGate 是位于 AI 编码助手和 LLM 之间的本地提示网关，用于增强隐私和安全性。

执行代码安全审查
识别包依赖项中的漏洞
防止敏感数据（如机密）与 AI 模型共享

工作原理

CodeGate 是位于 AI 编码助手和 LLM 之间的本地代理。CodeGate 会审查您的提示是否存在任何潜在的机密泄露 — 在机密离开您的桌面之前对其进行加密，并在响应中对其进行解密。CodeGate 使用 RAG 来更新任何 LLM 的知识库，并提供相关的风险洞察。

Continue 指南

启动 CodeGate 服务

docker pull ghcr.io/stacklok/codegate:latest
docker run --name codegate -d -p 8989:8989 -p 9090:9090 --restart unless-stopped ghcr.io/stacklok/codegate:latest

下载 Ollama 代码模型

ollama pull qwen2.5-coder:7b
ollama pull qwen2.5-coder:1.5b

配置 Continue 扩展

编辑配置文件：~/.continue/config.json

2025-01-17 10:00

codegate ai-gateway llm ai-coding-assistant security privacy continue ollama qwen2.5-coder

2024年12月13日星期五

Open WebUI

下载镜像

Open WebUI

docker pull ghcr.io/open-webui/open-webui:main

运行

Docker Compose (Ollama)

编写配置文件：docker-compose.yml

version: '3'
services:
  openwebui:
    image: ghcr.io/open-webui/open-webui:main
    extra_hosts:
      - host.docker.internal:host-gateway    
    ports:
      - "3000:8080"
    volumes:
      - open-webui:/app/backend/data
volumes:
  open-webui:

docker compose up

Docker (OpenAI API)

2024-12-13 10:00

open-webui docker ollama openai-api chatgpt self-hosting

2024年10月7日星期一

OpenAI API Compatibility

设置 API Key

export LITELLM_API_KEY=sk-1234

服务端口

Ollama: 11434
LiteLLM: 4000
XInference: 9997
MindIE: 1025

models

Ollama

curl -s http://localhost:11434/v1/models \
    | jq -r '.data[].id'

curl -s: -s 选项表示静默模式，不输出进度信息。
jq -r: -r 选项表示以原始格式输出，去掉了引号。

LiteLLM

curl -s http://localhost:4000/v1/models \
    -H "Authorization: Bearer $LITELLM_API_KEY" \
    | jq -r '.data[].id'

在 Bash 中，单引号和双引号的使用有一些重要的区别：

单引号 (')
- 完全字面值：单引号内的内容被视为字面值，不会对其中的任何字符进行扩展或解析。
- 变量不扩展：在单引号内，变量不会被解析。例如，' $LITELLM_API_KEY' 会被视为字符串 '$ LITELLM_API_KEY'，而不是变量的值。
```
echo '$LITELLM_API_KEY'  # 输出: $LITELLM_API_KEY
```

2024-10-07 10:00

openai-api ollama litellm xinference mindie api-compatibility curl llm-inference

2024年9月25日星期三

Letta (fka MemGPT) 是用于创建有状态 LLM 服务的框架

Docker 部署

克隆代码

git clone https://github.com/cpacker/MemGPT

设置环境变量，编辑配置文件 .env

Ollama

LETTA_LLM_ENDPOINT=http://host.docker.internal:11434
LETTA_LLM_ENDPOINT_TYPE=ollama
LETTA_LLM_MODEL=qwen2.5:7b-q6_K
LETTA_LLM_CONTEXT_WINDOW=32000
LETTA_EMBEDDING_ENDPOINT=http://host.docker.internal:11434
LETTA_EMBEDDING_ENDPOINT_TYPE=ollama
LETTA_EMBEDDING_MODEL=bge-m3
LETTA_EMBEDDING_DIM=1024

在下载 Ollama 模型时，请确保使用标签！

不要执行 ollama pull dolphin2.2-mistral，而是执行 ollama pull dolphin2.2-mistral:7b-q6_K。

如果您没有指定标签，Ollama 可能会默认使用高度压缩的模型变体（例如 Q4）。

2024-09-25 08:00

letta memgpt llm-agent stateful-llm agent-framework docker ollama bge-m3

2024年9月13日星期五

LiteLLM: [Python SDK] [Proxy Server (LLM Gateway)]

LiteLLM Proxy Server (LLM Gateway)

安装

pip install 'litellm[proxy]'

编辑配置文件：config.yaml

model_list:
  - model_name: qwen-coder
    litellm_params:
      model: ollama/qwen2.5-coder:7b
  - model_name: bge-m3
    litellm_params:
      model: ollama/bge-m3
  - model_name: llava
    litellm_params:
      model: ollama/llava:7b
      api_base: "http://localhost:11434"
      # api_base: http://127.0.0.1:11434/v1 # ❌ 500 Internal Server Error
  - model_name: gpt-4
    litellm_params:
      model: openai/gpt-4-32k
// ...

命令部署 # 集成 Langfuse LANGFUSE_PUBLIC_KEY=pk-lf-fd5d8fb

2024-09-13 08:00

litellm ai-gateway proxy-server python-sdk langfuse ollama openai-compatible llm

2024年8月28日星期三

Tabby 使用指南

Tabby

Demo
Blog

安装 Tabby (macOS)

brew install tabbyml/tabby/tabby

更新

brew upgrade tabbyml/tabby/tabby

安装 Tabby VSCode 扩展

Tabby VSCode Extension

模型

Models Registry

Codestral 的优点

与其他编码 LLM 相比，Codestral 的独特之处在于其单一模型同时支持 指令跟随 和 中间填充 兼容性。这是通过在两个数据集上同时微调基础模型实现的。这种 双重微调策略 使同一个模型在 代码补全 和 对话任务 中都能表现出色，大大简化了模型部署堆栈。

此外，Codestral 在包含 80 多种编程语言的多样化数据集上进行训练，确保了开发人员在使用各种语言时的高质量体验。

Introducing the Codestral Integration in Tabby

运行 Tabby Server

命令行指定参数

2024-08-28 08:00

tabby ai-code-assistant vscode-extension codestral context-provider code-search code-chat ollama local-llm code-completion

2024年7月25日星期四

GraphRAG

GraphRAG 项目是一个数据管道和转换套件，旨在利用大型语言模型（LLMs）的力量从非结构化文本中提取有意义的结构化数据。

若要了解更多关于 GraphRAG 以及它如何用于增强您的大型语言模型（LLMs）对您的私有数据进行推理的能力，请访问 Microsoft Research Blog Post。

Get Started

构建虚拟环境

cd /Users/junjian/GitHub/microsoft/graphrag

python -m venv env
source env/bin/activate

安装 GraphRAG

pip install graphrag

准备数据 mkdir -p ./ragtest/input curl https://www.gutenberg.

2024-07-25 08:00

graphrag rag ollama xinference local-llm knowledge-graph embeddings getting-started

2024年7月4日星期四

Vanna.AI

Vanna 工作原理

使用检索增强来帮助您使用 LLM 为数据库生成准确的 SQL 查询。

Vanna 的工作过程分为两个简单步骤 - 在您的数据上训练 RAG“模型”，然后提出问题，这些问题将返回 SQL 查询，这些查询可以设置为在您的数据库上自动运行。

vn.train(...)

在您的数据上训练 RAG“模型”。这些方法将添加到参考语料库。

vn.ask(...)

问问题。这将使用参考语料库生成可以在您的数据库上运行的 SQL 查询。

例子

与您的 SQL 数据库聊天 📊。通过 RAG 使用 LLM 实现准确的文本到 SQL 生成 🔄。

ChromaDB & Ollama from vanna.ollama import Ollama from vanna.chromadb import ChromaDB_VectorStore class MyVanna(ChromaDB_VectorStore, Ollama): def init(self, config=None): ChromaDB_VectorStore.init(self, config=config) Ollama.init(self, config=config) vn = MyVanna(config={'model': 'qwen2:7b'}) vn.

2024-07-04 08:00

vanna-ai text-to-sql rag sqlite chromadb qdrant ollama database

2024年6月3日星期一

Continue

介绍

Continue 使您能够在 IDE 中创建自己的 AI 代码助手。使用 VS Code 和 JetBrains 插件保持开发者的流畅体验，这些插件可以连接到任何模型、任何上下文以及任何其他你需要的东西。

轻松理解代码部分
Tab 自动完成代码建议
重构您正在编码的函数
询问代码库相关问题
快速使用文档作为上下文
使用斜线命令启动操作
将类、文件等添加到上下文
立即了解终端错误

Continue 使您能够使用适合工作的模型，无论是开源还是商业，本地运行还是远程运行，用于聊天、自动完成或嵌入。它提供了许多配置点，以便您可以自定义扩展以适应您现有的工作流程。

开发语言

语言	占比
TypeScript	74.0%
Kotlin	11.8%
Rust	4.9%
CSS	3.6%
Scheme	2.5%
JavaScript	2.4%
Other	0.8%

贡献（Contributing）

使用

2024-06-03 08:00

continue ai-coding-assistant ollama vscode jetbrains code-completion rag embeddings local-llm slash-commands

27 篇文章带有标签 “ollama”

2026年5月28日 星期四

2026年5月20日 星期三

2026年5月15日 星期五

2026年1月26日 星期一

2026年1月21日 星期三

2025年7月3日 星期四

2025年4月3日 星期四

2025年3月1日 星期六

2025年2月22日 星期六

2025年2月18日 星期二

2025年2月14日 星期五

2025年1月17日 星期五

2024年12月13日 星期五

2024年10月7日 星期一

2024年9月25日 星期三

2024年9月13日 星期五

2024年8月28日 星期三

2024年7月25日 星期四

2024年7月4日 星期四

2024年6月3日 星期一