146 篇文章带有标签 “llm”

2025年6月7日星期六

【生成式AI时代下的机器学习(2025)】第十讲：人工智慧的微创手术 — 浅谈 Model Editing

本文档深入探讨了模型编辑，这是一种用于更新人工智能模型知识的技术，而不需进行完全重新训练。它们首先通过对比模型编辑与传统的后训练（Post Training）来解释其概念，其中前者侧重于植入特定事实，而后者旨在学习新技能。接着详细阐述了模型编辑的评估标准，包括可靠性、泛化性和局部性，并介绍了两种主要方法：不改变模型参数和改变模型参数。展示了Rank-One Model Editing (ROME) 方法，它通过直接修改模型内部参数来实现知识更新。最后，还介绍了超网络（Hypernetwork），这是一种让人工智能学习如何进行模型编辑的技术，展示了其训练和测试过程。

【生成式AI時代下的機器學習(2025)】第十講：人工智慧的微創手術 — 淺談 Model Editing

2025-06-07 07:00

模型编辑 2025生成式AI时代下的机器学习生成式AI 机器学习李宏毅 llm knowledge-update post-training rome hypernetwork

【生成式AI时代下的机器学习(2025)】第九讲：谈谈有关大型语言模型评估的几件事

本文档讨论了大型语言模型的评估，重点关注其推理能力和记忆效应。文档展示了不同的基准测试结果，例如DeepSeek和OpenAI模型在推理任务上的表现，以及模型回答可能来自“记忆”而非推理的准确性下降情况。此外，还介绍了人工通用智能（ARC-AGI）的抽象推理语料库作为一种评估框架，并探讨了聊天机器人竞技场（Chatbot Arena）及其Elo评分系统，用于衡量和比较不同模型在实际用户互动中的表现，包括情感和风格控制。

【生成式AI時代下的機器學習(2025)】第九講：你這麽認這個評分系統幹什麽啊？談談有關大型語言模型評估的幾件事

2025-06-07 06:00

模型评估 2025生成式AI时代下的机器学习生成式AI 机器学习李宏毅 llm reasoning memorization arc-agi chatbot-arena

2025年6月4日星期三

SmolAgents 概念指南：Agent 介绍

本文档探讨了人工智能代理（AI Agent）的概念，将其定义为LLM（大型语言模型）输出控制工作流程的程序。代理能力是一个连续的谱系，取决于LLM对程序流程的控制程度，从简单的输出处理到控制迭代和启动其他代理。文中强调了在需要灵活工作流程时使用代理的优势，特别是多步代理通过循环推理和行动解决复杂任务的能力。此外，文档详细介绍了smolagents框架的必要性，它提供了管理工具调用、记忆和错误处理的抽象层，并提出代码代理是一种更具可组合性、通用性和在LLM训练数据中表现更好的代理实现方式。

🤔 什么是 Agent？

任何使用 AI 的高效系统都需要为大型语言模型（LLM）提供某种与现实世界交互的能力：例如，调用搜索工具以获取外部信息，或对某些程序执行操作以解决任务。换句话说，LLM 应该具有代理能力（agency）。Agent 程序是 LLM 通向外部世界的门户。

AI Agent 是LLM 输出控制工作流程的程序。

任何利用 LLM 的系统都会将 LLM 的输出集成到代码中。LLM 的输入对代码工作流程的影响程度就是 LLM 在系统中的代理能力水平。

请注意，根据这个定义，“agent”不是一个离散的、非0即1的定义：相反，“代理能力”在一个连续的谱系上演变，这取决于您赋予 LLM 对工作流程的权力大小。

下表展示了代理能力在不同系统中的变化：

2025-06-04 10:00

smolagents ai-agent agency llm react-framework multi-step-agent code-agent tool-calling huggingface

2025年5月6日星期二

提升 LLM 推理能力：CoT, ReAct, ToT

总结

2025-05-06 10:00

llm chain-of-thought react tree-of-thoughts reasoning prompt-engineering tool-use 思维链思维树推理

2025年4月5日星期六

DeepSeek-V3 & DeepSeek-R1

用户的问题

2025-04-05 10:00

deepseek-v3 deepseek-r1 deepseek ai-agent llm tool-integration reasoning multi-step-workflow hallucination agent-workflow

构建AI代理：5个常见障碍及解决方案

构建AI代理的新手指南，帮助您克服挑战。

AI代理正变得越来越复杂，能够自动化工作流程、做出决策并与外部工具集成。然而，在现实世界中部署AI代理面临着很多挑战，这些挑战会影响其可靠性、性能和准确性。现在优先建立AI代理设计的强大基础，将为未来可靠、安全的自主系统奠定基础。

👉 本指南探讨了开发人员在创建AI代理时面临的五个最常见障碍，以及克服这些障碍的实用解决方案。 无论您是刚刚入门的新手还是正在改进方法的资深开发人员，这些最佳实践都将帮助您设计出在复杂环境中更可靠、更具扩展性和更有效的AI代理。

让我们开始构建代理式AI吧！

1. 管理工具集成

随着AI代理变得越来越复杂，管理它们对各种工具的访问和使用变得越来越具有挑战性。每增加一个工具都会引入新的潜在故障点、安全考虑因素和性能影响。确保代理适当地使用工具并优雅地处理工具故障对于可靠运行至关重要。

要解决这一挑战，请为代理工具箱中的每个工具创建精确的定义。包括何时使用该工具的明确示例、有效参数范围和预期输出。构建能够强制执行这些规范的验证逻辑，并从一小组定义明确的工具开始，而不是许多定义松散的工具。定期监控将帮助您识别哪些工具最有效，以及哪些定义需要完善。

2. 管理模型推理和决策

构建AI代理的一个基本挑战是确保一致可靠的决策。与遵循明确规则的传统软件系统不同，AI代理必须解释用户意图，对复杂问题进行推理，并最终基于概率分布做出决策。

2025-04-05 08:00

ai-agent llm tool-integration react-prompting langchain llama-index llmops hallucination multi-step-workflow enterprise-ai

2025年4月4日星期五

企业级大模型定制解决方案

2025-04-04 09:00

企业级大模型定制化 llm enterprise-ai ai-solution enterprise 解决方案

2025年4月2日星期三

使用 Trae 开发 RAGFlow 助手

⚠️ Trae 试用感受

热门模型（Claude-3.7-sonnet）需要排队
在当前会话中，我引用过一个文件，接着提问还需要添加引用，太麻烦了。
都知道它是中国字节开发的，有一种亲切感，确让我翻墙来用她。

功能界面

操作

提示词

使用 Streamlit UI 库开发一个连接 RAGFlow 的客户端应用，左边列出可选的知识库，右边是聊天对话框。

2025-04-02 16:00

trae ragflow ai-coding-assistant streamlit knowledge-base chatbot retrieval-augmented-generation llm client-app bytedance

2025年3月31日星期一

探索生成式人工智能

Exploring Generative AI

生成式人工智能和特别是大型语言模型（LLM）已迅速进入公众意识。像许多软件开发人员一样，我对其可能性感到好奇，但不确定它最终对我们的职业意味着什么。我现在在Thoughtworks担任一个角色，协调我们关于这项技术将如何影响软件交付实践的工作。我将在这里发布各种备忘录，描述我和同事们正在学习和思考的内容。

随着智能代理编码助手变得越来越强大，反应各不相同。有些人从最近的进步推断并声称，"一年后，我们将不再需要开发人员。"其他人则对AI生成代码的质量以及为初级开发人员准备应对这一变化的挑战表示担忧。

在过去几个月中，我定期使用Cursor、Windsurf和Cline中的智能代理模式，几乎完全用于更改现有代码库（而不是从头创建井字游戏）。总体而言，我对IDE集成的最新进展以及这些集成如何极大地提升工具辅助我的方式印象深刻。它们

执行测试和其他开发任务，并尝试立即修复出现的错误
自动识别并尝试修复代码检查和编译错误
能够进行网络研究
有些甚至集成了浏览器预览功能，可以捕获控制台错误或检查DOM元素

所有这些都带来了与AI令人印象深刻的协作会话，有时帮助我在创纪录的时间内构建功能和解决问题。

然而。

即使在那些成功的会话中，我也一直在干预、纠正和引导。而且我经常决定不提交更改。

2025-03-31 08:00

generative-ai 生成式AI llm ai-coding-assistant agent-mode cursor windsurf cline code-quality software-development

2025年3月30日星期日

生成式人工智能

什么是生成式AI？

生成式AI是指能够根据提示或指令创建新内容的AI系统。这些系统被训练于大量数据，学习识别模式并生成类似于训练数据的新输出。现代生成式AI多为基于神经网络架构的深度学习系统。

目前主导生成式AI讨论的是大型语言模型（LLMs）。这些是经过大量文本训练的模型，可以生成连贯的文本，预测给定上下文中最可能的下一个词。尽管基础架构可能很复杂，但我们可以将其视为一个复杂的自动补全系统。

LLMs展现出的能力远超过以前的生成系统，它们能够：

以难以与人类创作区分的方式撰写文章、小说、诗歌或代码
回答问题、提供建议、编写报告、总结文档
理解上下文并保持对话连贯性
同时处理多种语言
理解代码并生成新代码

关键应用领域

生成式AI已经在许多领域展示出其应用潜力：

代码生成和编程辅助

开发人员正在使用生成式AI工具（如GitHub Copilot、Amazon CodeWhisperer和Google Duet AI）来加速编码过程。这些工具可以：

生成样板代码
提出完整函数和算法
帮助编写测试
解释现有代码
重构代码以提高质量
生成文档

内容创建和营销

生成式AI可以产生各种形式的内容：

博客文章、社交媒体更新和营销文案
个性化电子邮件和通信
产品描述和目录
视频脚本和广告文案

客户服务和支持

生成式AI正在改变企业与客户的互动方式：聊天机器人和虚拟助手智能响应建议自动票务分类和路由知识库生成和

2025-03-30 10:00

generative-ai 生成式AI llm 人工智能 deep-learning code-generation content-creation github-copilot software-development ethics

2025年3月27日星期四

MCP 服务器功能

服务器通过MCP提供了为语言模型添加上下文的基本构建块。这些原语支持客户端、服务器和语言模型之间的丰富交互：

提示（Prompts）：预定义的模板或指令，用于指导语言模型交互
资源（Resources）：为模型提供额外上下文的结构化数据或内容
工具（Tools）：可执行函数，允许模型执行操作或检索信息

每个原语可以在以下控制层次结构中概括：

原语	控制方	描述	示例
提示	用户控制	由用户选择调用的交互式模板	斜杠命令、菜单选项
资源	应用程序控制	由客户端附加和管理的上下文数据	文件内容、Git历史
工具	模型控制	向LLM公开以执行操作的函数	API POST请求、文件写入

提示词

模型上下文协议（MCP）提供了一种标准化方式，使服务器能够向客户端公开提示词模板。提示词允许服务器提供结构化消息和与语言模型交互的指令。客户端可以发现可用的提示词，获取其内容，并提供参数来自定义它们。

用户交互模型

提示词设计为用户控制的，这意味着它们从服务器暴露给客户端，目的是让用户能够明确选择使用它们。

通常，提示词会通过用户界面中的用户发起命令触发，这允许用户自然地发现和调用可用的提示词。

例如，作为斜杠命令：

提示词作为斜杠命令的示例

然而，实现者可以自由地通过任何适合其需求的界面模式来公开提示词——协议本身不强制要求任何特定的用户交互模型。

能力

支持提示词的服务器必须在初始化期间声明prompts能力：

2025-03-27 12:00

mcp model-context-protocol 服务器功能 prompts resources tools llm primitives json-rpc capabilities

MCP 架构

模型上下文协议（MCP）采用客户端-主机-服务器架构，每个主机可以运行多个客户端实例。这种架构使用户能够跨应用程序集成AI功能，同时保持明确的安全边界和关注点隔离。MCP基于JSON-RPC构建，提供专注于客户端和服务器之间上下文交换和采样协调的有状态会话协议。

核心组件

graph LR
    subgraph "应用程序主机进程"
        H[主机]
        C1[客户端 1]
        C2[客户端 2]
        C3[客户端 3]
        H --> C1
        H --> C2
        H --> C3
    end

    subgraph "本地机器"
        S1[服务器 1<br>Files 和 Git]
        S2[服务器 2<br>数据库]
        R1[("本地<br>资源 A")]
// ...

主机

主机进程作为容器和协调器：

创建和管理多个客户端实例
控制客户端连接权限和生命周期
执行安全策略和同意要求
处理用户授权决策
协调AI/LLM集成和采样
管理跨客户端的上下文聚合

客户端

每个客户端由主机创建，并维护独立的服务器连接：

每个服务器建立一个有状态会话
处理协议协商和能力交换
双向路由协议消息
管理订阅和通知
维护服务器之间的安全边界

主机应用程序创建和管理多个客户端，每个客户端与特定服务器保持1:1关系。

服务器

服务器提供专门的上下文和功能：

2025-03-27 09:00

mcp model-context-protocol 架构 llm json-rpc client-host-server capability-negotiation ai-integration protocol

Model Context Protocol 规范

协议修订版本：2025-03-26

Model Context Protocol（MCP）是一个开放协议，它使 LLM 应用程序与外部数据源和工具之间能够无缝集成。无论您是构建 AI 驱动的 IDE、增强聊天界面，还是创建自定义 AI 工作流，MCP 都提供了一种标准化的方式来连接 LLM 与它们所需的上下文。

本规范基于 schema.ts 中的 TypeScript 模式，定义了权威的协议要求。

有关实现指南和示例，请访问 modelcontextprotocol.io。

概述

MCP 为应用程序提供了标准化的方式来：

与语言模型共享上下文信息
向 AI 系统公开工具和功能
构建可组合的集成和工作流

该协议使用 JSON-RPC 2.0 消息在以下组件之间建立通信：

主机（Hosts）：发起连接的 LLM 应用程序
客户端（Clients）：主机应用程序内的连接器
服务器（Servers）：提供上下文和功能的服务

MCP 部分受到 Language Server Protocol 的启发，后者标准化了如何在整个开发工具生态系统中添加对编程语言的支持。类似地，MCP 标准化了如何将额外的上下文和工具集成到 AI 应用程序的生态系统中。

关键细节

基础协议

JSON-RPC 消息格式
有状态连接
服务器和客户端能力协商

功能

服务器向客户端提供以下任何功能：

资源（Resources）：供用户或 AI 模型使用的上下文和数据
提示（Prompts）：为用户提供的模板化消息和工作流
工具（Tools）：供 AI 模型执行的函数

2025-03-27 08:00

mcp model-context-protocol specification llm json-rpc protocol ai-integration security tools resources

2025年3月26日星期三

MCP Python SDK

概述

python-sdk

Model Context Protocol 允许应用程序以标准化的方式为 LLM 提供上下文，将提供上下文的关注点与实际的 LLM 交互分离开来。这个 Python SDK 实现了完整的 MCP 规范，使您能够轻松地：

构建可连接到任何 MCP 服务器的 MCP 客户端
创建暴露资源、提示和工具的 MCP 服务器
使用标准传输方式如 stdio 和 SSE
处理所有 MCP 协议消息和生命周期事件

安装

将 MCP 添加到您的 Python 项目中

我们推荐使用 uv 来管理您的 Python 项目。在由 uv 管理的 Python 项目中，通过以下方式将 mcp 添加到依赖项：

uv add "mcp[cli]"

或者，对于使用 pip 管理依赖的项目：

pip install mcp

运行独立的 MCP 开发工具

要使用 uv 运行 mcp 命令：

uv run mcp

快速开始

让我们创建一个简单的 MCP 服务器，它暴露一个计算器工具和一些数据：

2025-03-26 08:00

mcp-python-sdk mcp python fastmcp llm sdk claude-desktop mcp-inspector stdio sse

2025年3月24日星期一

Easy Dataset：基于 LLM 微调数据集的工具

架构

本地运行

使用 NPM 安装

克隆仓库：

   git clone https://github.com/ConardLi/easy-dataset.git
   cd easy-dataset

安装依赖：

   npm install

启动开发服务器：

   npm run build

   npm run start

打开浏览器并访问 http://localhost:1717

使用本地 Dockerfile 构建

如果你想自行构建镜像，可以使用项目根目录中的 Dockerfile：

克隆仓库：

git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset

构建 Docker 镜像：
```
docker build -t easy-dataset .
```
运行容器：
```
docker run -d -p 1717:1717 -v {YOUR_LOCAL_DB_PATH}:/app/local-db --name easy-dataset easy-dataset
```
注意： 请将 {YOUR_LOCAL_DB_PATH} 替换为你希望存储本地数据库的实际路径。

打开浏览器，访问 http://localhost:1717

首页

项目

创建项目

模型配置

任务配置

提示词配置

文献处理

上传文件

智能分割

批量生成问题

领域分析

领域树

目录结构

问题管理

列表视图

领域树视图

问题编辑

数据集管理

2025-03-24 10:00

easy-dataset 微调数据集 llm alpaca sharegpt llama-factory fine-tuning dataset docker npm

2025年3月22日星期六

RAG 2.0

参考资料 2024 年 RAG 的崛起与演变年度回顾所见即所得：多模态RAG正在向我们走来 What is Retrieval Augmented Generation (RAG)? Build with Claude - Prompt caching Introducing Contextual Retrieval Cookbook - Retrieval Augmented Generation with Contextual Embeddings Infinity Dense vector + Sparse vector + Full text search + Tensor reranker = Best retrieval for RAG? Sparse embedding or BM25?

2025-03-22 10:00

rag retrieval-augmented-generation llm hybrid-search embedding agentic-rag contextual-retrieval bm25

2025年3月18日星期二

RAGFlow

2025-03-18 10:00

ragflow rag agent knowledge-base chatbot search vllm llm

2025年3月17日星期一

大模型实战评测：语言 vs 推理 vs 代码

总结

模型类型	模型	评估结果
语言模型	Qwen2.5-0.5B	❌
	Qwen2.5-1.5B	✅
	Qwen2.5-7B	✅
	Qwen2.5-14B-Instruct	✅
	Qwen2.5-32B-Instruct	✅
推理模型	DeepSeek-R1-Distill-Qwen2.5-1.5B	❌
	DeepSeek-R1-Distill-Qwen2.5-7B	❌
	DeepSeek-R1-Distill-Qwen2.5-14B	✅
	DeepSeek-R1-Distill-Qwen2.5-32B	✅
	Qwen/QwQ-32B	✅
	Qwen/QwQ-32B-Preview	✅
	Qwen/QwQ-32B-AWQ	❌
代码模型	Qwen2.5-Coder-0.5B	❌
	Qwen2.5-Coder-1.5B	✅
	Qwen2.5-Coder-3B	✅

对于这样的阅读理解任务，推理模型的表现要反而不如语言模型和代码模型，通过分析发现在思考的过程可能会出错而导致答案错误。对于大参数模型，进行了量化会导致模型性能下降，如：Qwen/QwQ-32B-AWQ。

提示词收入截至12月31日止年度 2024年人民幣千元 2023年人民幣千元商品收入：醫藥和健康產品銷售 48,795,702 45,652,922 服務收入：平台、廣告及其他服務 9,364,179 7,877,019 58,159,88

2025-03-17 10:00

benchmark llm qwen deepseek reasoning-model code-model evaluation model-comparison

2025年3月16日星期日

Model Context Protocol (MCP) 的核心概念和能力

Introduction简介

Model Context Protocol (MCP) 入门

MCP 是一个开放协议，用于标准化应用程序向 LLM 提供上下文的方式。可以将 MCP 视为 AI 应用程序的 USB-C 端口。正如 USB-C 提供了一种将设备连接到各种外围设备和配件的标准化方式一样，MCP 提供了一种将 AI 模型连接到不同数据源和工具的标准化方式。

为什么选择 MCP？

MCP 帮助您在 LLM 之上构建代理和复杂的工作流程。LLM 经常需要与数据和工具集成，而 MCP 提供了：

越来越多的预构建集成，您的 LLM 可以直接插入
在 LLM 提供商和供应商之间切换的灵活性
在您的基础设施中保护数据的最佳实践

一般架构

MCP 的核心遵循客户端-服务器架构，其中主机应用程序可以连接到多个服务器：

2025-03-16 10:00

mcp llm resource prompt tool transport sampling root json-rpc architecture

146 篇文章带有标签 “llm”

2025年6月7日星期六

【生成式AI时代下的机器学习(2025)】第十讲：人工智慧的微创手术 — 浅谈 Model Editing

【生成式AI时代下的机器学习(2025)】第九讲：谈谈有关大型语言模型评估的几件事

2025年6月4日星期三

SmolAgents 概念指南：Agent 介绍

2025年5月6日星期二

提升 LLM 推理能力：CoT, ReAct, ToT

2025年4月30日星期三

Text-to-SQL 解决方案

2025年4月5日星期六

DeepSeek-V3 & DeepSeek-R1

构建AI代理：5个常见障碍及解决方案

2025年4月4日星期五

企业级大模型定制解决方案

2025年4月2日星期三

使用 Trae 开发 RAGFlow 助手

2025年3月31日星期一

探索生成式人工智能

2025年3月30日星期日

生成式人工智能

2025年3月27日星期四

MCP 服务器功能

MCP 架构

Model Context Protocol 规范

2025年3月26日星期三

MCP Python SDK

2025年3月24日星期一

Easy Dataset：基于 LLM 微调数据集的工具

2025年3月22日星期六

RAG 2.0

2025年3月18日星期二

RAGFlow

2025年3月17日星期一

大模型实战评测：语言 vs 推理 vs 代码

2025年3月16日星期日

Model Context Protocol (MCP) 的核心概念和能力

146 篇文章带有标签 “llm”

2025年6月7日 星期六

2025年6月4日 星期三

2025年5月6日 星期二

2025年4月30日 星期三

2025年4月5日 星期六

2025年4月4日 星期五

2025年4月2日 星期三

2025年3月31日 星期一

2025年3月30日 星期日

2025年3月27日 星期四

2025年3月26日 星期三

2025年3月24日 星期一

2025年3月22日 星期六

2025年3月18日 星期二

2025年3月17日 星期一

2025年3月16日 星期日

2025年6月7日星期六

2025年6月4日星期三

2025年5月6日星期二

2025年4月30日星期三

2025年4月5日星期六

2025年4月4日星期五

2025年4月2日星期三

2025年3月31日星期一

2025年3月30日星期日

2025年3月27日星期四

2025年3月26日星期三

2025年3月24日星期一

2025年3月22日星期六

2025年3月18日星期二

2025年3月17日星期一

2025年3月16日星期日