146 篇文章带有标签 “llm”

2026年1月19日星期一

评估模型投资分析能力：京东健康案例

优先使用：豆包和 Grok

提示词

根据历年财报进行投资分析

基于京东健康上市后历年的财报，从价值投资的角度进行分析。

文件：

京东健康 2020 年度报告.pdf
京东健康 2021 年度报告.pdf
京东健康 2022 年度报告.pdf
京东健康 2023 年度报告.pdf
京东健康 2024 年度报告.pdf
京东健康 2025 中期报告.pdf

评估各模型投资分析能力

下面是我使用提示词：“基于京东健康上市后历年的财报，从价值投资的角度进行分析。”对多个大语言模型进行的分析结果。你作为一个评判专家，请对比各模型的分析内容，给出你的综合评价。

评判结果

Doubao

Grok 4.1

Gemini3

ChatGPT

DeepSeek-Think

混元

Kimi-K2-Think

LeChat

LongCat

MiniMax M2.1

Qwen3-千问

综合AI助手，全面回答工作、学习、生活各类问题

Qwen3-Max

千问系列中最强大的语言模型

各模型投资分析结果

Gemini

2026-01-19 18:00

benchmark 投资 jd-health llm model-evaluation grok doubao gemini chatgpt financial-analysis

2026年1月14日星期三

Engram 是一种旨在增强大语言模型性能的条件记忆（Conditional Memory）模块。传统的 Transformer 架构在处理静态知识检索时效率较低，往往需要通过复杂的计算来模拟记忆，而 Engram 通过现代化的 N-gram 哈希查找实现了常数级时间复杂度 O(1) 的知识获取。研究者揭示了一种 U 型缩放法则，证明在固定参数预算下，平衡条件计算（MoE）与静态内存（Engram） 能显著提升模型在推理、代码及数学任务中的表现。实验分析表明，Engram 能减轻模型底层对基础模式的重复构建，从而释放更多算力用于处理全球上下文和深度推理。此外，Engram 的确定性寻址特性支持从主机内存预取数据，使其能在不增加硬件负担的情况下实现大规模参数扩张。最终，该技术为构建更高效、具备长文本处理能力的新一代稀疏模型提供了核心原语。

Engram 架构

记忆内存的参数就像是图书馆书架上的一本本百科全书，记录着世界上的事实；而 Engram 模块的参数就像是一位经验丰富的图书管理员。管理员通过训练（学习），能够根据你当前提出的研究课题（隐藏状态），迅速判断哪些百科全书的条目是有用的，哪些是由于名字相似而找错的（哈希冲突），并帮你把这些知识翻译成你研究报告能用的语言（投影整合）。

该模块通过检索静态 N-gram 记忆，并利用上下文感知门控（context-aware gating）将其

2026-01-14 08:00

deepseek engram llm memory sparse-model moe n-gram long-context conditional-memory knowledge-retrieval

2025年11月24日星期一

智能会议系统 Jetson Thor 上部署模型服务指南

内网IP：27.41.19.62

服务	说明	端口	模型	备注
whisperlivekit	实时语音识别服务	8000	Whisper `small` (默认) `large-v3-turbo`	带说话人分离
FunASR	实时语音识别服务	8000	语音识别：`paraformer-zh` 实时语音识别：`paraformer-zh-streaming` 实时语音端点检测：`fsmn-vad` 标点恢复：`ct-punc` 文本逆规范化：`fst_itn_zh`	实时与非实时一体化协同（`2pass`）服务模式
llama-server	GGUF 模型推理服务	8080	Qwen3 `Qwen3-8B-Q5_K_M.gguf`	模型名：qwen3 上下文长度：32K 不思考

系统设置

系统优化

最大功率模式（一次性设置）

sudo nvpmodel -m 0

启动最高频率（每次重启后设置）

sudo jetson_clocks

清理内存

sync && echo 3 | sudo tee /proc/sys/vm/drop_caches

WhisperLiveKit

WhisperLiveKit - 实时语音识别

部署服务

tmux new -s wlk

默认容器内应用（标点识别有时会失灵 ⚠️）

2025-11-24 08:00

智能会议系统 jetson-thor whisperlivekit funasr llama-server qwen3 asr llm docker vllm

2025年11月1日星期六

大模型（语言、视觉语言、语音）推理服务部署与测试

推理服务

CUDA GPU Compute Capability（计算能力）

计算能力（CC）定义了每种 NVIDIA GPU 架构的硬件特性和支持的指令。在下表中查找您的GPU的计算能力。

vLLM

docker run -it --rm \
  --ipc=host \
  --net=host \
  --runtime=nvidia \
  --name=vllm-test \
  -v /models:/models \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -v ~/.cache/modelscope:/root/.cache/modelscope \
  nvcr.io/nvidia/vllm:25.10-py3 \
  bash

默认情况下，如果模型未指向有效的本地目录，它将从 Hugging Face Hub 下载模型文件。要从 ModelScope 下载模型，请在运行命令之前进行如下设置：

export VLLM_USE_MODELSCOPE=true

vllm serve /models/Qwen/Qwen3-8B \
  --served-model-name qwen3 \
  --chat-template /models/Qwen/Qwen3-8B/qwen3_nonthinking.jinja

SGLang

2025-11-01 08:00

llm vllm sglang llama.cpp whisper.cpp cuda jetson-thor qwen3 推理模型量化

2025年9月1日星期一

vLLM 推理引擎的核心优化技术及其工作流程

vLLM V1 引擎通过优化其核心引擎循环，将输入处理并行化，并引入了分段式 CUDA 图，从而实现了更灵活、动态的执行模型，显著降低了在线服务的延迟（TTFT 和 TPOT），同时保持了高吞吐量。其设计目标是确保 GPU 不闲置，通过 API 服务器和 EngineCore 之间的协作来高效调度和执行任务。为了进一步加速大型语言模型推理，vLLM V1 采用了多种优化技术：它通过分离式预填充和分块预填充来优化首个 token 的生成延迟，并结合连续批处理与分页注意力来提高 KV 缓存的内存效率和 GPU 利用率。此外，前缀缓存技术避免了重复计算相同提示的 KV 缓存，而级联推理则是一种内存带宽高效的共享前缀批处理解码技术，通过结合多查询注意力处理共享 KV 和单查询批处理解码处理独特 KV，特别适用于多用户共享长提示的场景，能显著提升性能。其他高级解码方法如推测性解码利用草稿模型加速生成，跳跃解码则适用于结构化输出场景。最后，量化技术是提升性能的关键手段，通过对权重、激活值和 KV 缓存使用低位精度（如 FP8、INT8），它能减少存储和内存占用，加速计算密集型和内存带宽密集型任务，并允许在固定硬件下处理更多 token，从而大幅提升吞吐量，同时保持模型准确性。

V1 Engine 工作流程

推理优化

典型 LLM 推理优化

Flash Attention 的核心思想是将多个操作融合为一个 GPU 内核（kernel），并充分利用速度极快的片上 SRAM（静态随机存取存储器）。

2025-09-01 00:00

vllm llm 推理 inference-optimization kv-cache prefix-caching chunked-prefill cascade-inference quantization distributed-inference

2025年8月26日星期二

vLLM 推理性能优化实验与分析

该文章详细探讨了如何通过优化vLLM框架来提升Qwen3-4B大型语言模型在Tesla T4 GPU上的推理性能。实验中，我评估了不同配置对关键性能指标的影响，包括首次生成Token时间（TTFT）、端到端延迟（E2EL）和请求吞吐量。结果表明，结合前缀缓存（prefix caching）、分块预填充（chunked prefill）以及调整批处理Token数量（max-num-batched-tokens=8192）能显著改善模型性能。尤其在模拟Agent场景下的自定义数据集测试中，这些优化措施成功将TTFT大幅降低约64%，同时提升了请求和输出Token的吞吐量。最终，文章提供了一套推荐的最佳vLLM部署配置，旨在最大化长上下文模型的推理效率和用户体验。

vLLM 工作流程

1. Prefill

Prefill 阶段是指模型在生成任务开始时，将输入 prompt（提示词）全部送入模型，并填充（prefill）KV Cache（键值缓存）。这个阶段通常只在生成的第一个 token 前进行。

主要作用：将所有 prompt token 送入模型，建立好 KV Cache，为后续高效 decode 做准备。
在 vLLM 里，prefill 可以独立出来（Disaggregated Prefill），甚至由独立的实例来执行，prefill 完成后把 KV Cache 通过网络/进程传给 decode 节点。
示例代码见：examples/offline_inference/disaggregated_prefill.py
在 chunked prefill 场景下，长文本的 prefill 会被分块（chunk）处理，并与 decode 请求混合批处理，以充分利用算力。

2025-08-26 08:00

vllm qwen3 benchmark t4 llm prefix-caching chunked-prefill kv-cache inference-optimization agent

2025年8月5日星期二

华为 Atlas 800I A2 大模型部署实战（十）：GlusterFS 构建高性能共享存储

本文档首先比较了 NFS、GlusterFS、Ceph 和 HDFS 四种分布式文件系统的优缺点及适用场景，强调了 GlusterFS 在无元数据服务器、高可用性和横向扩展方面的优势。Gluster 是一个可扩展的分布式文件系统，它将来自多个服务器的磁盘存储资源聚合成一个单一的全局命名空间。文档提供了在多台服务器上准备环境、安装 GlusterFS、配置信任池、创建和启动分布式复制卷的详尽步骤，并指导如何在客户端挂载和测试 GlusterFS 卷。最后，文档通过网络带宽和磁盘读写性能测试，对 GlusterFS 的实际表现进行了评估，指出当前网络带宽可能是性能瓶颈，建议使用更高速的网络接口（25 GbE）以提升性能。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器 X 5

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

分布式文件系统对比分析：

NFS (Network File System)

NFS 是一种传统的客户端-服务器架构文件共享协议，而不是一个真正的分布式文件系统。它允许客户端通过网络访问远程服务器上的文件，就像访问本地文件一样。

2025-08-05 12:00

昇腾 atlas-800i-a2 910b4 glusterfs distributed-file-system npu openeuler llm shared-storage

2025年7月30日星期三

京东通用智能体：JoyAgent-JDGenie

本文档详细介绍了JoyAgent-JDGenie，一个由京东开发的开源、轻量级通用多智能体产品。它不仅涵盖了系统架构、前后端、框架和核心子智能体，还提供了部署指南，包括如何构建和启动Docker镜像，以及配置大型语言模型（LLM）如DeepSeek和搜索工具如Serper。文档还展示了该智能体在实际应用中的界面示例，并提供了任务规划和执行的详细提示（prompts），阐述了其思考、行动、观察的工作流程，以及如何利用各种工具（如计划工具、代码解释器、报告工具、文件读写工具和深度搜索工具）来解决用户问题或完成复杂任务。

JoyAgent-JDGenie 是业界首个开源高完成度轻量化通用多智能体产品，能端到端直接响应并解决用户 query 或任务，支持新场景功能定制挂载，涵盖前后端、框架、引擎及核心子智能体，在通用能力榜单表现优异且不依赖特定平台。

系统架构

构建镜像

克隆项目

git clone https://github.com/jd-opensource/joyagent-jdgenie.git

配置 LLM

下面的设置是使用 DeepSeek 进行的，只需要把 <您的 API Key> 替换为您的就可以了。注意第二个配置文件有一个是需要搜索时使用的，可以到这里申请：Serper

✨ 我配置 OpenAI API 兼容接口没有成功。

编辑文件：genie-backend/src/mai

2025-07-30 15:00

joyagent-jdgenie 京东 agent 多智能体 deepseek llm docker serper

2025年7月29日星期二

华为 Atlas 800I A2 大模型部署实战（七）：完整的安装部署流程

这份指南详细阐述了华为Atlas 800I A2推理服务器上大型模型的部署流程，旨在提供一个全面的安装与配置实践，用于扩展部署到其它服务器。随后，文章通过流程图和具体命令脚本，逐步指导用户如何创建和挂载逻辑卷、同步并安装驱动固件、部署Docker环境以及导入所需的MindIE和vLLM镜像。最后，指南还涵盖了同步大型模型权重文件的关键步骤，并指示用户通过Docker Compose启动模型服务，确保MindIE和vLLM能够顺利运行，以实现AI推理功能。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

完整安装部署流程

2025-07-29 20:00

昇腾 atlas-800i-a2 npu 部署流程 docker mindie vllm llm rsync

2025年7月19日星期六

华为 Atlas 800I A2 大模型部署实战（三）：MindIE 安装与部署 LLM

本文章提供了在 openEuler 操作系统上安装 Docker 的具体步骤，并指导用户下载、导入 MindIE 镜像，以及准备 LLM 模型文件。最后，文档展示了如何通过 Docker 容器运行和配置 MindIE 服务，并提供了通过 cURL 命令测试服务的示例，还包含了使用 Docker Compose 部署的详细配置。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

MindIE 介绍

MindIE（Mind Inference Engine，昇腾推理引擎）是华为昇腾针对AI全场景业务的推理加速套件。通过分层开放AI能力，支撑用户多样化的AI业务需求，使能百模千态，释放昇腾硬件设备算力。向上支持多种主流AI框架，向下对接不同类型昇腾AI处理器，提供多层次编程接口，帮助用户快速构建基于昇腾平台的推理业务。

MindIE 架构图

2025-07-19 10:00

昇腾 atlas-800i-a2 npu mindie docker docker-compose llm deepseek qwen

2025年7月18日星期五

华为 Atlas 800I A2 大模型部署实战（二）：逻辑卷创建与大模型下载

本指南详细阐述了如何使用 LVM（逻辑卷管理）来创建和管理磁盘分区，包括物理卷、卷组和逻辑卷的设置。文档还提供了关于 ext4 和 XFS 文件系统的对比，并指导用户如何挂载文件系统以及实现开机自动挂载。最后，它解释了如何使用 ModelScope 和 openmind_hub 工具来下载各种大型模型，并利用 rsync 命令在服务器之间同步文件。

服务器配置

AI 服务器：华为 Atlas 800I A2 推理服务器

组件	规格
CPU	鲲鹏 920（5250）
NPU	昇腾 910B4（8X32G）
内存	1024GB
硬盘	系统盘：450GB SSDX2 RAID1 数据盘：3.5TB NVME SSDX4
操作系统	openEuler 22.03 LTS

逻辑卷创建

LVM（逻辑卷管理）

LVM (Logical Volume Manager，逻辑卷管理) 是 Linux 环境下对磁盘分区进行管理的一种机制，它提供了比传统分区更灵活和强大的磁盘管理功能。

LVM 主要由以下几个核心概念组成：

物理卷 (Physical Volume, PV)：实际的物理磁盘或分区
卷组 (Volume Group, VG)：由一个或多个物理卷组成的存储池
逻辑卷 (Logical Volume, LV)：从卷组中划分出的逻辑存储单元，可格式化并挂载使用

LVM 的优势灵活的容量管理：可以动态调整逻辑卷大小

2025-07-18 12:00

昇腾 atlas-800i-a2 npu lvm 逻辑卷 llm modelscope openmind-hub rsync

2025年7月13日星期日

英伟达全栈方案：LLM开发、推理与具身智能

NVIDIA 提供 TensorRT-LLM、Triton Inference Server 和 NVIDIA Inference Microservice (NIM) 等工具来优化和加速 AI 模型的推理，使模型运行速度提升高达 5 倍。这意味着您可以高效地部署和运行 LLM 以生成内容。同时，NVIDIA 还提供了用于 LLM 开发的工具和框架，如 NeMo，可以帮助开发者更轻松地创建和管理 LLM。

GROOT项目利用合成运动生成将人类演示转化为大量的训练数据，并通过 Isaac Lab 进行仿真训练，从而实现机器人学习。整个系统建立在 Jetson Thor 架构之上，并整合了 NVIDIA Omniverse 等工具，支持机器人数据的处理与生成、仿真与学习，以及简化扩展，最终目标是推进人形机器人技术的发展。

LLM 推理

LLM 开发

具身智能

参考资料

NVIDIA 从NIM到 AI infra 的全栈式解决方案概览

2025-07-13 20:00

nvidia llm tensorrt-llm nim nemo embodied-ai 具身智能 groot isaac-lab

2025年7月9日星期三

大模型风向标！OpenRouter平台谁最火？热门应用大揭秘！

OpenRouter 是一个创新的统一 API 平台，旨在简化开发者和企业对数百种大型语言模型（LLMs）的访问和使用，提供一个与 OpenAI Chat API 类似的标准化接口，让用户能够通过单一入口轻松切换并调用来自不同提供商（如 OpenAI、Anthropic、Google 等）的模型。它不仅能根据成本、性能等需求智能路由请求，帮助优化开销，还提供统一账单和实时数据洞察，极大地降低了多模型集成的复杂性，提升了 AI 应用开发的效率和灵活性。

OpenRouter

🚀 大模型霸主争夺战：Google、Deepseek、Anthropic三足鼎立！

如果你还在纠结用哪个大模型，不妨看看OpenRouter的数据！截止到2025年7月7日，整个平台上的令牌使用量已经突破了2.4万亿（2.4T）！这说明AI应用场景真的是越来越广啦！

而在这场“AI大混战”中，Google爸爸的Gemini系列模型绝对是遥遥领先，市场份额高达43.2%！几乎占据了半壁江山！其次是黑马Deepseek（19.1%）和我们熟悉的Anthropic（18.7%）。OpenAI虽然也榜上有名，但市场份额相对较小，只有6.2%。看来，大模型的竞争格局正在悄悄发生变化哦！

🤖 热门模型C位出道，实力派选手个个能打！

Google Gemini 2.5 Flash / Pro系列： 妥妥的“劳模”担当！无论是处理复杂的代码，还是做日常的聊天翻译，它都游刃有余。特别是Gemini 2.5 Flash，在编程辅助、智能代理和简化大型语言模型等方面都表现亮眼。很多姐妹用它来写代码、做智能问答，简直不要太方便！

2025-07-09 20:00

openrouter llm ai-apps model-ranking model-routing gemini claude deepseek ai-trends

2025年7月1日星期二

Docker AI 功能详解与应用

本文档详细介绍了 Docker AI 的新功能，旨在通过集成人工智能提升开发者的体验。主要亮点包括 Docker Model Runner，它简化了 AI 模型的管理和部署，支持从各种注册表拉取和运行模型，并通过兼容 OpenAI 的 API 提供服务。此外，MCP Toolkit 实现了容器化 MCP 服务器的无缝设置和管理，而 Ask Gordon 则作为嵌入式 AI 助手，在 Docker Desktop 和 CLI 中提供上下文帮助，包括改进 Dockerfile 和故障排除等。这些功能共同旨在简化 AI 驱动型应用程序的开发和部署。

Docker AI 配置

✅ Enable Docker AI (启用 Docker AI)
- 在 Docker Desktop 和命令行（CLI）中启用 “Ask Gordon” 功能。
✅ Enable Docker Model Runner (启用 Docker 模型运行器)
- 启用 GPU 加速的推理引擎，用于运行 AI 模型。
✅ Enable Docker MCP Toolkit (启用 Docker MCP 工具套件)
- 在 Docker Desktop 中启用 “MCP Toolkit” 功能。

registry-mirrors: https://registry.cn-hangzhou.aliyuncs.com
- 这是 Docker 镜像的镜像地址，国内使用阿里云的镜像加速器可以提高拉取镜像的速度。

2025-07-01 08:00

docker docker-ai docker-model-runner mcp-toolkit ask-gordon mcp mcp-server openai-api llm oci-artifacts

2025年6月30日星期一

Gemini CLI 项目分析与开发指南

本文档围绕着初学者如何分析并开发一个类似 Gemini CLI 的项目提供了详尽的指南。核心思想是将复杂的项目分解为可管理的部分，并提供分步学习路径。指南强调了理解项目架构（如前端CLI和后端Core的职责）、熟悉代码结构、掌握核心功能（如API交互和工具系统）、以及通过实践进行学习的重要性。通过阅读文档、运行和调试代码、并尝试进行小修改，学习者能够逐步掌握此类项目的开发技能。在 VSCode 中，使用 GitHub Copilot 的 Ask 模式分别对大模型（如 GPT-4.1、GPT-4o、Gemini 2.5 Pro 和 Claude Sonnet 系列）进行提问并总结。

问题

#codebase 我作为初学者，如何开始分析这个项目，以达到学习的目的，可以手动开发这种类型的项目。

下面是不同大模型给出的回答：

GPT-4.1

作为初学者，分析并学习 Gemini CLI 这样的大型项目，可以按照以下步骤进行，帮助你理解架构、掌握开发流程，并为将来手动开发类似项目打下基础：

1. 阅读架构文档，理解整体结构

你可以从 architecture.md 开始，重点关注以下内容：

核心组件：项目分为 CLI 前端（cli）、Core 后端（core）和工具模块（tools）。
交互流程：用户输入 → CLI 处理 → Core 构建请求并与 Gemini API 通信 → 工具调用（如有）→ 返回结果 → CLI 展示。
设计原则：模块化、可扩展性、良好的用户体验。

2025-06-30 08:00

gemini-cli github-copilot project-analysis learning-guide typescript monorepo mcp llm 软件开发

2025年6月28日星期六

Gemini CLI - 开源命令行 AI 智能体

Gemini CLI 是一个专为软件开发者设计的、由AI驱动的交互式命令行工具。作为一个智能助手，它可以直接在您的终端中帮助您完成各种软件工程任务，例如解释代码、编写新功能、修复错误和自动化工作流程。它能够理解您项目的上下文，安全地读写文件、执行命令，并与您协作，从而提高开发效率，是您开发流程中的得力伙伴。

介绍

一个将 Gemini 强大功能直接带入你终端的开源 AI 智能体。

Gemini CLI 提供了强大的 AI 功能，涵盖了从代码理解和文件操作，到命令执行和动态故障排除的方方面面。它对您的命令行体验进行了根本性的升级，让您能够通过自然语言编写代码、调试问题并简化工作流程。

其强大之处源于内置工具，使您能够：

使用 Google 搜索来奠定提示基础，以便您可以抓取网页并为模型提供实时的外部上下文。
通过内置支持模型上下文协议 (MCP) 或捆绑扩展来扩展 Gemini CLI 的功能。
自定义提示和指令，根据您的具体需求和工作流程定制 Gemini。
通过在脚本中非交互式地调用 Gemini CLI，实现任务自动化并与现有工作流程集成。

Gemini CLI 提供业界最高的免费使用限额，每分钟可发送 60 个模型请求，每天最多 1,000 个模型请求。

安装

安装 Node.js

安装最新的 LTS 版本

nvm install --lts

安装最新的稳定版本

nvm install node

2025-06-28 08:00

gemini-cli gemini ai-agent cli nodejs npm mcp llm 软件开发

2025年6月22日星期日

人工智能时代的软件 (Software in the era of AI) - Andrej Karpathy

主要介绍了软件开发领域正在经历的重大变革，将其分为软件1.0（传统手工编码）、软件2.0（基于神经网络权重训练）和软件3.0（通过自然语言提示编程大型语言模型）。演讲者将大型语言模型（LLMs）比作新型操作系统和基础设施，指出它们既具备公用事业的性质（按量付费、集中式），也展现出类似芯片制造厂和操作系统的特征，且目前仍处于早期阶段（类似于1960年代的计算）。进一步探讨了LLMs的认知特性（如广博知识、幻觉、记忆局限），并强调了开发部分自主应用的重要性，这些应用能让人类通过图形用户界面和自主性滑块有效监督AI。最后，演讲者提出，随着自然语言编程的兴起，人人皆可编程，并呼吁开发者为智能体优化数字基础设施和文档，预示着一个由人类与AI协作构建的 “钢铁侠战衣”式未来。

Software is changing. (again)

Map of GitHub

Map of GitHub 是一个创新的数据可视化项目，旨在以交互式地图的形式展示 GitHub 上的开源项目生态。该项目由开发者 Anvaka 创建，通过复杂的算法和可视化技术，将超过 400,000 个 GitHub 仓库以节点和连接的形式呈现，帮助用户探索项目之间的关联、技术趋势以及开源社区的演变。

Software 2.0

Software 3.0

Part 1: 如何思考 LLM

LLM 具有公用事业的特性

2025-06-22 08:00

andrej-karpathy software-3.0 software-2.0 llm agent natural-language-programming vibe-coding autonomous-application 人工智能软件开发

2025年6月19日星期四

vLLM：快速易用的 LLM 推理和服务库

大模型

在下载前，请先通过如下命令安装 ModelScope

pip install modelscope

ModelScope 下载默认存储到 ~/.cache/modelscope/hub（Linux/macOS）或 C:\Users<用户名>.cache\modelscope\hub（Windows）。--local_dir 参数可以指定下载目录。

多模态（Multi-modal）

Qwen2.5-VL-3B-Instruct

modelscope download --model Qwen/Qwen2.5-VL-3B-Instruct --local_dir Qwen2.5-VL-3B-Instruct

Qwen2.5-VL-7B-Instruct

modelscope download --model Qwen/Qwen2.5-VL-7B-Instruct --local_dir Qwen2.5-VL-7B-Instruct

转录（Transcriptions）

Whisper large-v3

modelscope download --model openai-mirror/whisper-large-v3 --local_dir whisper-large-v3

Whisper large-v3-turbo

modelscope download --model openai-mirror/whisper-large-v3-turbo --local_dir whisper-large-v3-turbo

2025-06-19 08:00

vllm llm inference modelscope qwen2.5-vl whisper docker docker-compose

2025年6月9日星期一

Qwen2.5-Omni：端到端多模态大模型

Qwen2.5-Omni是Qwen系列中全新的旗舰级端到端多模态大模型，专为全面的多模式感知设计，无缝处理包括文本、图像、音频和视频在内的各种输入，同时支持流式的文本生成和自然语音合成输出。

点击下方视频了解更多信息吧 😃

概览

简介

Qwen 2.5-Omni是一个端到端的多模态大语言模型，旨在感知包括文本、图像、音频和视频在内的多种模态，同时以流式的方式生成文本和自然语音响应。

主要特点

全能创新架构：我们提出了一种全新的Thinker-Talker架构，这是一种端到端的多模态模型，旨在支持文本/图像/音频/视频的跨模态理解，同时以流式方式生成文本和自然语音响应。我们提出了一种新的位置编码技术，称为TMRoPE（Time-aligned Multimodal RoPE），通过时间轴对齐实现视频与音频输入的精准同步。

实时音视频交互：架构旨在支持完全实时交互，支持分块输入和即时输出。

自然流畅的语音生成：在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

全模态性能优势：在同等规模的单模态模型进行基准测试时，表现出卓越的性能。Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio，并与Qwen2.5-VL-7B保持同等水平。

卓越的端到端语音指令跟随能力：Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果，在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。

2025-06-09 10:00

qwen2.5-omni qwen multimodal llm speech-recognition speech-synthesis transformers hugging-face thinker-talker tmrope

2025年6月7日星期六

【生成式AI时代下的机器学习(2025)】第十一讲：浅谈神奇的 Model Merging 技术

本文档深入探讨了模型合并（Model Merging）的技术，特别是利用任务向量（Task Vector）来增强或改变基础模型（Foundation Model）的功能。它们展示了如何通过对模型参数进行加减运算来实现不同的目标，例如让语言模型减少生成有毒内容，或者构建一个多任务模型。此外，文档还探讨了高级合并方法以及在规模化应用中模型合并的考虑因素，并提出了任务向量可以被小团队专门开发、出售和交换的未来愿景。