LLM - 第 5 页 - 标签 - 军舰的日志

2024年10月1日星期二

Reader-LM: 用于清理和转换 HTML 到 Markdown 的小型语言模型

不能简单地将 HTML 把输入给模型（Reader-LM），因为效果不理想。

Reader-LM-0.5B 和 Reader-LM-1.5B 是受 Jina Reader 启发的两个新型小型语言模型，旨在将来自开放网络的原始、嘈杂的 HTML 转换为干净的 markdown。

使用小型语言模型替换了 readability + turndown + regex 启发式的管道。

Jina Reader 是一个简单的 API，只需一个简单的前缀：r.jina.ai，就可以将任何 URL 转换为 LLM 友好的 markdown。

jina-embeddings-v3 的架构基于 XLM-RoBERTa 模型，并进行了几项关键修改。集成了 FlashAttention 2 以提高计算效率，同时 RoPE 扩展了对最长 8192 个 token 序列的支持。引入了任务特定的 LoRA 适配器，以优化各种任务的 embeddings。模型的输入由两部分组成：文本，即要嵌入的长文档，以及任务类型。jina-embeddings-v3 支持四种任务，并实现了五种适配器可供选择：retrieval.query 和 retrieval.

2024年10月1日 1 分钟 396 字

2024年9月25日星期三

Letta (fka MemGPT) 是用于创建有状态 LLM 服务的框架

git clone https://github.com/cpacker/MemGPT

Ollama

LETTA_LLM_ENDPOINT=http://host.docker.internal:11434
LETTA_LLM_ENDPOINT_TYPE=ollama
LETTA_LLM_MODEL=qwen2.5:7b-q6_K
LETTA_LLM_CONTEXT_WINDOW=32000
LETTA_EMBEDDING_ENDPOINT=http://host.docker.internal:11434
LETTA_EMBEDDING_ENDPOINT_TYPE=ollama
LETTA_EMBEDDING_MODEL=bge-m3
LETTA_EMBEDDING_DIM=1024

在下载 Ollama 模型时，请确保使用标签！

不要执行 ollama pull dolphin2.2-mistral，而是执行 ollama pull dolphin2.2-mistral:7b-q6_K。

如果您没有指定标签，Ollama 可能会默认使用高度压缩的模型变体（例如 Q4）。

2024年9月25日 1 分钟 260 字

Letta MemGPT LLM

2024年9月23日星期一

Qwen2 Technical Report

This report introduces the Qwen2 series, the latest addition to our large language models and large multimodal models. We release a comprehensive suite of foundational and instruction-tuned language models, encompassing a parameter range from 0.5 to 72 billion, featuring dense models and a Mixture-of-Experts model. Qwen2 surpasses most prior open-weight models, including its predecessor Qwen1.5, and exhibits competitive performance relative to proprietary models across diverse benchmarks on language understanding, generation, multilingual proficiency, coding, mathematics, and reasoning.

2024年9月23日 19 分钟 4,685 字

Qwen2 LLM Qwen2 arXiv

2024年9月20日星期五

Continue 源码分析 - 各种命令调用大模型的输入和输出

2024年9月20日 2 分钟 486 字

Continue Langfuse GitHubCopilot LLM Continue AICodingAssistant

2024年9月14日星期六

Langfuse: Open Source LLM Engineering Platform

LLM 可观察性（LLM Observability）、提示管理（Prompt Management）、LLM 评估（LLM Evaluations）、数据集（Datasets）、LLM 指标（LLM Metrics）和提示游乐场（Prompt Playground）

# Clone repository
git clone https://github.com/langfuse/langfuse.git
cd langfuse

# Run server and database
docker compose up -d

安装

pip install langfuse>=2.0.0 litellm

main.py import os import litellm os.environ['LITELLM_LOG'] = 'DEBUG' # Langfuse os.environ["LANGFUSE_HOST"]="http://localhost:3000" os.environ["LANGFUSE_PUBLIC_KEY"] = "pk-lf-fd5d8fba-5134-4037-884d-d6780894a65a" os.

2024年9月14日 1 分钟 389 字

Langfuse LiteLLM LLM

2024年9月13日星期五

LiteLLM: [Python SDK] [Proxy Server (LLM Gateway)]

model_list:
  - model_name: qwen-coder
    litellm_params:
      model: ollama/qwen2.5-coder:7b
  - model_name: bge-m3
    litellm_params:
      model: ollama/bge-m3
  - model_name: llava
    litellm_params:
      model: ollama/llava:7b
      api_base: "http://localhost:11434"
      # api_base: http://127.0.0.1:11434/v1 # ❌ 500 Internal Server Error
  - model_name: gpt-4
    litellm_params:
      model: openai/gpt-4-32k
// ...

docker run --name litellm \
    -v $(pwd)/litellm_config.yaml:/app/config.yaml \
    -p 4000:4000 \
    ghcr.io/berriai/litellm:main-stable \
    --config /app/config.yaml \
    --detailed_debug

2024年9月13日 1 分钟 290 字

LiteLLM AIGateway Langfuse LLM

2024年9月11日星期三

Kong AI Gateway

Services and Routes

创建

curl -X POST http://localhost:8001/services \
    --data "name=ai-proxy" \
    --data "url=http://localhost:32000"

请记住，上游 URL 可以指向任何空的地方，因为插件不会使用它。

查看

curl -X GET http://localhost:8001/services/ai-proxy | jq

删除

curl -X DELETE http://localhost:8001/services/ai-proxy

创建

curl -X POST http://localhost:8001/services/ai-proxy/routes \
    --data "name=openai-chat" \
    --data "paths[]=~/openai-chat$"

查看 curl -X GET http://localhost:8001/rou

2024年9月11日 2 分钟 650 字

Kong AIGateway LLM

2024年9月10日星期二

Higress AI Gateway

Higress 是基于阿里内部多年的 Envoy Gateway 实践沉淀，以开源 Istio 与 Envoy 为核心构建的云原生 API 网关。

2024年9月10日 1 分钟 143 字

Higress AIGateway Envoy Istio LLM

2024年9月3日星期二

大模型推理需要多少显存？

基于 Qwen2 效率评估计算大模型推理需要的显存.xlsx
这里计算的显存都是指使用 transformers 库进行推理，对于 vLLM，由于 GPU 显存预分配，实际显存使用难以评估。

模型参数（B）	参数使用的位数（bits）	加载需要显存（G）
0.5	16	1
1.5	16	3
7	16	14
9	16	18
22	16	44
72	16	144

2024年9月3日 2 分钟 485 字

LLM GPU VRAM Calculator

2024年6月30日星期日

RAG 复杂场景下的工作流程和构建知识库的解析方法

召回模式（选择数据集） → 混合检索（同时进行语义检索和关键词搜索） → 重排序（合并和归一化检索结果）

召回模式主要是用于选出与用户问题最相关的数据集，在应用内关联了多个数据集时，可以使用N选1、N选M和多路等召回模式。
- N 选 1 召回
- N 选 M 召回
- 多路召回
语义检索是当前主流的向量检索，通过语义相关度进行匹配；关键词搜索是传统的搜索算法，用于精确匹配；混合检索是分别通过两种检索方式在文档中检索出最相关的文本。
重排序模型（Rerank Model）用于对查询结果进行语义排序，在混合检索模式下的查询结果需要进行合并和归一化（将数据转换为统一的标准范围或分布，以便更好地进行比较、分析和处理），然后再一起提供给大模型。

RAGFlow 是一款基于深度文档理解构建的开源 RAG 引擎，内置了丰富地文档解析方法，可以帮助用户快速构建知识库。

基于 Tokens 数进行分割问答对（两列数据，一个提出问题，另一个用于答案）简历（不进行拆分，而是将简历解析为结构化数据）手册（使用最低的部分标题作为对文档进行切片的枢轴，同一部分中的图和表不会被分割，块大小可能会很大）表格（表数据，第一行必须是列标题，列标题必须是有意义的术语，以便我们的大语言模型能够理解）论文（按章节进行拆分，例如摘要、1.1、1.

2024年6月30日 2 分钟 640 字

RAG RAGFlow LLM

2024年6月11日星期二

GLM-4V-9B

GLM-4V-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源多模态版本。 GLM-4V-9B 具备 1120 * 1120 高分辨率下的中英双语多轮对话能力，在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中均表现优异。

相比 CogVLM2 能力还是不如。

识别手写有问题
识别复杂表格有问题
识别化学的答案有问题

识别中文

提示词：输出图像中的文字

贵公司被认为中标人。中标价格为：307.6万元。请贵公司在收到本中标通知书之日起30天内，携带所有签订合同所需的资料（包括但不限于法定代表人授权书、技术规范、技术图纸等），并按照招标文件和中标人的投标文件与项目单位订立书面合同。合同签订的安排由项目单位另行通知。请贵公司收到本中标通知书后，签收并速回函确认。

❌ 漏了 确
👍 括号 （） 识别成全角

识别手写英文

提示词：识别图像上的手写英文

I think student have many after-school classes is don't good for they. So I thing the student don't have after-school classes.

2024年6月11日 8 分钟 1,846 字

GLM4 OCR GLM LLM 视觉问答 GLM4

2024年6月2日星期日

Ollama

安装 Ollama 服务。

curl -fsSL https://ollama.com/install.sh | sh

编辑 systemd 服务，调用 systemctl edit ollama.service。这将打开一个编辑器。

sudo systemctl edit ollama.service

对于每个环境变量，在 [Service] 部分下添加一行 Environment：

[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_NUM_PARALLEL=3"
Environment="OLLAMA_MAX_LOADED_MODELS=6"
Environment="OLLAMA_KEEP_ALIVE=4h"

保存并关闭编辑器。
重新加载 systemd 并重启 Ollama。

sudo systemctl daemon-reload
sudo systemctl restart ollama

2024年6月2日 2 分钟 655 字

Ollama OllamaServer LLM AICodingAssistant Ollama

2024年6月1日星期六

LLM 技术栈

SGLang 是一种专为大型语言模型 (LLM) 设计的结构化生成语言。它通过共同设计前端语言和运行时系统，使您与 LLM 的交互更快、更可控。

Dify 是一个 UI 驱动的用于开发大语言模型应用程序的平台，它使原型设计更加容易访问。它支持用户使用提示词模板开发聊天和文本生成应用。此外，Dify 支持使用导入数据集的检索增强生成（RAG），并且能够与多个模型协同工作。我们对这类应用很感兴趣。不过，从我们的使用经验来看，Dify 还没有完全准备好投入大范围使用，因为某些功能目前仍然存在缺陷或并不成熟。但目前，我们还没有发现更好的竞品。

Continue 使您能够在 IDE 中创建自己的 AI 代码助手。使用 VS Code 和 JetBrains 插件保持开发者的流畅体验，这些插件可以连接到任何模型、任何上下文以及任何其他你需要的东西。Continue 使您能够使用适合工作的模型，无论是开源还是商业，本地运行还是远程运行，用于聊天、自动完成或嵌入。它提供了许多配置点，以便您可以自定义扩展以适应您现有的工作流程。

SSO 是一种身份验证机制,允许用户使用单一账户登录多个应用程序和网站。它提供了以下几个主要的使用场景和优点:

提高用户体验:用户只需要记住一个账号和密码,就可以访问多个相关的系统和应用,无需频繁输入不同的登录凭证。这大大提高了用户体验。

2024年6月1日 4 分钟 1,280 字

LLM AICodingAssistant

2024年5月29日星期三

SiliconFlow AI Infra


deepseek-ai/deepseek-v2-chat	¥1.33/1M tokens
deepseek-ai/deepseek-llm-67b-chat	¥1/1M tokens
alibaba/Qwen2-7B-Instruct	¥0.35/1M tokens
alibaba/Qwen1.5-110B-Chat	¥4.13/1M tokens
alibaba/Qwen1.5-32B-Chat	¥1.26/1M tokens
alibaba/Qwen1.5-14B-Chat	¥0.7/1M tokens
alibaba/Qwen1.5-7B-Chat	¥0.35/1M tokens
01-ai/Yi-1.5-34B-Chat	¥1.26/1M tokens
01-ai/Yi-1.5-9B-Chat	¥0.42/1M tokens
01-ai/Yi-1.5-6B-Chat	¥0.35/1M tokens
zhipuai/glm4-9B-chat	¥0.6/1M tokens
zhipuai/chatglm3-6B	¥0.35/1M tokens
meta/llama3-70B-chat	¥4.13/1M tokens
meta/llama3-8B-chat	¥0.42/1M tokens
mixtralai/Mixtral-8x22B-Instruct-v0.1	¥4.13/1M tokens
mixtralai/Mixtral-8x7B-Instruct-v0.1	¥1.26/1M tokens
mixtralai/Mistral-7B-Instruct-v0.2	¥0.35/1M tokens
google/gemma-7b-it	¥0.35/1M tokens
google/gemma-2b-it	¥0.14/1M tokens
microsoft/Phi-3-mini-4k-instruct

2024年5月29日 1 分钟 195 字

SiliconCloud OpenAI LLM AIInfra SiliconFlow

2024年5月28日星期二

CrewAI 快速入门

安装

pip install 'crewai[tools]'

版本1

每次执行结果都不一样

from dotenv import load_dotenv
load_dotenv()

from crewai import Agent, Task, Crew
from langchain_openai import ChatOpenAI


general_agent = Agent(
    role = "数学教授", 
    goal = """为提问数学问题的学生提供解决方案并给出答案。""", 
    backstory = """您是一位优秀的数学教授，喜欢以每个人都能理解的方式解决数学问题。""", 
    allow_delegation = False,
    verbose = True
)

// ...

版本2

稳定地生成结果

2024年5月28日 1 分钟 26 字

Quickstart Agent CrewAI LLM Ollama

2024年5月26日星期日

大型语言模型驱动的自主代理

Building AI Agent Applications Series - Understanding AI Agents

2024年5月26日 3 分钟 613 字

Agent LLM

2024年5月24日星期五

Phi-3-vision-128k-instruct 微软开源多模态大模型

Phi-3 Vision 是一个轻量级、最先进的开放多模态模型，基于数据集构建，其中包括合成数据和经过过滤的公开网站，重点关注文本和视觉方面的高质量推理密集数据。该模型属于 Phi-3 模型系列，多模式版本可支持 128K 上下文长度（以 Token 为单位）。该模型经历了严格的增强过程，结合了监督微调和直接偏好优化，以确保精确的指令遵守和稳健的安全措施。

模型参数 4B。

该模型旨在广泛用于英语商业和研究用途。该模型为通用人工智能系统和应用程序提供了视觉和文本输入功能，这些系统和应用程序需要

内存/计算受限的环境；
延迟限制场景；
一般图像理解；
光学字符识别；
图表和表格的理解。

我们的模型旨在加速对高效语言和多模态模型的研究，作为生成人工智能驱动功能的构建块。

我们的模型并非针对所有下游目的而专门设计或评估。开发人员在选择用例时应考虑语言模型的常见限制，并在特定下游用例中使用之前评估和减轻准确性、安全性和公平性，特别是对于高风险场景。开发人员应了解并遵守与其用例相关的适用法律或法规（包括隐私、贸易合规法等）。

Microsoft_Phi-3-Vision-128k Space

提示词：对图像文字进行识别

这段文字是一个人的自己写作，表达了对学生在学校和家庭生活中的看法。

提示词：这张图片上写了什么？

这张图片上写了一段关于学生在学校后备课的观点。

👍 提示词：图像中的手写英文是什么？

2024年5月24日 9 分钟 2,444 字

Phi3 OCR LLM 视觉问答 Phi

2024年5月23日星期四

MiniCPM-Llama3-V 2.5 端侧可用的 GPT-4V 级多模态大模型

MiniCPM-Llama3-V 2.5 是 MiniCPM-V 系列的最新版本模型，基于 SigLip-400M 和 Llama3-8B-Instruct 构建，共 8B 参数量，相较于 MiniCPM-V 2.0 性能取得较大幅度提升。MiniCPM-Llama3-V 2.5 值得关注的特点包括：

🔥 领先的性能。 MiniCPM-Llama3-V 2.5 在综合了 11 个主流多模态大模型评测基准的 OpenCompass 榜单上平均得分 65.1，以 8B 量级的大小超过了 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等主流商用闭源多模态大模型，大幅超越基于Llama 3构建的其他多模态大模型。

💪 优秀的 OCR 能力。 MiniCPM-Llama3-V 2.5 可接受 180 万像素的任意宽高比图像输入，OCRBench 得分达到 725，超越 GPT-4o、GPT-4V、Gemini Pro、Qwen-VL-Max 等商用闭源模型，达到最佳水平。基于近期用户反馈建议，MiniCPM-Llama3-V 2.5 增强了全文 OCR 信息提取、表格图像转 markdown 等高频实用能力，并且进一步加强了指令跟随、复杂推理能力，带来更好的多模态交互体感。

🏆 可信行为。

2024年5月23日 15 分钟 4,190 字

MiniCPM-V OCR Llama3 LLM 视觉问答 MiniCPM-V

2024年5月22日星期三

CogVLM2 智谱开源多模态大模型

在许多关键指标上有了显著提升，例如 TextVQA, DocVQA。
支持 8K 文本长度。
支持高达 1344 * 1344 的图像分辨率。
提供支持中英文双语的开源模型版本。

您可以在下表中看到 CogVLM2 系列开源模型的详细信息：

模型名称	cogvlm2-llama3-chat-19B	cogvlm2-llama3-chinese-chat-19B
基座模型	Meta-Llama-3-8B-Instruct	Meta-Llama-3-8B-Instruct
语言	英文	中文、英文
模型大小	19B	19B
任务	图像理解，对话模型	图像理解，对话模型
模型链接	🤗 Huggingface 🤖 ModelScope 💫 Wise Model	🤗 Huggingface 🤖 ModelScope 💫 Wise Model
体验链接	📙 Official Page	📙 Official Page 🤖 ModelScope
Int4模型	暂未推出	暂未推出
文本长度	8K	8K
图片分辨率	1344 * 1344	1344 * 1344

CogVLM2-Llama3中文问答

识别中文

提示词：输出图像中的文字

贵公司被确认为中标人。中标价格为：307.6万元。

请贵公司在收到本中标通知书之日起30天内，携带所有签订合同所需的资料(包括但不限于法定代表人授权书、技术规范、技术

2024年5月22日 10 分钟 2,710 字

CogVLM2 OCR Llama3 LLM 视觉问答 CogVLM

2024年5月20日星期一

Thoughtworks 技术雷达第30期

环的含义如下：

1️⃣ 采纳 (Adopt)。我们认为您应该认真考虑使用的点。
2️⃣ 试验 (Trial)。我们认为可以放心使用的点，但还没有达到“采纳”环中那么成熟的程度。
3️⃣ 评估 (Assess)。值得关注的点，但除非非常适合您的需求，否则目前可能不需要试用。
4️⃣ 暂缓 (Hold)。需要谨慎对待的点。

参考：

这种方法对我们来说效果出奇的好：它要求团队提供对其架构风格的简明描述，帮助初级开发人员和新团队成员编写符合团队现有风格的功能特性。这种方法的主要缺点是，尽管我们没有向模型提供源代码，但我们仍然向其输入了可能包含敏感信息的技术栈和功能描述。至少在这些AI工具的“商业版”面世之前，团队应确保与法律顾问合作，以避免任何知识产权问题。

Opennyai : An efficient NLP Pipeline for Indian Legal documents

许多组织正在部署自托管式大语言模型。

2024年5月20日 55 分钟 15,878 字

Thoughtworks LLM 技术雷达

128 篇文章带有标签 “LLM”

2024年10月1日 星期二

2024年9月25日 星期三

2024年9月23日 星期一

2024年9月20日 星期五

2024年9月14日 星期六

2024年9月13日 星期五

2024年9月11日 星期三

2024年9月10日 星期二

2024年9月3日 星期二

2024年6月30日 星期日

2024年6月11日 星期二

2024年6月2日 星期日

2024年6月1日 星期六

2024年5月29日 星期三

2024年5月28日 星期二

2024年5月26日 星期日

2024年5月24日 星期五

2024年5月23日 星期四

2024年5月22日 星期三

2024年5月20日 星期一