128 篇文章带有标签 “LLM”

Reader-LM: 用于清理和转换 HTML 到 Markdown 的小型语言模型

不能简单地将 HTML 把输入给模型(Reader-LM),因为效果不理想。

Reader-LM-0.5B 和 Reader-LM-1.5B 是受 Jina Reader 启发的两个新型小型语言模型,旨在将来自开放网络的原始、嘈杂的 HTML 转换为干净的 markdown。

使用小型语言模型替换了 readability + turndown + regex 启发式的管道。

Jina Reader 是一个简单的 API,只需一个简单的前缀:r.jina.ai,就可以将任何 URL 转换为 LLM 友好的 markdown。

jina-embeddings-v3 的架构基于 XLM-RoBERTa 模型,并进行了几项关键修改。集成了 FlashAttention 2 以提高计算效率,同时 RoPE 扩展了对最长 8192 个 token 序列的支持。引入了任务特定的 LoRA 适配器,以优化各种任务的 embeddings。模型的输入由两部分组成:文本,即要嵌入的长文档,以及任务类型。jina-embeddings-v3 支持四种任务,并实现了五种适配器可供选择:retrieval.query 和 retrieval.

Letta (fka MemGPT) 是用于创建有状态 LLM 服务的框架

git clone https://github.com/cpacker/MemGPT
  • Ollama
LETTA_LLM_ENDPOINT=http://host.docker.internal:11434
LETTA_LLM_ENDPOINT_TYPE=ollama
LETTA_LLM_MODEL=qwen2.5:7b-q6_K
LETTA_LLM_CONTEXT_WINDOW=32000
LETTA_EMBEDDING_ENDPOINT=http://host.docker.internal:11434
LETTA_EMBEDDING_ENDPOINT_TYPE=ollama
LETTA_EMBEDDING_MODEL=bge-m3
LETTA_EMBEDDING_DIM=1024

在下载 Ollama 模型时,请确保使用标签!

不要执行 ollama pull dolphin2.2-mistral,而是执行 ollama pull dolphin2.2-mistral:7b-q6_K。

如果您没有指定标签,Ollama 可能会默认使用高度压缩的模型变体(例如 Q4)。

Qwen2 Technical Report

This report introduces the Qwen2 series, the latest addition to our large language models and large multimodal models. We release a comprehensive suite of foundational and instruction-tuned language models, encompassing a parameter range from 0.5 to 72 billion, featuring dense models and a Mixture-of-Experts model. Qwen2 surpasses most prior open-weight models, including its predecessor Qwen1.5, and exhibits competitive performance relative to proprietary models across diverse benchmarks on language understanding, generation, multilingual proficiency, coding, mathematics, and reasoning.

Langfuse: Open Source LLM Engineering Platform

LLM 可观察性(LLM Observability)、提示管理(Prompt Management)、LLM 评估(LLM Evaluations)、数据集(Datasets)、LLM 指标(LLM Metrics)和提示游乐场(Prompt Playground)

# Clone repository
git clone https://github.com/langfuse/langfuse.git
cd langfuse

# Run server and database
docker compose up -d

安装

pip install langfuse>=2.0.0 litellm

main.py import os import litellm os.environ['LITELLM_LOG'] = 'DEBUG' # Langfuse os.environ["LANGFUSE_HOST"]="http://localhost:3000" os.environ["LANGFUSE_PUBLIC_KEY"] = "pk-lf-fd5d8fba-5134-4037-884d-d6780894a65a" os.

LiteLLM: [Python SDK] [Proxy Server (LLM Gateway)]

model_list:
  - model_name: qwen-coder
    litellm_params:
      model: ollama/qwen2.5-coder:7b
  - model_name: bge-m3
    litellm_params:
      model: ollama/bge-m3
  - model_name: llava
    litellm_params:
      model: ollama/llava:7b
      api_base: "http://localhost:11434"
      # api_base: http://127.0.0.1:11434/v1 # ❌ 500 Internal Server Error
  - model_name: gpt-4
    litellm_params:
      model: openai/gpt-4-32k
// ...
docker run --name litellm \
    -v $(pwd)/litellm_config.yaml:/app/config.yaml \
    -p 4000:4000 \
    ghcr.io/berriai/litellm:main-stable \
    --config /app/config.yaml \
    --detailed_debug

Kong AI Gateway

  • 创建
curl -X POST http://localhost:8001/services \
    --data "name=ai-proxy" \
    --data "url=http://localhost:32000"

请记住,上游 URL 可以指向任何空的地方,因为插件不会使用它。

  • 查看
curl -X GET http://localhost:8001/services/ai-proxy | jq                   
  • 删除
curl -X DELETE http://localhost:8001/services/ai-proxy
  • 创建
curl -X POST http://localhost:8001/services/ai-proxy/routes \
    --data "name=openai-chat" \
    --data "paths[]=~/openai-chat$"

查看 curl -X GET http://localhost:8001/rou

RAG 复杂场景下的工作流程和构建知识库的解析方法

召回模式(选择数据集) → 混合检索(同时进行语义检索和关键词搜索) → 重排序(合并和归一化检索结果)

  • 召回模式主要是用于选出与用户问题最相关的数据集,在应用内关联了多个数据集时,可以使用N选1、N选M和多路等召回模式。
    • N 选 1 召回
    • N 选 M 召回
    • 多路召回
  • 语义检索是当前主流的向量检索,通过语义相关度进行匹配;关键词搜索是传统的搜索算法,用于精确匹配;混合检索是分别通过两种检索方式在文档中检索出最相关的文本。
  • 重排序模型(Rerank Model)用于对查询结果进行语义排序,在混合检索模式下的查询结果需要进行合并和归一化(将数据转换为统一的标准范围或分布,以便更好地进行比较、分析和处理),然后再一起提供给大模型。

RAGFlow 是一款基于深度文档理解构建的开源 RAG 引擎,内置了丰富地文档解析方法,可以帮助用户快速构建知识库。

基于 Tokens 数进行分割 问答对(两列数据,一个提出问题,另一个用于答案) 简历(不进行拆分,而是将简历解析为结构化数据) 手册(使用最低的部分标题作为对文档进行切片的枢轴,同一部分中的图和表不会被分割,块大小可能会很大) 表格(表数据,第一行必须是列标题,列标题必须是有意义的术语,以便我们的大语言模型能够理解) 论文(按章节进行拆分,例如摘要、1.1、1.

GLM-4V-9B

GLM-4V-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源多模态版本。 GLM-4V-9B 具备 1120 * 1120 高分辨率下的中英双语多轮对话能力,在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中均表现优异。

相比 CogVLM2 能力还是不如。

  • 识别手写有问题
  • 识别复杂表格有问题
  • 识别化学的答案有问题

识别中文

提示词:输出图像中的文字

贵公司被认为中标人。中标价格为:307.6万元。 请贵公司在收到本中标通知书之日起30天内,携带所有签订合同所需的资料(包括但不限于法定代表人授权书、技术规范、技术图纸等),并按照招标文件和中标人的投标文件与项目单位订立书面合同。合同签订的安排由项目单位另行通知。 请贵公司收到本中标通知书后,签收并速回函确认。

  • ❌ 漏了
  • 👍 括号 () 识别成全角

识别手写英文

提示词:识别图像上的手写英文

I think student have many after-school classes is don't good for they. So I thing the student don't have after-school classes.

Ollama

  1. 安装 Ollama 服务。
curl -fsSL https://ollama.com/install.sh | sh
  1. 编辑 systemd 服务,调用 systemctl edit ollama.service。这将打开一个编辑器。
sudo systemctl edit ollama.service
  1. 对于每个环境变量,在 [Service] 部分下添加一行 Environment:
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_NUM_PARALLEL=3"
Environment="OLLAMA_MAX_LOADED_MODELS=6"
Environment="OLLAMA_KEEP_ALIVE=4h"
  1. 保存并关闭编辑器。
  2. 重新加载 systemd 并重启 Ollama。
sudo systemctl daemon-reload
sudo systemctl restart ollama

LLM 技术栈

SGLang 是一种专为大型语言模型 (LLM) 设计的结构化生成语言。它通过共同设计前端语言和运行时系统,使您与 LLM 的交互更快、更可控。

Dify 是一个 UI 驱动的用于开发大语言模型应用程序的平台,它使原型设计更加容易访问。它支持用户使用提示词模板开发聊天和文本生成应用。此外,Dify 支持使用导入数据集的检索增强生成(RAG),并且能够与多个模型协同工作。我们对这类应用很感兴趣。不过,从我们的使用经验来看,Dify 还没有完全准备好投入大范围使用,因为某些功能目前仍然存在缺陷或并不成熟。但目前,我们还没有发现更好的竞品。

Continue 使您能够在 IDE 中创建自己的 AI 代码助手。使用 VS Code 和 JetBrains 插件保持开发者的流畅体验,这些插件可以连接到任何模型、任何上下文以及任何其他你需要的东西。Continue 使您能够使用适合工作的模型,无论是开源还是商业,本地运行还是远程运行,用于聊天、自动完成或嵌入。它提供了许多配置点,以便您可以自定义扩展以适应您现有的工作流程。

SSO 是一种身份验证机制,允许用户使用单一账户登录多个应用程序和网站。它提供了以下几个主要的使用场景和优点:

提高用户体验:用户只需要记住一个账号和密码,就可以访问多个相关的系统和应用,无需频繁输入不同的登录凭证。这大大提高了用户体验。

SiliconFlow AI Infra

deepseek-ai/deepseek-v2-chat ¥1.33/1M tokens
deepseek-ai/deepseek-llm-67b-chat ¥1/1M tokens
alibaba/Qwen2-7B-Instruct ¥0.35/1M tokens
alibaba/Qwen1.5-110B-Chat ¥4.13/1M tokens
alibaba/Qwen1.5-32B-Chat ¥1.26/1M tokens
alibaba/Qwen1.5-14B-Chat ¥0.7/1M tokens
alibaba/Qwen1.5-7B-Chat ¥0.35/1M tokens
01-ai/Yi-1.5-34B-Chat ¥1.26/1M tokens
01-ai/Yi-1.5-9B-Chat ¥0.42/1M tokens
01-ai/Yi-1.5-6B-Chat ¥0.35/1M tokens
zhipuai/glm4-9B-chat ¥0.6/1M tokens
zhipuai/chatglm3-6B ¥0.35/1M tokens
meta/llama3-70B-chat ¥4.13/1M tokens
meta/llama3-8B-chat ¥0.42/1M tokens
mixtralai/Mixtral-8x22B-Instruct-v0.1 ¥4.13/1M tokens
mixtralai/Mixtral-8x7B-Instruct-v0.1 ¥1.26/1M tokens
mixtralai/Mistral-7B-Instruct-v0.2 ¥0.35/1M tokens
google/gemma-7b-it ¥0.35/1M tokens
google/gemma-2b-it ¥0.14/1M tokens
microsoft/Phi-3-mini-4k-instruct

CrewAI 快速入门

安装

pip install 'crewai[tools]'

版本1

每次执行结果都不一样

from dotenv import load_dotenv
load_dotenv()

from crewai import Agent, Task, Crew
from langchain_openai import ChatOpenAI


general_agent = Agent(
    role = "数学教授", 
    goal = """为提问数学问题的学生提供解决方案并给出答案。""", 
    backstory = """您是一位优秀的数学教授,喜欢以每个人都能理解的方式解决数学问题。""", 
    allow_delegation = False,
    verbose = True
)

// ...

版本2

稳定地生成结果

Phi-3-vision-128k-instruct 微软开源多模态大模型

Phi-3 Vision 是一个轻量级、最先进的开放多模态模型,基于数据集构建,其中包括合成数据和经过过滤的公开网站,重点关注文本和视觉方面的高质量推理密集数据。该模型属于 Phi-3 模型系列,多模式版本可支持 128K 上下文长度(以 Token 为单位)。该模型经历了严格的增强过程,结合了监督微调和直接偏好优化,以确保精确的指令遵守和稳健的安全措施。

模型参数 4B。

该模型旨在广泛用于英语商业和研究用途。该模型为通用人工智能系统和应用程序提供了视觉和文本输入功能,这些系统和应用程序需要

  1. 内存/计算受限的环境;
  2. 延迟限制场景;
  3. 一般图像理解;
  4. 光学字符识别;
  5. 图表和表格的理解。

我们的模型旨在加速对高效语言和多模态模型的研究,作为生成人工智能驱动功能的构建块。

我们的模型并非针对所有下游目的而专门设计或评估。开发人员在选择用例时应考虑语言模型的常见限制,并在特定下游用例中使用之前评估和减轻准确性、安全性和公平性,特别是对于高风险场景。开发人员应了解并遵守与其用例相关的适用法律或法规(包括隐私、贸易合规法等)。

提示词:对图像文字进行识别

这段文字是一个人的自己写作,表达了对学生在学校和家庭生活中的看法。

提示词:这张图片上写了什么?

这张图片上写了一段关于学生在学校后备课的观点。

👍 提示词:图像中的手写英文是什么?

MiniCPM-Llama3-V 2.5 端侧可用的 GPT-4V 级多模态大模型

MiniCPM-Llama3-V 2.5 是 MiniCPM-V 系列的最新版本模型,基于 SigLip-400M 和 Llama3-8B-Instruct 构建,共 8B 参数量,相较于 MiniCPM-V 2.0 性能取得较大幅度提升。MiniCPM-Llama3-V 2.5 值得关注的特点包括:

  • 🔥 领先的性能。 MiniCPM-Llama3-V 2.5 在综合了 11 个主流多模态大模型评测基准的 OpenCompass 榜单上平均得分 65.1,以 8B 量级的大小超过了 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等主流商用闭源多模态大模型,大幅超越基于Llama 3构建的其他多模态大模型。
  • 💪 优秀的 OCR 能力。 MiniCPM-Llama3-V 2.5 可接受 180 万像素的任意宽高比图像输入,OCRBench 得分达到 725,超越 GPT-4o、GPT-4V、Gemini Pro、Qwen-VL-Max 等商用闭源模型,达到最佳水平。基于近期用户反馈建议,MiniCPM-Llama3-V 2.5 增强了全文 OCR 信息提取、表格图像转 markdown 等高频实用能力,并且进一步加强了指令跟随、复杂推理能力,带来更好的多模态交互体感。

🏆 可信行为。

CogVLM2 智谱开源多模态大模型

  1. 在许多关键指标上有了显著提升,例如 TextVQA, DocVQA
  2. 支持 8K 文本长度。
  3. 支持高达 1344 * 1344 的图像分辨率。
  4. 提供支持中英文双语的开源模型版本。

您可以在下表中看到 CogVLM2 系列开源模型的详细信息:

模型名称 cogvlm2-llama3-chat-19B cogvlm2-llama3-chinese-chat-19B
基座模型 Meta-Llama-3-8B-Instruct Meta-Llama-3-8B-Instruct
语言 英文 中文、英文
模型大小 19B 19B
任务 图像理解,对话模型 图像理解,对话模型
模型链接 🤗 Huggingface 🤖 ModelScope 💫 Wise Model 🤗 Huggingface 🤖 ModelScope 💫 Wise Model
体验链接 📙 Official Page 📙 Official Page 🤖 ModelScope
Int4模型 暂未推出 暂未推出
文本长度 8K 8K
图片分辨率 1344 * 1344 1344 * 1344

识别中文

提示词:输出图像中的文字

贵公司被确认为中标人。中标价格为:307.6万元。

请贵公司在收到本中标通知书之日起30天内,携带所有签订合同所需的资料(包括但不限于法定代表人授权书、技术规范、技术

Thoughtworks 技术雷达 第30期

环的含义如下:

  • 1️⃣ 采纳 (Adopt)。我们认为您应该认真考虑使用的点。
  • 2️⃣ 试验 (Trial)。我们认为可以放心使用的点,但还没有达到“采纳”环中那么成熟的程度。
  • 3️⃣ 评估 (Assess)。值得关注的点,但除非非常适合您的需求,否则目前可能不需要试用。
  • 4️⃣ 暂缓 (Hold)。需要谨慎对待的点。

参考:

这种方法对我们来说效果出奇的好:它要求团队提供对其架构风格的简明描述,帮助初级开发人员和新团队成员编写符合团队现有风格的功能特性。这种方法的主要缺点是,尽管我们没有向模型提供源代码,但我们仍然向其输入了可能包含敏感信息的技术栈和功能描述。至少在这些AI工具的“商业版”面世之前,团队应确保与法律顾问合作,以避免任何知识产权问题。

许多组织正在部署自托管式大语言模型。