文档 - 第 20 页 - 军舰的日志

2024年7月8日星期一

Kwai-Kolors 快手可图

Kolors

Kolors：用于真实感文本到图像合成的扩散模型的有效训练

例子

小红帽和大灰狼在森林的小路上相遇

2024-07-08 08:00

2024年7月7日星期日

Qdrant

用于下一代人工智能应用的向量搜索引擎

Qdrant（读作：quadrant）是一个向量相似性搜索引擎和向量数据库。它提供了一个生产就绪的服务，具有方便的 API 来存储、搜索和管理点 - 具有附加有效载荷的向量。Qdrant 专为扩展的过滤支持量身定制。它对所有类型的神经网络或基于语义的匹配、分面搜索和其他应用非常有用。

解决方案

运行

Qdrant 镜像

docker pull qdrant/qdrant

启动 Qdrant 服务

docker run -p 6333:6333 -p 6334:6334 \
    -v $(pwd)/qdrant_storage:/qdrant/storage:z \
    qdrant/qdrant

Qdrant 现在可访问：

安装 Qdrant Client

pip install qdrant-client

代码示例

2024-07-07 08:00

qdrant vector-database vector-search docker python embeddings fastembed similarity-search

2024年7月6日星期六

FastEmbed

FastEmbed 是一个轻量级、快速的 Python 库，专为嵌入生成而构建。

安装

pip install -Uqq fastembed

支持的嵌入模型

import pandas as pd

from fastembed import TextEmbedding


supported_models = (
    pd.DataFrame(TextEmbedding.list_supported_models())
    .sort_values("size_in_GB")
    .drop(columns=["sources", "model_file", "additional_files"])
    .reset_index(drop=True)
)

print(supported_models)

2024-07-06 08:00

fastembed qdrant embeddings vector-search python vector-database retrieval bge

2024年7月4日星期四

Vanna.AI

Vanna 工作原理

使用检索增强来帮助您使用 LLM 为数据库生成准确的 SQL 查询。

Vanna 的工作过程分为两个简单步骤 - 在您的数据上训练 RAG“模型”，然后提出问题，这些问题将返回 SQL 查询，这些查询可以设置为在您的数据库上自动运行。

vn.train(...)

在您的数据上训练 RAG“模型”。这些方法将添加到参考语料库。

vn.ask(...)

问问题。这将使用参考语料库生成可以在您的数据库上运行的 SQL 查询。

例子

与您的 SQL 数据库聊天 📊。通过 RAG 使用 LLM 实现准确的文本到 SQL 生成 🔄。

ChromaDB & Ollama from vanna.ollama import Ollama from vanna.chromadb import ChromaDB_VectorStore class MyVanna(ChromaDB_VectorStore, Ollama): def init(self, config=None): ChromaDB_VectorStore.init(self, config=config) Ollama.init(self, config=config) vn = MyVanna(config={'model': 'qwen2:7b'}) vn.

2024-07-04 08:00

vanna-ai text-to-sql rag sqlite chromadb qdrant ollama database

2024年6月30日星期日

RAG 复杂场景下的工作流程和构建知识库的解析方法

RAG 复杂场景下的工作流程

召回模式（选择数据集） → 混合检索（同时进行语义检索和关键词搜索） → 重排序（合并和归一化检索结果）

召回模式主要是用于选出与用户问题最相关的数据集，在应用内关联了多个数据集时，可以使用N选1、N选M和多路等召回模式。
- N 选 1 召回
- N 选 M 召回
- 多路召回
语义检索是当前主流的向量检索，通过语义相关度进行匹配；关键词搜索是传统的搜索算法，用于精确匹配；混合检索是分别通过两种检索方式在文档中检索出最相关的文本。
重排序模型（Rerank Model）用于对查询结果进行语义排序，在混合检索模式下的查询结果需要进行合并和归一化（将数据转换为统一的标准范围或分布，以便更好地进行比较、分析和处理），然后再一起提供给大模型。

RAG 中构建知识库的解析方法

RAGFlow 是一款基于深度文档理解构建的开源 RAG 引擎，内置了丰富地文档解析方法，可以帮助用户快速构建知识库。

基于 Tokens 数进行分割
问答对（两列数据，一个提出问题，另一个用于答案）
简历（不进行拆分，而是将简历解析为结构化数据）
手册（使用最低的部分标题作为对文档进行切片的枢轴，同一部分中的图和表不会被分割，块大小可能会很大）
表格（表数据，第一行必须是列标题，列标题必须是有意义的术语，以便我们的大语言模型能够理解）
论文（按章节进行拆分，例如摘要、1.1、1.2等）
书籍（为每本书设置页面范围、排队无用地部分）
法律（法律文件有非常严格的书写格式，使用文本特征来检测分割点）
演示文稿（每个页面都将被视为一个块。并且每个页面的缩略图都会被存储）
图像（如果图片中有文字，则应用 OCR 提取文字作为其文字描述；如果 OCR 提取的文本不够，使用视觉 LLM 来获取描述）
One（对于一个文档，它将被视为一个完整的块，根本不会被分割）

2024-06-30 08:00

rag ragflow knowledge-base hybrid-search reranking document-parsing retrieval llm 知识库

2024年6月27日星期四

Elmo Chat - Your AI Web Copilot

Elmo Chat

概述

Elmo 是您的 AI 网络副驾驶，可创建摘要、洞察和扩展知识。

免费且无需 GPT/OpenAI 帐户和多语言支持。

功能亮点：

✅ 总结网站：将网络内容转换为快速、简短的摘要。

✅ 总结 YouTube：通过视频快速洞察和导航。

✅ 总结 Google Docs：高效创建 Google Docs 的简洁摘要。

✅ 与 PDF 聊天：简化对大型文档的理解。

✅ 回答问题：从网页获得即时答案。

✅ 关键字探索：在浏览过程中无缝提取相关信息。

✅ 翻译：轻松将文本翻译成不同的语言。

✅ 改写段落：简化和澄清复杂的句子。

如何使用？

🔹 单击“添加到 Chrome”按钮并将其固定到工具栏。

🔹 单击图标或按 Cmd/Ctrl + Shift + E 激活 Elmo Chat。

🔹 Elmo Chat 将为您总结当前网页。

2024-06-27 08:00

elmo-chat lepton-ai chrome-extension ai-assistant web-copilot summarization pdf translation

2024年6月25日星期二

在 macOS 上安装 PostgreSQL

安装 PostgreSQL

下载

安装

Installation Directory: /Library/PostgreSQL/16
Server Installation Directory: /Library/PostgreSQL/16
Data Directory: /Library/PostgreSQL/16/data
Database Port: 5432
Database Superuser: postgres
Operating System Account: postgres
Database Service: postgresql-16
Command Line Tools Installation Directory: /Library/PostgreSQL/16
pgAdmin4 Installation Directory: /Library/PostgreSQL/16/pgAdmin 4
Stack Builder Installation Directory: /Library/PostgreSQL/16
Installation Log: /tmp/install-postgresql.log

使用默认设置安装即可。

Locale 我选择了 zh_CN，在创建数据库的时候遇到了错误：The

2024-06-25 08:00

postgresql macos database pgadmin installation

2024年6月11日星期二

GLM-4V-9B

GLM-4V-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源多模态版本。 GLM-4V-9B 具备 1120 * 1120 高分辨率下的中英双语多轮对话能力，在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中均表现优异。

总结

相比 CogVLM2 能力还是不如。

识别手写有问题
识别复杂表格有问题
识别化学的答案有问题

文字识别

识别中文

提示词：输出图像中的文字

贵公司被认为中标人。中标价格为：307.6万元。请贵公司在收到本中标通知书之日起30天内，携带所有签订合同所需的资料（包括但不限于法定代表人授权书、技术规范、技术图纸等），并按照招标文件和中标人的投标文件与项目单位订立书面合同。合同签订的安排由项目单位另行通知。请贵公司收到本中标通知书后，签收并速回函确认。

❌ 漏了 确
👍 括号 （） 识别成全角

识别手写英文

提示词：识别图像上的手写英文

I think student have many after-school classes is don't good for they. So I thing the student don't have after-school classes.

2024-06-11 08:00

glm-4v-9b glm multimodal vision-language-model ocr text-recognition table-recognition document-understanding llm

2024年6月10日星期一

AutoGen

定义 Agent

from autogen import ConversableAgent

llm_config = {"model": "gpt-3.5-turbo"}

agent = ConversableAgent(
    name="chatbot",
    llm_config=llm_config,
    human_input_mode="NEVER",
)

reply = agent.generate_reply(
    messages=[{"content": "给我讲个笑话。", "role": "user"}]
)
print(reply)

// ...

为什么八卦杂志最爱讲床上故事？因为上面都有新闻！哈哈哈~
为什么兔子喜欢吃胡萝卜？因为胡萝卜有好处，营养丰富！

多智能体对话

双人笑话

2024-06-10 08:00

autogen agent multi-agent conversational-agent reflection tool-use python llm

2024年6月4日星期二

Dify

介绍

Dify 是一款开源的大语言模型(LLM) 应用开发平台。提供从 Agent 构建到 AI workflow 编排、RAG 检索、模型管理等能力，轻松构建和运营生成式 AI 原生应用。你可以基于任何模型自部署类似 Assistants API 和 GPTs 的能力，在灵活和安全的基础上，同时保持对数据的完全控制。

开发语言

语言	占比
TypeScript	49.9%
Python	45.5%
MDX	3.1%
CSS	0.9%
JavaScript	0.4%
SCSS	0.2%

配置兼容 OpenAI API（SiliconFlow）

2024-06-04 08:00

dify llmops agent rag ai-workflow model-management openai-api 大模型应用开发

2024年6月3日星期一

Continue

介绍

Continue 使您能够在 IDE 中创建自己的 AI 代码助手。使用 VS Code 和 JetBrains 插件保持开发者的流畅体验，这些插件可以连接到任何模型、任何上下文以及任何其他你需要的东西。

轻松理解代码部分
Tab 自动完成代码建议
重构您正在编码的函数
询问代码库相关问题
快速使用文档作为上下文
使用斜线命令启动操作
将类、文件等添加到上下文
立即了解终端错误

Continue 使您能够使用适合工作的模型，无论是开源还是商业，本地运行还是远程运行，用于聊天、自动完成或嵌入。它提供了许多配置点，以便您可以自定义扩展以适应您现有的工作流程。

开发语言

语言	占比
TypeScript	74.0%
Kotlin	11.8%
Rust	4.9%
CSS	3.6%
Scheme	2.5%
JavaScript	2.4%
Other	0.8%

贡献（Contributing）

使用

2024-06-03 08:00

continue ai-coding-assistant ollama vscode jetbrains code-completion rag embeddings local-llm slash-commands

2024年6月2日星期日

Ollama

开放 Ollama 服务

环境变量

OLLAMA_HOST: Ollama 服务器的 IP 地址（默认 127.0.0.1:11434）
OLLAMA_NUM_PARALLEL: 最大并行请求数（默认 1）
OLLAMA_MAX_LOADED_MODELS: 最大加载模型数量（默认 1）
OLLAMA_KEEP_ALIVE: 模型在内存中保持加载的持续时间（默认 5m），-1 表示永久保持加载。

Linux

安装 Ollama 服务。

curl -fsSL https://ollama.com/install.sh | sh

编辑 systemd 服务，调用 systemctl edit ollama.service。这将打开一个编辑器。 sudo systemctl edit ollama.service 对于每个环境变量，在 [Service] 部分下添加一行 Environment： [Service] Environment="OLLAMA_HOST=0.0.0.

2024-06-02 08:00

ollama llm local-llm embedding ollama-sdk vision linux systemd

2024年6月1日星期六

LLM 技术栈

框架

[SGLang][SGLang]

SGLang 是一种专为大型语言模型 (LLM) 设计的结构化生成语言。它通过共同设计前端语言和运行时系统，使您与 LLM 的交互更快、更可控。

平台

[Dify][Dify]

Dify 是一个 UI 驱动的用于开发大语言模型应用程序的平台，它使原型设计更加容易访问。它支持用户使用提示词模板开发聊天和文本生成应用。此外，Dify 支持使用导入数据集的检索增强生成（RAG），并且能够与多个模型协同工作。我们对这类应用很感兴趣。不过，从我们的使用经验来看，Dify 还没有完全准备好投入大范围使用，因为某些功能目前仍然存在缺陷或并不成熟。但目前，我们还没有发现更好的竞品。

工具

[Continue][Continue]

Continue 使您能够在 IDE 中创建自己的 AI 代码助手。使用 VS Code 和 JetBrains 插件保持开发者的流畅体验，这些插件可以连接到任何模型、任何上下文以及任何其他你需要的东西。Continue 使您能够使用适合工作的模型，无论是开源还是商业，本地运行还是远程运行，用于聊天、自动完成或嵌入。它提供了许多配置点，以便您可以自定义扩展以适应您现有的工作流程。

[Ollama][Ollama] Ollama 是一个在本机上运行并管理大语言模型的工具。

2024-06-01 08:00

llm tech-stack sglang dify ollama continue qwen code-llm mllm keycloak

2024年5月29日星期三

SiliconFlow AI Infra

SiliconFlow

模型 & 价格

2024-05-29 08:00

siliconflow siliconcloud llm genai openai-api api inference cloud-service

2024年5月28日星期二

CrewAI 快速入门

CrewAI

安装

pip install 'crewai[tools]'

CrewAI 使用 Ollama 运行本地 LLM

.env

OPENAI_API_BASE=http://localhost:11434/v1
OPENAI_MODEL_NAME=aya:8b
OPENAI_API_KEY=NULL

agent.py

版本1

每次执行结果都不一样

from dotenv import load_dotenv
load_dotenv()

from crewai import Agent, Task, Crew
from langchain_openai import ChatOpenAI


general_agent = Agent(
    role = "数学教授", 
    goal = """为提问数学问题的学生提供解决方案并给出答案。""", 
    backstory = """您是一位优秀的数学教授，喜欢以每个人都能理解的方式解决数学问题。""", 
    allow_delegation = False,
    verbose = True
)

// ...

版本2

稳定地生成结果

2024-05-28 08:00

crewai agent llm ollama quickstart multi-agent python langchain

2024年5月26日星期日

大型语言模型驱动的自主代理

Application scenarios of AI agents（AI代理的应用场景）

AI代理是LLM应用的重要场景，构建代理应用将是2024年的重要技术领域。目前我们主要的智能形式有单AI代理，多AI代理，混合AI代理等三种。

Single AI Agent（单一人工智能代理）

在特定任务场景下完成的工作，比如 GitHub Copilot Chat 下的代理工作区，就是根据用户需求完成特定编程任务的一个例子。基于 LLM 的能力，单个代理可以根据任务执行不同的动作，比如需求分析、项目阅读、代码生成等。它也可以应用于智能家居和自动驾驶。

Multi-AI Agents（多人工智能代理）

这就是AI代理之间相互交互的工作。例如上述Semantic Kernel代理实现就是一个例子。脚本生成的AI代理与执行脚本的AI代理进行交互。多代理应用场景在高度协同的工作中非常有帮助，例如软件行业开发、智能生产、企业管理等。

Hybrid AI Agent（混合人工智能代理）

这就是人机交互，在同一个环境下做决策。比如智慧医疗、智慧城市等专业领域，可以利用混合智能来完成复杂的专业工作。

Building AI Agent Applications Series - Understanding AI Agents

Intro of AI agent, & AI agent projects s

2024-05-26 08:00

agent llm ai-agent autonomous-agent multi-agent langchain autogen crewai semantic-kernel

2024年5月25日星期六

基于 LLM 的源代码安全缺陷分析

代码注入：SQL注入：MyBatis

提示词

您是一名 Java 高级软件工程师，主要任务是根据缺陷报告的信息修复软件中的漏洞。

要求

请根据缺陷报告，修复缺陷代码片断的缺陷。要求修复后的软件不改变原有的功能。需要给出修复后的代码片段或者修复建议。

缺陷报告缺陷类别：一级类：代码注入二级类：SQL注入：MyBatis 详细信息： SQL注入是一种数据库攻击手段。攻击者通过向应用程序提交恶意代码来改变原SQL语句的含义，进而执行任意SQL命令，达到入侵数据库乃至操作系统的目的。在Mybatis Mapper Xml中，#变量名称创建参数化查询SQL语句,不会导致SQL注入。而$变量名称直接使用SQL指令，会导致SQL注入攻击。例如：以下代码片段采用$变量名称动态地构造并执行了SQL查询。 <!

2024-05-25 08:00

llm code-security sql-injection mybatis java code-audit security-flaw vulnerability-analysis

2024年5月24日星期五

Phi-3-vision-128k-instruct 微软开源多模态大模型

Phi-3-vision-128k-instruct

Phi-3 Vision 是一个轻量级、最先进的开放多模态模型，基于数据集构建，其中包括合成数据和经过过滤的公开网站，重点关注文本和视觉方面的高质量推理密集数据。该模型属于 Phi-3 模型系列，多模式版本可支持 128K 上下文长度（以 Token 为单位）。该模型经历了严格的增强过程，结合了监督微调和直接偏好优化，以确保精确的指令遵守和稳健的安全措施。

模型参数 4B。

预期用途

主要用例

该模型旨在广泛用于英语商业和研究用途。该模型为通用人工智能系统和应用程序提供了视觉和文本输入功能，这些系统和应用程序需要

内存/计算受限的环境；
延迟限制场景；
一般图像理解；
光学字符识别；
图表和表格的理解。

我们的模型旨在加速对高效语言和多模态模型的研究，作为生成人工智能驱动功能的构建块。

用例注意事项

我们的模型并非针对所有下游目的而专门设计或评估。开发人员在选择用例时应考虑语言模型的常见限制，并在特定下游用例中使用之前评估和减轻准确性、安全性和公平性，特别是对于高风险场景。开发人员应了解并遵守与其用例相关的适用法律或法规（包括隐私、贸易合规法等）。

Microsoft_Phi-3-Vision-128k Space

手写文字识别

提示词：对图像文字进行识别

这段文字是一个人的自己写作，表达了对学生在学校和家庭生活中的看法。

提示词：这张图片上写了什么？

2024-05-24 08:00

phi3 phi-3-vision ocr llm mllm microsoft vision-language image-understanding

2024年5月23日星期四

MiniCPM-Llama3-V 2.5 端侧可用的 GPT-4V 级多模态大模型

MiniCPM-Llama3-V 2.5

MiniCPM-Llama3-V 2.5 是 MiniCPM-V 系列的最新版本模型，基于 SigLip-400M 和 Llama3-8B-Instruct 构建，共 8B 参数量，相较于 MiniCPM-V 2.0 性能取得较大幅度提升。MiniCPM-Llama3-V 2.5 值得关注的特点包括：

🔥 领先的性能。 MiniCPM-Llama3-V 2.5 在综合了 11 个主流多模态大模型评测基准的 OpenCompass 榜单上平均得分 65.1，以 8B 量级的大小超过了 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等主流商用闭源多模态大模型，大幅超越基于Llama 3构建的其他多模态大模型。

💪 优秀的 OCR 能力。 MiniCPM-Llama3-V 2.5 可接受 180 万像素的任意宽高比图像输入，OCRBench 得分达到 725，超越 GPT-4o、GPT-4V、Gemini Pro、Qwen-VL-Max 等商用闭源模型，达到最佳水平。基于近期用户反馈建议，MiniCPM-Llama3-V 2.5 增强了全文 OCR 信息提取、表格图像转 markdown 等高频实用能力，并且进一步加强了指令跟随、复杂推理能力，带来更好的多模态交互体感。

2024-05-23 08:00

minicpm-v ocr llama3 llm mllm openbmb 端侧部署 vision-language multimodal

2024年5月22日星期三

CogVLM2 智谱开源多模态大模型

CogVLM2

在许多关键指标上有了显著提升，例如 TextVQA, DocVQA。
支持 8K 文本长度。
支持高达 1344 * 1344 的图像分辨率。
提供支持中英文双语的开源模型版本。

您可以在下表中看到 CogVLM2 系列开源模型的详细信息：

模型名称	cogvlm2-llama3-chat-19B	cogvlm2-llama3-chinese-chat-19B
基座模型	Meta-Llama-3-8B-Instruct	Meta-Llama-3-8B-Instruct
语言	英文	中文、英文
模型大小	19B	19B
任务	图像理解，对话模型	图像理解，对话模型
模型链接	🤗 Huggingface 🤖 ModelScope 💫 Wise Model	🤗 Huggingface 🤖 ModelScope 💫 Wise Model
体验链接	📙 Official Page	📙 Official Page 🤖 ModelScope
Int4模型	暂未推出	暂未推出
文本长度	8K	8K
图片分辨率	1344 * 1344	1344 * 1344

CogVLM2-Llama3中文问答

总结能力非常强大 👍 OCR 已经成为基础能力。包含印刷、手写、中文、英文。图像描述。基于图像问答。信息提取。包含保单、车牌、火车票、手机充值。表格识别。包含复杂表格。

2024-05-22 08:00

cogvlm2 ocr llama3 llm mllm vision-language zhipu image-understanding text-recognition

2024年7月8日 星期一

2024年7月7日 星期日

2024年7月6日 星期六

2024年7月4日 星期四

2024年6月30日 星期日

2024年6月27日 星期四

2024年6月25日 星期二

2024年6月11日 星期二

2024年6月10日 星期一

2024年6月4日 星期二

2024年6月3日 星期一

2024年6月2日 星期日

2024年6月1日 星期六

2024年5月29日 星期三

2024年5月28日 星期二

2024年5月26日 星期日

2024年5月25日 星期六

2024年5月24日 星期五

2024年5月23日 星期四

2024年5月22日 星期三