文档 - 第 18 页 - 军舰的日志

2024年12月1日星期日

GitHub Copilot in VS Code

GitHub Copilot

GitHub Copilot 你的 AI 编程伙伴，助你更快、更智能地编写代码。

UI 设计

Command Center

Inline Chat

Chat View

Conversation History

Quick Chat

Copilot Edits

Terminal Inline Chat

支持的 IDE

Visual Studio
Visual Studio Code
JetBrains IDEs
Xcode
Vim/Neovim
Azure Data Studio
Web browser(GitHub website)
Windows Terminal
GitHub Mobile

交互方式

Code Completions（代码完成）

Copilot 会在你输入时建议代码行，并为函数签名提供多行建议。注释中的提示会根据你期望的结果、逻辑和步骤提供具体的建议。

代码行建议
函数签名建议
注释中的提示

您可能不想接受 GitHub Copilot 的整个建议。您可以使用 ⌘→ 键盘快捷键来接受建议的下一个单词或下一行。

Inline Chat

Inline Chat 使您能够直接从编辑器与 Copilot 进行聊天对话，而无需离开您的工作上下文。使用 Inline Chat，您可以在代码中就地预览代码建议，这对于快速迭代代码更改非常有用。

Chat View

2024-12-01 10:00

2024年11月15日星期五

Mac 外接显示器 DELL U2723QE

硬件

Apple MacBook Pro 16 M2 Max

显示屏

Liquid 视网膜 XDR 显示屏
- 16.2 英寸 (对角线) Liquid 视网膜 XDR 显示屏1；初始分辨率 3456 x 2234 (254 ppi)
XDR (极致动态范围)
- 1000000:1 对比度
- XDR 亮度：1000 尼特持续亮度 (全屏)，1600 尼特峰值亮度2 (仅限 HDR 内容)
- SDR 亮度：500 尼特
色彩
- 10 亿色彩
- 广色域 (P3)
- 原彩显示技术
刷新率
- ProMotion 自适应刷新率技术，最高可达 120Hz
- 固定刷新率：47.95Hz、48.00Hz、50.00Hz、59.94Hz、60.00Hz

充电和外设扩展

左侧	右侧

SDXC 卡插槽
HDMI 端口
3.5 毫米耳机插孔
MagSafe 3 端口
三个雷雳 4 (USB-C) 端口，均可支持：
- 充电
- DisplayPort
- 雷雳 4 (速率最高可达 40Gb/s)
- USB 4 (速率最高可达 40Gb/s)

显示器支持同时支持初始分辨率下的内置显示屏 (可显示 10 亿色彩) 以及：最多达四台外接显示器：通过雷雳端口连接多达三台分辨率最高达 6K (60 Hz) 的外接显示器，同时通过 HDMI 端口连接一台分辨率最高达 4K (144Hz) 的外接显示器最多达三台外接显示器：通过雷雳端口连接多达两台分辨率最高

2024-11-15 20:00

dell macbook-pro external-display 显示器 u2723qe usb-c displayport ddpm

2024年11月13日星期三

Atlas 900 AI 集群

济南人工智能计算中心

AI 机房（Atlas 900 AI 集群）

计算节点：由大量高性能服务器组成，搭载华为自研的昇腾处理器，提供强大的算力支持。
高速互联网络：采用高速InfiniBand网络，实现节点之间的低延迟、高带宽通信。
存储系统：配置分布式存储，满足海量数据的高速读写需求。
管理调度系统：提供统一的资源管理和任务调度，提升集群的利用效率。
AI 软件平台：支持主流深度学习框架，提供完善的AI开发和部署环境。

384 张卡

电池间空调系统

恒温恒湿空调：确保机房温度和湿度稳定，适应设备运行要求。
动力环境监控：实时监测空调系统的运行状态，及时预警异常情况。
冗余设计：配置备用空调设备，保障系统的连续运行。

制冷系统配电柜、UPS 系统

配电柜：为制冷系统提供可靠的电力供应，具备过载和短路保护功能。
UPS 系统：配置不间断电源，防止电源中断对设备造成影响。
电源监控：实时监测电力系统状态，确保供电稳定性。

水处理系统

冷却水循环：维持制冷系统的正常运行，保证设备散热需求。
水质处理设备：防止水垢和腐蚀，提高系统效率和寿命。
泄漏检测：配置水 leak 检测传感器，及时发现和处理漏水问题。

路由器、交换机、防火墙

核心路由器：连接内外网络，实现数据高速转发。
高速交换机：构建集群内部网络，提供大带宽低延迟的通信环境。
防火墙：实施网络安全策略，防护外部网络攻击和入侵。

2024-11-13 10:00

atlas-900 ai-cluster 昇腾 npu infiniband 人工智能计算中心 distributed-storage

2024年11月8日星期五

Mac 外接显示器选购

Apple MacBook Pro 16 M2 Max

为我的 MacBook Pro 16 M2 Max 选择一款显示器

显示屏

Liquid 视网膜 XDR 显示屏

14.2 英寸 (对角线) Liquid 视网膜 XDR 显示屏1；初始分辨率 3024 x 1964 (254 ppi)
16.2 英寸 (对角线) Liquid 视网膜 XDR 显示屏1；初始分辨率 3456 x 2234 (254 ppi)

XDR (极致动态范围)

1000000:1 对比度
XDR 亮度：1000 尼特持续亮度 (全屏)，1600 尼特峰值亮度2 (仅限 HDR 内容)
SDR 亮度：500 尼特

色彩

10 亿色彩
广色域 (P3)
原彩显示技术

刷新率

ProMotion 自适应刷新率技术，最高可达 120Hz
固定刷新率：47.95Hz、48.00Hz、50.00Hz、59.94Hz、60.00Hz

充电和外设扩展

左侧

右侧

SDXC 卡插槽
HDMI 端口
3.5 毫米耳机插孔
MagSafe 3 端口
三个雷雳 4 (USB-C) 端口，均可支持：
- 充电
- DisplayPort
- 雷雳 4 (速率最高可达 40Gb/s)
- USB 4 (速率最高可达 40Gb/s)

显示器支持同时支持初始分辨率下的内置显示屏 (可显示 10 亿色彩) 以及：最多达四台外接显示器：通过雷雳端口连接多达三台分辨率最

2024-11-08 10:00

macbook-pro external-display 显示器 4k hdr thunderbolt hdmi ips

2024年11月7日星期四

华为 Atlas A2 上使用 LLaMA-Factory 模型微调

济南人工智能计算中心

菜单

云资源
- ModelArts
  - 开发环境
    - Notebook

创建 Notebook

自定义镜像：llama2
类型：ASCEND
规格：Ascend: 8*Ascend910 ARM: 192核 768GB
存储配置：云硬盘EVS
- 磁盘规格：200GB

工作目录：/home/ma-user/work

下载模型

安装 modelscope

pip install --upgrade modelscope

SDK 下载模型脚本

编辑 download.py 文件

#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen1.5-7B-Chat')

设置下载路径

export MODELSCOPE_CACHE=/home/ma-user/work

下载

python download.py

查看下载的模型

ll /home/ma-user/work/hub/Qwen/Qwen1___5-7B-Chat

修改模型配置文件

修改配置文件：Qwen/Qwen1___5-7B-Chat/config.json

{
  "torch_dtype": "float16",
}

NPU 不支持 bfloat16，模型配置文件需要修改为 float16。

2024-11-07 10:00

huawei atlas-a2 npu llama-factory fine-tuning lora deepspeed qwen modelscope llm

2024年10月31日星期四

华为 Atlas A2 算力切分

算力切分

查询算力切分模式

sudo npu-smi info -t vnpu-mode

    vnpu-mode                      : docker

查询算力切分模板信息 sudo npu-smi info -t template-info +------------------------------------------------------------------------------------------+ |NPU instance template info is: | |Name AICORE Memory AICPU VPC VENC JPEGD | | GB PNGD VDEC JPEGE | |==========================================================================================| |vir10_3c_16g 10 16 3 4 0 12 | | 0 1 2 | +------------------------------------------------------------------------------------------+ |vir10_4c_16g_m 10 16 4 9 0 24 | | 0 2 4 | +---------------------------

2024-10-31 10:00

huawei atlas-a2 npu 算力切分 vnpu ascend-910b docker mindie llm

2024年10月28日星期一

LangChain Blog: In the Loop

What is an agent?

“什么是代理？”

几乎每天都会有人问我这个问题。在 LangChain，我们构建工具来帮助开发者构建 LLM 应用程序，特别是那些充当推理引擎并与外部数据和计算源交互的应用程序。这包括通常被称为“代理”的系统。

每个人似乎对代理都有稍微不同的定义。我的定义可能比大多数人更技术性：

💡 代理是一个使用 LLM 来决定应用程序控制流的系统。

即使在这里，我也承认我的定义并不完美。人们通常认为代理是高级的、自主的、类人的——但如果是一个简单的系统，LLM 在两个不同路径之间进行路由呢？这符合我的技术定义，但不符合人们对代理应具备能力的普遍看法。很难准确定义什么是代理！

这就是为什么我非常喜欢 Andrew Ng 上周的推文。在推文中，他建议“与其争论哪些工作应被包括或排除为真正的代理，我们可以承认系统可以有不同程度的代理性。”就像自动驾驶汽车有不同的自动化级别一样，我们也可以将代理能力视为一个光谱。我非常同意这个观点，我认为 Andrew 表达得很好。将来，当有人问我什么是代理时，我会转而讨论什么是“代理性”。

什么是代理性（agentic）？

去年我在 TED 演讲中谈到了 LLM 系统，并使用下面的幻灯片讨论了 LLM 应用程序中存在的不同自主级别。

一个系统越“代理性”，LLM 决定系统行为的程度就越高。

使用 LLM 将输入路由到特定的下游工作流中具有一些小的“

2024-10-28 10:00

langchain agent agentic llm langgraph cognitive-architecture function-calling memory

2024年10月16日星期三

打包 Python 工程到 PyPI：构建 LLM 压测工具 evalscope-perf

创建 Python 工程 evalscope-perf

工程的目录结构

evalscope-perf/
├── evalscope_perf/
│   ├── __init__.py
│   └── main.py
├── README.md
├── LICENSE
├── pyproject.toml
└── setup.py

evalscope_perf/init.py

没有可以不写。

evalscope_perf/main.py import subprocess import re import typer import matplotlib.pyplot as plt from typing import List from typing_extensions import Annotated app = typer.

2024-10-16 10:00

python pypi packaging evalscope-perf setuptools twine typer cli llm-benchmark

2024年10月10日星期四

华为 Atlas 800I A2 服务器的大模型推理性能压测

大模型推理性能压测工具

安装 EvalScope

git clone https://github.com/modelscope/evalscope
cd evalscope

pip install -e .

压测命令的使用

evalscope perf \
    --api openai \
    --url 'http://127.0.0.1:1025/v1/chat/completions' \
    --model 'qwen' \
    --dataset openqa \
    --dataset-path './datasets/open_qa.jsonl' \
    --max-prompt-length 8000 \
    --stop '<|im_end|>' \
    --read-timeout=120 \
    --parallel 100 \
    -n 1000

❌ --stream 不要加，经常出问题。

--read-timeout: 网络读取超时
--parallel: 并发数
-n: 请求数

数据集中文聊天 HC3-Chinese mkdir datasets wget https://modelscope.cn/datasets/AI-ModelScope/HC3-Chinese/resolve/master/open_qa.

2024-10-10 10:00

evalscope benchmark huawei-atlas ascend-npu mindie vllm xinference qwen llm-inference 性能压测

2024年10月8日星期二

在华为 Atlas 800I A2 服务器上搭建大模型推理服务

华为昇腾 NPU 与英伟达 GPU 生态层级对比:

NPU	GPU
CANN	CUDA
MindSpore	PyTorch
MindFormer	Transformers
MindIE	vLLM

下载大模型

cd /home/luruan/disk1/models

大型语言模型

Qwen1.5-7B

git clone https://www.modelscope.cn/Qwen/Qwen1.5-7B-Chat.git

Qwen2-7B ❌

git clone https://www.modelscope.cn/Qwen/Qwen2-7B-Instruct.git

Qwen2-72B

git clone https://www.modelscope.cn/Qwen/Qwen2-72B-Instruct.git

代码大模型

DeepSeek-Coder-6.7B

git clone https://www.modelscope.cn/deepseek-ai/deepseek-coder-6.7b-instruct.git

StarCoder2-15B ❌

git clone https://www.modelscope.cn/AI-ModelScope/starcoder2-15b.git

CodeGeeX2-6B ❌

git clone https://www.modelscope.cn/ZhipuAI/codegeex2-6b.git

2024-10-08 10:00

huawei-atlas ascend-npu mindie vllm qwen modelscope docker 国产化 llm-inference

2024年10月7日星期一

OpenAI API Compatibility

设置 API Key

export LITELLM_API_KEY=sk-1234

服务端口

Ollama: 11434
LiteLLM: 4000
XInference: 9997
MindIE: 1025

models

Ollama

curl -s http://localhost:11434/v1/models \
    | jq -r '.data[].id'

curl -s: -s 选项表示静默模式，不输出进度信息。
jq -r: -r 选项表示以原始格式输出，去掉了引号。

LiteLLM

curl -s http://localhost:4000/v1/models \
    -H "Authorization: Bearer $LITELLM_API_KEY" \
    | jq -r '.data[].id'

在 Bash 中，单引号和双引号的使用有一些重要的区别：

单引号 (')
- 完全字面值：单引号内的内容被视为字面值，不会对其中的任何字符进行扩展或解析。
- 变量不扩展：在单引号内，变量不会被解析。例如，' $LITELLM_API_KEY' 会被视为字符串 '$ LITELLM_API_KEY'，而不是变量的值。
```
echo '$LITELLM_API_KEY'  # 输出: $LITELLM_API_KEY
```

2024-10-07 10:00

openai-api ollama litellm xinference mindie api-compatibility curl llm-inference

2024年10月3日星期四

AutoTrain

安装

macOS

conda create -n autotrain python=3.10
conda activate autotrain
pip install autotrain-advanced
conda install pytorch torchvision torchaudio -c pytorch
pip install numpy==1.26.0
export HF_TOKEN=xxx
autotrain app --port 8080 --host 127.0.0.1

浏览器打开 http://127.0.0.1:8080/ui/ 以查看 AutoTrain 的界面。

2024-10-03 10:00

autotrain hugging-face model-training fine-tuning pytorch conda no-code

部署 LLM 多 LoRA 适配器的推理服务

Text Generation Inference

conda create -n text-generation-inference python=3.9
conda activate text-generation-inference

git clone https://github.com/huggingface/text-generation-inference.git && cd text-generation-inference
BUILD_EXTENSIONS=True make install

vLLM

conda create -n vllm python=3.10 -y
conda activate vllm
pip install vllm

cd ~/HuggingFace/mistralai/Mistral-7B-v0.1
git clone https://huggingface.co/predibase/magicoder adapters/magicoder

vllm serve `pwd` \
    --enable-lora \
    --lora-modules magicoder=`pwd`/adapters/magicoder

2024-10-03 10:00

lora vllm text-generation-inference multi-lora llm-inference hugging-face mistral nvidia-nim

2024年10月1日星期二

推测解码 (Speculative Decoding)

Speculative Decoding

Fast Inference from Transformers via Speculative Decoding

初步生成：使用一个小而快速的模型（称为Mq），生成一系列初步的 tokens。这个模型很高效，所以能快速得到结果。
并行评估：接着，使用一个更大的目标模型（称为Mp）来同时评估Mq生成的所有 tokens。Mp会判断每个 token 的概率，选择那些可能性高的结果。
修正输出：对于那些被Mq生成但被Mp拒绝的低概率 token，Mp会提供新的替代 token。这一步确保了输出的质量，同时提高了生成的速度。

Serving AI models faster with speculative decoding
1. 生成多个猜测候选: 使用一个更小更高效的"草稿"模型或者是主模型本身的最后一层，生成多个可能的下一个token作为猜测。
2. 并行评估猜测: 利用主要的大型语言模型（LLM）并行地对这些猜测进行评估，计算每个猜测的概率分布。
3. 接受或拒绝猜测: 通过比较每个猜测在 LLM 和草稿模型下的概率，以及生成一个随机数进行判断，决定是否接受该猜测。
4. 调整并重采样: 如果所有猜测都被接受，则直接从 LLM 采样下一个token。如果有猜测被拒绝，则从调整后的概率分布中重新采样被拒绝的猜测。
5. 输出结果: 最终输出包括所有被接受的猜测以及从 LLM 采样或重采样得到的token。

2024-10-01 10:00

speculative-decoding llm-inference inference-acceleration draft-model vllm text-generation-inference qwen

Reader-LM: 用于清理和转换 HTML 到 Markdown 的小型语言模型

Reader-LM

不能简单地将 HTML 把输入给模型（Reader-LM），因为效果不理想。

Reader-LM-0.5B 和 Reader-LM-1.5B 是受 Jina Reader 启发的两个新型小型语言模型，旨在将来自开放网络的原始、嘈杂的 HTML 转换为干净的 markdown。

使用小型语言模型替换了 readability + turndown + regex 启发式的管道。

Jina Reader 是一个简单的 API，只需一个简单的前缀：r.jina.ai，就可以将任何 URL 转换为 LLM 友好的 markdown。

Jina Embeddings V3

jina-embeddings-v3: Multilingual Embeddings With Task LoRA

jina-embeddings-v3 的架构基于 XLM-RoBERTa 模型，并进行了几项关键修改。

2024-10-01 08:00

reader-lm jina-ai small-language-model html-to-markdown jina-embeddings-v3 embeddings lora 文档转换

2024年9月28日星期六

LLM 的合成数据

Cosmopedia: 如何为预训练构建大规模合成数据集

本文档的专注点是如何将样本从 几千 扩展到 数百万，从而使其可用于 从头开始预训练 LLM。深入研究了创建数据集的方法、提示整编的方法及相应的技术栈。

Cosmopedia

Cosmopedia 的目的是重现 Phi-1.5 所使用的训练数据。

围绕在 Phi 数据集上的谜团除了我们对其如何创建的不甚了了之外，还有一个问题是其数据集的生成使用的是私有模型。为了解决这些问题，我们引入了 Cosmopedia，这是由 Mixtral-8x7B-Instruct-v0.1 生成的包含教科书、博文、故事、帖子以及 WikiHow 文章等各种体裁的合成数据集。其中有超过 3000 万个文件、250 亿个词元，是迄今为止最大的开放合成数据集。

实际上 Cosmopedia 的大部分时间都花在了细致的提示词工程上了。

2024-09-28 08:00

synthetic-data cosmopedia distilabel argilla llm-swarm data-generation model-training 数据增强 mixtral llm

2024年9月25日星期三

Letta (fka MemGPT) 是用于创建有状态 LLM 服务的框架

Docker 部署

克隆代码

git clone https://github.com/cpacker/MemGPT

设置环境变量，编辑配置文件 .env

Ollama

LETTA_LLM_ENDPOINT=http://host.docker.internal:11434
LETTA_LLM_ENDPOINT_TYPE=ollama
LETTA_LLM_MODEL=qwen2.5:7b-q6_K
LETTA_LLM_CONTEXT_WINDOW=32000
LETTA_EMBEDDING_ENDPOINT=http://host.docker.internal:11434
LETTA_EMBEDDING_ENDPOINT_TYPE=ollama
LETTA_EMBEDDING_MODEL=bge-m3
LETTA_EMBEDDING_DIM=1024

在下载 Ollama 模型时，请确保使用标签！

不要执行 ollama pull dolphin2.2-mistral，而是执行 ollama pull dolphin2.2-mistral:7b-q6_K。

如果您没有指定标签，Ollama 可能会默认使用高度压缩的模型变体（例如 Q4）。

2024-09-25 08:00

letta memgpt llm-agent stateful-llm agent-framework docker ollama bge-m3

2024年9月23日星期一

Qwen2 Technical Report

Abstract(摘要)

This report introduces the Qwen2 series, the latest addition to our large language models and large multimodal models. We release a comprehensive suite of foundational and instruction-tuned language models, encompassing a parameter range from 0.5 to 72 billion, featuring dense models and a Mixture-of-Experts model. Qwen2 surpasses most prior open-weight models, including its predecessor Qwen1.

2024-09-23 08:00

qwen2 large-language-model moe transformer grouped-query-attention multilingual long-context benchmark open-source 大模型

2024年9月22日星期日

Qwen2.5-Coder Technical Report

Abstract(摘要)

In this report, we introduce the Qwen2.5-Coder series, a significant upgrade from its predecessor, CodeQwen1.5. This series includes two models: Qwen2.5-Coder-1.5B and Qwen2.5-Coder-7B. As a code-specific model, Qwen2.5-Coder is built upon the Qwen2.5 architecture and continues pretrained on a vast corpus of over 5.5 trillion tokens. Through meticulous data cleaning, scalable synthetic data generation, and balanced data mixing, Qwen2.

2024-09-22 08:00

qwen2.5-coder code-llm code-generation pretraining instruction-tuning benchmarks 代码大模型技术报告

2024年9月20日星期五

Continue 源码分析 - 各种命令调用大模型的输入和输出

Tab Completion

输入

2024-09-20 08:00

continue source-code-analysis tab-completion rag langfuse llm github-copilot 大模型应用

2024年12月1日 星期日

2024年11月15日 星期五

2024年11月13日 星期三

2024年11月8日 星期五

2024年11月7日 星期四

2024年10月31日 星期四

2024年10月28日 星期一

2024年10月16日 星期三

2024年10月10日 星期四

2024年10月8日 星期二

2024年10月7日 星期一

2024年10月3日 星期四

2024年10月1日 星期二

2024年9月28日 星期六

2024年9月25日 星期三

2024年9月23日 星期一

2024年9月22日 星期日

2024年9月20日 星期五