chatglm - 标签 - 军舰的日志

2024年1月16日星期二

使用 FastChat 在 CUDA 上部署 LLM

安装 FastChat & vLLM

pip install "fschat[model_worker,webui]"

安装 FlashAttention

Turing GPU T4 不支持 FlashAttention 2，需要使用 FlashAttention 1.x 。
Turing GPU T4 不支持 bf16，需要使用 fp16 。

安装 vLLM

pip install vllm -i https://mirrors.aliyun.com/pypi/simple/

升级 FastChat & vLLM

git pull
pip install -e ".[model_worker,webui]"
pip install -U vllm

部署 LLM

运行 Controller

python -m fastchat.serve.controller

运行 OpenAI API Server

python -m fastchat.serve.openai_api_server

运行 Model Worker Qwen-1_8B-Chat export CUDA_VISIBLE_DEVIC

2024-01-16 08:00

2024年1月11日星期四

在 MacBook Pro M2 Max 上安装 FastChat

FastChat

FastChat 是一个开放平台，用于训练、服务和评估基于大型语言模型的聊天机器人。

FastChat Server 架构图

安装 FastChat

克隆代码

git clone https://github.com/lm-sys/FastChat
cd FastChat

创建虚拟环境

python -m venv env
source env/bin/activate

安装

pip install --upgrade pip
pip install -e ".[model_worker,webui]"

升级 FastChat

git pull
pip install -e ".[model_worker,webui]"

创建大模型链接 LLM Qwen mkdir Qwen ln -s /Users/junjian/HuggingFace/Qwen/Qwen-14B-Chat Qwen/Qwen-14B-Chat ln -s /Users/junjian/HuggingFace/Qwen/Qwen-1_8B Qwen/Qwen-1_8B ln -s /Users/junjian/HuggingFace/Qwen/Qwen-1_8B-Chat Qwen/Qwen-1_8B-Chat ln

2024-01-11 08:00

fastchat qwen deepseek chatglm bge llm-deployment openai-api mps macbook-pro-m2-max

2024年1月3日星期三

CodeGPT: 智能辅助编程

安装 InteliJ IDEA

安装 CodeGPT

打开 IntelliJ IDEA，选择 Settings 菜单，选择 Plugins，搜索 CodeGPT，点击 Install 安装。

配置 CodeGPT

这里访问的 OpenAI 服务是我自己搭建的，使用的是 FastChat + ChatGLM3-6B。

模型 GPT-3.5(4k)

Service: OpenAI Service
API Key: NULL
Model: GPT-3.5(4k)
- 使用的模型名字是：gpt-3.5-turbo
Base host: http://172.16.33.66:8000

模型 GPT-4(32k)

Service: OpenAI Service
API Key: NULL
Model: GPT-4(32k)
- 使用的模型名字是：gpt-4-32k
Base host: http://172.16.33.66:8000

模型 Deepseek Coder 7B

Service: LLaMA C/C++ Port (Free, Local)
Use pre-defined model
- Model: Deepseek Coder (1B - 33B)
- Model size: 7B
- Quantization: 5-bit precision

模型缓存到 ~/.

2024-01-03 08:00

codegpt intellij-idea gguf chatglm deepseek-coder llama-2 openai gpt ai-coding-assistant code-completion

2023年12月12日星期二

TensorRT-LLM 大模型推理

[TensorRT-LLM][TensorRT-LLM]

TensorRT-LLM 为用户提供了易于使用的 Python API 来定义大型语言模型 (LLM) 并构建包含最先进优化的 TensorRT 引擎，以便在 NVIDIA GPU 上高效地执行推理。 TensorRT-LLM 还包含用于创建执行这些 TensorRT 引擎的 Python 和 C++ 运行时的组件。

Build TensorRT-LLM

# TensorRT-LLM uses git-lfs, which needs to be installed in advance.
apt-get update && apt-get -y install git git-lfs

git clone https://github.com/NVIDIA/TensorRT-LLM.git
cd TensorRT-LLM
git submodule update --init --recursive
git lfs install
git lfs pull

make -C docker release_build

2023-12-12 08:00

tensorrt-llm triton-inference-server chatglm tensorrt nvidia docker inference deployment llm

2023年7月18日星期二

在 MacBook Pro M2 Max 上测试 ChatGLM2-6B

ChatGLM2-6B

ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本，在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上，ChatGLM2-6B 引入了如下新特性：

更强大的性能：基于 ChatGLM 初代模型的开发经验，我们全面升级了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数，经过了 1.4T 中英标识符的预训练与人类偏好对齐训练，评测结果显示，相比于初代模型，ChatGLM2-6B 在 MMLU（+23%）、CEval（+33%）、GSM8K（+571%）、BBH（+60%）等数据集上的性能取得了大幅度的提升，在同尺寸开源模型中具有较强的竞争力。
更长的上下文：基于 FlashAttention 技术，我们将基座模型的上下文长度（Context Length）由 ChatGLM-6B 的 2K 扩展到了 32K，并在对话阶段使用 8K 的上下文长度训练，允许更多轮次的对话。但当前版本的 ChatGLM2-6B 对单轮超长文档的理解能力有限，我们会在后续迭代升级中着重进行优化。
更高效的推理：基于 Multi-Query Attention 技术，ChatGLM2-6B 有更高效的推理速度和更低的显存占用：在官方的模型实现下，推理速度相比初代提升了 42%，INT4 量化下，6G 显存支持的对话长度由 1K 提升到了 8K。

2023-07-18 08:00

chatglm glm macos macbookpro apple hugging-face transformers pytorch apple-silicon quantization

2023年4月22日星期六

Large Language Models（大语言模型）

LLMS

大语言模型综述 - A Survey of Large Language Models

ChatGPT

document.ai

LLaMA

ChatLLaMA

ChatGLM

Alpaca Stanford Alpaca: An Instruction-following LLaMA Mode alpaca_data.json contains 52K instruction-following data we used for fine-tuning the Alpaca model.

2023-04-22 08:00

llms chatgpt chatglm llama alpaca vicuna generative-ai machine-learning ai gpt

ChatGLM-6B 模型基于 P-Tuning v2 微调的自定义数据集

Electrical Safety Work Procedures (电力安全工作规程) 数据

2023-04-22 08:00

chatglm fine-tuning p-tuning-v2 安规 machine-learning llms transformers pytorch

2023年4月13日星期四

在 MacBook Pro M2 Max 上测试 ChatGLM-6B

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于 General Language Model (GLM) 架构，具有 62 亿参数。

聊天 ChatGLM-6B

下载

克隆

https://github.com/THUDM/ChatGLM-6B.git
cd ChatGLM-6B

下载模型

从 Hugging Face Hub 下载模型

git clone https://huggingface.co/THUDM/chatglm-6b THUDM/chatglm-6b

在国内为了加快下载速度，模型文件可以单独从清华云下载。

2023-04-13 08:00

chatglm glm chatgpt macos macbookpro pytorch transformers fine-tuning local-llms apple

8 篇文章带有标签 “chatglm”

2024年1月16日 星期二

2024年1月11日 星期四

2024年1月3日 星期三

2023年12月12日 星期二

2023年7月18日 星期二

2023年4月22日 星期六

2023年4月13日 星期四