deepseek-coder - 标签 - 军舰的日志

2024年2月29日星期四

DeepSeek-Coder 论文解读

论文

模型的性能

多语言基准性能

训练数据集

数据来源：2023年2月之前在GitHub上创建的公共仓库。

数据集创建过程

GitHub数据抓取
规则过滤
依存分析
仓库级重复数据删除
质量筛选

规则过滤过滤掉平均行长度超过100个字符或最大行长度超过1000个字符的文件。移除了字母字符少于25%的文件。除了XSLT编程语言外，过滤掉在前100个字符中出现字符串 "<?xml_version=" 的文件。对于HTML文件，考虑可见文本与HTML代码的比例，保留可见文本占代码至少20%且不少于100个字符的文件。对于包含更多数据的JSON和YAML文件，只保留字符计数在50到5000个字符范围内的文件。

2024-02-29 08:00

2024年1月15日星期一

Tabby 的基准测试

wrk

HTTP 基准测试工具

安装

git clone https://github.com/wg/wrk.git
cd wrk
#使用多线程（机器的处理器核数）加速编译，
make -j $(nproc)
cp wrk /usr/local/bin/

Tabby Server

服务器：NVIDIA T4 16GB X 4

部署

模型：TabbyML/DeepseekCoder-6.7B

docker run -d --gpus all -p 8080:8080 \
  -v /data/zhw/tabby/data:/data \
  tabbyml/tabby:latest \
  serve --model TabbyML/DeepseekCoder-6.7B \
  --device cuda --parallelism 4

模型：TabbyML/DeepseekCoder-1.3B

docker run -d --gpus all -p 8080:8080 \
  -v /data/zhw/tabby/data:/data \
  tabbyml/tabby:latest \
  serve --model TabbyML/DeepseekCoder-1.3B \
  --device cuda --parallelism 12

curl 测试 curl http://127.0.0.

2024-01-15 10:00

tabby benchmark wrk deepseek-coder code-llm ai-coding-assistant nvidia-tesla-t4

2024年1月10日星期三

在 GeForce GTX 1060 上部署 Tabby - AI编码助手

我的 GPU：GP106 [GeForce GTX 1060 6GB]

安装 NVIDIA 驱动

查看哪些进程正在使用 NVIDIA 设备

lsof -n -w /dev/nvidia*

lsof 是一个在 Unix 和类 Unix 系统（如 Linux）上的命令行工具，用于列出当前系统打开的文件。在这里，"文件" 的概念很广泛，除了常见的文件和目录，还包括网络套接字、设备、管道等。

-n 参数告诉 lsof 不要将网络号转换为主机名，这可以加快 lsof 的运行速度。
-w 参数告诉 lsof 不要抑制警告信息。
/dev/nvidia* 是要查看的文件的路径，* 是通配符，表示所有以 /dev/nvidia 开头的文件。在这里，这些文件通常代表 NVIDIA 的设备。

所以，sudo lsof -n -w /dev/nvidia* 命令的作用是查看哪些进程正在使用 NVIDIA 设备。

杀死使用 NVIDIA 设备的进程或停止服务

kill -9 <pid>
sudo systemctl stop <service_name>

列出系统中所有需要驱动的设备 sudo ubuntu-drivers devices WARNING:root:_pkg_get_support nvidia-driver-525: package has invalid

2024-01-10 12:00

tabby ai-coding-assistant code-llm deepseek-coder docker cuda nvidia-container-toolkit geforce-gtx-1060

基于 VSCode 使用 Tabby 插件搭建免费的 GitHub Copilot

使用的模型

代码生成 Tabby 使用的是 Deepseek Coder 6.7B 模型。

部署服务器端

基于 PyCharm 使用 Tabby 和 CodeGPT 插件搭建免费的 GitHub Copilot

安装 Visual Studio Code

Tabby 安装

Tabby 配置

单击状态栏中的 Tabby 图标，打开 Tabby 配置页面。

参数

EndPoint: http://172.16.33.66:8080

使用 Tabby

代码生成

2024-01-10 10:00

github-copilot vscode tabby openai code-llm llm deepseek-coder code-completion ai-coding-assistant

基于 IntelliJ IDEA 使用 Tabby 和 CodeGPT 插件搭建免费的 GitHub Copilot

使用的模型

代码生成 Tabby 使用的是 Deepseek Coder 6.7B 模型。
AI 聊天 CodeGPT 使用的是 ChatGLM3-6B 模型。这个后面考虑使用 Deepseek Coder 6.7B 来替换。

部署服务器端

基于 PyCharm 使用 Tabby 和 CodeGPT 插件搭建免费的 GitHub Copilot

安装 InteliJ IDEA

安装插件

插件

代码生成：Tabby
AI 聊天：CodeGPT

安装

打开 IntelliJ IDEA，选择 Settings 菜单，选择 Plugins，搜索 Tabby 和 CodeGPT，点击 Install 安装。

Tabby

CodeGPT

配置插件

Tabby

参数

Endpoint: http://172.16.33.66:8080

CodeGPT

参数

Service: OpenAI Service
API key: NULL
Model: GPT-3.5(4k)
Base host: http://172.16.33.66:8000

使用插件

AI 聊天

代码生成

2024-01-10 08:00

github-copilot intellij-idea tabby codegpt openai code-llm llm deepseek-coder chatglm3 ai-coding-assistant

2024年1月9日星期二

基于 PyCharm 使用 Tabby 和 CodeGPT 插件搭建免费的 GitHub Copilot

使用的模型

代码生成 Tabby 使用的是 Deepseek Coder 6.7B 模型。
AI 聊天 CodeGPT 使用的是 ChatGLM3-6B 模型。这个后面考虑使用 Deepseek Coder 6.7B 来替换。

部署服务器端

Tabby 服务

docker run -d --runtime nvidia --name tabby -p 8080:8080 \
  -e TABBY_DOWNLOAD_HOST=modelscope.cn \
  -e NVIDIA_VISIBLE_DEVICES=3 \
  -e RUST_BACKTRACE=1 \
  -v `pwd`/.tabby:/data tabbyml/tabby \
  serve --model TabbyML/DeepseekCoder-6.7B  --device cuda

OpaneAI 服务

启动服务 Controller

python -m fastchat.serve.controller

启动服务 Model Worker

python -m fastchat.serve.model_worker \
  --model-path THUDM/chatglm3-6b --port 21002 \
  --worker-address http://localhost:21002 \
  --model-names chatglm3-6b,gpt-3.5-turbo

2024-01-09 08:00

github-copilot pycharm tabby codegpt fastchat openai code-llm llm deepseek-coder chatglm3