data-cleaning - 标签 - 军舰的日志

DeepSeek-Coder 论文解读

论文

DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
LLaMA: Open and Efficient Foundation Language Models
Llama 2: Open Foundation and Fine-Tuned Chat Models

模型的性能

多语言基准性能

训练数据集

数据来源：2023年2月之前在GitHub上创建的公共仓库。

数据集创建过程

GitHub数据抓取
规则过滤
依存分析
仓库级重复数据删除
质量筛选

规则过滤过滤掉平均行长度超过100个字符或最大行长度超过1000个字符的文件。移除了字母字符少于25%的文件。除了XSLT编程语言外，过滤掉在前100个字符中出现字符串 "<?xml_version=" 的文件。对于HTML文件，考虑可见文本与HTML代码的比例，保留可见文本占代码至少20%且不少于100个字符的文件。对于包含更多数据的JSON和YAML文件，只保留字符计数在50到5000个字符范围内的文件。

2024-02-29 08:00

1 篇文章带有标签 “data-cleaning”

2024年2月29日星期四

DeepSeek-Coder 论文解读

1 篇文章带有标签 “data-cleaning”

2024年2月29日 星期四

DeepSeek-Coder 论文解读

2024年2月29日星期四