llm-swarm - 标签 - 军舰的日志

LLM 的合成数据

本文档的专注点是如何将样本从 几千 扩展到 数百万，从而使其可用于 从头开始预训练 LLM。深入研究了创建数据集的方法、提示整编的方法及相应的技术栈。

Cosmopedia

Cosmopedia 的目的是重现 Phi-1.5 所使用的训练数据。

围绕在 Phi 数据集上的谜团除了我们对其如何创建的不甚了了之外，还有一个问题是其数据集的生成使用的是私有模型。为了解决这些问题，我们引入了 Cosmopedia，这是由 Mixtral-8x7B-Instruct-v0.1 生成的包含教科书、博文、故事、帖子以及 WikiHow 文章等各种体裁的合成数据集。其中有超过 3000 万个文件、250 亿个词元，是迄今为止最大的开放合成数据集。

实际上 Cosmopedia 的大部分时间都花在了细致的提示词工程上了。

2024-09-28 08:00

1 篇文章带有标签 “llm-swarm”

2024年9月28日星期六

LLM 的合成数据

1 篇文章带有标签 “llm-swarm”

2024年9月28日 星期六

LLM 的合成数据

2024年9月28日星期六