1 篇文章带有标签 “Synthetic”

LLM 的合成数据

围绕在 Phi 数据集上的谜团除了我们对其如何创建的不甚了了之外,还有一个问题是其数据集的生成使用的是私有模型。为了解决这些问题,我们引入了 Cosmopedia,这是由 Mixtral-8x7B-Instruct-v0.1 生成的包含教科书、博文、故事、帖子以及 WikiHow 文章等各种体裁的合成数据集。其中有超过 3000 万个文件、250 亿个词元,是迄今为止最大的开放合成数据集。

实际上 Cosmopedia 的大部分时间都花在了细致的提示词工程上了。

少儿专业人士和研究人员以及高中生生成相同主题的教科书的提示

  • 提示
    • 为一本关于“为什么去太空?”的教科书写一篇详细的课程单元。面向(少儿 / 专业人士和研究人员 / 高中生
    • 我们目前正在编写第一章:“1. 引言”。你将编写本章的第一个子单元。写一个标题为“1.1. 为什么我们花费数十亿美元探索太空?”的新子单元,同时尽量做到:
  • 生成提示的三个主要目标受众是:
    • yong children (少儿)
      • 记住这个单元是为儿童书籍准备的,所以使用非常简单、日常的词汇和短语,让一个10岁的孩子能够轻松理解。讲一个有趣和愉快的故事,避免任何复杂的概念或技术术语。
    • professionals and researchers in the field (专业人士和研究人员)
      • 内容应旨在吸引对该主题有深入了解的高知识水平的受众。包括对最新研究成果和领域内争论的批判性分析。
    • high school students (高中生)
      • 使用能够与青少年学生产生共鸣的语言和例子,平衡教育严谨性与可及性。目标是使该主题变得易于理解且有趣,激发他们对其在日常生活中应用的好奇心。