TensorFlow Datasets
| 数据集 | 尺寸 (Tokens) |
|---|---|
| RefinedWeb | 500B |
| C4 | 172B |
| Dolma | 3T |
| The Pile | 340B |
| SlimPajama | 627B |
| RedPajama2 | 20T |
| FineWeb | 15T |
结合 TF/IDF 或者 BM25 算法改进代码检索的效果,提高代码检索的准确性。 采用 Jaccard 相似度算法,提高代码相似性检测的效果。 使用 TreeSitter 或者 AST 技术,进行语法分析,以构建更好的交互体验。
| 数据集 | 尺寸 (Tokens) |
|---|---|
| RefinedWeb | 500B |
| C4 | 172B |
| Dolma | 3T |
| The Pile | 340B |
| SlimPajama | 627B |
| RedPajama2 | 20T |
| FineWeb | 15T |
结合 TF/IDF 或者 BM25 算法改进代码检索的效果,提高代码检索的准确性。 采用 Jaccard 相似度算法,提高代码相似性检测的效果。 使用 TreeSitter 或者 AST 技术,进行语法分析,以构建更好的交互体验。