---
layout: single
title:  "数据集"
date:   2024-08-19 08:00:00 +0800
categories: 框架与库
---

## [TensorFlow Datasets](https://www.tensorflow.org/datasets/catalog/overview)

- [Common Crawl](https://commoncrawl.org/)
- [Dolma](https://huggingface.co/datasets/allenai/dolma)

| 数据集 | 尺寸 (Tokens) |
| --- | --- |
| RefinedWeb | 500B |
| C4 | 172B |
| Dolma | 3T |
| The Pile | 340B |
| SlimPajama | 627B |
| RedPajama2 | 20T |
| FineWeb | 15T |

结合 TF/IDF 或者 BM25 算法改进代码检索的效果，提高代码检索的准确性。
采用 Jaccard 相似度算法，提高代码相似性检测的效果。
使用 TreeSitter 或者 AST 技术，进行语法分析，以构建更好的交互体验。
