返回首页

数据集

TensorFlow Datasets

数据集尺寸 (Tokens)
RefinedWeb500B
C4172B
Dolma3T
The Pile340B
SlimPajama627B
RedPajama220T
FineWeb15T

结合 TF/IDF 或者 BM25 算法改进代码检索的效果,提高代码检索的准确性。 采用 Jaccard 相似度算法,提高代码相似性检测的效果。 使用 TreeSitter 或者 AST 技术,进行语法分析,以构建更好的交互体验。

🤖

智能问答助手

Ollama + AI 问答

⏳ 初始化...

💡 配置和聊天记录仅保存在本地浏览器中