Hugging Face Datasets

视觉

COCO

COCO 是一个大规模的物体检测、分割和字幕数据集。

FiftyOne 是一个开源工具,便于可视化和访问 COCO 数据资源,并作为 COCO 模型分析的评估工具。

DS-1000

数据科学代码生成的自然可靠的基准

DS-1000 是一个代码生成基准,有一千个数据科学问题,跨越七个Python库,(1)反映多样化、现实和实际用例,(2)具有可靠的指标,(3)通过扰动问题来防止记忆。

自然语言

ChineseNlpCorpus

NLPIR实验室 - CORPUS语料库

千言数据集

中文语料小数据

参考资料