dataset - 标签 - 军舰的日志

2025年3月24日星期一

Easy Dataset：基于 LLM 微调数据集的工具

架构

本地运行

使用 NPM 安装

克隆仓库：

   git clone https://github.com/ConardLi/easy-dataset.git
   cd easy-dataset

安装依赖：

   npm install

启动开发服务器：

   npm run build

   npm run start

打开浏览器并访问 http://localhost:1717

使用本地 Dockerfile 构建

如果你想自行构建镜像，可以使用项目根目录中的 Dockerfile：

克隆仓库：

git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset

构建 Docker 镜像：
```
docker build -t easy-dataset .
```
运行容器：
```
docker run -d -p 1717:1717 -v {YOUR_LOCAL_DB_PATH}:/app/local-db --name easy-dataset easy-dataset
```
注意： 请将 {YOUR_LOCAL_DB_PATH} 替换为你希望存储本地数据库的实际路径。

打开浏览器，访问 http://localhost:1717

首页

项目

创建项目

模型配置

任务配置

提示词配置

文献处理

上传文件

智能分割

批量生成问题

领域分析

领域树

目录结构

问题管理

列表视图

领域树视图

问题编辑

数据集管理

2025-03-24 10:00

2024年8月19日星期一

数据集

TensorFlow Datasets

数据集	尺寸 (Tokens)
RefinedWeb	500B
C4	172B
Dolma	3T
The Pile	340B
SlimPajama	627B
RedPajama2	20T
FineWeb	15T

结合 TF/IDF 或者 BM25 算法改进代码检索的效果，提高代码检索的准确性。采用 Jaccard 相似度算法，提高代码相似性检测的效果。使用 TreeSitter 或者 AST 技术，进行语法分析，以构建更好的交互体验。

2024-08-19 08:00

dataset llm-training tensorflow-datasets common-crawl bm25 tf-idf treesitter ast

2023年3月30日星期四

Ultralytics Hub 快速入门

准备数据集

目录结构

data.yaml

train: ../train/images
val: ../valid/images
test: ../test/images

nc: 1
names: ['logo']

压缩成 zip 文件

登录 Ultralytics Hub

Projects

创建项目

Datasets

上传数据集

数据集图像

数据集概貌

Train

选择数据集

选择模型

选择训练参数

Google Colab 训练模型

使用上图的 API key 替换 PASTE_API_KEY_HERE

Done

Models

模型训练的性能指标

模型测试

模型部署

参考资料

2023-03-30 08:00

quickstart yolo dataset training deployment ultralytics ultralytics-hub computer-vision machine-learning

2021年4月15日星期四

AI 数据集打包发布

数据集打包目录结构

ai-project/
├── labelimg
│   ├── 1.jpg
│   ├── 1.xml
│   ├── 2.jpg
│   ├── 2.xml
│   ├── 3.jpg
│   ├── 3.xml
│   ├── 4.jpg
│   └── 4.xml
├── classes.txt
├── data.yaml
├── images
│   ├── train
│   │   ├── 1.jpg
│   │   └── 2.jpg
│   └── val
│       ├── 3.jpg
│       └── 4.jpg
└── labels
    ├── train
    │   ├── 1.txt
    │   └── 2.txt
    └── val
        ├── 3.txt
        └── 4.txt

打包

DATE=$(date '+%Y-%m-%d')
tar cvf sign-yolo-$DATE.tar labelimg/ classes.txt images/ labels data.yaml

上传数据集服务器

DATASET_SERVER_PATH=username@ip:/data/datasets
scp sign-yolo-$DATE.tar $DATASET_SERVER_PATH

2021-04-15 00:00

ai machine-learning datasets dataset shell tar ssh file-transfer

4 篇文章带有标签 “dataset”

2025年3月24日 星期一