terminusresearch/midjourney-v6-520k-raw

Name: terminusresearch/midjourney-v6-520k-raw
Creator: terminusresearch
Published: 2024-06-29 21:12:57
License: 暂无描述

Hugging Face2024-06-29 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/terminusresearch/midjourney-v6-520k-raw

下载链接

链接失效反馈

官方服务：

资源简介：

MJv6-520k是一个合成数据集，从Midjourney中提取，并经过过滤仅包含单一图像。日文描述通过GPT3.5翻译成英文，并存储在`gpt_caption`列中，原始描述则保存在`original_text`列中。每个文件都包含一个同名的元数据JSON和txt文件，元数据与parquet表中的数据相同，txt文件用于SimpleTuner或Kohya的训练。数据集包含完整的图像。

提供机构：

terminusresearch

原始信息汇总

合成数据集：MJv6-520k

数据来源：从Midjourney于2024年6月19日拉取，筛选为单一图像。
描述信息：
- 日文描述通过GPT3.5翻译为英文，存储在gpt_caption列。
- 原始描述信息存储在original_text列。
文件格式：
- 每个文件包含一个元数据JSON文件和一个同名的txt文件。
- 元数据与parquet表格中的数据相同。
- txt文件用于SimpleTuner或Kohya训练。
数据内容：数据集包含完整的图像。
编译脚本：
- 使用Python脚本将当前目录下的所有.json文件编译成一个parquet文件。
- 列类型定义如下： python column_types = { "id": "int64", "version": "str", "arguments": "str", "original_text": "str", "caption": "str", "gpt_caption": "str", "width": "int", "height": "int", "reactions": "dict" }
- 脚本读取所有.json文件，转换为DataFrame，并保存为parquet文件。

5,000+

优质数据集

54 个

任务类型

进入经典数据集