terminusresearch/midjourney-v6-520k-raw
收藏Hugging Face2024-06-29 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/terminusresearch/midjourney-v6-520k-raw
下载链接
链接失效反馈官方服务:
资源简介:
MJv6-520k是一个合成数据集,从Midjourney中提取,并经过过滤仅包含单一图像。日文描述通过GPT3.5翻译成英文,并存储在`gpt_caption`列中,原始描述则保存在`original_text`列中。每个文件都包含一个同名的元数据JSON和txt文件,元数据与parquet表中的数据相同,txt文件用于SimpleTuner或Kohya的训练。数据集包含完整的图像。
MJv6-520k是一个合成数据集,从Midjourney中提取,并经过过滤仅包含单一图像。日文描述通过GPT3.5翻译成英文,并存储在`gpt_caption`列中,原始描述则保存在`original_text`列中。每个文件都包含一个同名的元数据JSON和txt文件,元数据与parquet表中的数据相同,txt文件用于SimpleTuner或Kohya的训练。数据集包含完整的图像。
提供机构:
terminusresearch
原始信息汇总
合成数据集:MJv6-520k
- 数据来源:从Midjourney于2024年6月19日拉取,筛选为单一图像。
- 描述信息:
- 日文描述通过GPT3.5翻译为英文,存储在
gpt_caption列。 - 原始描述信息存储在
original_text列。
- 日文描述通过GPT3.5翻译为英文,存储在
- 文件格式:
- 每个文件包含一个元数据JSON文件和一个同名的txt文件。
- 元数据与parquet表格中的数据相同。
- txt文件用于SimpleTuner或Kohya训练。
- 数据内容:数据集包含完整的图像。
- 编译脚本:
-
使用Python脚本将当前目录下的所有.json文件编译成一个parquet文件。
-
列类型定义如下: python column_types = { "id": "int64", "version": "str", "arguments": "str", "original_text": "str", "caption": "str", "gpt_caption": "str", "width": "int", "height": "int", "reactions": "dict" }
-
脚本读取所有.json文件,转换为DataFrame,并保存为parquet文件。
-



