five

terminusresearch/midjourney-v6-520k-raw

收藏
Hugging Face2024-06-29 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/terminusresearch/midjourney-v6-520k-raw
下载链接
链接失效反馈
官方服务:
资源简介:
MJv6-520k是一个合成数据集,从Midjourney中提取,并经过过滤仅包含单一图像。日文描述通过GPT3.5翻译成英文,并存储在`gpt_caption`列中,原始描述则保存在`original_text`列中。每个文件都包含一个同名的元数据JSON和txt文件,元数据与parquet表中的数据相同,txt文件用于SimpleTuner或Kohya的训练。数据集包含完整的图像。

MJv6-520k是一个合成数据集,从Midjourney中提取,并经过过滤仅包含单一图像。日文描述通过GPT3.5翻译成英文,并存储在`gpt_caption`列中,原始描述则保存在`original_text`列中。每个文件都包含一个同名的元数据JSON和txt文件,元数据与parquet表中的数据相同,txt文件用于SimpleTuner或Kohya的训练。数据集包含完整的图像。
提供机构:
terminusresearch
原始信息汇总

合成数据集:MJv6-520k

  • 数据来源:从Midjourney于2024年6月19日拉取,筛选为单一图像。
  • 描述信息
    • 日文描述通过GPT3.5翻译为英文,存储在gpt_caption列。
    • 原始描述信息存储在original_text列。
  • 文件格式
    • 每个文件包含一个元数据JSON文件和一个同名的txt文件。
    • 元数据与parquet表格中的数据相同。
    • txt文件用于SimpleTuner或Kohya训练。
  • 数据内容:数据集包含完整的图像。
  • 编译脚本
    • 使用Python脚本将当前目录下的所有.json文件编译成一个parquet文件。

    • 列类型定义如下: python column_types = { "id": "int64", "version": "str", "arguments": "str", "original_text": "str", "caption": "str", "gpt_caption": "str", "width": "int", "height": "int", "reactions": "dict" }

    • 脚本读取所有.json文件,转换为DataFrame,并保存为parquet文件。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作