incantor/user-pref-filtered-115k-ft
收藏Hugging Face2023-07-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/incantor/user-pref-filtered-115k-ft
下载链接
链接失效反馈官方服务:
资源简介:
User Preference Dataset 75k数据集包含原始数据、元数据和处理后的数据。原始数据包括jsonl文件和图片,元数据包括图片URL、WD Tagger、GPT prompt、GPT response、GPT similarity等信息。处理后的数据包括用于训练的75k数据,这些数据经过了清洗和过滤处理。
User Preference Dataset 75k数据集包含原始数据、元数据和处理后的数据。原始数据包括jsonl文件和图片,元数据包括图片URL、WD Tagger、GPT prompt、GPT response、GPT similarity等信息。处理后的数据包括用于训练的75k数据,这些数据经过了清洗和过滤处理。
提供机构:
incantor
原始信息汇总
数据集概述
数据集名称
- 名称: User Preference Dataset 75k
原始数据
- 链接: pref_100k_min513x768/
- 内容: 原始数据包括jsonl文件和图片等。
元数据
- 文件: pref_115k_gpt_usable_merged.snappy.parquet
- 内容: 包含图片URL, WD Tagger, GPT prompt, GPT response, GPT similarity。
- 详细信息:
- tagger: wd14-convnext-v2-v2 tagger
- gpt: gpt3.5 turbo 0610
- similarity: laion/CLIP-ViT-L-14-DataComp.XL-s13B-b90K
- clip aesthetic score: openai/clip VIT-L
衍生数据
- 链接: pref_100k_min513x768_YIELD/
- 内容:
- 文件: pref_110k_filter_actual75k_nogpt_512webp.zip
- 用途: 训练使用的75k数据
- 数据处理:
- 文件: pref_110k_metrics_split.parquet
- 用途: 生成元数据
- 文件: pref_110k_filter_actual75k_nogpt_512webp.zip
处理步骤
- 读入: pref_jsons (来自另一个aws org)
- 处理: data-processings (github)
- 清洗后: jsonl_cleaned/



