ProGamerGov/synthetic-dataset-1m-dalle3-high-quality-captions
收藏Hugging Face2024-06-30 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ProGamerGov/synthetic-dataset-1m-dalle3-high-quality-captions
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含超过一百万张由Dalle 3、Midjourney和Stable Diffusion等AI系统生成的高质量图像,主要反映了人类偏好和高质量创意作品。图像的详细描述由CogVLM生成,并通过Llama3进行优化。数据集适用于多种任务,如文本到图像的转换、图像分类和图像到文本的转换,旨在用于研究、模型训练和作为人类与AI系统交互的历史档案。
该数据集包含超过一百万张由Dalle 3、Midjourney和Stable Diffusion等AI系统生成的高质量图像,主要反映了人类偏好和高质量创意作品。图像的详细描述由CogVLM生成,并通过Llama3进行优化。数据集适用于多种任务,如文本到图像的转换、图像分类和图像到文本的转换,旨在用于研究、模型训练和作为人类与AI系统交互的历史档案。
提供机构:
ProGamerGov
原始信息汇总
数据集概述
数据集名称
- 正式名称: Dalle3 1 Million High Quality Captions
- 别名: Human Preference Synthetic Dataset
数据集特征
- 数据类型:
- 结构化数据: JSON格式,包含以下字段:
image_name: 字符串md5_pil_hash: 字符串md5_file_hash: 字符串sha512_hash: 字符串short_caption: 字符串long_caption: 字符串resolution: 字符串url: 字符串width: 整数height: 整数source: 字符串original_prompt: 字符串short_caption2: 字符串long_caption2: 字符串
- 图像数据: JPG, JPEG, PNG格式
- 结构化数据: JSON格式,包含以下字段:
数据集内容
- 图像来源: 主要来自Dalle 3,以及Stable Diffusion和Midjourney等高质量AI系统。
- 图像描述: 使用CogVLM生成详细描述,Dolphin 2.6 Mistral 7b - DPO和Llama3生成简短描述。
- 图像质量: 高质量,多数为1024x1024分辨率。
- 内容多样性: 包括艺术风格、景观、主题、节日、时事、流行文化、交通工具、物品等。
- 去重处理: 使用
md5_pil_hash进行去重。
数据集用途
- 研究: 用于心理学研究、模型评估和训练。
- 数据增强: 用于增强现有数据集的多样性。
- 历史记录: 作为人类与AI系统互动的历史档案。
数据集限制
- 偏见: 图像可能包含制作它们的用户的偏见。
- 代表性: 不代表用于训练模型的数据集,仅代表用户使用模型制作的一小部分内容。
数据集使用示例
- 使用WebDataset格式,可通过HuggingFace的datasets库进行加载和访问。
数据集贡献者
- Ben Egan
- SilentAntagonist
- Alex Redden
- XWAVE
搜集汇总
数据集介绍

构建方式
该数据集通过整合来自多个网站和个人的AI生成图像构建而成,主要聚焦于Dalle 3的内容,同时包含来自Stable Diffusion和Midjourney等高质量AI系统的贡献。图像的描述文本由CogVLM生成,使用4-bit模型并结合自定义的描述失败检测和修正机制。短描述则由Dolphin 2.6 Mistral 7b - DPO和Llama3生成。数据集的构建过程中,通过md5_pil_hash列进行去重处理,确保了数据的唯一性和高质量。
特点
该数据集具有极高的图像质量和多样性,涵盖了从艺术风格到流行文化等多种概念。由于Dall-E 3的不可预测性,用户在创作过程中展现出更高的创造力,使得数据集中的图像更具价值。此外,数据集的图像分辨率主要为1024x1024和1792x1024,格式包括JPEG、JPG和PNG。通过严格的自动化和手动过滤,排除了非AI生成的图像、渲染失败的内容以及不道德或不适当的内容。
使用方法
该数据集采用WebDataset格式,可通过HuggingFace的datasets库轻松访问和使用。用户可以通过设置streaming=True实现流式加载,无需下载整个数据集。数据集适用于多种用途,包括研究、数据集多样性增强、心理研究、模型性能评估、模型微调和训练新模型。此外,该数据集还可作为人类与AI系统交互的历史档案,为视觉语言模型(VLMs)提供训练资源,帮助其理解和处理新颖的概念。
背景与挑战
背景概述
ProGamerGov/synthetic-dataset-1m-dalle3-high-quality-captions数据集由Ben Egan、Alex Redden、XWAVE和SilentAntagonist等研究人员于2024年创建,旨在收集和标注由Dalle 3、Stable Diffusion和Midjourney等AI系统生成的高质量图像及其描述。该数据集包含超过一百万张独特的AI生成图像,涵盖多种艺术风格、主题和概念,反映了用户对高质量创意作品的偏好。通过使用CogVLM模型生成详细描述,该数据集不仅为图像分类和文本生成任务提供了丰富的资源,还为研究AI生成内容的社会影响和心理效应提供了宝贵的数据支持。
当前挑战
该数据集在构建过程中面临多项挑战。首先,由于图像来源于多个AI系统,确保数据的一致性和质量是一个重要问题。其次,生成高质量的图像描述需要复杂的自然语言处理技术,如何避免描述中的偏见和错误是一个持续的挑战。此外,数据集的多样性虽然丰富,但也带来了数据管理和处理的复杂性。最后,由于图像的生成和收集依赖于用户行为,数据集可能存在一定的用户偏见,这需要在后续研究和应用中加以考虑和纠正。
常用场景
经典使用场景
在人工智能生成图像领域,ProGamerGov/synthetic-dataset-1m-dalle3-high-quality-captions数据集以其高质量的合成图像和详尽的描述文本著称。该数据集的经典使用场景包括但不限于:图像生成模型的微调、视觉语言模型的训练、以及图像与文本匹配任务的研究。通过利用这些高保真度的图像及其对应的详细描述,研究人员能够更精确地评估和提升模型的性能。
解决学术问题
该数据集解决了在图像生成和描述领域中常见的学术问题,如图像与文本对齐的准确性、生成模型的多样性和创造性评估等。通过提供大量高质量的合成图像及其详细的文本描述,该数据集为研究人员提供了一个标准化的测试平台,有助于推动图像生成和视觉语言理解技术的发展。
衍生相关工作
基于该数据集,许多相关工作得以展开,包括但不限于:改进的图像生成算法、更高效的视觉语言模型训练方法,以及新的图像描述生成技术。这些衍生工作不仅提升了现有技术的性能,还为未来的研究提供了新的方向和灵感,进一步推动了人工智能生成内容领域的发展。
以上内容由遇见数据集搜集并总结生成



