ProGamerGov/synthetic-dataset-1m-dalle3-high-quality-captions

Name: ProGamerGov/synthetic-dataset-1m-dalle3-high-quality-captions
Creator: ProGamerGov
Published: 2024-06-30 22:42:56
License: 暂无描述

Hugging Face2024-06-30 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/ProGamerGov/synthetic-dataset-1m-dalle3-high-quality-captions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含超过一百万张由Dalle 3、Midjourney和Stable Diffusion等AI系统生成的高质量图像，主要反映了人类偏好和高质量创意作品。图像的详细描述由CogVLM生成，并通过Llama3进行优化。数据集适用于多种任务，如文本到图像的转换、图像分类和图像到文本的转换，旨在用于研究、模型训练和作为人类与AI系统交互的历史档案。

提供机构：

ProGamerGov

原始信息汇总

数据集概述

数据集名称

正式名称: Dalle3 1 Million High Quality Captions
别名: Human Preference Synthetic Dataset

数据集特征

数据类型:
- 结构化数据: JSON格式，包含以下字段：
  - image_name: 字符串
  - md5_pil_hash: 字符串
  - md5_file_hash: 字符串
  - sha512_hash: 字符串
  - short_caption: 字符串
  - long_caption: 字符串
  - resolution: 字符串
  - url: 字符串
  - width: 整数
  - height: 整数
  - source: 字符串
  - original_prompt: 字符串
  - short_caption2: 字符串
  - long_caption2: 字符串
- 图像数据: JPG, JPEG, PNG格式

数据集内容

图像来源: 主要来自Dalle 3，以及Stable Diffusion和Midjourney等高质量AI系统。
图像描述: 使用CogVLM生成详细描述，Dolphin 2.6 Mistral 7b - DPO和Llama3生成简短描述。
图像质量: 高质量，多数为1024x1024分辨率。
内容多样性: 包括艺术风格、景观、主题、节日、时事、流行文化、交通工具、物品等。
去重处理: 使用md5_pil_hash进行去重。

数据集用途

研究: 用于心理学研究、模型评估和训练。
数据增强: 用于增强现有数据集的多样性。
历史记录: 作为人类与AI系统互动的历史档案。

数据集限制

偏见: 图像可能包含制作它们的用户的偏见。
代表性: 不代表用于训练模型的数据集，仅代表用户使用模型制作的一小部分内容。

数据集使用示例

使用WebDataset格式，可通过HuggingFace的datasets库进行加载和访问。

数据集贡献者

Ben Egan
SilentAntagonist
Alex Redden
XWAVE

搜集汇总

数据集介绍

构建方式

该数据集通过整合来自多个网站和个人的AI生成图像构建而成，主要聚焦于Dalle 3的内容，同时包含来自Stable Diffusion和Midjourney等高质量AI系统的贡献。图像的描述文本由CogVLM生成，使用4-bit模型并结合自定义的描述失败检测和修正机制。短描述则由Dolphin 2.6 Mistral 7b - DPO和Llama3生成。数据集的构建过程中，通过md5_pil_hash列进行去重处理，确保了数据的唯一性和高质量。

特点

该数据集具有极高的图像质量和多样性，涵盖了从艺术风格到流行文化等多种概念。由于Dall-E 3的不可预测性，用户在创作过程中展现出更高的创造力，使得数据集中的图像更具价值。此外，数据集的图像分辨率主要为1024x1024和1792x1024，格式包括JPEG、JPG和PNG。通过严格的自动化和手动过滤，排除了非AI生成的图像、渲染失败的内容以及不道德或不适当的内容。

使用方法

该数据集采用WebDataset格式，可通过HuggingFace的datasets库轻松访问和使用。用户可以通过设置streaming=True实现流式加载，无需下载整个数据集。数据集适用于多种用途，包括研究、数据集多样性增强、心理研究、模型性能评估、模型微调和训练新模型。此外，该数据集还可作为人类与AI系统交互的历史档案，为视觉语言模型（VLMs）提供训练资源，帮助其理解和处理新颖的概念。

背景与挑战

背景概述

ProGamerGov/synthetic-dataset-1m-dalle3-high-quality-captions数据集由Ben Egan、Alex Redden、XWAVE和SilentAntagonist等研究人员于2024年创建，旨在收集和标注由Dalle 3、Stable Diffusion和Midjourney等AI系统生成的高质量图像及其描述。该数据集包含超过一百万张独特的AI生成图像，涵盖多种艺术风格、主题和概念，反映了用户对高质量创意作品的偏好。通过使用CogVLM模型生成详细描述，该数据集不仅为图像分类和文本生成任务提供了丰富的资源，还为研究AI生成内容的社会影响和心理效应提供了宝贵的数据支持。

当前挑战

该数据集在构建过程中面临多项挑战。首先，由于图像来源于多个AI系统，确保数据的一致性和质量是一个重要问题。其次，生成高质量的图像描述需要复杂的自然语言处理技术，如何避免描述中的偏见和错误是一个持续的挑战。此外，数据集的多样性虽然丰富，但也带来了数据管理和处理的复杂性。最后，由于图像的生成和收集依赖于用户行为，数据集可能存在一定的用户偏见，这需要在后续研究和应用中加以考虑和纠正。

常用场景

经典使用场景

在人工智能生成图像领域，ProGamerGov/synthetic-dataset-1m-dalle3-high-quality-captions数据集以其高质量的合成图像和详尽的描述文本著称。该数据集的经典使用场景包括但不限于：图像生成模型的微调、视觉语言模型的训练、以及图像与文本匹配任务的研究。通过利用这些高保真度的图像及其对应的详细描述，研究人员能够更精确地评估和提升模型的性能。

解决学术问题

该数据集解决了在图像生成和描述领域中常见的学术问题，如图像与文本对齐的准确性、生成模型的多样性和创造性评估等。通过提供大量高质量的合成图像及其详细的文本描述，该数据集为研究人员提供了一个标准化的测试平台，有助于推动图像生成和视觉语言理解技术的发展。

衍生相关工作

基于该数据集，许多相关工作得以展开，包括但不限于：改进的图像生成算法、更高效的视觉语言模型训练方法，以及新的图像描述生成技术。这些衍生工作不仅提升了现有技术的性能，还为未来的研究提供了新的方向和灵感，进一步推动了人工智能生成内容领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集