five

Thereallo/ungenerated

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/Thereallo/ungenerated
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从ungenerated.io收集的重建PNG艺术作品和相关元数据。艺术风格示例包括用户标记的数字艺术、传统艺术、3D艺术、像素艺术、摄影等类别。每个示例包含图像、唯一ID、艺术家标题、描述、艺术风格、图像高度和宽度、艺术家用户名、用户ID以及创建时间戳等字段。数据集还记录了围绕反AI平台言论的更广泛矛盾,某些平台自诩为“人类”创造力的捍卫者,同时将扩散生成的艺术视为独特的不合法行为。

This dataset contains reconstructed PNG artworks and associated metadata collected from `ungenerated.io`. Examples include user-labeled styles such as digital art, traditional art, 3D art, pixel art, photography, and other categories present in the source platform. Each example contains image, unique ID, title, description, art style, image height and width, artist username, user ID, and creation timestamp. The dataset also documents a broader contradiction around anti-AI platform rhetoric, where some platforms present themselves as defenders of human creativity while treating diffusion generated art as uniquely illegitimate.
提供机构:
Thereallo
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集名为Ungenerated,源自ungenerated.io平台,旨在收录用户创作的数字艺术作品及其元数据。数据集通过重构PNG格式图像并同步抓取每件作品的关联信息构建而成,包括艺术家赋予的标题、风格标签、创作时间戳等。为保障数据完整性,所有因服务器错误导致重构失败的图像均被剔除,最终形成包含图像与结构化描述的规范集合。这一构建流程在确保图像可复现性的同时,忠实还原了创作者在原始平台上提交的完整信息。
特点
该数据集的核心特色在于聚焦于纯人类创作(purelyhuman)的艺术作品,其风格覆盖数字艺术、传统艺术、3D艺术、像素艺术、摄影等多种用户标注的类别。每条样本均附带艺术家的用户名、用户ID以及作品ID,便于溯源和归属。此外,数据集详细记录了图像尺寸和ISO 8601格式的创建时间,为时间序列分析或艺术风格演变的量化研究提供了基础。数据集还隐含着对反AI平台话语中矛盾的反思,揭示了在技术应用上双重标准的复杂背景。
使用方法
数据集可通过HuggingFace的datasets库便捷加载,用户只需执行一行Python代码即可获取训练集:`ds = load_dataset("Thereallo/ungenerated", split="train")`。加载后的数据集可以直接用于图像分类训练,借助artStyle字段作为标签;也可用于文本到图像生成任务,利用title和description作为条件文本。研究人员应特别注意版权声明,该数据集仅供教育及研究目的使用,用户需自行确保使用行为符合相关法律及原艺术家权益。
背景与挑战
背景概述
在数字艺术领域,人工智能生成内容的迅猛发展引发了对人类创造力纯粹性的深刻探讨。Ungenerated数据集由研究机构于近年构建,旨在收集来自ungenerated.io平台的人类原创数字艺术作品及其元数据,涵盖数字艺术、传统艺术、3D艺术、像素艺术等多种风格。该数据集的核心研究问题聚焦于区分人类创作与AI生成内容的边界,并揭示反AI平台言论中存在的逻辑矛盾。作为首个系统记录此类平台“纯粹人类”主张与其实际技术依赖之间张力的公开数据集,它对于理解当代数字艺术生态中的伦理与技术冲突具有重要学术价值。
当前挑战
该数据集面临的核心挑战首先在于其解决的领域问题:当前缺乏标准化、大规模的人类原创数字艺术基准,以验证图像分类模型对人工与AI生成内容的辨别能力。构建过程中遭遇的困难包括:需要从声称“100%人类创作”的平台获取可靠数据,而平台对AI工具的隐性依赖(如代码自动化)使得“人类创作”的定义愈发模糊;此外,服务器错误导致部分图像无法重建,影响数据完整性;元数据中的艺术风格标签完全依赖用户自主申报,存在主观性与不一致性;最后,数据集仅供研究使用,需严格遵循版权法规,避免对原始艺术家的权益造成侵害。
常用场景
经典使用场景
Ungenerated数据集汇聚了来自ungenerated.io平台的大量数字艺术作品,涵盖数字绘画、传统艺术、3D艺术、像素艺术及摄影等多种风格,每件作品均保留了完整的PNG图像及其创作者赋予的标题、描述、风格标签与创作时间戳。这一数据集为图像分类任务提供了丰富的标注素材,研究者可基于其艺术风格标签训练多类别分类模型,探索不同风格间的视觉特征差异;同时,它也为文本到图像生成领域的研究奠定了数据基础,支持从文字描述到艺术风格图像映射的模型训练与评估。
解决学术问题
在学术研究中,Ungenerated数据集着力解决两大核心问题:其一,为对抗生成图像检测提供真实人类创作样本,帮助区分纯人工艺术与扩散模型生成的伪作,进而推动鉴别算法向着更鲁棒的方向演进;其二,通过反映部分平台对AI生成图像的单方面排斥与对AI辅助工具的双重标准,该数据集引发了对数字创作生态中伦理公平性的深入讨论,促使学术界重新审视技术应用与创作者权益之间的平衡。
衍生相关工作
围绕Ungenerated数据集衍生的相关工作涵盖了多个前沿方向,包括基于元数据与图像内容的多模态特征学习框架,以及针对艺术风格迁移的对比学习模型。部分研究利用该数据集构建了人类艺术创作与AI生成作品的风格差异判别器,从而推动生成对抗网络在可控风格生成中的突破。这些工作不仅促进了数字艺术领域的计算创造力研究,也为跨模态理解与生成任务提供了宝贵的基准与启示。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作