art-museums-pd-440k
收藏Hugging Face2024-12-16 更新2024-12-17 收录
下载链接:
https://huggingface.co/datasets/Mitsua/art-museums-pd-440k
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于训练文本到图像或任何文本和图像多模态模型的数据集,旨在最小化版权/许可方面的担忧。所有图像和文本均在CC0或公共领域下共享,数据来源包括Smithsonian开放访问、大都会艺术博物馆开放访问、克利夫兰艺术博物馆开放访问和芝加哥艺术学院开放访问。数据集本身和编译/翻译的标题在CC BY 4.0许可证下授权。
创建时间:
2024-12-15
原始信息汇总
Art Museums PD 440K
概述
这是一个用于训练文本到图像或任何文本和图像多模态模型的数据集,旨在最小化版权/许可问题。数据集中的所有图像和文本均以CC0或公共领域共享,构建数据集时未使用任何预训练模型或AI模型,除了用于将英文标题翻译成日文的ElanMT模型。ElanMT模型仅基于许可语料库进行训练。
数据来源
图像和元数据收集自以下博物馆的开放访问资源,所有图像和元数据均以CC0或公共领域共享。图像标题仅从这些元数据中创建。
- Smithsonian Open Access (CC0)
- The Metropolitan Museum of Art Open Access (CC0)
- The Cleveland Museum of Art Open Access (CC0)
- The Art Institute of Chicago Open Access (CC0)
- 由ELAN MITSUA项目/Abstract Engine策划。
过滤
- 进行了基于单词的预过滤,以减轻有害或NSFW内容。
许可
- 图像和原始元数据由这些博物馆以CC0许可。
- 数据集本身和编译/翻译的标题由ELAN MITSUA项目 / Abstract Engine以CC BY 4.0许可。这意味着您可以使用、改编和重新分发此数据集,只要您给予适当的信用。
搜集汇总
数据集介绍

构建方式
该数据集的构建基于多个知名艺术博物馆的开放访问资源,包括史密森尼开放访问、大都会艺术博物馆开放访问、克利夫兰艺术博物馆开放访问以及芝加哥艺术学院开放访问。所有图像和元数据均源自这些博物馆的CC0或公共领域授权。数据集中的图像描述是通过这些元数据生成的,并使用ElanMT模型将英文描述翻译成日文。整个构建过程严格遵循版权和许可要求,确保数据集的合法性和可用性。
特点
art-museums-pd-440k数据集的显著特点在于其内容的多样性和版权的清晰性。所有图像和文本均来自公共领域或CC0授权,消除了版权和许可的顾虑。此外,数据集包含英文和日文两种语言的描述,适合用于多语言或多模态模型的训练。通过预过滤机制,数据集还确保了内容的安全性和适宜性,避免了有害或不适合的内容。
使用方法
该数据集主要用于训练文本到图像或图像到文本的多模态模型。用户可以自由使用、改编和重新分发此数据集,前提是需适当注明出处。数据集的开放性和多语言特性使其适用于多种研究和应用场景,特别是在需要处理多语言或多模态数据的领域。使用时,用户应遵守CC BY 4.0许可协议,确保合法使用并给予适当的信用。
背景与挑战
背景概述
在多模态学习领域,尤其是文本与图像的联合建模中,数据集的版权和许可问题一直是研究者们关注的焦点。art-museums-pd-440k数据集应运而生,旨在为文本到图像及图像到文本的多模态模型提供一个版权风险最小化的数据资源。该数据集由ELAN MITSUA项目与Abstract Engine共同创建,汇集了来自多个知名艺术博物馆的公开访问数据,包括史密森尼开放访问、大都会艺术博物馆开放访问、克利夫兰艺术博物馆开放访问以及芝加哥艺术学院开放访问等。所有图像和元数据均基于CC0或公共领域许可,确保了数据集的合法性和广泛可用性。
当前挑战
尽管art-museums-pd-440k数据集在版权问题上提供了极大的便利,但其构建过程中仍面临诸多挑战。首先,数据来源的多样性要求对不同博物馆的开放数据进行统一处理和整合,确保数据格式的兼容性和一致性。其次,为避免数据集中出现有害或不适当的内容,研究团队实施了基于词汇的预过滤机制,这一过程需要精确且高效的算法支持。此外,数据集中的文本描述主要来源于元数据,如何生成高质量且准确的图像描述也是一个技术难题。最后,尽管数据集本身基于CC BY 4.0许可,用户在使用时仍需注意对原始数据来源的适当引用,以确保合规性。
常用场景
经典使用场景
在多模态学习领域,art-museums-pd-440k数据集因其丰富的图像与文本对而成为训练文本到图像生成模型的理想选择。该数据集通过整合来自多个著名艺术博物馆的公开数据,提供了大量高质量的图像及其对应的描述文本,特别适用于构建和优化跨语言的图像生成与理解模型。
解决学术问题
该数据集有效解决了多模态学习中版权与许可问题的困扰,为学术界提供了一个无版权限制的资源库。通过使用公共领域和CC0许可的内容,研究者可以在不涉及法律风险的情况下,深入探索图像与文本之间的复杂关系,推动多模态模型的创新与发展。
衍生相关工作
基于art-museums-pd-440k数据集,研究者们开发了多种跨语言的图像生成与理解模型,显著提升了模型的泛化能力和语言适应性。此外,该数据集还激发了在艺术领域应用多模态技术的研究,如艺术作品的自动描述生成和跨文化艺术交流平台的构建。
以上内容由遇见数据集搜集并总结生成



