five

devourthemoon/laion-publicdomain

收藏
Hugging Face2022-10-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/devourthemoon/laion-publicdomain
下载链接
链接失效反馈
官方服务:
资源简介:
annotations_creators: - machine-generated language_creators: - machine-generated license: - cc-by-4.0 multilinguality: - multilingual pretty_name: laion-publicdomain size_categories: - 100K<n<1M source_datasets: -laion/laion2B-en tags: - laion task_categories: - text-to-image # Dataset Card for laion-publicdomain ## Table of Contents - [Table of Contents](#table-of-contents) - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Dataset Structure](#dataset-structure) - [Data Fields](#data-fields) - [Dataset Creation](#dataset-creation) - [Curation Rationale](#curation-rationale) - [Source Data](#source-data) - [Annotations](#annotations) - [Personal and Sensitive Information](#personal-and-sensitive-information) - [Considerations for Using the Data](#considerations-for-using-the-data) - [Social Impact of Dataset](#social-impact-of-dataset) - [Discussion of Biases](#discussion-of-biases) - [Other Known Limitations](#other-known-limitations) - [Additional Information](#additional-information) - [Licensing Information](#licensing-information) ## Dataset Description - **Homepage:** https://huggingface.co/datasets/devourthemoon/laion-publicdomain - **Repository:** https://huggingface.co/datasets/devourthemoon/laion-publicdomain - **Paper:** do i look like a scientist to you - **Leaderboard:** - **Point of Contact:** @devourthemoon on twitter ### Dataset Summary This dataset contains metadata about images from the [LAION2B-eb dataset](https://huggingface.co/laion/laion2B-en) curated to a reasonable best guess of 'ethically sourced' images. ## Dataset Structure ### Data Fields See the [laion2B](https://laion.ai/blog/laion-400-open-dataset/) release notes. ## Dataset Creation ### Curation Rationale This dataset contains images whose URLs are either from archive.org or whose license is Creative Commons of some sort. This is a useful first pass at "public use" images, as the Creative Commons licenses are primarily voluntary and intended for public use, and archive.org is a website that archives public domain images. ### Source Data The source dataset is at laion/laion2B-en and is not affiliated with this project. ### Annotations #### Annotation process Laion2B-en is assembled from Common Crawl data. ### Personal and Sensitive Information [More Information Needed] ## Considerations for Using the Data ### Social Impact of Dataset #### Is this dataset as ethical as possible? *No.* This dataset exists as a proof of concept. Further research could improve the sourcing of the dataset in a number of ways, particularly improving the attribution of files to their original authors. #### Can I willingly submit my own images to be included in the dataset? This is a long term goal of this project with the ideal being the generation of 'personalized' AI models for artists. Contact @devourthemoon on Twitter if this interests you. #### Is this dataset as robust as e.g. LAION2B? Absolutely not. About 0.17% of the images in the LAION2B dataset matched the filters, leading to just over 600k images in this dataset. ### Discussion of Biases [More Information Needed] ### Other Known Limitations [More Information Needed] ## Additional Information ### Licensing Information When using images from this dataset, please acknowledge the combination of Creative Commons licenses. This dataset itself follows CC-BY-4.0

注释创建者: - 机器生成 语言来源: - 机器生成 许可证: - CC BY 4.0 多语言属性: - 多语言 数据集展示名:laion-publicdomain 规模类别: - 10万 < 样本量 < 100万 源数据集: - laion/laion2B-en 标签: - LAION 任务类别: - 文本到图像 # LAION-PUBLICDOMAIN 数据集卡片 ## 目录 - [目录](#目录) - [数据集描述](#数据集描述) - [数据集概述](#数据集概述) - [数据集结构](#数据集结构) - [数据字段](#数据字段) - [数据集构建](#数据集构建) - [遴选依据](#遴选依据) - [源数据](#源数据) - [注释](#注释) - [个人与敏感信息](#个人与敏感信息) - [数据使用注意事项](#数据使用注意事项) - [数据集的社会影响](#数据集的社会影响) - [偏差讨论](#偏差讨论) - [其他已知局限性](#其他已知局限性) - [附加信息](#附加信息) - [许可信息](#许可信息) ## 数据集描述 - **主页**:https://huggingface.co/datasets/devourthemoon/laion-publicdomain - **代码仓库**:https://huggingface.co/datasets/devourthemoon/laion-publicdomain - **论文**:《我看起来像科学家吗》 - **排行榜**: - **联系方式**:Twitter 平台账号 @devourthemoon ### 数据集概述 本数据集包含源自[LAION-2B-EN数据集](https://huggingface.co/laion/laion2B-en)的图像元数据,经筛选后得到可合理判定为「伦理来源」的图像集合。 ## 数据集结构 ### 数据字段 详见[LAION-2B](https://laion.ai/blog/laion-400-open-dataset/)的发布说明文档。 ## 数据集构建 ### 遴选依据 本数据集收录的图像,其URL要么来自互联网档案馆(archive.org),要么带有各类知识共享(Creative Commons)许可协议。此类图像可作为「公共使用」图像的初步筛选结果:知识共享许可协议本质为自愿性协议,旨在面向公共使用场景;而互联网档案馆则归档了大量公有领域图像资源。 ### 源数据 本数据集的源数据集为 laion/laion2B-en,与本项目无任何附属关系。 ### 注释 #### 注释流程 LAION-2B-EN 由公共爬虫(Common Crawl)数据构建而成。 ### 个人与敏感信息 [需补充更多信息] ## 数据使用注意事项 ### 数据集的社会影响 #### 本数据集是否尽可能符合伦理标准? **否**。本数据集仅作为概念验证项目存在。后续研究可从多个维度优化数据集的来源筛选工作,尤其是优化图像文件与原作者的归因关联。 #### 我是否可以主动提交个人图像以加入本数据集? 这是本项目的长期目标,其最终愿景是为创作者生成「个性化」AI模型。若您对此感兴趣,请通过Twitter联系 @devourthemoon。 #### 本数据集是否与LAION-2B等数据集一样具备鲁棒性? **绝对没有**。LAION-2B数据集中仅有约0.17%的图像符合本次筛选规则,最终本数据集仅包含略多于60万张图像。 ### 偏差讨论 [需补充更多信息] ### 其他已知局限性 [需补充更多信息] ## 附加信息 ### 许可信息 使用本数据集内的图像时,请注明所涉及的各类知识共享许可协议。本数据集本身遵循知识共享署名4.0(CC BY 4.0)许可协议。
提供机构:
devourthemoon
原始信息汇总

数据集概述

  • 名称: laion-publicdomain
  • 语言: 多语言
  • 许可证: cc-by-4.0
  • 大小: 100K<n<1M
  • 来源数据集: laion/laion2B-en
  • 标签: laion
  • 任务类别: 文本到图像

数据集描述

  • 摘要: 该数据集包含来自LAION2B-en数据集的图像元数据,经过筛选以合理猜测为伦理来源的图像。

数据集结构

  • 数据字段: 请参阅laion2B发布说明。

数据集创建

  • 筛选理由: 该数据集包含的图像URL来自archive.org或具有某种形式的Creative Commons许可证。这是一个“公共使用”图像的有用初步筛选,因为Creative Commons许可证主要是自愿的,旨在供公众使用,而archive.org是一个存档公共域图像的网站。
  • 源数据: 源数据集位于laion/laion2B-en,与本项目无关。
  • 注释: Laion2B-en是从Common Crawl数据组装而成。

使用数据集的考虑

  • 社会影响: 该数据集作为概念验证存在。进一步的研究可以改善数据集的来源,特别是在改善文件对原作者的归属方面。
  • 偏见讨论: 需要更多信息。
  • 其他已知限制: 需要更多信息。

附加信息

  • 许可证信息: 使用此数据集中的图像时,请承认Creative Commons许可证的组合。此数据集本身遵循CC-BY-4.0。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作