devourthemoon/laion-publicdomain
收藏Hugging Face2022-10-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/devourthemoon/laion-publicdomain
下载链接
链接失效反馈官方服务:
资源简介:
annotations_creators:
- machine-generated
language_creators:
- machine-generated
license:
- cc-by-4.0
multilinguality:
- multilingual
pretty_name: laion-publicdomain
size_categories:
- 100K<n<1M
source_datasets:
-laion/laion2B-en
tags:
- laion
task_categories:
- text-to-image
# Dataset Card for laion-publicdomain
## Table of Contents
- [Table of Contents](#table-of-contents)
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Dataset Structure](#dataset-structure)
- [Data Fields](#data-fields)
- [Dataset Creation](#dataset-creation)
- [Curation Rationale](#curation-rationale)
- [Source Data](#source-data)
- [Annotations](#annotations)
- [Personal and Sensitive Information](#personal-and-sensitive-information)
- [Considerations for Using the Data](#considerations-for-using-the-data)
- [Social Impact of Dataset](#social-impact-of-dataset)
- [Discussion of Biases](#discussion-of-biases)
- [Other Known Limitations](#other-known-limitations)
- [Additional Information](#additional-information)
- [Licensing Information](#licensing-information)
## Dataset Description
- **Homepage:** https://huggingface.co/datasets/devourthemoon/laion-publicdomain
- **Repository:** https://huggingface.co/datasets/devourthemoon/laion-publicdomain
- **Paper:** do i look like a scientist to you
- **Leaderboard:**
- **Point of Contact:** @devourthemoon on twitter
### Dataset Summary
This dataset contains metadata about images from the [LAION2B-eb dataset](https://huggingface.co/laion/laion2B-en) curated to a reasonable best guess of 'ethically sourced' images.
## Dataset Structure
### Data Fields
See the [laion2B](https://laion.ai/blog/laion-400-open-dataset/) release notes.
## Dataset Creation
### Curation Rationale
This dataset contains images whose URLs are either from archive.org or whose license is Creative Commons of some sort.
This is a useful first pass at "public use" images, as the Creative Commons licenses are primarily voluntary and intended for public use,
and archive.org is a website that archives public domain images.
### Source Data
The source dataset is at laion/laion2B-en and is not affiliated with this project.
### Annotations
#### Annotation process
Laion2B-en is assembled from Common Crawl data.
### Personal and Sensitive Information
[More Information Needed]
## Considerations for Using the Data
### Social Impact of Dataset
#### Is this dataset as ethical as possible?
*No.* This dataset exists as a proof of concept. Further research could improve the sourcing of the dataset in a number of ways, particularly improving the attribution of files to their original authors.
#### Can I willingly submit my own images to be included in the dataset?
This is a long term goal of this project with the ideal being the generation of 'personalized' AI models for artists. Contact @devourthemoon on Twitter if this interests you.
#### Is this dataset as robust as e.g. LAION2B?
Absolutely not. About 0.17% of the images in the LAION2B dataset matched the filters, leading to just over 600k images in this dataset.
### Discussion of Biases
[More Information Needed]
### Other Known Limitations
[More Information Needed]
## Additional Information
### Licensing Information
When using images from this dataset, please acknowledge the combination of Creative Commons licenses.
This dataset itself follows CC-BY-4.0
注释创建者:
- 机器生成
语言来源:
- 机器生成
许可证:
- CC BY 4.0
多语言属性:
- 多语言
数据集展示名:laion-publicdomain
规模类别:
- 10万 < 样本量 < 100万
源数据集:
- laion/laion2B-en
标签:
- LAION
任务类别:
- 文本到图像
# LAION-PUBLICDOMAIN 数据集卡片
## 目录
- [目录](#目录)
- [数据集描述](#数据集描述)
- [数据集概述](#数据集概述)
- [数据集结构](#数据集结构)
- [数据字段](#数据字段)
- [数据集构建](#数据集构建)
- [遴选依据](#遴选依据)
- [源数据](#源数据)
- [注释](#注释)
- [个人与敏感信息](#个人与敏感信息)
- [数据使用注意事项](#数据使用注意事项)
- [数据集的社会影响](#数据集的社会影响)
- [偏差讨论](#偏差讨论)
- [其他已知局限性](#其他已知局限性)
- [附加信息](#附加信息)
- [许可信息](#许可信息)
## 数据集描述
- **主页**:https://huggingface.co/datasets/devourthemoon/laion-publicdomain
- **代码仓库**:https://huggingface.co/datasets/devourthemoon/laion-publicdomain
- **论文**:《我看起来像科学家吗》
- **排行榜**:
- **联系方式**:Twitter 平台账号 @devourthemoon
### 数据集概述
本数据集包含源自[LAION-2B-EN数据集](https://huggingface.co/laion/laion2B-en)的图像元数据,经筛选后得到可合理判定为「伦理来源」的图像集合。
## 数据集结构
### 数据字段
详见[LAION-2B](https://laion.ai/blog/laion-400-open-dataset/)的发布说明文档。
## 数据集构建
### 遴选依据
本数据集收录的图像,其URL要么来自互联网档案馆(archive.org),要么带有各类知识共享(Creative Commons)许可协议。此类图像可作为「公共使用」图像的初步筛选结果:知识共享许可协议本质为自愿性协议,旨在面向公共使用场景;而互联网档案馆则归档了大量公有领域图像资源。
### 源数据
本数据集的源数据集为 laion/laion2B-en,与本项目无任何附属关系。
### 注释
#### 注释流程
LAION-2B-EN 由公共爬虫(Common Crawl)数据构建而成。
### 个人与敏感信息
[需补充更多信息]
## 数据使用注意事项
### 数据集的社会影响
#### 本数据集是否尽可能符合伦理标准?
**否**。本数据集仅作为概念验证项目存在。后续研究可从多个维度优化数据集的来源筛选工作,尤其是优化图像文件与原作者的归因关联。
#### 我是否可以主动提交个人图像以加入本数据集?
这是本项目的长期目标,其最终愿景是为创作者生成「个性化」AI模型。若您对此感兴趣,请通过Twitter联系 @devourthemoon。
#### 本数据集是否与LAION-2B等数据集一样具备鲁棒性?
**绝对没有**。LAION-2B数据集中仅有约0.17%的图像符合本次筛选规则,最终本数据集仅包含略多于60万张图像。
### 偏差讨论
[需补充更多信息]
### 其他已知局限性
[需补充更多信息]
## 附加信息
### 许可信息
使用本数据集内的图像时,请注明所涉及的各类知识共享许可协议。本数据集本身遵循知识共享署名4.0(CC BY 4.0)许可协议。
提供机构:
devourthemoon
原始信息汇总
数据集概述
- 名称: laion-publicdomain
- 语言: 多语言
- 许可证: cc-by-4.0
- 大小: 100K<n<1M
- 来源数据集: laion/laion2B-en
- 标签: laion
- 任务类别: 文本到图像
数据集描述
- 摘要: 该数据集包含来自LAION2B-en数据集的图像元数据,经过筛选以合理猜测为伦理来源的图像。
数据集结构
- 数据字段: 请参阅laion2B发布说明。
数据集创建
- 筛选理由: 该数据集包含的图像URL来自archive.org或具有某种形式的Creative Commons许可证。这是一个“公共使用”图像的有用初步筛选,因为Creative Commons许可证主要是自愿的,旨在供公众使用,而archive.org是一个存档公共域图像的网站。
- 源数据: 源数据集位于laion/laion2B-en,与本项目无关。
- 注释: Laion2B-en是从Common Crawl数据组装而成。
使用数据集的考虑
- 社会影响: 该数据集作为概念验证存在。进一步的研究可以改善数据集的来源,特别是在改善文件对原作者的归属方面。
- 偏见讨论: 需要更多信息。
- 其他已知限制: 需要更多信息。
附加信息
- 许可证信息: 使用此数据集中的图像时,请承认Creative Commons许可证的组合。此数据集本身遵循CC-BY-4.0。



