fondant-ai/fondant-cc-25m
收藏数据集卡片 for Fondant Creative Commons 25 million (fondant-cc-25m)
数据集描述
- 主页: https://www.fondant.ai/
- 仓库: https://github.com/ml6team/fondant
- 联系点: info@fondant.ai
更新日志
| 版本 | 描述 |
|---|---|
| v0.1 | 发布 Fondant-cc-25m 数据集 |
数据集概述
Fondant-cc-25m 包含 2500 万个图像 URL 及其相应的 Creative Commons 许可证信息,这些信息是从 Common Crawl web corpus 收集的。该数据集是使用 Fondant 创建的,这是一个开源框架,旨在通过使自包含的管道组件在管道、基础设施和社区内可重用和共享,来简化并加速大规模数据处理。
支持的任务和排行榜
该数据集可用于训练或微调图像生成或计算机视觉模型。
如何使用
要本地执行管道,您必须在系统上安装 docker compose、Python >=3.8 和 Git。为了确保成功运行示例,请为您的 Docker 环境分配至少 8GB 的 RAM。
注意: 对于 Apple M1/M2 芯片用户:
- 确保 Docker 使用 linux/amd64 平台而不是 arm64。在 Docker 仪表板中转到设置 > 开发中的功能,确保取消选中
Use containerid for pulling and storing images。 - 为了提高执行速度,勾选
Use Rosetta for x86/amd64 emulation on Apple Silicon。
我们准备了一个示例 Fondant 管道来下载数据集。
-
通过运行以下命令安装 Fondant: bash pip install fondant
-
克隆 示例 GitHub 仓库 bash git clone https://github.com/ml6team/fondant-usecase-filter-creative-commons.git
-
确保 Docker 正在运行,导航到
src文件夹,并通过执行以下命令启动管道: bash fondant run local pipeline
注意: 出于本地测试目的,管道只会下载前 100 张图像。如果您想下载完整数据集,您需要在 pipeline.py 文件中修改组件参数,特别是以下部分:
python
load_from_hf_hub = ComponentOp(
component_dir="components/load_from_hf_hub",
arguments={
"dataset_name": "fondant-ai/fondant-cc-25m",
"column_name_mapping": load_component_column_mapping,
"n_rows_to_load": <此处插入您想要下载的图像数量>
},
)
-
要快速可视化检查结果,您可以使用: bash fondant explore --base_path ./data
-
如果您更喜欢将图像下载到本地机器,我们提供了一个 示例脚本 来实现这一点: 要运行脚本,您可以简单地执行以下命令: bash python extract_images.py --parquet_file <Parquet 文件或包含图像的文件夹路径> --save_folder <保存图像的文件夹>
如何贡献
如果您想为数据集做出贡献,最好的方式是帮助我们开发用于进一步处理的管道组件。
创建特定目的的自定义管道需要不同的构建块。Fondant 管道可以混合可重用组件和自定义组件。
我们目前正在寻找以下组件的贡献:
- 👯 基于图像的去重
- 🖥️✎ 自动字幕生成
- 🎨 视觉质量/美学质量估计
- 🔏 水印检测
- 🔞 不适宜工作(NSFW)内容检测
- 📇 CLIP 嵌入生成
- 😐 人脸检测
- 🙋🏻♂️ 个人识别信息(PII)检测
- 📝 文本检测
- 🤖 AI 生成图像检测
- 👬 图像-文本 CLIP 相似度
- 👨🎨 您提议开发的任何组件
我们还寻找核心框架贡献者和愿意提供反馈并建议潜在改进的用户。
数据集结构
数据实例
每个数据实例对应一个图像。图像的 URL 在 image_url 特征中,其他特征(如 alt_text、webpage_url 等)提供一些元数据。请注意,图像仅基于其 URL 进行去重。
数据字段
image_url(字符串): 图像的 URL,用于下载图像alt_text(字符串): 图像的替代文本webpage_url(字符串): 图像的网页来源license_type(字符串): 图像的 Creative Commons 许可证类型license_location(字符串): 网页上许可证的位置surt_url(字符串): 带有顶级域名作为前缀的排序友好图像 URL
数据分割
我们不为 fondant-cc-25m 提供任何规范的分割。
数据集创建
策划理由
当前的 AI 图像生成模型,如 Stable Diffusion 和 Dall-E,是从公共互联网上包括受版权保护的作品在内的数亿张图像进行训练的。这为这些图像的用户带来了法律风险和不确定性,并且对可能不希望其专有作品未经同意就被复制的版权持有者不公平。通过发布一个 Creative Commons 图像数据集,我们希望减轻法律风险并促进尊重版权的道德 AI 开发。该数据集是我们实现 5 亿 Creative Commons 图像数据集目标的第一步。
源数据
fondant-cc-25m 是从 CommonCrawl 转储构建的。这些转储是从公开可用的网页爬取构建的。
数据收集和预处理
许可宽松的许可证对图像的复制、修改和重新分发有最小的限制。完整的许可证列表可以在这里找到 here。我们检查网页的 HTML 标签,查看是否存在 Creative Commons 许可证 URL。只有当许可证 URL 在网页的页脚、侧边栏或侧边栏中找到时,网页才会被标记为许可宽松。这在 Common Crawl 的 10 万个随机样本中仅占约 0.164%。这表明,在公共互联网上随机样本训练的图像生成模型可能训练在高达 99.836% 的受版权保护的图像上。
随后,网页上的所有图像 URL 连同许可证信息一起被收集。对 1032 个随机样本的手动检查显示,96.32% 的图像被正确归属于正确的许可证,而 3.68% 的图像则没有。假阳性可能是由于解析错误或不正确的归属:出版商指示为 CC 的图像实际上不是。有关我们方法的更多信息可以在 这篇博客文章 中找到。
隐私声明
数据集可能包含个人数据,因为我们链接到与已识别或可识别的活着的个人相关的图像信息。我们已经采取步骤在收集数据集时减少个人信息的处理,例如,(i)删除聚合大量个人信息的网站和(ii)排除包含个人敏感信息的网站。
数据控制者 GDPR 下的数据控制者是 Skyhaus BV(以下简称“我们”或“我们的”),一家在比利时注册的公司,注册地址为比利时 9000 根特,Esplanade Oscar Van de Voorde 1,企业编号 0502.515.626。我们的数据保护官可以通过 privacy@fondant.ai 联系。
我们合法处理个人数据 我们基于 GDPR(第 6.1.f 条 GDPR)的合法利益来收集包含在数据集中的个人数据,目的是建立一个用于数据准备和微调基础模型的开源框架。请注意,我们从不存储个人数据本身,也从不将数据集用于任何其他目的。
执行数据主体的权利。 个人有权访问、更正、限制、删除或转移其可能包含在我们数据集中的个人信息。您可以通过联系 privacy@fondant.ai 来行使这些权利。请注意,某些权利可能不是绝对的,我们可能会拒绝请求,如果我们有合法理由这样做。然而,我们努力优先保护个人信息并遵守 GDPR 或其他隐私法律。如果您觉得我们没有充分解决请求,您有权向您当地的监管机构提出投诉。
该数据集的 PII 过滤管道仍在进行中。希望为项目的匿名化管道做出贡献的研究人员可以加入 here。
选择退出
Fondant-cc-25m 基于 CommonCrawl。他们的爬虫尊重 robots.txt 中的选择退出请求,详情请参见 CC FAQ。
我们为公众提供了在请求时从数据集中删除其图像的能力。随着我们收到反馈并建立更多的数据治理工具,提交和执行删除请求的过程将不断发展。如果您希望从数据集中删除您的数据,请 联系我们。
使用数据的注意事项
免责声明
Fondant 正在努力尊重第三方知识产权,通过发布一个 Creative Commons 许可图像的数据集。在任何情况下,Fondant 都不能被第三方因(i)内容的准确性或正确性,(ii)侵犯知识产权的指控或(iii)因发布或使用数据集而导致的任何其他指控、行动、禁令或诉讼而承担责任。
偏见讨论
由于互联网上存在有毒或偏见数据,我们的数据集可能包含此类内容。
附加信息
数据集策展人
- Sharon Grundmann, ML6, sharon.grundmann@ml6.eu
- Matthias Richter, ML6, matthias.richter@ml6.eu
- Robbe Sneyders, ML6, robbe.sneyders@ml6.eu
许可信息
Fondant-cc-25m 是一个包含各种 Creative Commons 和其他公共许可图像的集合。所有或部分图像的使用必须遵守原始许可的条款,包括在相关时提供归属条款。我们通过为每个数据点提供来源信息来促进这一点。
数据集中包含的 Creative Commons 许可类型列表可以在这里找到 here。
联系
- 电子邮件: info@fondant.ai
- Discord: https://discord.gg/HnTdWhydGp



