five

aiintelligentsystems/vel_commons_wikidata

收藏
Hugging Face2024-05-17 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/aiintelligentsystems/vel_commons_wikidata
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于训练和评估将Wikimedia Commons图像与Wikidata项目链接的机器学习模型。数据集包含三个配置:commons_images、all_wikidata_items和frequent_wikidata_items,分别包含Commons图像及其元数据、所有Wikidata项目的信息以及频繁出现的Wikidata项目的信息。数据集创建的目的是为了支持Commons的结构化数据项目,通过自动化方法填补图像与Wikidata项目之间的链接空白。数据集的结构和内容在README中有详细描述,包括图像和项目的元数据、标签、图像类型等信息。

该数据集用于训练和评估将Wikimedia Commons图像与Wikidata项目链接的机器学习模型。数据集包含三个配置:commons_images、all_wikidata_items和frequent_wikidata_items,分别包含Commons图像及其元数据、所有Wikidata项目的信息以及频繁出现的Wikidata项目的信息。数据集创建的目的是为了支持Commons的结构化数据项目,通过自动化方法填补图像与Wikidata项目之间的链接空白。数据集的结构和内容在README中有详细描述,包括图像和项目的元数据、标签、图像类型等信息。
提供机构:
aiintelligentsystems
原始信息汇总

数据集概述

数据集名称

  • 名称: Visual Entity Linking: Wikimedia Commons & Wikidata
  • 别名: 无

数据集内容

  • 类型: 视觉实体链接数据集,用于训练和评估将Wikimedia Commons图像链接到Wikidata实体的机器学习模型。
  • 组成:
    • commons_images: 包含训练、验证和测试集的Wikimedia Commons图像及其元数据。
    • all_wikidata_items: 包含所有候选Wikidata实体的信息。
    • frequent_wikidata_items: 包含频繁出现的Wikidata实体信息。

数据集结构

  • commons_images配置:
    • 训练集: 800,000张图像
    • 验证集: 100,000张图像
    • 测试集: 100,000张图像
    • 元数据: 图像ID、类别、描述、作者、许可证等。
  • Wikidata Items配置:
    • all_wikidata_items: 2,305,611个实体
    • frequent_wikidata_items: 18,522个实体
    • 元数据: 实体ID、名称、描述、图像、许可证等。

数据集规模

  • 总大小: 约60GB
  • 图像数量: 1,000,000张
  • 实体数量: 约2.3 million (f=0) 或 18,522 (f=10)

数据集用途

  • 主要用途: 视觉实体链接,即将Wikimedia Commons图像与Wikidata实体进行匹配。
  • 其他用途: 图像分类、视觉问答、图像搜索等。

数据集来源

  • 数据源:
    • Wikimedia Commons的结构化数据和元数据
    • Wikidata的实体数据
    • 通过MediaWiki API下载的图像
    • 预训练的Wikidata知识图谱嵌入

许可证

  • 许可证类型: cc-by-sa-4.0

语言

  • 支持语言: 英语

标签和分类

  • 标签: Wikimedia
  • 分类: 1M<n<10M

数据集创建和维护

  • 创建目的: 为了简化视觉实体链接任务的机器学习模型的训练和评估。
  • 维护团队: 由HPI AI & Intelligent Systems chair的大学项目团队创建和维护。
  • 联系方式: 通过数据集详情页面的Community tab或底部提供的联系信息。

数据集结构详细说明

  • commons_images配置:
    • 图像格式: jpg和png
    • 元数据: 包括图像ID、类别、描述、作者、许可证等。
  • Wikidata Items配置:
    • 实体格式: 文本和图像
    • 元数据: 包括实体ID、名称、描述、图像、许可证等。
    • 嵌入: 200维的预训练Wikidata知识图谱嵌入。

数据集的偏差、风险和限制

  • 偏差: 数据集可能反映出Wikimedia社区上传和标注行为的偏差。
  • 风险: 数据集可能包含暴力、明确或其他敏感内容。
  • 限制: 实体标注可能不明确,存在部分矛盾的社区指南。

数据集引用信息

  • BibTeX: 待定

数据集和数据集卡的创建者

  • 创建者: HPI AI & Intelligent Systems chair的大学项目团队
  • 联系信息: 提供电子邮件地址

以上信息总结了数据集的主要特点和结构,为潜在用户提供了清晰的数据集概述。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作