aiintelligentsystems/vel_commons_wikidata
收藏Hugging Face2024-05-17 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/aiintelligentsystems/vel_commons_wikidata
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于训练和评估将Wikimedia Commons图像与Wikidata项目链接的机器学习模型。数据集包含三个配置:commons_images、all_wikidata_items和frequent_wikidata_items,分别包含Commons图像及其元数据、所有Wikidata项目的信息以及频繁出现的Wikidata项目的信息。数据集创建的目的是为了支持Commons的结构化数据项目,通过自动化方法填补图像与Wikidata项目之间的链接空白。数据集的结构和内容在README中有详细描述,包括图像和项目的元数据、标签、图像类型等信息。
该数据集用于训练和评估将Wikimedia Commons图像与Wikidata项目链接的机器学习模型。数据集包含三个配置:commons_images、all_wikidata_items和frequent_wikidata_items,分别包含Commons图像及其元数据、所有Wikidata项目的信息以及频繁出现的Wikidata项目的信息。数据集创建的目的是为了支持Commons的结构化数据项目,通过自动化方法填补图像与Wikidata项目之间的链接空白。数据集的结构和内容在README中有详细描述,包括图像和项目的元数据、标签、图像类型等信息。
提供机构:
aiintelligentsystems
原始信息汇总
数据集概述
数据集名称
- 名称: Visual Entity Linking: Wikimedia Commons & Wikidata
- 别名: 无
数据集内容
- 类型: 视觉实体链接数据集,用于训练和评估将Wikimedia Commons图像链接到Wikidata实体的机器学习模型。
- 组成:
- commons_images: 包含训练、验证和测试集的Wikimedia Commons图像及其元数据。
- all_wikidata_items: 包含所有候选Wikidata实体的信息。
- frequent_wikidata_items: 包含频繁出现的Wikidata实体信息。
数据集结构
- commons_images配置:
- 训练集: 800,000张图像
- 验证集: 100,000张图像
- 测试集: 100,000张图像
- 元数据: 图像ID、类别、描述、作者、许可证等。
- Wikidata Items配置:
- all_wikidata_items: 2,305,611个实体
- frequent_wikidata_items: 18,522个实体
- 元数据: 实体ID、名称、描述、图像、许可证等。
数据集规模
- 总大小: 约60GB
- 图像数量: 1,000,000张
- 实体数量: 约2.3 million (f=0) 或 18,522 (f=10)
数据集用途
- 主要用途: 视觉实体链接,即将Wikimedia Commons图像与Wikidata实体进行匹配。
- 其他用途: 图像分类、视觉问答、图像搜索等。
数据集来源
- 数据源:
- Wikimedia Commons的结构化数据和元数据
- Wikidata的实体数据
- 通过MediaWiki API下载的图像
- 预训练的Wikidata知识图谱嵌入
许可证
- 许可证类型: cc-by-sa-4.0
语言
- 支持语言: 英语
标签和分类
- 标签: Wikimedia
- 分类: 1M<n<10M
数据集创建和维护
- 创建目的: 为了简化视觉实体链接任务的机器学习模型的训练和评估。
- 维护团队: 由HPI AI & Intelligent Systems chair的大学项目团队创建和维护。
- 联系方式: 通过数据集详情页面的Community tab或底部提供的联系信息。
数据集结构详细说明
- commons_images配置:
- 图像格式: jpg和png
- 元数据: 包括图像ID、类别、描述、作者、许可证等。
- Wikidata Items配置:
- 实体格式: 文本和图像
- 元数据: 包括实体ID、名称、描述、图像、许可证等。
- 嵌入: 200维的预训练Wikidata知识图谱嵌入。
数据集的偏差、风险和限制
- 偏差: 数据集可能反映出Wikimedia社区上传和标注行为的偏差。
- 风险: 数据集可能包含暴力、明确或其他敏感内容。
- 限制: 实体标注可能不明确,存在部分矛盾的社区指南。
数据集引用信息
- BibTeX: 待定
数据集和数据集卡的创建者
- 创建者: HPI AI & Intelligent Systems chair的大学项目团队
- 联系信息: 提供电子邮件地址
以上信息总结了数据集的主要特点和结构,为潜在用户提供了清晰的数据集概述。



