five

wikidata

收藏
Hugging Face2025-01-30 更新2025-02-10 收录
下载链接:
https://huggingface.co/datasets/philippesaade/wikidata
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为'Wikidata Multilingual JSON Formatted with Wikipedia Sitelinks',包含多语言数据,格式为JSON,并且与维基百科的站点链接相关联。数据集由philippesaade整理,可能由Wikimedia Deutschland资助,使用CC0-1.0许可证。数据集的特征包括id、labels、descriptions、aliases、sitelinks和claims等字段。数据集被分割成多个chunk,每个chunk的大小和示例数量都有详细说明。
创建时间:
2025-01-23
原始信息汇总

数据集概述

  • 数据集名称: Wikidata Entities Connected to Wikipedia
  • 语言: 多语言
  • 许可证: CC0-1.0
  • 大小分类: 100M < n < 1B
  • 数据集大小: 4816310500520 字节
  • 下载大小: 1844938813418 字节
  • 创建者: Philippe Saadé, Wikimedia Deutschland
  • 资助方: Wikimedia Deutschland
  • 标签: wikidata, wikimedia

数据集结构

  • 数据类型: JSON 格式
  • 包含实体数量: 30,072,707
  • 特征:
    • ID (QID for entities, PID for properties)
    • Labels
    • Descriptions
    • Aliases
    • Sitelinks
    • Claims

数据分割

  • 训练集:
    • 字节数:4816310500520
    • 示例数量:30072707

数据集创建

  • 创建动机: 提高数据可访问性,通过添加标签到声明,使得用户能够直接生成文本表示形式。
  • 源数据: Wikidata,由 Wikimedia Foundation 维护的免费开放知识库。
  • 限制:
    • 仅包括与 Wikipedia 链接的实体。
    • 数据更新截至 2024年9月18日。
搜集汇总
数据集介绍
main_image_url
构建方式
Wikidata Entities Connected to Wikipedia数据集是由Wikidata的JSON格式快照构建而成,仅包含与任何语言版本的Wikipedia页面相连接的Wikidata实体。该数据集通过添加标签至声明中,优化了原始Wikidata快照的可访问性,使得实体间的关系更易于文本化表示,进而方便用户无需多次查询即可顺序阅读数据集。
特点
该数据集具有多语言特性,包含超过30,072,707个与Wikipedia页面链接的实体,占全部实体的大约26.73%。它以JSON格式存储,每个条目都包含唯一标识符、多语言标签、描述、别名、跨维基链接以及结构化的声明。该数据集遵循CC0-1.0协议,确保了数据的自由使用和共享。
使用方法
用户可以通过访问提供的路径下载train部分的完整数据集。该数据集适用于自然语言处理、知识图谱构建、实体链接以及人工智能模型训练等场景。需要注意的是,数据集仅包含与Wikipedia链接的实体,并且数据更新截止至2024年9月18日,后续更新不在数据集范围内。
背景与挑战
背景概述
Wikidata数据集,由Wikimedia Deutschland于2024年9月18日维护更新,是一个多语言的JSON格式数据集。该数据集的创建旨在为NLP应用、知识图谱、实体链接和AI模型提供机器可读的结构化数据。数据集由Philippe Saadé curated,并得到了Wikimedia Deutschland的资助。它包含了与Wikipedia页面相关联的112,467,802个Wikidata实体,其中30,072,707个实体至少有一个Wikipedia的sitelink。作为全球最大的协作编辑知识图谱,Wikidata自2012年启动以来,已成为结构化数据对象的重要来源。
当前挑战
该数据集的构建面临的主要挑战包括:如何提高数据的可访问性,通过添加标签到声明中,使用户能够直接生成实体的文本表示;数据集的局限性在于仅包括与Wikipedia链接的实体,可能排除某些在其他上下文中具有价值的实体;此外,数据更新截止到2024年9月18日,之后的更改未被反映,这可能限制了其在最新研究中的应用。
常用场景
经典使用场景
在知识图谱构建与自然语言处理领域,Wikidata数据集的经典使用场景主要涉及为机器学习模型提供丰富、结构化的实体描述信息。通过对包含唯一标识符、多语言标签、描述、别名以及与其他Wikimedia项目的链接等数据的分析,研究者能够训练模型进行实体识别、链接预测等任务,从而提升信息检索和语义理解的准确性与效率。
实际应用
在实际应用中,Wikidata数据集被广泛用于搜索引擎优化、推荐系统个性化、语义搜索引擎构建等领域。它为开发智能问答系统、自动摘要工具以及语言模型提供了实体级别的知识基础,助力于提升用户体验和信息服务的智能化水平。
衍生相关工作
基于Wikidata数据集,学术界衍生出大量相关研究工作,包括但不限于实体链接、实体消歧、知识图谱嵌入等领域的经典研究。这些工作不仅深化了对于知识图谱结构的理解,也促进了多语言信息处理技术的进步,拓宽了人工智能技术在知识管理领域的应用范围。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作