wikidata

Hugging Face2025-01-30 更新2025-02-10 收录

下载链接：

https://huggingface.co/datasets/philippesaade/wikidata

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为'Wikidata Multilingual JSON Formatted with Wikipedia Sitelinks'，包含多语言数据，格式为JSON，并且与维基百科的站点链接相关联。数据集由philippesaade整理，可能由Wikimedia Deutschland资助，使用CC0-1.0许可证。数据集的特征包括id、labels、descriptions、aliases、sitelinks和claims等字段。数据集被分割成多个chunk，每个chunk的大小和示例数量都有详细说明。

创建时间：

2025-01-23

原始信息汇总

数据集概述

数据集名称： Wikidata Entities Connected to Wikipedia
语言： 多语言
许可证： CC0-1.0
大小分类： 100M < n < 1B
数据集大小： 4816310500520 字节
下载大小： 1844938813418 字节
创建者： Philippe Saadé, Wikimedia Deutschland
资助方： Wikimedia Deutschland
标签： wikidata, wikimedia

数据集结构

数据类型： JSON 格式
包含实体数量： 30,072,707
特征：
- ID (QID for entities, PID for properties)
- Labels
- Descriptions
- Aliases
- Sitelinks
- Claims

数据分割

训练集：
- 字节数：4816310500520
- 示例数量：30072707

数据集创建

创建动机： 提高数据可访问性，通过添加标签到声明，使得用户能够直接生成文本表示形式。
源数据： Wikidata，由 Wikimedia Foundation 维护的免费开放知识库。
限制：
- 仅包括与 Wikipedia 链接的实体。
- 数据更新截至 2024年9月18日。

搜集汇总

数据集介绍

构建方式

Wikidata Entities Connected to Wikipedia数据集是由Wikidata的JSON格式快照构建而成，仅包含与任何语言版本的Wikipedia页面相连接的Wikidata实体。该数据集通过添加标签至声明中，优化了原始Wikidata快照的可访问性，使得实体间的关系更易于文本化表示，进而方便用户无需多次查询即可顺序阅读数据集。

特点

该数据集具有多语言特性，包含超过30,072,707个与Wikipedia页面链接的实体，占全部实体的大约26.73%。它以JSON格式存储，每个条目都包含唯一标识符、多语言标签、描述、别名、跨维基链接以及结构化的声明。该数据集遵循CC0-1.0协议，确保了数据的自由使用和共享。

使用方法

用户可以通过访问提供的路径下载train部分的完整数据集。该数据集适用于自然语言处理、知识图谱构建、实体链接以及人工智能模型训练等场景。需要注意的是，数据集仅包含与Wikipedia链接的实体，并且数据更新截止至2024年9月18日，后续更新不在数据集范围内。

背景与挑战

背景概述

Wikidata数据集，由Wikimedia Deutschland于2024年9月18日维护更新，是一个多语言的JSON格式数据集。该数据集的创建旨在为NLP应用、知识图谱、实体链接和AI模型提供机器可读的结构化数据。数据集由Philippe Saadé curated，并得到了Wikimedia Deutschland的资助。它包含了与Wikipedia页面相关联的112,467,802个Wikidata实体，其中30,072,707个实体至少有一个Wikipedia的sitelink。作为全球最大的协作编辑知识图谱，Wikidata自2012年启动以来，已成为结构化数据对象的重要来源。

当前挑战

该数据集的构建面临的主要挑战包括：如何提高数据的可访问性，通过添加标签到声明中，使用户能够直接生成实体的文本表示；数据集的局限性在于仅包括与Wikipedia链接的实体，可能排除某些在其他上下文中具有价值的实体；此外，数据更新截止到2024年9月18日，之后的更改未被反映，这可能限制了其在最新研究中的应用。

常用场景

经典使用场景

在知识图谱构建与自然语言处理领域，Wikidata数据集的经典使用场景主要涉及为机器学习模型提供丰富、结构化的实体描述信息。通过对包含唯一标识符、多语言标签、描述、别名以及与其他Wikimedia项目的链接等数据的分析，研究者能够训练模型进行实体识别、链接预测等任务，从而提升信息检索和语义理解的准确性与效率。

实际应用

在实际应用中，Wikidata数据集被广泛用于搜索引擎优化、推荐系统个性化、语义搜索引擎构建等领域。它为开发智能问答系统、自动摘要工具以及语言模型提供了实体级别的知识基础，助力于提升用户体验和信息服务的智能化水平。

衍生相关工作

基于Wikidata数据集，学术界衍生出大量相关研究工作，包括但不限于实体链接、实体消歧、知识图谱嵌入等领域的经典研究。这些工作不仅深化了对于知识图谱结构的理解，也促进了多语言信息处理技术的进步，拓宽了人工智能技术在知识管理领域的应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集