Wikidata5m-KG
收藏魔搭社区2026-04-30 更新2025-06-21 收录
下载链接:
https://modelscope.cn/datasets/alphonse7/Wikidata5m-KG
下载链接
链接失效反馈官方服务:
资源简介:
# Wikidata5M-KG
Wikidata5M-KG 是一个**开放域**的知识图谱,数据来源于Wikipedia及Wikidata,包含约**460万个实体**,**2100万条三元组**数据。Wikidata5M-KG 是基于 [Wikidata5M](https://deepgraphlearning.github.io/project/wikidata5m) 数据构建得到的。
## 📦 数据内容说明
### `wikidata5m_kg.tar.gz`
这是我们实验中使用的处理后知识图谱,包含:
- **4,665,331 个实体**
- **810 种关系**
- **20,987,217 条三元组**
解压后得到一个文件:`wikidata5m_kg.jsonl` ,每行是一个 JSON 对象,表示一个实体及其元信息和一跳邻居信息。示例如下:
```json
{
"entity_id": "Q10417481", // 实体唯一 ID
"entity_description": "Arethaea polingi, or Poling's thread-legged katydid, is a species of phaneropterine katydid in the family Tettigoniidae. It is found in North America.", // 实体描述
"entity_alias": ["Arethaea polingi", "arethaea polingi"], // 实体的别名
"all_one_hop_triples_str": [ // 以该实体为头实体的一跳三元组 (关系, 尾实体)
["parent taxon", "Arethaea"],
["instance of", "Taxxon"],
["taxon rank", "cohesion species"]
]
}
```
### `wikidata5m_raw_data.tar.gz`
该压缩包包含构建 `wikidata5m_kg.jsonl` 所使用的原始数据文件。
数据源自 Wikidata5M 项目,各文件的详细说明可参考 [官方文档](https://deepgraphlearning.github.io/project/wikidata5m)。
## 🔗 相关链接
- 📘 论文:[KG-Infused RAG](https://arxiv.org/abs/2506.09542)
- 💻 代码:[GitHub 项目地址](https://github.com/thunlp/KG-Infused-RAG)
## 📄 引用信息
如果您在研究中使用了该知识图谱,请引用以下文献:
```bibtex
@article{wu2025kg,
title={KG-Infused RAG: Augmenting Corpus-Based RAG with External Knowledge Graphs},
author={Wu, Dingjun and Yan, Yukun and Liu, Zhenghao and Liu, Zhiyuan and Sun, Maosong},
journal={arXiv preprint arXiv:2506.09542},
year={2025}
}
# Wikidata5M-KG 知识图谱
Wikidata5M-KG 是一款**开放域**知识图谱,数据源自维基百科(Wikipedia)与维基数据(Wikidata),共包含约460万个实体与2100万条三元组(triple)数据。本数据集基于 [Wikidata5M](https://deepgraphlearning.github.io/project/wikidata5m) 项目数据构建而成。
## 📦 数据内容说明
### `wikidata5m_kg.tar.gz`
该压缩包为本实验所用的预处理后知识图谱,包含:
- **4,665,331 个实体**
- **810 种关系类型**
- **20,987,217 条三元组**
解压后将得到文件 `wikidata5m_kg.jsonl`,每行均为一个JSON对象,用于表征单个实体及其元信息与一跳邻接信息。示例如下:
json
{
"entity_id": "Q10417481", // 实体唯一标识符
"entity_description": "Poling细腿螽斯(Arethaea polingi)是螽斯科(Tettigoniidae)下的露螽亚科螽斯物种,分布于北美洲。", // 实体描述
"entity_alias": ["Arethaea polingi", "arethaea polingi"], // 实体别名
"all_one_hop_triples_str": [ // 以该实体为头实体的一跳三元组(关系,尾实体)
["父级分类单元", "Arethaea"],
["属于类别", "分类单元"],
["分类等级", "聚合种"]
]
}
### `wikidata5m_raw_data.tar.gz`
该压缩包包含构建 `wikidata5m_kg.jsonl` 所需的原始数据文件。本数据源自Wikidata5M项目,各文件的详细说明可参考[官方文档](https://deepgraphlearning.github.io/project/wikidata5m)。
## 🔗 相关链接
- 📘 论文:[KG-Infused RAG](https://arxiv.org/abs/2506.09542)
- 💻 代码:[GitHub 项目仓库](https://github.com/thunlp/KG-Infused-RAG)
## 📄 引用信息
若您的研究工作使用了本知识图谱,请引用如下文献:
bibtex
@article{wu2025kg,
title={KG-Infused RAG: Augmenting Corpus-Based RAG with External Knowledge Graphs},
author={Wu, Dingjun and Yan, Yukun and Liu, Zhenghao and Liu, Zhiyuan and Sun, Maosong},
journal={arXiv preprint arXiv:2506.09542},
year={2025}
}
提供机构:
maas
创建时间:
2025-06-19
搜集汇总
数据集介绍

背景与挑战
背景概述
Wikidata5m-KG是一个开放领域的知识图谱,包含约460万实体和2100万三元组,数据来源于Wikipedia和Wikidata。数据集提供了处理后的知识图谱文件,包括实体描述、别名和一跳三元组信息,适用于知识图谱相关研究和应用。
以上内容由遇见数据集搜集并总结生成



