five

Wikidata5m-KG

收藏
魔搭社区2026-04-30 更新2025-06-21 收录
下载链接:
https://modelscope.cn/datasets/alphonse7/Wikidata5m-KG
下载链接
链接失效反馈
官方服务:
资源简介:
# Wikidata5M-KG Wikidata5M-KG 是一个**开放域**的知识图谱,数据来源于Wikipedia及Wikidata,包含约**460万个实体**,**2100万条三元组**数据。Wikidata5M-KG 是基于 [Wikidata5M](https://deepgraphlearning.github.io/project/wikidata5m) 数据构建得到的。 ## 📦 数据内容说明 ### `wikidata5m_kg.tar.gz` 这是我们实验中使用的处理后知识图谱,包含: - **4,665,331 个实体** - **810 种关系** - **20,987,217 条三元组** 解压后得到一个文件:`wikidata5m_kg.jsonl` ,每行是一个 JSON 对象,表示一个实体及其元信息和一跳邻居信息。示例如下: ```json { "entity_id": "Q10417481", // 实体唯一 ID "entity_description": "Arethaea polingi, or Poling's thread-legged katydid, is a species of phaneropterine katydid in the family Tettigoniidae. It is found in North America.", // 实体描述 "entity_alias": ["Arethaea polingi", "arethaea polingi"], // 实体的别名 "all_one_hop_triples_str": [ // 以该实体为头实体的一跳三元组 (关系, 尾实体) ["parent taxon", "Arethaea"], ["instance of", "Taxxon"], ["taxon rank", "cohesion species"] ] } ``` ### `wikidata5m_raw_data.tar.gz` 该压缩包包含构建 `wikidata5m_kg.jsonl` 所使用的原始数据文件。 数据源自 Wikidata5M 项目,各文件的详细说明可参考 [官方文档](https://deepgraphlearning.github.io/project/wikidata5m)。 ## 🔗 相关链接 - 📘 论文:[KG-Infused RAG](https://arxiv.org/abs/2506.09542) - 💻 代码:[GitHub 项目地址](https://github.com/thunlp/KG-Infused-RAG) ## 📄 引用信息 如果您在研究中使用了该知识图谱,请引用以下文献: ```bibtex @article{wu2025kg, title={KG-Infused RAG: Augmenting Corpus-Based RAG with External Knowledge Graphs}, author={Wu, Dingjun and Yan, Yukun and Liu, Zhenghao and Liu, Zhiyuan and Sun, Maosong}, journal={arXiv preprint arXiv:2506.09542}, year={2025} }

# Wikidata5M-KG 知识图谱 Wikidata5M-KG 是一款**开放域**知识图谱,数据源自维基百科(Wikipedia)与维基数据(Wikidata),共包含约460万个实体与2100万条三元组(triple)数据。本数据集基于 [Wikidata5M](https://deepgraphlearning.github.io/project/wikidata5m) 项目数据构建而成。 ## 📦 数据内容说明 ### `wikidata5m_kg.tar.gz` 该压缩包为本实验所用的预处理后知识图谱,包含: - **4,665,331 个实体** - **810 种关系类型** - **20,987,217 条三元组** 解压后将得到文件 `wikidata5m_kg.jsonl`,每行均为一个JSON对象,用于表征单个实体及其元信息与一跳邻接信息。示例如下: json { "entity_id": "Q10417481", // 实体唯一标识符 "entity_description": "Poling细腿螽斯(Arethaea polingi)是螽斯科(Tettigoniidae)下的露螽亚科螽斯物种,分布于北美洲。", // 实体描述 "entity_alias": ["Arethaea polingi", "arethaea polingi"], // 实体别名 "all_one_hop_triples_str": [ // 以该实体为头实体的一跳三元组(关系,尾实体) ["父级分类单元", "Arethaea"], ["属于类别", "分类单元"], ["分类等级", "聚合种"] ] } ### `wikidata5m_raw_data.tar.gz` 该压缩包包含构建 `wikidata5m_kg.jsonl` 所需的原始数据文件。本数据源自Wikidata5M项目,各文件的详细说明可参考[官方文档](https://deepgraphlearning.github.io/project/wikidata5m)。 ## 🔗 相关链接 - 📘 论文:[KG-Infused RAG](https://arxiv.org/abs/2506.09542) - 💻 代码:[GitHub 项目仓库](https://github.com/thunlp/KG-Infused-RAG) ## 📄 引用信息 若您的研究工作使用了本知识图谱,请引用如下文献: bibtex @article{wu2025kg, title={KG-Infused RAG: Augmenting Corpus-Based RAG with External Knowledge Graphs}, author={Wu, Dingjun and Yan, Yukun and Liu, Zhenghao and Liu, Zhiyuan and Sun, Maosong}, journal={arXiv preprint arXiv:2506.09542}, year={2025} }
提供机构:
maas
创建时间:
2025-06-19
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Wikidata5m-KG是一个开放领域的知识图谱,包含约460万实体和2100万三元组,数据来源于Wikipedia和Wikidata。数据集提供了处理后的知识图谱文件,包括实体描述、别名和一跳三元组信息,适用于知识图谱相关研究和应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作