wikipunk/yago45en
收藏Hugging Face2023-09-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wikipunk/yago45en
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从YAGO 4.5数据集中的yago-facts.ttl和yago-beyond-wikipedia.ttl文件中筛选出的三元组,仅保留英文标签。数据集基于Wikidata,使用schema.org的类和属性,并包含语义约束以保持数据清洁。数据集的结构包括RDF三元组,每个三元组包含主语、谓语和宾语。数据集被逻辑上分为多个块,用户可以根据需求加载特定块或整个数据集。该数据集的目标是用于大型语言模型的微调,以完成知识图谱的补全任务。
该数据集包含从YAGO 4.5数据集中的yago-facts.ttl和yago-beyond-wikipedia.ttl文件中筛选出的三元组,仅保留英文标签。数据集基于Wikidata,使用schema.org的类和属性,并包含语义约束以保持数据清洁。数据集的结构包括RDF三元组,每个三元组包含主语、谓语和宾语。数据集被逻辑上分为多个块,用户可以根据需求加载特定块或整个数据集。该数据集的目标是用于大型语言模型的微调,以完成知识图谱的补全任务。
提供机构:
wikipunk
原始信息汇总
YAGO 4.5 数据集概述
基本信息
- 语言: 英语
- 许可证: CC BY-SA 3.0
- 标签: 知识图谱, RDF, 三元组
- 注释创建者: 众包, 专家生成
- 来源数据集: Wikidata
- 数据集名称: YAGO 4.5 (EN)
- 大小分类: 100M<n<1B
- 任务分类: 图机器学习
数据集结构
- 特征:
- subject: 字符串类型,表示三元组的主体。
- predicate: 字符串类型,表示主体和对象之间的关系。
- object: 字符串类型,表示由谓词链接的实体或值。
- 配置名称: default
- 分割:
- train: 包含 249675587 个样本,总大小为 42709902295 字节。
- 数据集大小: 42709902295 字节
数据集描述
该数据集包含从 YAGO 4.5 数据集中的 yago-facts.ttl 和 yago-beyond-wikipedia.ttl 文件过滤得到的三元组。过滤三元组的 SPARQL 查询位于 filter.sparql 文件中。该数据集仅保留了英文标签,并进行了一些映射和移除操作,以适应大型语言模型在知识图谱补全任务中的微调需求。
数据集结构
- yago-taxonomy.ttl: 包含 YAGO 的
rdfs:subClassOf关系和 N-Triples 的前缀映射。 - facts.tar.gz: 压缩文件,包含以 N-Triples 格式表示的 YAGO 事实知识的数据块。
使用方法
数据集可以通过 Hugging Face 的 datasets 库加载:
python from datasets import load_dataset
dataset = load_dataset(wikipunk/yago45en, num_proc=4, split=train)
许可证
YAGO 4.5 数据集根据 Creative Commons Attribution-ShareAlike 3.0 许可证 提供。
引用
如果使用 YAGO 4.5 数据集,请引用以下出版物:
bibtex @article{suchanek2023integrating, title={Integrating the Wikidata Taxonomy into YAGO}, author={Suchanek, Fabian M and Alam, Mehwish and Bonald, Thomas and Paris, Pierre-Henri and Soria, Jules}, journal={arXiv preprint arXiv:2308.11884}, year={2023} }
搜集汇总
数据集介绍

背景与挑战
背景概述
YAGO 4.5数据集是一个基于Wikidata构建的英语知识图谱子集,专门为大型语言模型微调设计,包含人类可读的RDF三元组,移除了sameAs关系以优化知识图谱完成任务。数据集结构清晰,提供N-Triples格式,总大小约3.87 GB,适用于图机器学习应用,并遵循CC-BY-SA 3.0许可证。
以上内容由遇见数据集搜集并总结生成



