five

wikipunk/yago45en

收藏
Hugging Face2023-09-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wikipunk/yago45en
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从YAGO 4.5数据集中的yago-facts.ttl和yago-beyond-wikipedia.ttl文件中筛选出的三元组,仅保留英文标签。数据集基于Wikidata,使用schema.org的类和属性,并包含语义约束以保持数据清洁。数据集的结构包括RDF三元组,每个三元组包含主语、谓语和宾语。数据集被逻辑上分为多个块,用户可以根据需求加载特定块或整个数据集。该数据集的目标是用于大型语言模型的微调,以完成知识图谱的补全任务。

该数据集包含从YAGO 4.5数据集中的yago-facts.ttl和yago-beyond-wikipedia.ttl文件中筛选出的三元组,仅保留英文标签。数据集基于Wikidata,使用schema.org的类和属性,并包含语义约束以保持数据清洁。数据集的结构包括RDF三元组,每个三元组包含主语、谓语和宾语。数据集被逻辑上分为多个块,用户可以根据需求加载特定块或整个数据集。该数据集的目标是用于大型语言模型的微调,以完成知识图谱的补全任务。
提供机构:
wikipunk
原始信息汇总

YAGO 4.5 数据集概述

基本信息

  • 语言: 英语
  • 许可证: CC BY-SA 3.0
  • 标签: 知识图谱, RDF, 三元组
  • 注释创建者: 众包, 专家生成
  • 来源数据集: Wikidata
  • 数据集名称: YAGO 4.5 (EN)
  • 大小分类: 100M<n<1B
  • 任务分类: 图机器学习

数据集结构

  • 特征:
    • subject: 字符串类型,表示三元组的主体。
    • predicate: 字符串类型,表示主体和对象之间的关系。
    • object: 字符串类型,表示由谓词链接的实体或值。
  • 配置名称: default
  • 分割:
    • train: 包含 249675587 个样本,总大小为 42709902295 字节。
  • 数据集大小: 42709902295 字节

数据集描述

该数据集包含从 YAGO 4.5 数据集中的 yago-facts.ttl 和 yago-beyond-wikipedia.ttl 文件过滤得到的三元组。过滤三元组的 SPARQL 查询位于 filter.sparql 文件中。该数据集仅保留了英文标签,并进行了一些映射和移除操作,以适应大型语言模型在知识图谱补全任务中的微调需求。

数据集结构

  • yago-taxonomy.ttl: 包含 YAGO 的 rdfs:subClassOf 关系和 N-Triples 的前缀映射。
  • facts.tar.gz: 压缩文件,包含以 N-Triples 格式表示的 YAGO 事实知识的数据块。

使用方法

数据集可以通过 Hugging Face 的 datasets 库加载:

python from datasets import load_dataset

dataset = load_dataset(wikipunk/yago45en, num_proc=4, split=train)

许可证

YAGO 4.5 数据集根据 Creative Commons Attribution-ShareAlike 3.0 许可证 提供。

引用

如果使用 YAGO 4.5 数据集,请引用以下出版物:

bibtex @article{suchanek2023integrating, title={Integrating the Wikidata Taxonomy into YAGO}, author={Suchanek, Fabian M and Alam, Mehwish and Bonald, Thomas and Paris, Pierre-Henri and Soria, Jules}, journal={arXiv preprint arXiv:2308.11884}, year={2023} }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
YAGO 4.5数据集是一个基于Wikidata构建的英语知识图谱子集,专门为大型语言模型微调设计,包含人类可读的RDF三元组,移除了sameAs关系以优化知识图谱完成任务。数据集结构清晰,提供N-Triples格式,总大小约3.87 GB,适用于图机器学习应用,并遵循CC-BY-SA 3.0许可证。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作