relbert/t_rex
收藏Hugging Face2023-03-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/relbert/t_rex
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是T-REX的清理版本,专门用于链接预测。它包含训练、验证和测试三个分割,其中测试分割是通用的,并且包含训练/验证分割中未包含的谓词。数据集经过多次过滤处理,包括命名实体过滤、稀有谓词过滤、统一去噪谓词过滤和频率过滤,以确保数据的质量和一致性。数据集的示例结构展示了头实体、尾实体、标题、文本和关系等信息。此外,提供了复现数据集的详细步骤和引用信息。
This is a cleaned version of the T-REX dataset, specifically designed for link prediction. It includes three splits: training, validation, and test. The test split is general-purpose and contains predicates that are absent from the training and validation splits. The dataset has undergone multiple filtering processes, including named entity filtering, rare predicate filtering, unified predicate denoising filtering, and frequency filtering, to ensure data quality and consistency. The example structure of the dataset showcases information such as head entity, tail entity, title, text, and relation. In addition, detailed steps for reproducing the dataset and citation information are provided.
提供机构:
relbert
原始信息汇总
数据集概述
数据集名称
- Pretty Name: relbert/t_rex
数据集描述
- 类型: 清理后的T-REX数据集,用于链接预测。
- 来源: https://hadyelsahar.github.io/t-rex/
- 论文: https://aclanthology.org/L18-1544/
数据集摘要
-
测试集: 通用且经过作者手动检查,包含未在训练/验证集中出现的谓词。
-
实例数量:
部分 训练 验证 测试 三元组数量 1,274,264 318,566 122 唯一关系类型数 759 676 34
数据集处理
-
过滤步骤:
- 命名实体过滤: 保留头部或尾部包含命名实体的三元组。
- 罕见谓词过滤: 移除少于三个三元组的谓词。
- 手动去噪和统一谓词: 移除模糊和噪声谓词,统一名称不同的相同谓词。
- 频率过滤: 移除包含频率小于5的实体的三元组。
数据集状态 原始 命名实体过滤 罕见谓词过滤 统一去噪谓词 频率过滤 三元组数量 20,877,472 12,561,573 12,561,250 12,410,726 1,616,065 谓词数量 1,616 1,470 1,237 839 839
数据集结构
- 示例结构: json { "tail": "Persian", "head": "Tajik", "title": "Tandoor bread", "text": "...", "relation": "[Artifact] is a type of [Type]" }
数据集语言和许可
- 语言: 英语
- 许可: 其他
- 多语言性: 单语
搜集汇总
数据集介绍

构建方式
在知识图谱与自然语言处理交叉领域,T-REX数据集通过系统化构建流程,实现了大规模三元组与文本的对齐。原始数据源自维基百科条目,经过多轮过滤以提升质量:首先应用命名实体过滤器,保留头尾实体中至少包含一个命名实体的三元组;随后采用稀有谓词过滤器,剔除出现频次低于三次的谓词;进而通过人工标注统一语义相近的谓词并去除模糊噪声;最终基于实体频率阈值,移除低频实体对应的三元组。这一流程将原始两千余万条三元组精炼至约一百六十万条,形成了结构清晰、噪声可控的知识表示基础。
特点
T-REX数据集在知识表示学习中展现出显著特点。其核心在于融合了结构化三元组与丰富的上下文文本,每条数据均包含头实体、尾实体、谓词关系及对应的维基百科摘要,为模型提供了语义深厚的背景信息。数据集经过严格清洗,谓词数量从原始1616个缩减至839个,确保了关系的质量与一致性。测试集经过人工校验,包含训练集中未出现的谓词,有效评估模型对未知关系的泛化能力。这种设计使其成为链接预测与关系抽取任务中的重要基准,支撑了知识图谱补全与语义理解研究的深入探索。
使用方法
该数据集适用于知识图谱链接预测、关系分类及跨模态表示学习等任务。研究人员可通过HuggingFace平台直接加载数据集,利用其标准化的训练、验证与测试划分进行模型训练与评估。数据示例呈现为JSON格式,包含头实体、尾实体、关系及对应文本字段,便于直接输入至深度学习框架。为复现数据集构建过程,用户可克隆代码仓库并执行预处理脚本,依次完成数据下载、谓词统一、实体过滤与划分生成等步骤。引用时需遵循原论文规范,确保学术工作的可追溯性与严谨性。
背景与挑战
背景概述
在知识图谱与自然语言处理融合的研究浪潮中,T-REX数据集于2018年由Hady Elsahar等学者提出,其核心研究问题在于实现大规模自然语言文本与知识库三元组之间的精准对齐。该数据集源自维基百科文本与DBpedia知识库,旨在构建一个能够支撑关系抽取与链接预测任务的资源。通过自动化对齐与人工校验相结合的方式,T-REX为语义解析、知识图谱补全等前沿领域提供了重要的数据基础,推动了结构化知识与非结构化文本交互研究的发展。
当前挑战
T-REX数据集所针对的领域挑战主要在于如何从海量非结构化文本中准确识别并关联实体与关系,以解决知识图谱中链接预测与关系分类的复杂性。在构建过程中,研究者面临多重挑战:原始数据中存在大量噪声,如非命名实体干扰与低频谓词冗余;需通过多轮过滤策略,包括命名实体筛选、稀有谓词剔除及人工去噪,以提升数据质量;同时,确保测试集涵盖训练集中未出现的谓词类型,增加了数据划分与评估的难度。
常用场景
经典使用场景
在知识图谱与自然语言处理的交叉领域,T-REX数据集以其大规模对齐的文本与三元组结构,成为链接预测任务中的经典基准。该数据集通过从维基百科文本中提取实体关系,构建了丰富的语义关联网络,广泛应用于评估知识图谱补全模型的性能。研究者常利用其清洗后的三元组,训练模型以预测缺失的实体或关系,从而推动知识表示学习的前沿发展。
解决学术问题
T-REX数据集有效解决了知识图谱中实体关系对齐的噪声过滤与标准化问题。通过严格的命名实体过滤、稀有谓词剔除及人工去噪流程,该数据集显著提升了三元组的质量与一致性,为学术界提供了可靠的评估基准。其意义在于促进了知识抽取、关系推理等核心研究方向的发展,并为跨语言知识融合奠定了基础,推动了语义计算领域的理论创新与实践进步。
衍生相关工作
基于T-REX数据集,学术界衍生出多项经典工作,如知识图谱嵌入模型TransE、ComplEx的优化与评估。这些研究进一步拓展了关系推理的边界,推动了图神经网络与预训练语言模型的融合。同时,该数据集也为跨数据集对齐研究提供了基础,促进了NELL、ConceptNet等知识资源的整合,形成了更广泛的知识计算生态体系。
以上内容由遇见数据集搜集并总结生成



