T-REx

Name: T-REx
Creator: 阿姆斯特丹大学
Published: 2025-02-05 13:37:26
License: 暂无描述

arXiv2025-02-05 更新2025-02-11 收录

下载链接：

https://github.com/bradleypallen/trex-metalinguistic-disagreement

下载链接

链接失效反馈

官方服务：

资源简介：

T-REx数据集是一个大规模的维基百科摘要与Wikidata三元组对齐的数据集。该数据集被广泛用于评估基于大型语言模型的事实检查和知识图谱提取性能。本文中，作者通过在T-REx数据集上进行实验，探索了大型语言模型与知识图谱之间元语言分歧的现象，并提出构建一个用于评估元语言分歧检测的基准数据集。

The T-REx dataset is a large-scale dataset that aligns Wikipedia abstracts with Wikidata triples. This dataset is widely used to evaluate the performance of large language model-based fact checking and knowledge graph extraction tasks. In this paper, the authors conducted experiments on the T-REx dataset to explore the phenomenon of metalinguistic disagreement between large language models and knowledge graphs, and proposed the construction of a benchmark dataset for evaluating metalinguistic disagreement detection.

提供机构：

阿姆斯特丹大学

创建时间：

2025-02-05

搜集汇总

数据集介绍

构建方式

T-REx数据集是通过大规模地对齐Wikipedia摘要和Wikidata三元组构建而成的。该数据集的构建采用了随机抽样的方法，首先从T-REx数据集中随机抽取了100个Wikipedia摘要，然后从这些摘要关联的三元组中进一步随机抽取了250个三元组。接着，使用零样本链式思维分类器对这250个三元组进行真值赋值，并通过另一个零样本链式思维分类器（作为LLM的法官）来判断是否存在元语言分歧。

特点

T-REx数据集的特点在于它是一个大规模的知识对齐数据集，包含大量的Wikipedia摘要和Wikidata三元组对齐实例。该数据集能够反映LLM与知识图谱之间的元语言分歧，为研究LLM在事实检查任务中的表现提供了有力支持。此外，T-REx数据集还包含了元语言分歧的检测，这在其构建过程中是一个创新点。

使用方法

使用T-REx数据集的方法主要涉及三个步骤：首先，随机抽样Wikipedia摘要和关联的Wikidata三元组；其次，使用零样本链式思维分类器对三元组进行真值判断；最后，通过另一个零样本链式思维分类器来判断是否存在元语言分歧。该数据集的使用可以帮助研究者更好地理解LLM与知识图谱之间的交互，并提高事实检查任务的准确性。

背景与挑战

背景概述

T-REx数据集，由University of Amsterdam的研究人员Bradley P. Allen和Paul T. Groth于2024年提出，是一个大规模的自然语言与知识图谱三元组对齐数据集。该数据集旨在评估大型语言模型（LLM）在事实提取和知识图谱构建任务中的性能，特别是探讨LLM与知识图谱之间是否存在元语言性分歧。T-REx数据集的构建，对相关领域的研究具有重要意义，为知识图谱工程和大型语言模型的应用提供了新的视角和工具。

当前挑战

T-REx数据集面临的挑战主要包括：1) 所解决的领域问题是LLM与知识图谱之间的元语言性分歧，这种分歧可能源于语言模型对事实的理解与知识图谱中的表述不一致；2) 在构建过程中，确保数据集的质量和可靠性是一个挑战，需要解决如何有效地标注和验证数据集中的对齐关系问题；3) 数据集的样本量有限，需要更大的数据集来得出更稳健的结论；4) 需要设计更多针对元语言性分歧的评估指标，以更全面地评价LLM的性能。

常用场景

经典使用场景

T-REx数据集被广泛应用于评估大型语言模型在事实提取和知识图谱构建任务中的性能。其经典使用场景在于，通过将 Wikipedia 摘要与 Wikidata 三元组进行对齐，从而为语言模型提供一个事实检查的基准，以评价其在处理知识图谱相关任务时的准确性。

衍生相关工作

基于T-REx 数据集，研究者们进一步开展了许多相关工作。例如，提出了用于检测元语言性分歧的基准，以及探讨了大型语言模型在处理知识图谱时的理解能力和信念表示等问题。这些衍生工作进一步拓展了T-REx 数据集的应用范围和研究深度。

数据集最近研究