TROVE

Name: TROVE
Creator: 中国科学院自动化研究所
Published: 2025-03-19 23:09:39
License: 暂无描述

arXiv2025-03-19 更新2025-03-21 收录

下载链接：

http://arxiv.org/abs/2503.15289v1

下载链接

链接失效反馈

官方服务：

资源简介：

TROVE数据集是由中国科学院自动化研究所等多个机构创建的，旨在追踪目标文本中每个句子回溯到特定源句子，并标注细粒度的关系类型（如引用、压缩、推理等）。该数据集基于三个公开数据集（LongBench、LooGLE和CRUD-RAG）构建，涵盖了11种不同的应用场景，支持多文档和长文档的追踪。数据集的构建经历了句子检索、GPT-4自动标注和人工审核三个阶段，以确保高质量、细粒度的起源数据。

The TROVE dataset was developed by multiple institutions including the Institute of Automation, Chinese Academy of Sciences. It is designed to trace each sentence in a target text back to its specific source sentence, and annotate fine-grained relationship types such as citation, compression, inference, and more. Built upon three public datasets (LongBench, LooGLE, and CRUD-RAG), this dataset covers 11 distinct application scenarios and supports tracking across multi-document and long-form documents. The dataset construction involves three stages: sentence retrieval, GPT-4 automatic annotation, and manual review, to ensure the production of high-quality, fine-grained provenance data.

提供机构：

中国科学院自动化研究所

创建时间：

2025-03-19

搜集汇总

数据集介绍

构建方式

TROVE数据集的构建基于三个公开数据集：LongBench、LooGLE和CRUD-RAG，涵盖了11种不同的场景（如问答和摘要生成），并包含中英双语的长文档和多文档设置。数据集的构建过程分为三个阶段：首先通过信息检索方法从候选源句子中召回相关句子，接着使用GPT-4进行初步标注，识别目标句子的来源并分类其与源句子的关系（如引用、压缩、推理等），最后通过人工审核确保标注的准确性。

使用方法

TROVE数据集的使用方法主要包括两个范式：直接提示和检索增强。在直接提示范式中，模型直接处理输入文本以追踪源句子；而在检索增强范式中，首先通过检索方法召回相关源句子，再进行溯源。数据集适用于评估大语言模型在复杂文本溯源任务中的表现，特别是在多文档和长文档设置下。通过该数据集，研究人员可以深入分析模型在源句子追踪和关系分类任务中的性能，并为未来的模型优化提供参考。

背景与挑战

背景概述

TROVE数据集由中国科学院自动化研究所的多模态人工智能系统国家重点实验室于2025年提出，旨在解决文本生成中的溯源问题。随着大语言模型（LLMs）在文本生成中的广泛应用，生成内容的可靠性和可追溯性成为关键问题，尤其是在医疗、法律和新闻等高风险领域。TROVE通过追踪目标文本中的每个句子到其可能的源句子，并标注细粒度的关系（如引用、压缩、推理等），提供了对文本生成过程的深入理解。该数据集基于三个公开数据集（LongBench、LooGLE和CRUD-RAG）构建，涵盖11种不同场景（如问答和摘要），支持中英双语，并特别关注多文档和长文档设置。TROVE的提出填补了现有研究中单文档溯源与真实场景需求之间的差距，为文本生成的可解释性和透明性提供了重要支持。

当前挑战

TROVE数据集面临的挑战主要体现在两个方面。首先，在领域问题方面，TROVE旨在解决细粒度的文本溯源问题，即不仅要识别目标句子的来源，还要分类其与源句子之间的关系（如引用、压缩、推理等）。这一任务对模型的语义理解和推理能力提出了极高要求，尤其是在多文档和长文档场景下，模型需要处理复杂的上下文关系。其次，在数据集构建过程中，TROVE面临数据质量和标注一致性的挑战。尽管采用了GPT-4辅助标注和人工审核的三阶段标注流程，但在处理长文档和多文档时，关键源句子的遗漏和关系分类的复杂性仍然存在。此外，数据集的多样性和平衡性也是一个挑战，尤其是在不同语言、场景和文档长度之间的分布上，部分子集仍然存在代表性不足的问题。

常用场景

经典使用场景

TROVE数据集在自然语言处理领域中被广泛用于细粒度的文本溯源任务。通过将目标文本中的每个句子追溯到其可能的源句子，并标注它们之间的关系（如引用、压缩、推理等），TROVE为研究者提供了一个强大的工具，用于分析文本生成的透明性和可追溯性。该数据集特别适用于多文档和长文档场景，能够帮助模型在复杂的文本环境中进行精确的溯源。

解决学术问题

TROVE数据集解决了文本生成中的透明性和可追溯性问题。随着大语言模型（LLMs）在文本生成中的广泛应用，如何确保生成内容的可靠性和来源的清晰性成为了一个重要的研究课题。TROVE通过细粒度的文本溯源，帮助研究者理解每个生成句子的来源及其与源文本的关系，从而填补了单文档溯源和多文档溯源之间的空白。这一数据集为文本生成的可解释性和可信度提供了重要的研究基础。

实际应用

TROVE数据集在实际应用中具有广泛的价值，尤其是在需要高可靠性和透明性的领域，如法律、医疗和新闻报道。在这些领域中，理解文本的来源和生成过程至关重要。TROVE可以帮助法律从业者追溯法律文件的生成依据，医疗从业者验证医疗报告的准确性，以及新闻编辑确保新闻报道的真实性。通过提供细粒度的文本溯源，TROVE为这些领域的内容生成提供了更高的透明度和可信度。

数据集最近研究