TRACSUM

Name: TRACSUM
Creator: 德国杜伊斯堡-埃森大学
Published: 2025-08-19 20:57:45
License: 暂无描述

arXiv2025-08-19 更新2025-11-26 收录

下载链接：

https://github.com/chubohao/TracSum

下载链接

链接失效反馈

官方服务：

资源简介：

TRACSUM是一个新的基准数据集，用于医学领域的面向方面的摘要，其中生成的摘要与句子级别的引用配对，使用户能够追溯回原始上下文。该数据集包含500个医学摘要，针对七个关键医学方面进行了标注，产生了3.5K摘要-引用对。数据集创建过程中，首先使用Mistral Large模型自动生成摘要和引用，然后由人类专家进行评估和修订。TRACSUM旨在解决医学文献摘要中的事实准确性问题，通过提供引用源文本，用户可以更容易地定位相关上下文并验证生成的内容。

TRACSUM is a novel benchmark dataset for aspect-based summarization in the medical domain, where generated summaries are paired with sentence-level citations to enable users to trace back to the original context. This dataset contains 500 medical summaries annotated against seven key medical aspects, resulting in 3.5k summary-citation pairs. During its construction, summaries and citations were first automatically generated using the Mistral Large model, then evaluated and revised by human experts. TRACSUM aims to address the issue of factual accuracy in medical literature summarization: by providing the source texts of the citations, users can more easily locate relevant contexts and verify the generated content.

提供机构：

德国杜伊斯堡-埃森大学

创建时间：

2025-08-19

搜集汇总

数据集介绍

构建方式

在医学文献智能处理领域，TRACSUM数据集的构建采用了多阶段混合标注策略。研究团队从PubMed平台筛选了500篇符合严格标准的黑色素瘤临床试验摘要，涵盖近十年内发表的高质量期刊文献。通过Mistral Large模型自动生成初始的3.5千个面向七类医学要素的摘要-引文对，随后由医学与自然语言处理领域的双学科专家团队进行独立评估与修订。这种半自动化构建方式既保证了数据规模，又通过人工校验确保了临床事实的准确性与引文追溯的完整性。

使用方法

该数据集支持端到端的可追溯摘要生成任务，使用者需根据指定医学要素生成带句级引文的总结。评估框架采用四维度量体系：通过声明召回率与引文召回率衡量内容完整性，借助声明精确率与引文精确率评估生成简洁性。实际应用中可采用TRACK-THEN-SUM等基准流程，先通过追踪模块定位相关原文句子，再基于筛选内容生成总结。实验表明引入全文上下文能显著提升生成完整性，而前置追踪策略则有效保障了临床事实的准确性。

背景与挑战

背景概述

TRACSUM数据集由杜伊斯堡-埃森大学与埃森大学医院于2025年联合创建，旨在解决医学领域文档摘要生成中的事实准确性验证难题。该数据集聚焦于临床文献的七个核心医学方面，通过构建3,500条带句级引用的摘要-引用对，为可追溯的方面导向摘要任务提供了首个标准化基准。其创新性在于将摘要生成与原始文本的句级溯源相结合，推动了证据医学中信息可信度评估的发展，对提升医疗决策的可靠性具有深远影响。

当前挑战

在医学摘要生成领域，TRACSUM需应对两方面核心挑战：一是领域问题层面，现有大语言模型在生成特定医学方面摘要时易产生事实性错误或信息遗漏，尤其在干预措施和治疗结果等复杂表述中准确性不足；二是构建过程层面，数据集依赖大模型自动生成初始标注，需通过多轮人工评估与修订消除模型偏见，同时句级引用标注要求精确匹配摘要与原文的语义关联，对标注一致性与医学专业知识提出了极高要求。

常用场景

经典使用场景

在医学文献智能处理领域，TRACSUM数据集作为首个支持句子级溯源能力的方面化摘要基准，主要应用于评估大语言模型在医学文本结构化摘要生成中的表现。该数据集通过标注500篇医学摘要的七个关键医学方面，构建了3500个摘要-引用对，为研究者提供了标准化的测试平台。其独特价值在于要求模型不仅生成特定方面的摘要，还需标注支撑该摘要的原始句子索引，实现了从摘要到源文本的精确追溯。

解决学术问题

TRACSUM有效解决了医学文本摘要中事实准确性验证的学术难题。传统摘要系统常产生无法追溯来源的“黑箱”输出，而该数据集通过句子级引用机制，使研究者能够系统评估生成内容的完整性与一致性。其提出的细粒度评估框架包含声明召回率、引用召回率、声明精确率和引用精确率四个维度，为衡量医学摘要的事实正确性提供了量化标准，显著推进了可验证文本生成领域的方法学研究。

实际应用

在临床决策支持场景中，TRACSUM支撑的系统能够为医疗专业人员生成具有溯源证据的方面化摘要。医生可通过查看摘要对应的原始句子，快速验证关键临床证据的可信度，如治疗方案的有效性、不良反应发生率等具体指标。这种可追溯的摘要形式极大降低了因模型幻觉导致的医疗误判风险，同时提升了循证医学实践中证据检索与整合的效率，为精准医疗提供了可靠的信息处理工具。

数据集最近研究