Angelakeke/RaTE-Eval

Name: Angelakeke/RaTE-Eval
Creator: Angelakeke
Published: 2024-07-01 05:05:54
License: 暂无描述

Hugging Face2024-07-01 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/Angelakeke/RaTE-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

RaTE-Eval数据集是一个用于衡量自动评估指标与放射科医生评估在医学文本生成任务中一致性的综合基准。数据集包含三个任务：句子级人类评分、段落级人类评分和合成报告评分。句子级评分任务基于MIMIC-IV数据集，包含2215份报告，涵盖9种成像模式和22种解剖结构，评分通过错误数量与潜在错误数量的比值计算。段落级评分任务采用5分制评分系统，基于MIMIC-IV数据集，包含1856份报告。合成报告评分任务使用Mixtral 8x7B模型生成847份报告的改写版本，评估指标在处理同义词和否定词时的敏感性。数据集文件结构清晰，分为三个任务的子目录，每个子目录包含训练集和测试集的文件。

提供机构：

Angelakeke

原始信息汇总

数据集卡片 for RaTE-Eval 数据集

数据集概述

为了有效衡量自动评估指标与放射科医生评估在医学文本生成任务中的一致性，我们建立了一个全面的基准——RaTE-Eval，包含三个任务，每个任务都有其官方测试集以进行公平比较。RaTE-Eval 基准与现有的放射学报告评估基准的比较列于表中。

任务 1：句子级人类评分

现有的研究主要使用 ReXVal 数据集，该数据集要求放射科医生标注者在各种潜在类别中识别和计数错误。指标的质量通过总错误数与自动指标结果之间的 Kendall 相关系数来评估。可能的错误类别包括：

1. 发现的错误预测；
1. 发现的遗漏；
1. 发现的位置/位置不正确；
1. 发现的严重程度不正确；
1. 提及参考印象中不存在的比较；
1. 遗漏描述与先前研究变化的比较。

基于此框架，我们引入了两个改进以增强基准的鲁棒性和适用性：

(1) 错误计数的归一化：认识到简单的错误计数可能无法公平反映句子中的信息内容，我们调整了评分以标注潜在错误的数量。这种方法归一化了计数，确保了不同报告复杂性之间的更平衡评估。

(2) 医学文本的多样化：与现有的仅限于 MIMIC-CXR 数据集的胸部 X 光片的基准不同，我们的数据集包括来自 MIMIC-IV 数据集的 2215 份报告，涵盖 9 种成像模式和 22 种解剖结构。涉及的成像模式和解剖结构在论文中列出。

最终的人类评分结果是通过将总错误数除以潜在错误的数量来计算的。最终的句子级基准由 2215 份参考报告句子、候选报告句子和它们的评分组成。详细的标注过程请参考我们的论文。

为了支持参数搜索，我们将所有报告按 8:2 的比例分为训练集和测试集，以确定与人类评分规则最一致的有效参数。

任务 2：段落级人类评分

鉴于医学影像解释通常涉及长文本而非孤立句子的评估，我们还将在分析中纳入段落级评估，来自 MIMIC-IV 数据集。

然而，由于人类难以完全准确地计数长段落中的所有错误，我们建立了一个 5 点评分系统进行评估，遵循国际公认的放射学同行评审标准 RadPEER。评分范围从 5（表示完全准确的报告）到 0（表示没有任何正确观察的报告）。详细的评分标准在我们的论文中提供，指导放射科医生如何在不同级别上评分。

最终的段落级基准由 1856 份参考报告、候选报告和它们的评分组成。同样，详细的标注过程请参考我们的论文，为了支持参数搜索，我们也按 8:2 的比例将所有报告分为训练集和测试集。

任务 3：合成报告的评分

在这里，我们旨在评估我们的指标在处理同义词和否定词时的敏感性，使用合成数据。具体来说，我们使用了 Mixtral 8x7B，一个高级的开源大型语言模型（LLM），重写了来自 MIMIC-IV 数据集的 847 份报告。重写由两个定制的提示引导：

您是一名医学报告写作专家，请重写句子，您可以将实体更改为同义词，但请保持含义不变。

另一方面，使用相反的报告生成：

您是一名医学报告写作专家，请重写以下医学报告以表达相反的含义。

这一过程产生了一个包含三元组报告的测试集：原始报告、同义版本和匿名版本，详细内容在我们的论文中进一步说明。理想情况下，有效的评估指标应对同义报告显示更高的分数，从而更准确地反映报告的真实语义内容。

文件路径

select_short_sentence/ ├── Task1_sentence_rate/ │ ├── rate_train.csv │ ├── gt_report_train.json │ ├── similar_report_train.json │ ├── rate_test.csv │ ├── similar_report_test.json │ └── gt_report_test.json ├── Task2_paragraph_rate/ │ ├── rate_train.csv │ ├── gt_report_train.json │ ├── similar_report_train.json │ ├── rate_test.csv │ ├── similar_report_test.json │ └── gt_report_test.json └── Task3_synthetic_rate/ ├── rewrite_report.json └── opposite_report.json

搜集汇总

数据集介绍

构建方式

在医学文本生成评估领域，RaTE-Eval数据集的构建体现了严谨的科学方法论。该数据集依托MIMIC-IV数据库，精心筛选了涵盖9种成像模态和22个解剖部位的2215份放射学报告。构建过程采用放射科医生人工标注，针对句子级别任务，创新性地引入潜在错误数量归一化机制，以平衡不同复杂度报告的评估；针对段落级别任务，则借鉴国际公认的RadPEER标准，建立了五点评分体系。此外，数据集还利用Mixtral 8x7B大语言模型生成了包含同义改写和语义反转的合成报告，形成三重对比测试集。所有数据均按8:2比例划分为训练集与测试集，为参数优化提供可靠基础。

特点

RaTE-Eval数据集在医学文本评估领域展现出多维度的学术价值。其核心特征在于构建了涵盖句子、段落及合成文本的三任务评估框架，突破了传统评估仅关注单一层级的局限。数据集覆盖的医学影像模态与解剖结构具有显著多样性，确保了评估结果的泛化能力。独特的潜在错误归一化设计有效解决了文本复杂度差异带来的评估偏差，而基于RadPEER标准的五级评分体系则为长文本评估提供了临床可信的度量标尺。合成报告任务通过同义与反义改写对比，巧妙检验了评估指标对语义细微差异的敏感度，形成了层次分明的评估生态系统。

使用方法

该数据集为医学文本生成模型的评估提供了标准化实验范式。研究者可通过加载任务目录下的CSV与JSON文件，分别获取句子级、段落级的参考报告、候选报告及其对应评分。训练集与测试集的明确划分支持模型参数的系统优化与验证。对于合成报告任务，用户可对比分析模型在同义改写与语义反转文本上的评分差异，从而评估其语义理解深度。实际应用中，建议将自动评估指标的输出与数据集中的人工评分进行相关性分析，具体操作可参照原始论文中详述的统计验证流程，确保评估结果的科学严谨性。

背景与挑战

背景概述

在医学文本生成领域，尤其是放射学报告自动生成任务中，评估生成文本与专业放射科医生判断之间的一致性一直是一个核心研究难题。为应对这一挑战，上海交通大学的研究团队于2024年推出了RaTE-Eval数据集。该数据集构建于MIMIC-IV临床数据库之上，涵盖了9种成像模态和22个解剖部位，旨在为自动评估指标与人类专家评分之间的对齐性提供一个全面、稳健的基准测试平台。其核心研究问题聚焦于如何科学量化自动生成报告在事实准确性、完整性和临床相关性方面的质量，从而推动医学自然语言处理技术在辅助诊断中的应用与发展。

当前挑战

RaTE-Eval数据集所应对的领域挑战，在于解决放射学报告自动评估中指标与人类判断脱节的问题。传统评估方法往往依赖简单的错误计数，难以公平反映复杂医学文本的信息含量，且缺乏对长段落整体语义的把握。在构建过程中，数据集面临多重挑战：其一，需要设计既能精细化捕捉句子级错误（如病灶误判、遗漏），又能对段落级报告进行整体质量评分的标注体系；其二，需将标注范围从单一的胸部X光扩展到多模态、多解剖部位的放射报告，以增强泛化性；其三，需通过合成数据（如同义改写与否定改写）来验证评估指标对语义微妙变化的敏感性，这对标注的严谨性与大语言模型的应用提出了更高要求。

常用场景

经典使用场景

在医学影像报告生成领域，RaTE-Eval数据集作为评估基准，其经典使用场景聚焦于自动化评估指标与放射科医师人工评分的对齐验证。研究者通过该数据集，能够系统性地检验各类自然语言生成模型在句子级别和段落级别上生成放射学报告的准确性。具体而言，数据集提供了包含多模态影像和多样解剖结构的标准化测试集，支持对模型输出进行错误分类统计与相关性分析，从而为优化报告生成算法提供实证依据。

衍生相关工作

围绕RaTE-Eval数据集，已衍生出多项经典研究工作。例如，基于其构建的RaTEScore评估指标被广泛应用于放射学报告生成模型的性能比较；同时，数据集的段落级评分体系借鉴了国际放射学同行评审标准RadPEER，促进了医学文本评估与临床实践的深度融合。此外，该数据集启发了后续研究对多模态医学数据评估范式的探索，为开发更精细化的医疗AI评估工具提供了重要参考。

数据集最近研究