RaTE-Eval

Hugging Face2024-06-21 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Angelakeke/RaTE-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

RaTE-Eval数据集旨在有效衡量自动评估指标与放射科医生在医学文本生成任务中的评估之间的一致性。该数据集包含三个任务，每个任务都有官方测试集以进行公平比较。任务包括句子级人类评分、段落级人类评分以及对合成报告的评分。数据集涵盖了来自9种成像模式和22种解剖结构的2215份报告，通过引入错误计数标准化和医学文本多样化，增强了基准的鲁棒性和适用性。

The RaTE-Eval dataset is designed to effectively measure the agreement between automatic evaluation metrics and radiologists' assessments in medical text generation tasks. This dataset includes three tasks, each with an official test set to facilitate fair benchmark comparisons. The tasks cover sentence-level human scoring, paragraph-level human scoring, and scoring of synthetic radiology reports. Comprising 2,215 reports spanning 9 imaging modalities and 22 anatomical structures, this dataset enhances the robustness and applicability of the benchmark by incorporating error count standardization and medical text diversification.

创建时间：

2024-06-21

原始信息汇总

RaTE-Eval 数据集概述

数据集摘要

RaTE-Eval 数据集是一个全面的基准测试，旨在有效衡量医学文本生成任务中自动评估指标与放射科医生评估之间的一致性。该数据集包含三个任务，每个任务都有其官方测试集，以便进行公平比较。

任务 1：句子级人工评分

数据来源：基于 MIMIC-IV 数据集，包含 2215 份报告，涵盖 9 种成像模式和 22 个解剖结构。
改进措施：
- 错误计数归一化：通过标注潜在错误数量来归一化错误计数，确保评估的平衡性。
- 医学文本多样化：不同于仅限于胸部 X 光片的现有基准，本数据集包含多种成像模式和解剖结构。
最终评分计算：总错误数除以潜在错误数。
数据集划分：训练集和测试集按 8:2 比例划分。

任务 2：段落级人工评分

数据来源：同样基于 MIMIC-IV 数据集。
评分系统：采用 5 点评分系统，遵循 RadPEER 标准。
最终评分计算：包含 1856 份参考报告、候选报告及其评分。
数据集划分：训练集和测试集按 8:2 比例划分。

任务 3：合成报告评分

数据来源：使用 Mixtral 8x7B 模型重写 847 份 MIMIC-IV 数据集中的报告。
重写方式：
- 同义词替换：保持原意不变。
- 反义词替换：表达相反意义。
测试集构成：包含原始报告、同义词版本和反义词版本。

文件路径

select_short_sentence/ ├── Task1_sentence_rate/ │ ├── rate_train.csv │ ├── gt_report_train.json │ ├── similar_report_train.json │ ├── rate_test.csv │ ├── similar_report_test.json │ └── gt_report_test.json ├── Task2_paragraph_rate/ │ ├── rate_train.csv │ ├── gt_report_train.json │ ├── similar_report_train.json │ ├── rate_test.csv │ ├── similar_report_test.json │ └── gt_report_test.json └── Task3_synthetic_rate/ ├── rewrite_report.json └── opposite_report.json

搜集汇总

数据集介绍

构建方式

RaTE-Eval数据集的构建旨在评估医学文本生成任务中自动评估指标与放射科医生评估之间的一致性。该数据集通过三个任务构建，每个任务均包含官方测试集以确保公平比较。具体而言，任务1基于ReXVal数据集，通过放射科医生标注错误类别并计算错误数量，进一步引入错误计数归一化和多样化医学文本的改进。任务2则扩展至段落级别，采用5分制评分系统，模拟放射科医生对长文本的评估。任务3则通过合成数据评估指标对同义词和否定的敏感性，使用Mixtral 8x7B模型对MIMIC-IV数据集中的报告进行改写。

特点

RaTE-Eval数据集的特点在于其全面性和多样性。首先，数据集涵盖了2215份报告，涉及9种成像模态和22种解剖结构，显著扩展了现有基准的覆盖范围。其次，数据集通过归一化错误计数和多样化医学文本，提升了评估的鲁棒性和适用性。此外，段落级别的评估引入了5分制评分系统，模拟了放射科医生对长文本的实际评估过程。最后，合成数据的引入使得数据集能够评估指标对同义词和否定的敏感性，进一步增强了其应用价值。

使用方法

RaTE-Eval数据集的使用方法主要围绕其三个任务展开。对于任务1，用户可以通过提供的训练集和测试集进行参数搜索，以找到与人类评分规则最匹配的模型参数。任务2的使用方法类似，用户可利用段落级别的评分系统对模型进行评估。任务3则通过合成数据测试模型对同义词和否定的敏感性，用户可通过比较原始报告、同义改写报告和否定改写报告的评分，评估模型的语义理解能力。数据集的文件路径结构清晰，用户可根据任务需求选择相应的文件进行实验。

背景与挑战

背景概述

RaTE-Eval数据集由Weike Zhao等人于2024年创建，旨在解决医学文本生成任务中自动评估指标与放射科医生评估之间的对齐问题。该数据集基于MIMIC-IV数据集，涵盖了9种成像模态和22种解剖结构，包含2215份报告。RaTE-Eval通过三个任务（句子级评分、段落级评分和合成报告评分）构建了一个全面的基准测试，旨在提升医学报告生成的自动评估质量。该数据集的研究成果发表在2024年EMNLP会议上，为医学自然语言处理领域提供了重要的评估工具。

当前挑战

RaTE-Eval数据集面临的挑战主要包括两个方面。首先，在领域问题方面，如何准确衡量自动评估指标与放射科医生评分之间的相关性是一个核心难题，尤其是在处理复杂的医学文本时，语义的细微差异可能导致评估结果的偏差。其次，在数据集构建过程中，如何确保标注的一致性和准确性是一个关键挑战，特别是在段落级评分任务中，由于文本长度和复杂性增加，人工标注的难度显著提升。此外，合成报告评分任务中，如何有效处理同义词和否定表达的变化，也对评估指标的鲁棒性提出了更高的要求。

常用场景

经典使用场景

RaTE-Eval数据集在医学文本生成任务中，主要用于评估自动评价指标与放射科医生评估之间的一致性。通过包含句子级别和段落级别的人类评分任务，该数据集为研究人员提供了一个全面的基准，用于测试和优化自动评价模型在医学报告生成中的表现。特别是在处理复杂的医学文本时，RaTE-Eval通过引入多样化的医学文本和标准化的错误计数方法，显著提升了评估的准确性和鲁棒性。

衍生相关工作

RaTE-Eval数据集的推出，催生了一系列相关研究工作。例如，基于该数据集的研究提出了新的自动评价指标，这些指标在医学文本生成任务中表现出更高的准确性和一致性。此外，RaTE-Eval还为其他医学文本生成任务提供了参考，如病历摘要生成和医学问答系统。这些工作不仅扩展了数据集的应用范围，还推动了医学自然语言处理领域的进一步发展。

数据集最近研究