five

Angelakeke/RaTE-Eval|医学影像数据集|文本生成评估数据集

收藏
hugging_face2024-07-01 更新2024-06-22 收录
医学影像
文本生成评估
下载链接:
https://hf-mirror.com/datasets/Angelakeke/RaTE-Eval
下载链接
链接失效反馈
资源简介:
RaTE-Eval数据集是一个用于衡量自动评估指标与放射科医生评估在医学文本生成任务中一致性的综合基准。数据集包含三个任务:句子级人类评分、段落级人类评分和合成报告评分。句子级评分任务基于MIMIC-IV数据集,包含2215份报告,涵盖9种成像模式和22种解剖结构,评分通过错误数量与潜在错误数量的比值计算。段落级评分任务采用5分制评分系统,基于MIMIC-IV数据集,包含1856份报告。合成报告评分任务使用Mixtral 8x7B模型生成847份报告的改写版本,评估指标在处理同义词和否定词时的敏感性。数据集文件结构清晰,分为三个任务的子目录,每个子目录包含训练集和测试集的文件。

RaTE-Eval数据集是一个用于衡量自动评估指标与放射科医生评估在医学文本生成任务中一致性的综合基准。数据集包含三个任务:句子级人类评分、段落级人类评分和合成报告评分。句子级评分任务基于MIMIC-IV数据集,包含2215份报告,涵盖9种成像模式和22种解剖结构,评分通过错误数量与潜在错误数量的比值计算。段落级评分任务采用5分制评分系统,基于MIMIC-IV数据集,包含1856份报告。合成报告评分任务使用Mixtral 8x7B模型生成847份报告的改写版本,评估指标在处理同义词和否定词时的敏感性。数据集文件结构清晰,分为三个任务的子目录,每个子目录包含训练集和测试集的文件。
提供机构:
Angelakeke
原始信息汇总

数据集卡片 for RaTE-Eval 数据集

数据集概述

为了有效衡量自动评估指标与放射科医生评估在医学文本生成任务中的一致性,我们建立了一个全面的基准——RaTE-Eval,包含三个任务,每个任务都有其官方测试集以进行公平比较。RaTE-Eval 基准与现有的放射学报告评估基准的比较列于表中。

任务 1:句子级人类评分

现有的研究主要使用 ReXVal 数据集,该数据集要求放射科医生标注者在各种潜在类别中识别和计数错误。指标的质量通过总错误数与自动指标结果之间的 Kendall 相关系数来评估。可能的错误类别包括:

    1. 发现的错误预测;
    1. 发现的遗漏;
    1. 发现的位置/位置不正确;
    1. 发现的严重程度不正确;
    1. 提及参考印象中不存在的比较;
    1. 遗漏描述与先前研究变化的比较。

基于此框架,我们引入了两个改进以增强基准的鲁棒性和适用性:

(1) 错误计数的归一化:认识到简单的错误计数可能无法公平反映句子中的信息内容,我们调整了评分以标注潜在错误的数量。这种方法归一化了计数,确保了不同报告复杂性之间的更平衡评估。

(2) 医学文本的多样化:与现有的仅限于 MIMIC-CXR 数据集 的胸部 X 光片的基准不同,我们的数据集包括来自 MIMIC-IV 数据集2215 份报告,涵盖 9 种成像模式和 22 种解剖结构。涉及的成像模式和解剖结构在 论文 中列出。

最终的人类评分结果是通过将总错误数除以潜在错误的数量来计算的。最终的句子级基准由 2215 份参考报告句子、候选报告句子和它们的评分组成。详细的标注过程请参考我们的 论文

为了支持参数搜索,我们将所有报告按 8:2 的比例分为训练集和测试集,以确定与人类评分规则最一致的有效参数。

任务 2:段落级人类评分

鉴于医学影像解释通常涉及长文本而非孤立句子的评估,我们还将在分析中纳入段落级评估,来自 MIMIC-IV 数据集

然而,由于人类难以完全准确地计数长段落中的所有错误,我们建立了一个 5 点评分系统进行评估,遵循国际公认的放射学同行评审标准 RadPEER。评分范围从 5(表示完全准确的报告)到 0(表示没有任何正确观察的报告)。详细的评分标准在我们的 论文 中提供,指导放射科医生如何在不同级别上评分。

最终的段落级基准由 1856 份参考报告、候选报告和它们的评分组成。同样,详细的标注过程请参考我们的 论文,为了支持参数搜索,我们也按 8:2 的比例将所有报告分为训练集和测试集。

任务 3:合成报告的评分

在这里,我们旨在评估我们的指标在处理同义词和否定词时的敏感性,使用合成数据。具体来说,我们使用了 Mixtral 8x7B,一个高级的开源大型语言模型(LLM),重写了来自 MIMIC-IV 数据集的 847 份报告。重写由两个定制的提示引导:

您是一名医学报告写作专家,请重写句子,您可以将实体更改为同义词,但请保持含义不变。

另一方面,使用相反的报告生成:

您是一名医学报告写作专家,请重写以下医学报告以表达相反的含义。

这一过程产生了一个包含三元组报告的测试集:原始报告、同义版本和匿名版本,详细内容在我们的 论文 中进一步说明。理想情况下,有效的评估指标应对同义报告显示更高的分数,从而更准确地反映报告的真实语义内容。

文件路径

select_short_sentence/ ├── Task1_sentence_rate/ │ ├── rate_train.csv │ ├── gt_report_train.json │ ├── similar_report_train.json │ ├── rate_test.csv │ ├── similar_report_test.json │ └── gt_report_test.json ├── Task2_paragraph_rate/ │ ├── rate_train.csv │ ├── gt_report_train.json │ ├── similar_report_train.json │ ├── rate_test.csv │ ├── similar_report_test.json │ └── gt_report_test.json └── Task3_synthetic_rate/ ├── rewrite_report.json └── opposite_report.json

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

光伏电站发电量预估数据

1、准确预测一个地区分布式光伏场站的整体输出功率,可以提高电网的稳定性,增加电网消纳光电能量的能力,在降低能源消耗成本的同时促进低碳能源发展,实现动态供需状态预测的方法,为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量,可以自动发现一些有故障的设备或者低效电站,提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理,用累计发电量矫正小时平均发电功率,剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作,剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据,其中误差率=(发电量-预估发电量)/发电量,当误差率低于一定阈值时,该数据预测为准确。预测准确率=预测准确数量/预测数据总量。

浙江省数据知识产权登记平台 收录

Thyroid Disease Data

该数据集包含13个临床病理特征,旨在预测分化良好的甲状腺癌的复发。数据集收集了15年间的数据,每位患者至少被跟踪了10年。

github 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

Global Water Quality Dataset

该数据集包含了全球多个地区的水质监测数据,涵盖了多种水质参数,如pH值、溶解氧、电导率、温度等。数据集旨在帮助研究人员和政策制定者了解全球水质的现状和变化趋势。

www.kaggle.com 收录