RaTE-NER

Hugging Face2024-06-21 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Angelakeke/RaTE-NER

下载链接

链接失效反馈

官方服务：

资源简介：

RaTE-NER数据集是一个大规模的放射学命名实体识别（NER）数据集，包含来自MIMIC-IV数据库的1,816份报告中手动标注的13,235个句子，涵盖9种成像模式和23个人体解剖区域，确保了全面的覆盖。此外，通过利用GPT-4和其他医学知识库，该数据集还从Radiopaedia的17,432份报告中进一步丰富了33,605个句子，以捕捉不常见疾病和异常的复杂性和细微差别。数据集提供了两种预处理格式以支持不同的NER方法，并清晰地概述了文件路径和结构。

创建时间：

2024-06-20

原始信息汇总

数据集概述

数据集简介

RaTE-NER数据集是一个大规模的放射学命名实体识别（NER）数据集，包含13,235条手动标注的句子，来自MIMIC-IV数据库中的1,816份报告，涵盖9种成像模式和23个解剖区域，确保了全面的覆盖。此外，该数据集还通过利用GPT-4和其他医学知识库，从Radiopaedia上的17,432份报告中进一步丰富了33,605条句子，以捕捉不常见疾病和异常的复杂性和细微差别。手动标注了3,529条句子以创建测试集。

文件结构

数据集文件结构如下：

├── [MIMIC_IV] │ ├── dev_IOB.json │ ├── dev_span.json │ ├── test_IOB.json │ ├── test_span.json │ ├── train_IOB.json │ └── train_span.json ├── [Radiopaedia] │ ├── dev_span.json │ ├── dev_IOB.json │ ├── test_IOB.json │ ├── test_span.json │ ├── train_span.json │ └── train_IOB.json └── [all] ├── dev_IOB.json ├── dev_span.json ├── test_IOB.json ├── test_span.json ├── train_IOB.json └── train_span.json

每个类型的数据提供两种预处理格式以支持不同的命名实体识别（NER）方法：基于IOB（Inside, Outside, Beginning）标签的预处理和基于span标签的预处理。

IOB预处理格式包含三个项目：id, tokens, ner_tags。
span预处理格式包含三个项目：note_id, sentence, ner。

使用方法

python from datasets import load_dataset data = load_dataset("Angelakeke/RaTE-NER")

作者

作者：Weike Zhao 如有任何问题，请联系zwk0629@sjtu.edu.cn。

引用

如果发现数据/论文有帮助，请考虑引用： bibtex @article{zhao2024ratescore, title={RaTEScore: A Metric for Radiology Report Generation}, author={Zhao, Weike and Wu, Chaoyi and Zhang, Xiaoman and Zhang, Ya and Wang, Yanfeng and Xie, Weidi}, journal={arXiv preprint arXiv:2406.16845}, year={2024} }

搜集汇总

数据集介绍

构建方式

RaTE-NER数据集的构建基于两个主要来源：MIMIC-IV数据库和Radiopaedia平台。首先，从MIMIC-IV数据库中提取了1,816份报告中的13,235个句子，涵盖了9种成像模式和23个解剖区域。其次，通过GPT-4和其他医学知识库，从Radiopaedia的17,432份报告中提取了33,605个句子，进一步丰富了数据集的内容。为确保数据质量，研究人员手动标注了3,529个句子作为测试集。

使用方法

使用RaTE-NER数据集时，可以通过Hugging Face的`datasets`库轻松加载数据。用户只需调用`load_dataset`函数并指定数据集名称即可。数据集提供了多种文件格式，包括`dev_IOB.json`、`dev_span.json`等，用户可以根据需要选择适合的预处理格式进行模型训练和评估。

背景与挑战

背景概述

RaTE-NER数据集是一个大规模放射学命名实体识别（NER）数据集，由Weike Zhao等人于2024年创建，旨在解决医学影像报告中的实体识别问题。该数据集基于MIMIC-IV数据库和Radiopaedia平台，涵盖了9种影像模态和23个解剖区域，确保了广泛的覆盖范围。通过结合GPT-4和其他医学知识库，数据集进一步丰富了罕见疾病和异常情况的标注，为医学自然语言处理领域提供了重要的研究资源。该数据集的发布不仅推动了放射学报告生成和实体识别技术的发展，还为医学信息提取和自动化诊断提供了坚实的基础。

当前挑战

RaTE-NER数据集在构建过程中面临多重挑战。首先，医学文本的复杂性和多样性使得实体标注需要高度的专业知识，尤其是在处理罕见疾病和复杂解剖结构时。其次，数据集的规模庞大，涉及多源数据的整合与清洗，确保标注的一致性和准确性成为关键问题。此外，尽管GPT-4等工具辅助了部分标注工作，但其生成的文本仍需人工验证，以避免潜在的偏差和错误。在应用层面，如何高效处理多模态数据并提升模型在跨域场景下的泛化能力，仍是当前研究的主要挑战。

常用场景

经典使用场景

RaTE-NER数据集在放射学领域的命名实体识别（NER）任务中具有重要应用。该数据集通过整合来自MIMIC-IV和Radiopaedia的放射学报告，涵盖了9种成像模式和23个解剖区域，为研究者提供了一个全面且多样化的训练和测试平台。其经典使用场景包括开发自动化工具，用于从放射学报告中提取关键医学实体，如疾病名称、解剖部位和影像特征，从而辅助医生进行诊断和治疗决策。

解决学术问题

RaTE-NER数据集解决了放射学领域中命名实体识别的关键学术问题。传统NER模型在医学文本上的表现受限于数据稀缺性和领域特异性，而RaTE-NER通过大规模标注数据和多源数据融合，显著提升了模型在复杂医学文本中的识别能力。该数据集不仅支持常规NER任务，还为研究罕见疾病和异常情况提供了丰富的数据基础，推动了医学自然语言处理技术的发展。

实际应用

在实际应用中，RaTE-NER数据集被广泛用于开发智能医疗系统，如放射学报告自动生成工具和临床决策支持系统。通过从放射学报告中提取关键信息，这些系统能够帮助医生快速定位患者病情，减少诊断时间并提高诊断准确性。此外，该数据集还可用于医学教育和研究，为医学生和研究者提供高质量的标注数据，促进医学知识的传播与创新。

数据集最近研究