Angelakeke/RaTE-NER

Name: Angelakeke/RaTE-NER
Creator: Angelakeke
Published: 2024-11-23 07:37:45
License: 暂无描述

Hugging Face2024-11-23 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/Angelakeke/RaTE-NER

下载链接

链接失效反馈

官方服务：

资源简介：

RaTE-NER数据集是一个大规模的放射学命名实体识别（NER）数据集，包含来自MIMIC-IV数据库的1,816份报告中的13,235个手动标注的句子，涵盖了9种成像模式和23个解剖区域，确保了全面的覆盖。此外，数据集还通过GPT-4和其他医学知识库从Radiopaedia的17,432份报告中进一步丰富了33,605个句子，以捕捉罕见疾病和异常的复杂性和细微差别。手动标注了3,529个句子以创建测试集。数据集提供了两种预处理格式：基于IOB（Inside, Outside, Beginning）标记和基于span标记的预处理。

The RaTE-NER dataset is a large-scale, radiological named entity recognition (NER) dataset, including 13,235 manually annotated sentences from 1,816 reports within the MIMIC-IV database, that spans 9 imaging modalities and 23 anatomical regions, ensuring comprehensive coverage. Additionally, the dataset is further enriched with 33,605 sentences from the 17,432 reports available on Radiopaedia, by leveraging GPT-4 and other medical knowledge libraries to capture intricacies and nuances of less common diseases and abnormalities. A test set was created by manually labeling 3,529 sentences. The dataset provides two preprocessing formats: IOB (Inside, Outside, Beginning) tagging and span tagging.

提供机构：

Angelakeke

原始信息汇总

数据集卡片 for RaTE-NER 数据集

数据集概述

RaTE-NER 数据集是一个大规模的放射学命名实体识别（NER）数据集，包含来自 MIMIC-IV 数据库的 13,235 条手动标注句子，涉及 1,816 份报告，涵盖 9 种成像模式和 23 个解剖区域，确保了全面的覆盖。

此外，我们还通过利用 GPT-4 和其他医学知识库，从 Radiopaedia 上的 17,432 份报告中进一步丰富了数据集，增加了 33,605 条句子，以捕捉不常见疾病和异常的复杂性和细微差别。我们手动标注了 3,529 条句子以创建测试集。

文件路径

├── [MIMIC_IV] │ ├── dev_IOB.json │ ├── dev_span.json │ ├── test_IOB.json │ ├── test_span.json │ ├── train_IOB.json │ └── train_span.json ├── [Radiopaedia] │ ├── dev_span.json │ ├── dev_IOB.json │ ├── test_IOB.json │ ├── test_span.json │ ├── train_span.json │ └── train_IOB.json └── [all] ├── dev_IOB.json ├── dev_span.json ├── test_IOB.json ├── test_span.json ├── train_IOB.json └── train_span.json

我们首先分别提供来自 MIMIC-IV 和 Radiopaedia 的文件及其集合。此外，对于每种类型的数据，我们提供两种预处理格式以支持不同的命名实体识别（NER）方法：基于 IOB（Inside, Outside, Beginning）标签的预处理和基于跨度标签的预处理。

在 IOB 预处理中，json 文件包含三个项目：id, tokens, ner_tags。
在跨度预处理中，json 文件包含三个项目：note_id, sentence, ner。

使用方法

python from datasets import load_dataset data = load_dataset("Angelakeke/RaTE-NER")

搜集汇总

数据集介绍

背景与挑战

背景概述

RaTE-NER是一个大规模放射学命名实体识别（NER）数据集，专注于医学放射学报告，包含来自MIMIC-IV数据库的手动标注句子和通过GPT-4扩展的Radiopaedia数据，覆盖多种成像模态和解剖区域。该数据集用于Token Classification任务，支持NER模型的训练和评估，具有医学和放射学领域的专业标签。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集