Angelakeke/RaTE-NER
收藏数据集卡片 for RaTE-NER 数据集
数据集概述
RaTE-NER 数据集是一个大规模的放射学命名实体识别(NER)数据集,包含来自 MIMIC-IV 数据库的 13,235 条手动标注句子,涉及 1,816 份报告,涵盖 9 种成像模式和 23 个解剖区域,确保了全面的覆盖。
此外,我们还通过利用 GPT-4 和其他医学知识库,从 Radiopaedia 上的 17,432 份报告中进一步丰富了数据集,增加了 33,605 条句子,以捕捉不常见疾病和异常的复杂性和细微差别。我们手动标注了 3,529 条句子以创建测试集。
文件路径
├── [MIMIC_IV] │ ├── dev_IOB.json │ ├── dev_span.json │ ├── test_IOB.json │ ├── test_span.json │ ├── train_IOB.json │ └── train_span.json ├── [Radiopaedia] │ ├── dev_span.json │ ├── dev_IOB.json │ ├── test_IOB.json │ ├── test_span.json │ ├── train_span.json │ └── train_IOB.json └── [all] ├── dev_IOB.json ├── dev_span.json ├── test_IOB.json ├── test_span.json ├── train_IOB.json └── train_span.json
我们首先分别提供来自 MIMIC-IV 和 Radiopaedia 的文件及其集合。此外,对于每种类型的数据,我们提供两种预处理格式以支持不同的命名实体识别(NER)方法:基于 IOB(Inside, Outside, Beginning)标签的预处理和基于跨度标签的预处理。
- 在 IOB 预处理中,json 文件包含三个项目:id, tokens, ner_tags。
- 在跨度预处理中,json 文件包含三个项目:note_id, sentence, ner。
使用方法
python from datasets import load_dataset data = load_dataset("Angelakeke/RaTE-NER")




