five

Angelakeke/RaTE-NER

收藏
Hugging Face2024-11-23 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/Angelakeke/RaTE-NER
下载链接
链接失效反馈
官方服务:
资源简介:
RaTE-NER数据集是一个大规模的放射学命名实体识别(NER)数据集,包含来自MIMIC-IV数据库的1,816份报告中的13,235个手动标注的句子,涵盖了9种成像模式和23个解剖区域,确保了全面的覆盖。此外,数据集还通过GPT-4和其他医学知识库从Radiopaedia的17,432份报告中进一步丰富了33,605个句子,以捕捉罕见疾病和异常的复杂性和细微差别。手动标注了3,529个句子以创建测试集。数据集提供了两种预处理格式:基于IOB(Inside, Outside, Beginning)标记和基于span标记的预处理。

The RaTE-NER dataset is a large-scale, radiological named entity recognition (NER) dataset, including 13,235 manually annotated sentences from 1,816 reports within the MIMIC-IV database, that spans 9 imaging modalities and 23 anatomical regions, ensuring comprehensive coverage. Additionally, the dataset is further enriched with 33,605 sentences from the 17,432 reports available on Radiopaedia, by leveraging GPT-4 and other medical knowledge libraries to capture intricacies and nuances of less common diseases and abnormalities. A test set was created by manually labeling 3,529 sentences. The dataset provides two preprocessing formats: IOB (Inside, Outside, Beginning) tagging and span tagging.
提供机构:
Angelakeke
原始信息汇总

数据集卡片 for RaTE-NER 数据集

数据集概述

RaTE-NER 数据集是一个大规模的放射学命名实体识别(NER)数据集,包含来自 MIMIC-IV 数据库的 13,235 条手动标注句子,涉及 1,816 份报告,涵盖 9 种成像模式和 23 个解剖区域,确保了全面的覆盖。

此外,我们还通过利用 GPT-4 和其他医学知识库,从 Radiopaedia 上的 17,432 份报告中进一步丰富了数据集,增加了 33,605 条句子,以捕捉不常见疾病和异常的复杂性和细微差别。我们手动标注了 3,529 条句子以创建测试集。

文件路径

├── [MIMIC_IV] │ ├── dev_IOB.json │ ├── dev_span.json │ ├── test_IOB.json │ ├── test_span.json │ ├── train_IOB.json │ └── train_span.json ├── [Radiopaedia] │ ├── dev_span.json │ ├── dev_IOB.json │ ├── test_IOB.json │ ├── test_span.json │ ├── train_span.json │ └── train_IOB.json └── [all] ├── dev_IOB.json ├── dev_span.json ├── test_IOB.json ├── test_span.json ├── train_IOB.json └── train_span.json

我们首先分别提供来自 MIMIC-IV 和 Radiopaedia 的文件及其集合。此外,对于每种类型的数据,我们提供两种预处理格式以支持不同的命名实体识别(NER)方法:基于 IOB(Inside, Outside, Beginning)标签的预处理和基于跨度标签的预处理。

  • 在 IOB 预处理中,json 文件包含三个项目:id, tokens, ner_tags。
  • 在跨度预处理中,json 文件包含三个项目:note_id, sentence, ner。

使用方法

python from datasets import load_dataset data = load_dataset("Angelakeke/RaTE-NER")

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
RaTE-NER是一个大规模放射学命名实体识别(NER)数据集,专注于医学放射学报告,包含来自MIMIC-IV数据库的手动标注句子和通过GPT-4扩展的Radiopaedia数据,覆盖多种成像模态和解剖区域。该数据集用于Token Classification任务,支持NER模型的训练和评估,具有医学和放射学领域的专业标签。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作