RaTE-NER
收藏数据集概述
数据集简介
RaTE-NER数据集是一个大规模的放射学命名实体识别(NER)数据集,包含13,235条手动标注的句子,来自MIMIC-IV数据库中的1,816份报告,涵盖9种成像模式和23个解剖区域,确保了全面的覆盖。此外,该数据集还通过利用GPT-4和其他医学知识库,从Radiopaedia上的17,432份报告中进一步丰富了33,605条句子,以捕捉不常见疾病和异常的复杂性和细微差别。手动标注了3,529条句子以创建测试集。
文件结构
数据集文件结构如下:
├── [MIMIC_IV] │ ├── dev_IOB.json │ ├── dev_span.json │ ├── test_IOB.json │ ├── test_span.json │ ├── train_IOB.json │ └── train_span.json ├── [Radiopaedia] │ ├── dev_span.json │ ├── dev_IOB.json │ ├── test_IOB.json │ ├── test_span.json │ ├── train_span.json │ └── train_IOB.json └── [all] ├── dev_IOB.json ├── dev_span.json ├── test_IOB.json ├── test_span.json ├── train_IOB.json └── train_span.json
每个类型的数据提供两种预处理格式以支持不同的命名实体识别(NER)方法:基于IOB(Inside, Outside, Beginning)标签的预处理和基于span标签的预处理。
- IOB预处理格式包含三个项目:id, tokens, ner_tags。
- span预处理格式包含三个项目:note_id, sentence, ner。
使用方法
python from datasets import load_dataset data = load_dataset("Angelakeke/RaTE-NER")
作者
作者:Weike Zhao 如有任何问题,请联系zwk0629@sjtu.edu.cn。
引用
如果发现数据/论文有帮助,请考虑引用: bibtex @article{zhao2024ratescore, title={RaTEScore: A Metric for Radiology Report Generation}, author={Zhao, Weike and Wu, Chaoyi and Zhang, Xiaoman and Zhang, Ya and Wang, Yanfeng and Xie, Weidi}, journal={arXiv preprint arXiv:2406.16845}, year={2024} }




