five

RaTE-NER

收藏
Hugging Face2024-06-21 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/Angelakeke/RaTE-NER
下载链接
链接失效反馈
官方服务:
资源简介:
RaTE-NER数据集是一个大规模的放射学命名实体识别(NER)数据集,包含来自MIMIC-IV数据库的1,816份报告中手动标注的13,235个句子,涵盖9种成像模式和23个人体解剖区域,确保了全面的覆盖。此外,通过利用GPT-4和其他医学知识库,该数据集还从Radiopaedia的17,432份报告中进一步丰富了33,605个句子,以捕捉不常见疾病和异常的复杂性和细微差别。数据集提供了两种预处理格式以支持不同的NER方法,并清晰地概述了文件路径和结构。
创建时间:
2024-06-20
原始信息汇总

数据集概述

数据集简介

RaTE-NER数据集是一个大规模的放射学命名实体识别(NER)数据集,包含13,235条手动标注的句子,来自MIMIC-IV数据库中的1,816份报告,涵盖9种成像模式和23个解剖区域,确保了全面的覆盖。此外,该数据集还通过利用GPT-4和其他医学知识库,从Radiopaedia上的17,432份报告中进一步丰富了33,605条句子,以捕捉不常见疾病和异常的复杂性和细微差别。手动标注了3,529条句子以创建测试集。

文件结构

数据集文件结构如下:

├── [MIMIC_IV] │ ├── dev_IOB.json │ ├── dev_span.json │ ├── test_IOB.json │ ├── test_span.json │ ├── train_IOB.json │ └── train_span.json ├── [Radiopaedia] │ ├── dev_span.json │ ├── dev_IOB.json │ ├── test_IOB.json │ ├── test_span.json │ ├── train_span.json │ └── train_IOB.json └── [all] ├── dev_IOB.json ├── dev_span.json ├── test_IOB.json ├── test_span.json ├── train_IOB.json └── train_span.json

每个类型的数据提供两种预处理格式以支持不同的命名实体识别(NER)方法:基于IOB(Inside, Outside, Beginning)标签的预处理和基于span标签的预处理。

  • IOB预处理格式包含三个项目:id, tokens, ner_tags。
  • span预处理格式包含三个项目:note_id, sentence, ner。

使用方法

python from datasets import load_dataset data = load_dataset("Angelakeke/RaTE-NER")

作者

作者:Weike Zhao 如有任何问题,请联系zwk0629@sjtu.edu.cn。

引用

如果发现数据/论文有帮助,请考虑引用: bibtex @article{zhao2024ratescore, title={RaTEScore: A Metric for Radiology Report Generation}, author={Zhao, Weike and Wu, Chaoyi and Zhang, Xiaoman and Zhang, Ya and Wang, Yanfeng and Xie, Weidi}, journal={arXiv preprint arXiv:2406.16845}, year={2024} }

搜集汇总
数据集介绍
main_image_url
构建方式
RaTE-NER数据集的构建基于两个主要来源:MIMIC-IV数据库和Radiopaedia平台。首先,从MIMIC-IV数据库中提取了1,816份报告中的13,235个句子,涵盖了9种成像模式和23个解剖区域。其次,通过GPT-4和其他医学知识库,从Radiopaedia的17,432份报告中提取了33,605个句子,进一步丰富了数据集的内容。为确保数据质量,研究人员手动标注了3,529个句子作为测试集。
使用方法
使用RaTE-NER数据集时,可以通过Hugging Face的`datasets`库轻松加载数据。用户只需调用`load_dataset`函数并指定数据集名称即可。数据集提供了多种文件格式,包括`dev_IOB.json`、`dev_span.json`等,用户可以根据需要选择适合的预处理格式进行模型训练和评估。
背景与挑战
背景概述
RaTE-NER数据集是一个大规模放射学命名实体识别(NER)数据集,由Weike Zhao等人于2024年创建,旨在解决医学影像报告中的实体识别问题。该数据集基于MIMIC-IV数据库和Radiopaedia平台,涵盖了9种影像模态和23个解剖区域,确保了广泛的覆盖范围。通过结合GPT-4和其他医学知识库,数据集进一步丰富了罕见疾病和异常情况的标注,为医学自然语言处理领域提供了重要的研究资源。该数据集的发布不仅推动了放射学报告生成和实体识别技术的发展,还为医学信息提取和自动化诊断提供了坚实的基础。
当前挑战
RaTE-NER数据集在构建过程中面临多重挑战。首先,医学文本的复杂性和多样性使得实体标注需要高度的专业知识,尤其是在处理罕见疾病和复杂解剖结构时。其次,数据集的规模庞大,涉及多源数据的整合与清洗,确保标注的一致性和准确性成为关键问题。此外,尽管GPT-4等工具辅助了部分标注工作,但其生成的文本仍需人工验证,以避免潜在的偏差和错误。在应用层面,如何高效处理多模态数据并提升模型在跨域场景下的泛化能力,仍是当前研究的主要挑战。
常用场景
经典使用场景
RaTE-NER数据集在放射学领域的命名实体识别(NER)任务中具有重要应用。该数据集通过整合来自MIMIC-IV和Radiopaedia的放射学报告,涵盖了9种成像模式和23个解剖区域,为研究者提供了一个全面且多样化的训练和测试平台。其经典使用场景包括开发自动化工具,用于从放射学报告中提取关键医学实体,如疾病名称、解剖部位和影像特征,从而辅助医生进行诊断和治疗决策。
解决学术问题
RaTE-NER数据集解决了放射学领域中命名实体识别的关键学术问题。传统NER模型在医学文本上的表现受限于数据稀缺性和领域特异性,而RaTE-NER通过大规模标注数据和多源数据融合,显著提升了模型在复杂医学文本中的识别能力。该数据集不仅支持常规NER任务,还为研究罕见疾病和异常情况提供了丰富的数据基础,推动了医学自然语言处理技术的发展。
实际应用
在实际应用中,RaTE-NER数据集被广泛用于开发智能医疗系统,如放射学报告自动生成工具和临床决策支持系统。通过从放射学报告中提取关键信息,这些系统能够帮助医生快速定位患者病情,减少诊断时间并提高诊断准确性。此外,该数据集还可用于医学教育和研究,为医学生和研究者提供高质量的标注数据,促进医学知识的传播与创新。
数据集最近研究
最新研究方向
在医学影像领域,RaTE-NER数据集的推出为放射学命名实体识别(NER)任务提供了重要的数据支持。该数据集结合了MIMIC-IV和Radiopaedia的丰富资源,涵盖了多种影像模态和解剖区域,显著提升了模型在复杂医学文本中的实体识别能力。近年来,随着深度学习技术的进步,研究者们开始探索如何利用预训练语言模型(如GPT-4)进一步增强NER模型的泛化性能,特别是在罕见疾病和异常情况的识别上。RaTE-NER的引入不仅推动了医学文本分析的前沿研究,还为临床决策支持系统的开发提供了可靠的数据基础,具有重要的学术和实际应用价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作