five

CN-X2RG Dataset|医疗影像分析数据集|自然语言处理数据集

收藏
github2024-04-08 更新2024-05-31 收录
医疗影像分析
自然语言处理
下载链接:
https://github.com/Endless-Hao/CN-X2RG
下载链接
链接失效反馈
资源简介:
Generating Chinese Radiology Reports from X-ray Images: A Public Dataset and An X-ray-to-Reports Generation Method
创建时间:
2024-04-08
原始信息汇总

CN-X2RG数据集概述

数据集名称

CN-X2RG

数据集描述

CN-X2RG是一个用于从X光图像生成中文放射学报告的公共数据集。该数据集与一种X光图像到报告生成方法一同提出,相关研究发表于MICCAI 2023 Workshops: Care-AI 2023。

数据集内容

  • 报告语言对比:数据集包含中文和英文放射学报告,其中蓝色框表示原始报告为英文,红色框表示原始报告为中文。
  • 报告示例:提供了按照CN-RadGraph模式标注的样本报告及其关联的知识图谱。

引用信息

使用或扩展本数据集时,请引用以下文献: bibtex @inproceedings{tang2023generating, title={Generating Chinese Radiology Reports from X-Ray Images: A Public Dataset and an X-ray-to-Reports Generation Method}, author={Tang, Wen and Pei, Chenhao and Yu, Pengxin and Zhang, Huan and Min, Xiangde and Chen, Cancan and Kang, Han and Xu, Weixin and Zhang, Rongguo}, booktitle={International Conference on Medical Image Computing and Computer-Assisted Intervention}, pages={79--88}, year={2023}, organization={Springer} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
CN-X2RG数据集的构建基于从X射线图像生成中文放射报告的需求,结合了ChatGPT作为翻译工具,将英文放射报告翻译为中文。该数据集通过CN-RadGraph架构对报告进行标注,并构建了相应的知识图谱,以增强数据集的语义表达和结构化信息。
特点
CN-X2RG数据集的显著特点在于其专注于中文放射报告的生成,填补了该领域的空白。数据集不仅包含了高质量的中文报告,还通过CN-RadGraph架构提供了结构化的知识图谱,使得数据集在语义理解和信息提取方面具有显著优势。
使用方法
使用CN-X2RG数据集时,研究者可以利用其提供的X射线图像和对应的中文放射报告进行模型训练,特别是针对图像到文本生成任务。此外,数据集中的CN-RadGraph标注和知识图谱可用于进一步的语义分析和模型优化,提升放射报告生成的准确性和可靠性。
背景与挑战
背景概述
CN-X2RG数据集由Tang Wen等研究人员于2023年提出,旨在解决从X射线图像生成中文放射报告的核心问题。该数据集的构建基于MICCAI 2023的Care-AI研讨会,并提出了一种从X射线图像到中文报告的生成方法。CN-X2RG不仅为中文放射报告生成提供了首个公开数据集,还通过引入CN-RadGraph架构,增强了报告的结构化表示与知识图谱的关联,从而推动了医学图像与自然语言处理技术的交叉应用。该数据集的发布对提升中文医学影像报告生成的自动化水平具有重要意义,并为相关领域的研究提供了新的基准。
当前挑战
CN-X2RG数据集的构建面临多重挑战。首先,从X射线图像生成准确且语义丰富的中文放射报告,需克服图像特征提取与语言生成之间的复杂映射问题。其次,中文放射报告的生成需考虑医学术语的准确性与多样性,避免生成模型的过度泛化或欠拟合。此外,数据集的构建过程中,如何有效利用ChatGPT等工具进行翻译与校对,确保报告内容的质量与一致性,也是一大挑战。最后,CN-RadGraph架构的引入虽增强了报告的结构化表示,但其与现有生成模型的兼容性及其实际应用效果仍需进一步验证。
常用场景
经典使用场景
CN-X2RG数据集在医学影像分析领域中,主要用于从X射线图像生成中文放射报告。该数据集通过结合图像特征与自然语言处理技术,能够自动生成结构化的中文放射报告,极大地提高了放射科医生的工作效率。其经典使用场景包括但不限于:辅助放射科医生快速生成初步诊断报告,支持医学影像的自动化分析与解读,以及为医学教育提供标准化的报告模板。
解决学术问题
CN-X2RG数据集解决了医学影像与自然语言处理交叉领域中的关键问题,即如何从非结构化的X射线图像中提取有效信息并生成准确的中文放射报告。这一数据集不仅推动了医学影像自动化的研究进展,还为跨语言医学报告生成提供了新的研究方向。其意义在于,通过提供高质量的中文放射报告数据,促进了医学影像与自然语言处理技术的深度融合,为相关领域的学术研究提供了宝贵的资源。
衍生相关工作
CN-X2RG数据集的发布催生了一系列相关的经典工作,包括基于该数据集的深度学习模型优化、跨语言医学报告生成方法的研究,以及医学影像与自然语言处理技术的融合应用。这些工作不仅推动了医学影像自动化的技术进步,还为跨学科研究提供了新的思路和方法。通过这些衍生工作,CN-X2RG数据集在学术界和工业界均产生了深远的影响。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录