five

CasiMedicos-Arg|医学问答数据集|论证分析数据集

收藏
arXiv2024-10-08 更新2024-10-09 收录
医学问答
论证分析
下载链接:
https://github.com/ixa-ehu/antidote-casimedicos
下载链接
链接失效反馈
资源简介:
CasiMedicos-Arg是一个多语言的医学问答数据集,由法国蔚蓝海岸大学和西班牙巴斯克大学联合创建。该数据集包含558个临床案例,涵盖英语、西班牙语、法语和意大利语,每个案例都由医生提供正确和错误诊断的自然语言解释,并手动标注了论证结构(如前提、主张、支持关系和攻击关系)。数据集的创建过程包括从原始西班牙语数据自动翻译和手动校对为其他语言,并进行详细的论证结构标注。该数据集主要用于医学问答任务中的论证挖掘和生成技术研究,旨在帮助医生训练解释技能,特别是在需要解释诊断和治疗决策的场景中。
提供机构:
法国蔚蓝海岸大学,CNRS,Inria,I3S
创建时间:
2024-10-08
原始信息汇总

Antidote CasiMedicos Datasets

数据集概述

该数据集基于CasiMedicos项目,该项目由医学专业人员组成的社区,自愿且免费地发布关于Resident Medical Intern考试(MIR)中可能答案的书面解释。这些考试通过多选题问卷评估医学生,有时通过简短的临床案例进行情境化。

数据集内容

  • casimedicos-raw: 包含原始MIR考试和西班牙医学医生编写的解释的纯文本文档。
  • casimedicos-exp: 对解释部分的标注,将解释中的部分与可能的答案相关联。
  • casimedicos-arg: 对论证结构的标注,包括论证组件、关系、话语标记、医疗治疗和诊断。

casimedicos-raw

  • 包含2011-2014年、2016年以及2018-2022年的1,561个带注释的问题。
  • 选择包含临床案例的问题后,文档数量从1,561减少到622。
  • 下载链接: casimedicos-raw

casimedicos-exp

  • 基于casimedicos-raw中包含临床案例的文档。
  • 手动标注了正确和错误答案解释的开始和结束位置。
  • 提供了格式化的数据集: casimedicos-exp-squad-format

引用

  • casimedicos-raw: bibtex @inproceedings{Agerri2023HiTZAntidoteAE, title={HiTZ@Antidote: Argumentation-driven Explainable Artificial Intelligence for Digital Medicine}, author={Rodrigo Agerri and I{~n}igo Alonso and Aitziber Atutxa and Ander Berrondo and Ainara Estarrona and Iker Garc{i}a-Ferrero and Iakes Goenaga and Koldo Gojenola and Maite Oronoz and Igor Perez-Tejedor and German Rigau and Anar Yeginbergenova}, booktitle={SEPLN 2023: 39th International Conference of the Spanish Society for Natural Language Processing.}, year={2023} }

  • casimedicos-exp: bibtex @misc{goenaga2023explanatory, title={Explanatory Argument Extraction of Correct Answers in Resident Medical Exams}, author={Iakes Goenaga and Aitziber Atutxa and Koldo Gojenola and Maite Oronoz and Rodrigo Agerri}, year={2023}, eprint={2312.00567}, archivePrefix={arXiv} }

联系信息

  • Rodrigo Agerri (rodrigo.agerri@ehu.eus)
AI搜集汇总
数据集介绍
main_image_url
构建方式
CasiMedicos-Arg数据集的构建基于CasiMedicos语料库,该语料库包含558个临床案例及其对应的医生解释。研究团队在此基础上,通过人工注释的方式,为每个案例的正确和错误诊断添加了自然语言解释,并进一步标注了论证结构,包括论证成分(如前提和主张)及其关系(如支持与攻击)。这一过程确保了数据集的高质量与专业性,使其成为医学问答领域首个多语言且包含论证结构的数据集。
使用方法
CasiMedicos-Arg数据集可用于多种研究目的,包括但不限于论证挖掘、医学问答系统的开发与评估,以及多语言自然语言处理模型的训练。研究者可以通过该数据集训练和验证模型,以识别和生成医学问答中的论证结构。此外,数据集的多语言特性还支持跨语言和多语言模型的研究,有助于提升模型在不同语言环境下的适应性和准确性。
背景与挑战
背景概述
CasiMedicos-Arg数据集由Université Côte d'Azur、CNRS、Inria、I3S和HiTZ Center - Ixa等机构的研究人员共同创建,旨在解决医疗领域中人工智能决策解释的重大挑战。该数据集于2024年发布,是首个多语言(英语、西班牙语、法语、意大利语)的医疗问答数据集,包含由医生撰写的自然语言解释,并手动注释了论证结构(如前提、主张、支持与攻击关系)。CasiMedicos-Arg不仅填补了现有医疗问答数据集在多语言支持和论证解释方面的空白,还为开发辅助医生训练解释技能的新工具提供了基础,对提升医疗AI的教育应用具有重要意义。
当前挑战
CasiMedicos-Arg数据集面临的主要挑战包括:首先,当前医疗问答研究主要集中在提供正确答案,而忽视了医生在实际工作中需解释和论证其预测的需求。其次,大多数现有数据集仅支持英语,限制了多语言环境下医疗问答模型的评估。此外,数据集构建过程中需确保注释的准确性和一致性,这涉及复杂的论证结构注释和跨语言注释投影的挑战。最后,如何有效利用这些注释数据进行模型训练和评估,以提升医疗问答系统的解释性和论证能力,也是该数据集面临的重要问题。
常用场景
经典使用场景
CasiMedicos-Arg数据集的经典使用场景主要集中在医学问答系统中,特别是用于训练和评估模型在处理临床案例时的解释能力。该数据集通过提供由医生编写的自然语言解释,增强了正确和错误诊断的详细说明,使得研究者能够开发和测试模型在生成和理解医学解释方面的能力。
解决学术问题
CasiMedicos-Arg数据集解决了医学问答领域中缺乏包含解释性论证结构的多语言数据集的问题。它不仅提供了正确和错误诊断的详细解释,还通过手动注释的论证组件(如前提、主张)和论证关系(如支持、攻击),为研究者提供了一个丰富的资源,用于探索和验证模型在生成和理解医学解释方面的能力。
实际应用
在实际应用中,CasiMedicos-Arg数据集可用于开发和优化医学教育工具,帮助住院医生训练他们的解释技能。此外,该数据集还可用于构建和评估智能医疗助手,这些助手不仅能够提供准确的诊断,还能生成详细的解释,帮助医生和患者更好地理解医疗决策的依据。
数据集最近研究
最新研究方向
在医疗领域,CasiMedicos-Arg数据集的最新研究方向主要集中在医学问答(Medical Question Answering, QA)系统中解释性论证结构的应用。该数据集通过引入由医生编写的自然语言解释,并手动注释论证组件(如前提、主张)和论证关系(如支持、攻击),为医学QA任务提供了丰富的多语言资源。这一研究方向不仅推动了医学QA系统在多语言环境下的性能提升,还促进了生成技术在医学预测解释中的应用,从而增强了系统的透明性和可解释性。
相关研究论文
  • 1
    CasiMedicos-Arg: A Medical Question Answering Dataset Annotated with Explanatory Argumentative Structures法国蔚蓝海岸大学,CNRS,Inria,I3S · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域地面气象要素驱动数据集 v2.0(1951-2024)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 74 年(1951~2024 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

Photovoltaic power plant data

包括经纬度、电源板模型、NWP等信息。

github 收录

The Rice Annotation Project Database (RAP-DB)

RAP-DB是一个专注于水稻基因组注释的数据库,提供了水稻基因组的详细注释信息,包括基因结构、功能注释、表达数据等。该数据库旨在为水稻研究者提供一个全面的资源,以促进水稻基因组学和遗传学的研究。

rapdb.dna.affrc.go.jp 收录