casimedicos-arg
收藏Hugging Face2024-11-12 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/HiTZ/casimedicos-arg
下载链接
链接失效反馈官方服务:
资源简介:
CasiMedicos-Arg 是一个多语言的医学问答数据集,包含了由医生撰写的自然语言解释,用于正确和错误的临床诊断。该数据集包括558个临床案例(英语、西班牙语、法语、意大利语),并注释了5021个主张、2313个前提、2431个支持关系和1106个攻击关系。数据集分为训练、验证和测试集,分别包含434、63和125个案例。
提供机构:
HiTZ zentroa
创建时间:
2024-11-12
搜集汇总
数据集介绍

构建方式
CasiMedicos-Arg数据集的构建基于多语言医学问答场景,涵盖了英语、西班牙语、法语和意大利语四种语言。该数据集的核心内容为558个临床案例,每个案例均包含医生撰写的自然语言解释,用于说明正确与错误的诊断。数据集的标注工作由专业医生完成,重点标注了论证结构中的前提、主张以及支持与攻击关系,共标注了5021个主张、2313个前提、2431个支持关系和1106个攻击关系。这一过程确保了数据的高质量和专业性。
特点
CasiMedicos-Arg数据集的特点在于其多语言性和丰富的论证结构标注。它不仅涵盖了多种语言的医学问答数据,还通过详细的论证标注为医学解释提供了结构化支持。数据集中的每个案例均包含医生撰写的自然语言解释,使得数据更具实用性和可解释性。此外,数据集的规模适中,包含558个临床案例,适合用于训练和验证医学问答模型,尤其是在多语言和可解释性研究领域。
使用方法
CasiMedicos-Arg数据集适用于多种自然语言处理任务,包括文本生成、问答系统和标记分类。研究人员可以通过加载不同语言的配置文件(如英语、西班牙语、法语和意大利语)来访问训练、验证和测试集。数据集的结构化标注使其特别适合用于医学问答模型的训练和评估,尤其是在多语言和可解释性研究方面。此外,数据集的开源性质允许研究人员进一步扩展和改进其应用场景。
背景与挑战
背景概述
CasiMedicos-Arg数据集由HiTZ中心与巴斯克大学UPV/EHU的研究团队于2024年发布,旨在为医学问答系统提供多语言支持,并引入解释性论证结构。该数据集包含558个临床案例,涵盖英语、西班牙语、法语和意大利语,每个案例均附有医生撰写的自然语言解释,并标注了论证组件(如前提、主张)和论证关系(如支持、攻击)。作为首个多语言医学问答数据集,CasiMedicos-Arg不仅推动了医学人工智能的发展,还为解释性人工智能(XAI)领域提供了重要的研究资源。其研究背景源于CHIST-ERA XAI 2019项目,得到了MCIN/AEI和欧盟NextGenerationEU/PRTR的资助。
当前挑战
CasiMedicos-Arg数据集在构建和应用中面临多重挑战。首先,医学领域的复杂性和专业性要求数据标注具备高度的准确性和一致性,这对标注团队的专业知识提出了极高要求。其次,多语言数据的处理增加了数据集的构建难度,尤其是在不同语言之间保持语义一致性和文化适应性方面。此外,解释性论证结构的标注需要深入理解医学逻辑和论证关系,这对标注工具和方法提出了新的技术挑战。在应用层面,如何利用该数据集训练出能够准确识别和生成医学论证的模型,尤其是在多语言环境下,仍是一个亟待解决的问题。
常用场景
经典使用场景
CasiMedicos-Arg数据集在医学问答系统中具有广泛的应用,特别是在多语言环境下,医生可以通过该数据集提供的临床案例和解释性论证结构,进行诊断和决策支持。数据集中的每个案例都包含了正确和错误的诊断,并附有医生撰写的自然语言解释,这些解释被进一步标注为论证组件(如前提、主张)和论证关系(如攻击、支持),为医学问答系统提供了丰富的训练和验证数据。
解决学术问题
CasiMedicos-Arg数据集解决了医学问答系统中解释性论证结构缺失的问题。通过提供多语言的临床案例和详细的论证标注,该数据集为研究者提供了一个标准化的工具,用于开发和评估能够生成解释性答案的医学问答系统。这不仅提升了系统的透明度和可信度,还为医学领域的自然语言处理研究提供了新的方向。
衍生相关工作
CasiMedicos-Arg数据集的发布推动了多项相关研究的发展,特别是在医学问答系统和解释性人工智能领域。基于该数据集,研究者开发了多种模型,用于自动检测和生成医学诊断中的论证结构。这些工作不仅提升了医学问答系统的性能,还为解释性人工智能在医疗领域的应用提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



