five

ECN-QA

收藏
Hugging Face2024-06-22 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/raidium/ECN-QA
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多种类型的医疗问题,如IQ(个体问题)、Custom(FreeCN创建的IQ)和PQ(渐进问题),来源于法国的ECN考试和FreeCN平台。数据集分为法语和英语两个版本,法语版本为原始数据,英语版本为自动翻译。数据集适用于医疗问答任务,特别设计用于提高医疗问答系统的效率和准确性。
创建时间:
2024-06-21
原始信息汇总

数据集概述

数据集描述

该数据集包含不同类型的医学问题,源自过去的ECN考试(法国医学考试)和FreeCN创建的问题。问题类型包括:

  • IQ(个体问题):包含一个问题和几个正确或错误的选项。
  • 自定义问题:由FreeCN创建的IQ问题。
  • PQ(渐进式问题):包含一个案例介绍和几个后续问题,每个问题有多个选项。

数据集分为法语和英语两个版本,法语版本是原始数据集版本。

数据集配置

数据集包含以下配置:

  • english-full
    • 训练集:english/train.jsonl
    • 测试集:english/test.jsonl
  • english-qi
    • 训练集:english/qi_train.jsonl
    • 测试集:english/qi_test.jsonl
  • english-dp
    • 训练集:english/dp_train.jsonl
    • 测试集:english/dp_test.jsonl
  • english-custom
    • 训练集:english/custom_train.jsonl
    • 测试集:english/custom_test.jsonl
  • french-full
    • 训练集:french/train.jsonl
    • 测试集:french/test.jsonl
  • french-qi
    • 训练集:french/qi_train.jsonl
    • 测试集:french/qi_test.jsonl
  • french-dp
    • 训练集:french/dp_train.jsonl
    • 测试集:french/dp_test.jsonl
  • french-custom
    • 训练集:french/custom_train.jsonl
    • 测试集:french/custom_test.jsonl

使用方法

python from datasets import load_dataset

加载法语完整数据集

ds_french = load_dataset("raidium/ECN-QA", "french-full")

加载英语完整数据集

ds_english = load_dataset("raidium/ECN-QA", "english-full")

加载法语子集

ds_french_qi = load_dataset("raidium/ECN-QA", "french-qi") ds_french_dp = load_dataset("raidium/ECN-QA", "french-dp") ds_french_custom = load_dataset("raidium/ECN-QA", "french-custom")

加载英语子集

ds_english_qi = load_dataset("raidium/ECN-QA", "english-qi") ds_english_dp = load_dataset("raidium/ECN-QA", "english-dp") ds_english_custom = load_dataset("raidium/ECN-QA", "english-custom")

警告

  • 部分问题需要图像才能回答,这些未在此数据集中过滤,因此无法在此数据集上达到100%的准确率。
  • 英语版本是使用Azure Translation API自动翻译的,可能包含翻译错误。

数据集来源

  • 开发机构: Raidium
  • 许可证: Apache 2.0
搜集汇总
数据集介绍
main_image_url
构建方式
ECN-QA数据集构建基于法国医学考试(ECN)的真题以及由FreeCN平台生成的医学问题。数据集包含多种类型的医学问题,如独立问题(IQ)、自定义问题(Custom)以及渐进式问题(PQ)。独立问题包含一个问题和多个可能正确或错误的选项;自定义问题由FreeCN生成;渐进式问题则包含一个病例介绍及其相关的多个问题。数据集分为法语和英语两个版本,其中法语版本为原始数据集,英语版本通过Azure翻译API自动翻译生成。
使用方法
ECN-QA数据集的使用方法灵活多样,研究者可通过Hugging Face的`datasets`库加载完整数据集或其子集。例如,加载法语完整数据集可使用`load_dataset('raidium/ECN-QA', 'french-full')`,而加载英语版本的独立问题子集则可使用`load_dataset('raidium/ECN-QA', 'english-qi')`。数据集支持多种任务类型,如多项选择题的医学问答任务,适用于医学知识问答系统的开发与评估。使用前需通过`huggingface-cli login`登录以获取访问权限。
背景与挑战
背景概述
ECN-QA数据集由Raidium团队开发,旨在为医学问答系统提供高质量的训练数据。该数据集基于法国医学考试(ECN)的试题以及由FreeCN平台生成的自定义问题构建,涵盖了多种类型的医学问题,包括独立问题(IQ)和渐进式问题(PQ)。数据集提供了法语和英语两个版本,其中法语版本为原始数据,英语版本则通过Azure翻译API自动生成。该数据集的研究背景源于医学领域对高效问答系统的需求,特别是在临床决策支持中的应用。相关论文《Efficient Medical Question Answering with Knowledge-Augmented Question Generation》于2024年发表在NAACL的Clinical NLP Workshop上,进一步推动了医学自然语言处理领域的发展。
当前挑战
ECN-QA数据集在构建和应用过程中面临多重挑战。首先,数据集中的部分问题需要依赖图像信息才能解答,而这些问题并未被过滤,导致模型无法达到100%的准确率。其次,英语版本的数据通过自动化翻译生成,可能存在翻译错误,影响模型的训练效果。此外,医学问题的复杂性和多样性对模型的泛化能力提出了更高的要求,尤其是在处理渐进式问题时,模型需要具备较强的上下文理解能力。这些挑战不仅反映了医学问答任务的复杂性,也为未来研究提供了改进的方向。
常用场景
经典使用场景
ECN-QA数据集在医学问答系统中具有广泛的应用场景。该数据集包含了来自法国医学考试(ECN)的题目以及由FreeCN平台生成的自定义问题,涵盖了多种题型,如独立问题(IQ)和渐进式问题(PQ)。这些题目不仅用于评估医学知识的掌握程度,还可用于训练和测试医学问答模型,帮助模型在复杂的医学语境中进行准确的推理和回答。
解决学术问题
ECN-QA数据集解决了医学问答领域中的多个关键学术问题。首先,它提供了一个高质量的医学问答数据集,填补了医学领域多语言问答数据的空白。其次,通过包含多种题型和复杂语境,该数据集能够帮助研究人员开发更具鲁棒性的问答模型,提升模型在真实医学场景中的表现。此外,数据集的自动翻译版本也为跨语言医学问答研究提供了新的可能性。
实际应用
ECN-QA数据集在实际应用中具有重要价值。它被广泛用于医学教育领域,帮助医学生通过模拟考试题目进行自我评估和知识巩固。同时,该数据集也为医学问答系统的开发提供了基础数据支持,能够提升智能医疗助手在诊断支持、患者教育等方面的表现。此外,数据集的跨语言特性使其能够服务于全球范围内的医学研究和教育。
数据集最近研究
最新研究方向
ECN-QA数据集作为医学问答领域的重要资源,近年来在知识增强型问答生成方面取得了显著进展。该数据集基于法国医学考试(ECN)和FreeCN平台生成的问题,涵盖了多种类型的医学问题,包括个体问题(IQ)和渐进问题(PQ)。最新的研究方向聚焦于如何通过知识增强技术提升问答系统的准确性和效率,特别是在多语言环境下(如法语和英语)的自动翻译和跨语言问答能力。相关研究还探讨了如何处理包含图像的问题,以及如何优化翻译质量以减少自动化翻译带来的误差。这些研究不仅推动了医学问答系统的技术进步,也为全球医疗教育资源的共享和标准化提供了重要支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作