five

dvilares/head_qa

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/dvilares/head_qa
下载链接
链接失效反馈
资源简介:
HEAD-QA是一个多选医疗问答数据集,问题来源于西班牙医疗系统的专业职位考试,这些问题即使对于高度专业化的人员也具有挑战性。数据集旨在为自然语言处理社区提供这些问题的访问权限,以帮助开发更好的问答系统。数据集包含医学、护理、心理学、化学、药理学和生物学等领域的问题。数据集支持的任务是多选问答,数据以西班牙语和英语两种语言提供。数据集的结构包括问题、多个可能的答案、正确答案以及可选的图像。数据集被分为训练集、验证集和测试集,每个语言的数据集都有相应的划分。
提供机构:
dvilares
原始信息汇总

数据集概述

基本信息

  • 数据集名称: HEAD-QA
  • 语言: 英语 (en) 和 西班牙语 (es)
  • 许可证: MIT
  • 多语言性: 单语种
  • 数据集大小: 1K<n<10K
  • 源数据: 原始数据
  • 任务类别: 问答 (question-answering)
  • 任务ID: 多选题问答 (multiple-choice-qa)
  • 论文ID: headqa

数据集结构

配置信息

  • es (西班牙语)

    • 特征:
      • name: 字符串
      • year: 字符串
      • category: 字符串
      • qid: 整数
      • qtext: 字符串
      • ra: 整数
      • image: 图像
      • answers: 列表
        • aid: 整数
        • atext: 字符串
    • 分割:
      • train: 2657个样本, 1229678字节
      • test: 2742个样本, 1204006字节
      • validation: 1366个样本, 573354字节
    • 下载大小: 79365502字节
    • 数据集大小: 3007038字节
  • en (英语)

    • 特征:
      • name: 字符串
      • year: 字符串
      • category: 字符串
      • qid: 整数
      • qtext: 字符串
      • ra: 整数
      • image: 图像
      • answers: 列表
        • aid: 整数
        • atext: 字符串
    • 分割:
      • train: 2657个样本, 1156808字节
      • test: 2742个样本, 1131536字节
      • validation: 1366个样本, 539892字节
    • 下载大小: 79365502字节
    • 数据集大小: 2828236字节

数据字段

  • qid: 问题标识符 (整数)
  • category: 问题类别 (字符串)
  • qtext: 问题文本 (字符串)
  • answers: 可能答案列表 (每个元素包含 aidatext)
  • ra: 正确答案的 aid (整数)
  • image: 图像 (可选)
  • name: 考试名称 (字符串)
  • year: 考试年份 (字符串)

数据分割

  • 西班牙语:
    • train: 2657个样本
    • validation: 1366个样本
    • test: 2742个样本
  • 英语:
    • train: 2657个样本
    • validation: 1366个样本
    • test: 2742个样本
搜集汇总
数据集介绍
main_image_url
构建方式
HEAD-QA数据集是通过收集西班牙卫生系统专业职位考试的题目构建而成的。这些题目由[Ministerio de Sanidad, Consumo y Bienestar Social](https://www.mscbs.gob.es/)设计,并由David Vilares和Carlos Gómez-Rodríguez创建。数据集包含医学、护理、心理学、化学、药理学和生物学等领域的题目,旨在为自然语言处理社区提供复杂推理研究的多选题回答测试平台。数据集被分为训练集、验证集和测试集,并且有西班牙语和英语两种语言版本。
特点
HEAD-QA数据集的特点在于其题目难度高,即使是高度专业的医生也可能感到挑战。数据集包含的题目和答案是多选题形式,并且提供正确答案的标识。此外,数据集还包括了考试名称和年份等信息。HEAD-QA数据集旨在促进复杂推理研究,并提供一个基准来评估未来工作的性能。
使用方法
使用HEAD-QA数据集时,可以加载整个数据集或特定语言的版本。例如,可以使用以下代码加载西班牙语版本的数据集:python from datasets import load_dataset data_es = load_dataset('head_qa')加载英语版本的数据集可以使用以下代码:python from datasets import load_dataset data_en = load_dataset('head_qa', 'en')数据集中的每个数据点包括问题文本、多个可能的答案和正确答案的标识。此外,数据集还包含考试名称和年份等信息。使用数据集时,可以根据需要选择特定的数据字段进行操作。
背景与挑战
背景概述
在自然语言处理领域,问答系统的研究正日益受到关注。HEAD-QA数据集的创建,源于对复杂推理能力提升的需求。该数据集由David Vilares和Carlos Gómez-Rodríguez于2019年创建,旨在通过收集西班牙卫生系统中专业职位资格考试的问题,为研究提供挑战。这些题目甚至对高度专业的人类来说也具有挑战性,体现了数据集的深度和广度。HEAD-QA数据集包含关于医学、护理、心理学、化学、药理学和生物学等多个领域的问题,对于推动问答系统在复杂推理方面的研究具有重要意义。
当前挑战
HEAD-QA数据集面临的挑战包括:1) 所解决的领域问题——它旨在提升问答系统在复杂推理方面的能力,需要模型能够准确理解和回答专业领域的问题;2) 构建过程中所遇到的挑战——数据集的构建需要确保问题的准确性和多样性,同时还要保证答案的准确性。此外,数据集在多语言环境下的应用也面临挑战,需要确保翻译的准确性和一致性。
常用场景
经典使用场景
在自然语言处理领域,问答系统一直是研究的热点之一。HEAD-QA数据集作为多选题问答测试平台,旨在鼓励复杂推理研究。其问题源于西班牙医疗体系中专业职位的准入考试,对人类专家而言也颇具挑战性。该数据集支持多语言(西班牙语和英语),包含医学、护理学、心理学等多个领域的题目,为研究者提供了丰富的测试资源。
实际应用
在实际应用中,HEAD-QA数据集可用于训练和评估医疗领域的问答系统。随着医疗信息的日益丰富,这类系统能够帮助医生快速准确地获取相关信息,从而提高诊断和治疗的效率。此外,HEAD-QA数据集的多语言特性使其适用于跨国医疗机构的问答系统开发,促进医疗信息的国际交流。
衍生相关工作
基于HEAD-QA数据集,研究者开展了多项相关工作。例如,利用该数据集进行跨语言问答系统的训练和评估,以及探索信息检索和神经网络技术在复杂推理中的应用。这些工作不仅验证了HEAD-QA数据集的有效性,还为问答系统的研究提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作