HPAI-BSC/CareQA|医疗问答数据集|专业考试数据集

hugging_face2024-05-21 更新2024-05-25 收录

医疗问答

专业考试

下载链接：

https://hf-mirror.com/datasets/HPAI-BSC/CareQA

下载链接

链接失效反馈

资源简介：

CareQA是一个基于西班牙专业医疗培训（FSE）考试的多选题问答数据集。该数据集从官方考试来源收集，涵盖了2020年至2024年的生物学、化学、医学、护理学、药理学和心理学考试。数据集支持英语和西班牙语，包含5621个样本。每个问题有四个可能的答案，模型需要从中选择正确的选项。数据集主要用于评估模型在多选题问答任务中的表现，且数据集被设计为评估数据集，因此整个数据集被视为测试集。

提供机构：

HPAI-BSC

原始信息汇总

数据集概述

数据集名称

名称: CareQA
别名: CareQA_en, CareQA_es

数据集描述

概述: CareQA是一个多选题问答数据集，基于西班牙专业医疗培训考试（FSE）。该数据集从官方考试资源中收集，涵盖2020至2024年的生物学、化学、医学、护理、药理学和心理学考试。数据集包含5621个样本，支持英语和西班牙语。

数据集结构

数据实例: 每个实例包含考试ID、问题文本、四个选项、正确答案选项、考试年份、科目类别和唯一标识符。
数据字段: 包括exam_id, question, op1至op4, cop, year, category, unique_id。
数据分割: 整个数据集作为测试集，包含5621个样本，分布在六个科目类别和五个考试年份中。

数据集创建

来源数据: 数据来源于官方政府网站，通过自动处理和手动审查确保质量。
语言: 原始语言为西班牙语，部分问题已翻译成英语。

使用考虑

社会影响: 可用于开发和测试医疗领域的多选题问答模型，用于评估人工智能模型的医疗知识。
偏见讨论: 数据集未进行偏见评估，但由专家生成，被认为基本无偏见。

附加信息

许可证: Apache License 2.0
数据集维护者: Lucia Urcelay Ganzabal 和 Pablo Bernabeu Pérez
引用信息: 参考文献Aloe: A Family of Fine-tuned Open Healthcare LLMs

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

UniProt

UniProt（Universal Protein Resource）是全球公认的蛋白质序列与功能信息权威数据库，由欧洲生物信息学研究所（EBI）、瑞士生物信息学研究所（SIB）和美国蛋白质信息资源中心（PIR）联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名，整合了实验验证的高质量数据与大规模预测的自动注释内容，涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库（分为人工校验的Swiss-Prot和自动生成的TrEMBL），以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具，为基础研究和药物研发提供了无可替代的支持，成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建，包含超过420小时的2D视频，涵盖20种不同语言，旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集，每段视频都配有语言标签和伪转录，部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证，确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力，通过引入语言特定风格嵌入，使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

Breast Ultrasound Images (BUSI)

小型（约500×500像素）超声图像，适用于良性和恶性病变的分类和分割任务。

github 收录