five

openlifescienceai/medmcqa|医学考试数据集|自动问答数据集

收藏
hugging_face2024-01-04 更新2024-03-04 收录
医学考试
自动问答
下载链接:
https://hf-mirror.com/datasets/openlifescienceai/medmcqa
下载链接
链接失效反馈
资源简介:
MedMCQA是一个大规模的多选题问答数据集,专门设计用于解决现实世界中的医学入学考试问题。数据集包含了超过194,000个高质量的AIIMS和NEET PG入学考试多选题,涵盖了2,400个医疗主题和21个医学学科。每个样本包含一个问题、正确答案和其他选项,这些问题需要更深层次的语言理解,因为它们测试了模型在广泛医学学科和主题上的10多种推理能力。数据集还提供了详细的解决方案解释。数据集的目标是为自然语言处理社区提供一个开源数据集,以促进未来在问答系统方面的研究。
提供机构:
openlifescienceai
原始信息汇总

数据集概述

名称: MedMCQA

描述: MedMCQA是一个大规模的多选题问答(MCQA)数据集,旨在解决实际医学入学考试问题。该数据集包含超过194,000个高质量的AIIMS和NEET PG入学考试多选题,覆盖2,400个医疗保健主题和21个医学科目。

语言: 英语

许可: Apache-2.0

多语言性: 单语

大小: 100K<n<1M

源数据: 原始数据

任务类别:

  • 问答
  • 多选题

任务ID:

  • multiple-choice-qa
  • open-domain-qa

数据集信息:

  • 特征:

    • id: 字符串,问题标识符
    • question: 字符串,问题文本
    • opa, opb, opc, opd: 字符串,选项A, B, C, D
    • cop: 类标签,正确选项(a, b, c, d)
    • choice_type: 字符串,问题类型(单选/多选)
    • exp: 字符串,专家答案解释
    • subject_name: 字符串,医学科目名称
    • topic_name: 字符串,医学主题名称
  • 数据分割:

    • train: 182,822个问题
    • test: 6,150个问题
    • validation: 4,183个问题

数据集结构

  • 数据实例: 每个实例包含问题、正确答案、其他选项、答案解释、所属科目和主题。

  • 数据字段:

    • id: 问题标识符
    • question: 问题文本
    • opa, opb, opc, opd: 选项
    • cop: 正确选项
    • choice_type: 问题类型
    • exp: 答案解释
    • subject_name: 科目名称
    • topic_name: 主题名称
  • 数据分割: 训练集包含所有收集的模拟和在线测试系列,测试集包含所有AIIMS PG考试多选题,验证集包含NEET PG考试多选题。

数据集创建

  • 来源数据: 数据从官方网站和书籍中收集,覆盖1991年至今的AIIMS和NEET PG考试题目。

  • 语言创建者: 专家生成

  • 注释: 数据集不包含额外注释。

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

Coffee_Shop_Sales

该数据集包含了咖啡店的详细交易信息,包括交易ID、日期、时间、店铺编号、位置、产品类别、类型、名称、价格、月份、日期、星期和小时等属性。数据集用于分析咖啡店的销售情况,如收入和交易量的变化趋势。

github 收录

koen430/relevant_selected_stock_news

该数据集包含通过GPT-3.5-turbo筛选出的新闻文章,旨在用于微调大型语言模型,以预测新闻发布后的股票价格变动。数据集包括多个特征,如股票代码、提示、文本、URL、结果、相关性、令牌计数等,并分为训练集、验证集和测试集。

hugging_face 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

NREL Wind Integration National Dataset (WIND) Toolkit

NREL Wind Integration National Dataset (WIND) Toolkit 是一个包含美国大陆风能资源和电力系统集成数据的综合数据集。该数据集提供了高分辨率的风速、风向、风能密度、电力输出等数据,覆盖了美国大陆的多个地理区域。这些数据有助于研究人员和工程师进行风能资源评估、电力系统规划和集成研究。

www.nrel.gov 收录