openlifescienceai/medmcqa|医学考试数据集|自动问答数据集
收藏数据集概述
名称: MedMCQA
描述: MedMCQA是一个大规模的多选题问答(MCQA)数据集,旨在解决实际医学入学考试问题。该数据集包含超过194,000个高质量的AIIMS和NEET PG入学考试多选题,覆盖2,400个医疗保健主题和21个医学科目。
语言: 英语
许可: Apache-2.0
多语言性: 单语
大小: 100K<n<1M
源数据: 原始数据
任务类别:
- 问答
- 多选题
任务ID:
- multiple-choice-qa
- open-domain-qa
数据集信息:
-
特征:
id
: 字符串,问题标识符question
: 字符串,问题文本opa
,opb
,opc
,opd
: 字符串,选项A, B, C, Dcop
: 类标签,正确选项(a, b, c, d)choice_type
: 字符串,问题类型(单选/多选)exp
: 字符串,专家答案解释subject_name
: 字符串,医学科目名称topic_name
: 字符串,医学主题名称
-
数据分割:
train
: 182,822个问题test
: 6,150个问题validation
: 4,183个问题
数据集结构
-
数据实例: 每个实例包含问题、正确答案、其他选项、答案解释、所属科目和主题。
-
数据字段:
id
: 问题标识符question
: 问题文本opa
,opb
,opc
,opd
: 选项cop
: 正确选项choice_type
: 问题类型exp
: 答案解释subject_name
: 科目名称topic_name
: 主题名称
-
数据分割: 训练集包含所有收集的模拟和在线测试系列,测试集包含所有AIIMS PG考试多选题,验证集包含NEET PG考试多选题。
数据集创建
-
来源数据: 数据从官方网站和书籍中收集,覆盖1991年至今的AIIMS和NEET PG考试题目。
-
语言创建者: 专家生成
-
注释: 数据集不包含额外注释。
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
Coffee_Shop_Sales
该数据集包含了咖啡店的详细交易信息,包括交易ID、日期、时间、店铺编号、位置、产品类别、类型、名称、价格、月份、日期、星期和小时等属性。数据集用于分析咖啡店的销售情况,如收入和交易量的变化趋势。
github 收录
koen430/relevant_selected_stock_news
该数据集包含通过GPT-3.5-turbo筛选出的新闻文章,旨在用于微调大型语言模型,以预测新闻发布后的股票价格变动。数据集包括多个特征,如股票代码、提示、文本、URL、结果、相关性、令牌计数等,并分为训练集、验证集和测试集。
hugging_face 收录
中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
NREL Wind Integration National Dataset (WIND) Toolkit
NREL Wind Integration National Dataset (WIND) Toolkit 是一个包含美国大陆风能资源和电力系统集成数据的综合数据集。该数据集提供了高分辨率的风速、风向、风能密度、电力输出等数据,覆盖了美国大陆的多个地理区域。这些数据有助于研究人员和工程师进行风能资源评估、电力系统规划和集成研究。
www.nrel.gov 收录