Technoculture/MedpromptCoT
收藏Hugging Face2024-03-06 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/Technoculture/MedpromptCoT
下载链接
链接失效反馈官方服务:
资源简介:
数据集MedpromptCoT是一个包含医学领域问题和答案的数据集,特别关注于推理过程(Chain of Thought, CoT)。它由gpt-3.5-turbo模型生成,包含676个训练样本,每个样本包括问题、选项、推理过程和答案。数据集来源于两个主要的数据集:openlifescienceai/medmcqa和GBaker/MedQA-USMLE-4-options,总共使用了1k行数据,但最终只选择了676行正确的推理过程数据。
数据集MedpromptCoT是一个包含医学领域问题和答案的数据集,特别关注于推理过程(Chain of Thought, CoT)。它由gpt-3.5-turbo模型生成,包含676个训练样本,每个样本包括问题、选项、推理过程和答案。数据集来源于两个主要的数据集:openlifescienceai/medmcqa和GBaker/MedQA-USMLE-4-options,总共使用了1k行数据,但最终只选择了676行正确的推理过程数据。
提供机构:
Technoculture
原始信息汇总
数据集概述
数据集信息
- 特征:
question: 字符串类型options: 字符串类型reasoning: 字符串类型answer: 字符串类型
- 分割:
train: 包含676个样本,数据大小为506301字节
- 下载大小: 287262字节
- 数据集大小: 506301字节
- 配置:
default: 包含训练数据文件路径为data/train-*
- 许可证: MIT
- 语言: 英语
数据集生成来源
- 数据集混合:
openlifescienceai/medmcqa: 原始大小183k行,使用0.5k行GBaker/MedQA-USMLE-4-options: 原始大小10.2k行,使用0.5k行
- 总大小: 1k行
- 选择正确CoT后的总大小: 0.676k行



