Technoculture/MedpromptCoT

Name: Technoculture/MedpromptCoT
Creator: Technoculture
Published: 2024-03-06 17:55:43
License: 暂无描述

Hugging Face2024-03-06 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/Technoculture/MedpromptCoT

下载链接

链接失效反馈

官方服务：

资源简介：

数据集MedpromptCoT是一个包含医学领域问题和答案的数据集，特别关注于推理过程（Chain of Thought, CoT）。它由gpt-3.5-turbo模型生成，包含676个训练样本，每个样本包括问题、选项、推理过程和答案。数据集来源于两个主要的数据集：openlifescienceai/medmcqa和GBaker/MedQA-USMLE-4-options，总共使用了1k行数据，但最终只选择了676行正确的推理过程数据。

提供机构：

Technoculture

原始信息汇总

数据集概述

数据集信息

特征:
- question: 字符串类型
- options: 字符串类型
- reasoning: 字符串类型
- answer: 字符串类型
分割:
- train: 包含676个样本，数据大小为506301字节
下载大小: 287262字节
数据集大小: 506301字节
配置:
- default: 包含训练数据文件路径为data/train-*
许可证: MIT
语言: 英语

数据集生成来源

数据集混合:
- openlifescienceai/medmcqa: 原始大小183k行，使用0.5k行
- GBaker/MedQA-USMLE-4-options: 原始大小10.2k行，使用0.5k行
总大小: 1k行
选择正确CoT后的总大小: 0.676k行

5,000+

优质数据集

54 个

任务类型

进入经典数据集