huangyt/FINETUNE1

Name: huangyt/FINETUNE1
Creator: huangyt
Published: 2023-09-01 06:31:33
License: 暂无描述

Hugging Face2023-09-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/huangyt/FINETUNE1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个子数据集，涵盖了推理、数学、科学QA、常识等多个领域。每个子数据集都有其特定的类别和问题数量。数据集采用instruction、input、output格式，旨在训练模型执行特定任务。采样算法包括简单随机抽样和未来的分层抽样计划，以处理数据集间的不平衡问题。

提供机构：

huangyt

原始信息汇总

数据集概述

Dataset	Class	Number of Questions
FLAN_CoT(zs)	Reasoning, MATH, ScienceQA, Commonsense	91910
Prm800k	Reasoning, MATH	6713
ScienceQA	ScienceQA	5177
SciBench	ScienceQA	695
ReClor	Reasoning	1624
TheoremQA	Commonsense, MATH, ScienceQA	800
OpenBookQA	Text_Understanding, Reasoning, Commonsense, ScienceQA	5957
ARB	Reasoning, MATH, ScienceQA, Commonsense, Text_Understanding	605
Openassistant-guanaco	Commonsense, Text_Understanding, Reasoning	802
SQuAD 2.0	Text_Understanding	87599
CommonsenseQA	Commonsense	9741
Ethics	Commonsense	21759

数据集采用"instruction、input、output"格式，每个样本包含指令、输入和预期输出。这种格式常用于训练模型执行特定任务，明确指示模型应执行的操作。

json { "input": "", "output": "", "instruction": "" }

FLAN_V2 COT(ZS): 仅从COT中提取zs_opt并分类每个任务。
CommonsenseQA: 从原始数据集中提取问题和选项，并将其放入指令中，输入提示为"选择A、B、C、D或E作为你的解决方案"。
SQuAD: 使用SQUAD数据集的问题作为指令，上下文作为输入。
Ethics: 将原始的标签格式转换为真或假格式，输入包含指令"根据伦理给出真或假"。
其他: Prm800k, ScienceQA, SciBench, ReClor, TheoremQA, OpenBookQA, ARB, OpenAssistant-Guanaco数据集采用与Platypus相同的格式。

首先，从COT、ARB、TheoremQA和Ethics数据集中提取所有数据。ARB和TheoremQA涵盖广泛领域且总数较少，COT质量高，因此包含整个数据集。Ethics数据集也包含整个数据集，以全面学习伦理和安全方面。
剩余数据集最初分为四组进行简单随机抽样：
- Science Questions and Answers: ScienceQA、SciBench
- Reasoning & Mathematics: ReClor、Prm800k
- Text Comprehension: OpenBookQA、SQuAD
- Commonsense: CommonsenseQA、Openassistant-guanaco
由于Science Questions and Answers、Reasoning & Mathematics、Commonsense类别总数未超过30,000，仅Text Comprehension类别进行简单随机抽样，其他类别全部采用。

5,000+

优质数据集

54 个

任务类型

进入经典数据集