huangyt/FINETUNE1
收藏Hugging Face2023-09-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/huangyt/FINETUNE1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个子数据集,涵盖了推理、数学、科学QA、常识等多个领域。每个子数据集都有其特定的类别和问题数量。数据集采用instruction、input、output格式,旨在训练模型执行特定任务。采样算法包括简单随机抽样和未来的分层抽样计划,以处理数据集间的不平衡问题。
该数据集包含多个子数据集,涵盖了推理、数学、科学QA、常识等多个领域。每个子数据集都有其特定的类别和问题数量。数据集采用instruction、input、output格式,旨在训练模型执行特定任务。采样算法包括简单随机抽样和未来的分层抽样计划,以处理数据集间的不平衡问题。
提供机构:
huangyt
原始信息汇总
数据集概述
数据集列表
| Dataset | Class | Number of Questions |
|---|---|---|
| FLAN_CoT(zs) | Reasoning, MATH, ScienceQA, Commonsense | 91910 |
| Prm800k | Reasoning, MATH | 6713 |
| ScienceQA | ScienceQA | 5177 |
| SciBench | ScienceQA | 695 |
| ReClor | Reasoning | 1624 |
| TheoremQA | Commonsense, MATH, ScienceQA | 800 |
| OpenBookQA | Text_Understanding, Reasoning, Commonsense, ScienceQA | 5957 |
| ARB | Reasoning, MATH, ScienceQA, Commonsense, Text_Understanding | 605 |
| Openassistant-guanaco | Commonsense, Text_Understanding, Reasoning | 802 |
| SQuAD 2.0 | Text_Understanding | 87599 |
| CommonsenseQA | Commonsense | 9741 |
| Ethics | Commonsense | 21759 |
数据集格式定义
数据集采用"instruction、input、output"格式,每个样本包含指令、输入和预期输出。这种格式常用于训练模型执行特定任务,明确指示模型应执行的操作。
json { "input": "", "output": "", "instruction": "" }
数据集处理
- FLAN_V2 COT(ZS): 仅从COT中提取zs_opt并分类每个任务。
- CommonsenseQA: 从原始数据集中提取问题和选项,并将其放入指令中,输入提示为"选择A、B、C、D或E作为你的解决方案"。
- SQuAD: 使用SQUAD数据集的问题作为指令,上下文作为输入。
- Ethics: 将原始的标签格式转换为真或假格式,输入包含指令"根据伦理给出真或假"。
- 其他: Prm800k, ScienceQA, SciBench, ReClor, TheoremQA, OpenBookQA, ARB, OpenAssistant-Guanaco数据集采用与Platypus相同的格式。
采样算法
-
首先,从COT、ARB、TheoremQA和Ethics数据集中提取所有数据。ARB和TheoremQA涵盖广泛领域且总数较少,COT质量高,因此包含整个数据集。Ethics数据集也包含整个数据集,以全面学习伦理和安全方面。
-
剩余数据集最初分为四组进行简单随机抽样:
- Science Questions and Answers: ScienceQA、SciBench
- Reasoning & Mathematics: ReClor、Prm800k
- Text Comprehension: OpenBookQA、SQuAD
- Commonsense: CommonsenseQA、Openassistant-guanaco
由于Science Questions and Answers、Reasoning & Mathematics、Commonsense类别总数未超过30,000,仅Text Comprehension类别进行简单随机抽样,其他类别全部采用。
未来工作
- 未来计划使用分层抽样,以解决不同数据集间问题数量不平衡带来的偏差。
- 可以根据第一阶段的微调结果,采用额外的脚本技术来提高数据集质量。



