five

huangyt/FINETUNE1

收藏
Hugging Face2023-09-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/huangyt/FINETUNE1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个子数据集,涵盖了推理、数学、科学QA、常识等多个领域。每个子数据集都有其特定的类别和问题数量。数据集采用instruction、input、output格式,旨在训练模型执行特定任务。采样算法包括简单随机抽样和未来的分层抽样计划,以处理数据集间的不平衡问题。

该数据集包含多个子数据集,涵盖了推理、数学、科学QA、常识等多个领域。每个子数据集都有其特定的类别和问题数量。数据集采用instruction、input、output格式,旨在训练模型执行特定任务。采样算法包括简单随机抽样和未来的分层抽样计划,以处理数据集间的不平衡问题。
提供机构:
huangyt
原始信息汇总

数据集概述

数据集列表

Dataset Class Number of Questions
FLAN_CoT(zs) Reasoning, MATH, ScienceQA, Commonsense 91910
Prm800k Reasoning, MATH 6713
ScienceQA ScienceQA 5177
SciBench ScienceQA 695
ReClor Reasoning 1624
TheoremQA Commonsense, MATH, ScienceQA 800
OpenBookQA Text_Understanding, Reasoning, Commonsense, ScienceQA 5957
ARB Reasoning, MATH, ScienceQA, Commonsense, Text_Understanding 605
Openassistant-guanaco Commonsense, Text_Understanding, Reasoning 802
SQuAD 2.0 Text_Understanding 87599
CommonsenseQA Commonsense 9741
Ethics Commonsense 21759

数据集格式定义

数据集采用"instruction、input、output"格式,每个样本包含指令、输入和预期输出。这种格式常用于训练模型执行特定任务,明确指示模型应执行的操作。

json { "input": "", "output": "", "instruction": "" }

数据集处理

  • FLAN_V2 COT(ZS): 仅从COT中提取zs_opt并分类每个任务。
  • CommonsenseQA: 从原始数据集中提取问题和选项,并将其放入指令中,输入提示为"选择A、B、C、D或E作为你的解决方案"。
  • SQuAD: 使用SQUAD数据集的问题作为指令,上下文作为输入。
  • Ethics: 将原始的标签格式转换为真或假格式,输入包含指令"根据伦理给出真或假"。
  • 其他: Prm800k, ScienceQA, SciBench, ReClor, TheoremQA, OpenBookQA, ARB, OpenAssistant-Guanaco数据集采用与Platypus相同的格式。

采样算法

  1. 首先,从COT、ARB、TheoremQA和Ethics数据集中提取所有数据。ARB和TheoremQA涵盖广泛领域且总数较少,COT质量高,因此包含整个数据集。Ethics数据集也包含整个数据集,以全面学习伦理和安全方面。

  2. 剩余数据集最初分为四组进行简单随机抽样

    • Science Questions and Answers: ScienceQA、SciBench
    • Reasoning & Mathematics: ReClor、Prm800k
    • Text Comprehension: OpenBookQA、SQuAD
    • Commonsense: CommonsenseQA、Openassistant-guanaco

    由于Science Questions and Answers、Reasoning & Mathematics、Commonsense类别总数未超过30,000,仅Text Comprehension类别进行简单随机抽样,其他类别全部采用。

未来工作

  • 未来计划使用分层抽样,以解决不同数据集间问题数量不平衡带来的偏差。
  • 可以根据第一阶段的微调结果,采用额外的脚本技术来提高数据集质量。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作