ft-instruction-synthesizer-collection

Hugging Face2024-06-19 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/instruction-pretrain/ft-instruction-synthesizer-collection

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含用于论文'Instruction Pre-Training: Language Models are Supervised Multitask Learners'中基于上下文的指令合成器的微调数据集合。数据集涵盖了超过40个任务类别，包括文本分类、表格问答、问答和零样本分类等，用于生成指令-响应对以预训练语言模型。此外，数据集还详细介绍了多任务微调过程，以开发能够从任何原始文本生成指令-响应对的上下文指令合成器，并提供了数据格式化的示例。

This dataset comprises the fine-tuning data for the context-aware instruction synthesizer introduced in the paper titled 'Instruction Pre-Training: Language Models are Supervised Multitask Learners'. It covers over 40 task categories, including text classification, table question answering, open-domain question answering, zero-shot classification and more, which are used to generate instruction-response pairs for pre-training language models. Furthermore, the dataset elaborates on the multi-task fine-tuning procedure for developing a context-aware instruction synthesizer capable of generating instruction-response pairs from any raw text, and provides examples of data formatting.

创建时间：

2024-06-18

原始信息汇总

数据集概述

数据集配置

该数据集包含多个配置，每个配置对应不同的数据文件和任务类型。以下是各配置的详细信息：

配置列表

squad:
- 训练数据路径: squad/shard/*.jsonl
TopiOCQA:
- 训练数据路径: TopiOCQA/shard/*.jsonl
HotpotQA:
- 训练数据路径: HotpotQA/shard/*.jsonl
WikiTableQuestions:
- 训练数据路径: WikiTableQuestions/shard/*.jsonl
Quac:
- 训练数据路径: Quac/shard/*.jsonl
QED:
- 训练数据路径: QED/shard/*.jsonl
FairyTaleQA:
- 训练数据路径: FairyTaleQA/shard/*.jsonl
mctest:
- 训练数据路径: mctest/shard/*.jsonl
NarrativeQA:
- 训练数据路径: NarrativeQA/shard/*.jsonl
race:
- 训练数据路径: race/shard/*.jsonl
race_c:
- 训练数据路径: race_c/shard/*.jsonl
ReClor:
- 训练数据路径: ReClor/shard/*.jsonl
LogiQA:
- 训练数据路径: LogiQA/shard/*.jsonl
AQUA_RAT:
- 训练数据路径: AQUA_RAT_yes_opt/shard/*.jsonl
dream:
- 训练数据路径: dream/shard/*.jsonl
TriviaQA:
- 训练数据路径: TriviaQA/shard/*.jsonl
NLQuAD:
- 训练数据路径: NLQuAD/shard/*.jsonl
NewsQA:
- 训练数据路径: NewsQA/shard/*.jsonl
tweet_qa:
- 训练数据路径: tweet_qa/shard/*.jsonl
quail:
- 训练数据路径: quail/shard/*.jsonl
multirc:
- 训练数据路径: multirc/shard/*.jsonl
ROPES:
- 训练数据路径: ROPES/shard/*.jsonl
QuaRTz:
- 训练数据路径: QuaRTz/shard/*.jsonl
CoQA:
- 训练数据路径: CoQA/shard/*.jsonl
DoQA:
- 训练数据路径: DoQA/shard/*.jsonl
CosmosQA:
- 训练数据路径: CosmosQA/shard/*.jsonl
qasper:
- 训练数据路径: qasper/shard/*.jsonl
PubMedQA_no_opt:
- 训练数据路径: PubMedQA_no_opt/shard/*.jsonl
PubMedQA_yes_opt:
- 训练数据路径: PubMedQA_yes_opt/shard/*.jsonl
COVID_QA:
- 训练数据路径: COVID_QA/shard/*.jsonl
ConvFinQA:
- 训练数据路径: ConvFinQA/shard/*.jsonl
SpartQA:
- 训练数据路径: SpartQA/shard/*.jsonl
bAbI:
- 训练数据路径: bAbI/shard/*.jsonl
QASC:
- 训练数据路径: QASC/shard/*.jsonl
ECQA:
- 训练数据路径: ECQA/shard/*.jsonl

任务类别

该数据集涵盖以下任务类别：

文本分类
表格问答
问答
零样本分类

语言

该数据集主要使用英语。

许可证

该数据集的许可证为“其他”。

搜集汇总

数据集介绍

构建方式

ft-instruction-synthesizer-collection 数据集的构建基于多任务微调框架，旨在通过上下文驱动的指令合成器生成指令-响应对。该合成器通过对语言模型进行微调，能够从任意原始文本中生成多样化的指令-响应对。微调过程中，每个输入序列由同一数据集的多个样本拼接而成，且损失函数仅针对指令-响应对部分进行计算。这种构建方式确保了合成器在推理阶段能够泛化到未见过的数据，从而为大规模预训练语料库生成高质量的指令-响应对。

使用方法

使用该数据集时，首先需要加载数据集并按照预定义的模板格式化上下文和指令-响应对。通过将多个样本拼接成单一序列，并仅在输出部分计算损失，用户可以对语言模型进行多任务微调。数据集支持多种任务类型，用户可以根据需求选择特定的数据集进行微调。此外，数据集中已明确添加了BOS和EOS标记，因此在分词过程中无需额外添加特殊标记。这种使用方法确保了模型在预训练和微调过程中能够高效地学习多任务知识。

背景与挑战

背景概述

ft-instruction-synthesizer-collection数据集是用于支持指令预训练框架的关键资源，旨在通过生成指令-响应对来增强大规模原始语料库的预训练效果。该数据集由微软等机构的研究团队于2024年提出，并在EMNLP 2024会议上发表。其核心研究问题在于如何通过多任务监督预训练提升语言模型的泛化能力，特别是在从零开始的预训练和领域自适应持续预训练中表现出色。该数据集涵盖了40多个任务类别，生成了超过2亿条指令-响应对，显著推动了语言模型在通用和领域特定任务中的性能提升。

当前挑战

ft-instruction-synthesizer-collection数据集面临的挑战主要体现在两个方面。首先，在领域问题方面，该数据集旨在解决多任务监督预训练的复杂性，尤其是在生成高质量指令-响应对时，如何确保生成的指令具有足够的多样性和准确性，以覆盖广泛的自然语言理解任务。其次，在构建过程中，数据集的多样性和规模带来了显著的技术挑战，包括如何高效地从不同来源的数据集中提取和整合信息，以及如何在预训练过程中平衡不同任务之间的权重，以确保模型在多任务学习中的表现一致性。此外，数据集的构建还需解决数据格式的统一和标注质量的保证问题，以确保生成的指令-响应对能够有效支持模型的预训练和微调。

常用场景

经典使用场景

ft-instruction-synthesizer-collection数据集在自然语言处理领域中被广泛用于多任务学习的预训练任务。该数据集通过结合多种问答任务（如SQuAD、HotpotQA、WikiTableQuestions等），生成了大量的指令-响应对，用于训练语言模型。这些指令-响应对能够帮助模型在不同任务之间进行有效的知识迁移，从而提升模型在零样本学习、文本分类、问答系统等任务中的表现。

解决学术问题

该数据集解决了多任务学习中数据稀缺和任务多样性不足的问题。通过生成大规模的指令-响应对，研究人员能够更有效地进行模型预训练，尤其是在零样本学习和领域自适应任务中表现出色。此外，该数据集还为语言模型的持续预训练提供了高质量的数据支持，使得模型能够在特定领域（如金融、生物医学）中表现出更强的适应能力。

实际应用

在实际应用中，ft-instruction-synthesizer-collection数据集被广泛用于构建智能问答系统、自动文本生成工具以及领域特定的语言模型。例如，在金融领域，基于该数据集训练的模型能够自动生成财务报告或回答复杂的金融问题；在生物医学领域，模型能够帮助医生快速获取医学文献中的关键信息，提升诊断效率。

数据集最近研究