LongForm

github2023-04-01 更新2025-01-17 收录

下载链接：

https://github.com/akoksal/LongForm

下载链接

链接失效反馈

资源简介：

LongForm数据集是由慕尼黑大学等机构的研究人员创建的，通过利用英语语料库示例和反向指令方法生成指令调优数据。该数据集从C4和维基百科等现有语料库中选择多样化的人类编写文档，并生成相应指令，还扩展了结构化语料库示例和多种任务示例。

LongForm Dataset was created by researchers from institutions including Ludwig Maximilian University of Munich and other research organizations. It generates instruction-tuning data by leveraging English corpus examples and reverse instruction approaches. This dataset selects diverse human-written documents from existing corpora such as C4 and Wikipedia, generates corresponding instructions, and additionally includes structured corpus examples and a wide range of task examples.

提供机构：

LMU Munich et al.

创建时间：

2023-04-01

原始信息汇总

LongForm 数据集概述

数据集简介

LongForm 数据集是通过反向指令方法利用英文语料库创建的。该数据集从现有的语料库（如 C4 和 Wikipedia）中选择多样化的、人类撰写的文档，并通过大型语言模型（LLMs）为这些文档生成指令。此外，数据集还扩展了结构化语料库（如 Stack Exchange 和 WikiHow）以及任务示例（如问答、邮件写作、语法纠错、故事/诗歌生成和文本摘要）。

数据集与模型

LongForm-C 数据集：发布在 Github 和 HuggingFace 上。
LongForm 模型：发布在 HuggingFace 的模型中心。由于 LLaMA 模型的限制，LongForm-LLaMA-7B 无法公开发布。
- LongForm-LLaMA-7B-diff: https://huggingface.co/akoksal/LongForm-LLaMA-7B-diff
- LongForm-T5-XL: https://huggingface.co/akoksal/LongForm-T5-XL
- LongForm-OPT-125M: https://huggingface.co/akoksal/LongForm-OPT-125M
- LongForm-OPT-350M: https://huggingface.co/akoksal/LongForm-OPT-350M
- LongForm-OPT-1.3B: https://huggingface.co/akoksal/LongForm-OPT-1.3B
- LongForm-OPT-2.7B: https://huggingface.co/akoksal/LongForm-OPT-2.7B
- LongForm-OPT-6.7B: https://huggingface.co/akoksal/LongForm-OPT-6.7B

评估

LongForm 模型在多个任务中表现优异，特别是在食谱生成（Recipe Generation）、长文本问答（ELI5）和短篇故事生成（WritingPrompts/WP）任务中，超越了之前的指令调优模型。

模型性能对比

模型	所有任务	食谱生成	ELI5	写作提示
T0++	10.9	18.7	3.8	10.2
Tk-Instruct	6.3	12.9*	3.6	2.4
Flan-T5	10.6	20.9*	3.5	7.4
Alpaca-LLaMA-7B	14.6	19.5	12.5	11.8
OPT-30B	11.1	18.6	12.2	2.6
LongForm-T5-XL	16.3	20.2	18.3	10.6
LongForm-OPT-6.7B	17.7	16.9	17.2	19.0
LongForm-LLaMA-7B	19.7	21.7	18.6	18.9

语言理解与生成

LongForm-C 数据集在自然语言生成（NLG）和自然语言理解（NLU）任务中表现出色，特别是在与 FLAN 数据集结合使用时，NLU 任务的表现显著提升。

模型	数据集	NLG	NLU (5-shot MMLU)
LLaMA-7B	FLAN	9.1	36.6
LLaMA-7B	LongForm-C	19.7	35.2
LLaMA-7B	FLAN+LongForm-C	16.5	38.9

局限性

LongForm 数据集和模型主要关注长文本生成，在结构化预测任务中存在局限性。此外，LongForm 模型可能会出现与大型语言模型类似的幻觉问题。

许可证

LongForm 项目采用 MIT 许可证，但受到 OpenAI 指令生成部分的限制以及语言模型（OPT、LLaMA 和 T5）许可证的限制。LongForm-C 的 WikiHow 子集受 WikiHow 的许可证约束。

引用

bibtex @misc{koksal2023longform, title={LongForm: Effective Instruction Tuning with Reverse Instructions}, author={Abdullatif Köksal and Timo Schick and Anna Korhonen and Hinrich Schütze}, year={2023}, eprint={2304.08460}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

LongForm数据集的构建采用了逆向指令方法，通过从C4、Wikipedia等现有语料库中选取多样化的英文文档，并利用大语言模型为这些文档生成相应的指令。随后，数据集进一步扩展，纳入了Stack Exchange、WikiHow等结构化语料库的示例，以及问答、邮件撰写、语法纠错、故事/诗歌生成、文本摘要等任务示例，从而形成一个综合性的指令微调数据集。

特点

LongForm数据集的特点在于其多样性和广泛的任务覆盖范围。它不仅包含了丰富的长文本生成任务，还涵盖了多种自然语言理解和生成任务。数据集的构建方式确保了其在不同任务上的泛化能力，尤其是在长文本生成任务中表现出色。此外，数据集还通过逆向指令方法增强了模型对复杂指令的理解能力，使其在多种任务中均能取得优异的性能。

使用方法

LongForm数据集的使用方法较为灵活，用户可以通过HuggingFace平台获取数据集和预训练模型。数据集适用于多种自然语言处理任务，如长文本生成、问答、文本摘要等。用户可以根据具体任务需求，选择合适的模型进行微调或直接使用预训练模型进行推理。此外，数据集的逆向指令方法也为用户提供了新的思路，可以通过生成指令来增强模型的任务理解能力。

背景与挑战

背景概述

LongForm数据集由Abdullatif Köksal等人于2023年创建，旨在通过反向指令方法提升大语言模型在长文本生成任务中的表现。该数据集整合了来自C4、Wikipedia等多样化的英文语料库，并结合Stack Exchange、WikiHow等结构化数据，涵盖了问答、邮件写作、语法纠错、故事生成及文本摘要等多种任务。LongForm的推出不仅丰富了自然语言生成（NLG）领域的研究资源，还为自然语言理解（NLU）任务提供了新的训练范式，显著提升了模型在复杂任务中的表现。

当前挑战

LongForm数据集在构建与应用过程中面临多重挑战。首先，长文本生成任务本身具有复杂性，模型需要在保持上下文连贯性的同时生成高质量内容，这对数据集的多样性和覆盖范围提出了极高要求。其次，尽管反向指令方法有效提升了模型的指令理解能力，但在结构化预测任务中，LongForm的表现仍存在局限。此外，模型在生成过程中可能出现幻觉问题，即生成与事实不符的内容，这一问题在大语言模型中普遍存在，仍需进一步研究解决。最后，数据集的构建受限于开源模型的许可协议，部分模型（如LLaMA-7B）的公开使用受到限制，影响了数据集的广泛传播与应用。

常用场景

经典使用场景

LongForm数据集在自然语言处理领域中被广泛应用于长文本生成任务，如故事创作、诗歌生成、电子邮件撰写以及文本摘要等。通过结合C4、Wikipedia等多样化的语料库，LongForm能够生成高质量的指令，进而提升模型在复杂文本生成任务中的表现。其独特的反向指令生成方法使得模型能够更好地理解并执行复杂的语言任务。

解决学术问题

LongForm数据集解决了自然语言生成（NLG）和自然语言理解（NLU）任务中的多个关键问题。通过引入反向指令生成方法，该数据集显著提升了模型在长文本生成任务中的表现，尤其是在食谱生成、长文本问答和短篇故事生成等任务中表现优异。此外，LongForm还通过结合FLAN数据集，进一步提升了模型在NLU任务中的表现，为多任务学习提供了新的思路。

衍生相关工作

LongForm数据集的发布推动了多个相关研究工作的进展。基于该数据集，研究者们开发了多个高性能的指令微调模型，如LongForm-T5-XL和LongForm-OPT系列模型。这些模型在多个基准测试中表现优异，尤其是在长文本生成任务中超越了现有的指令微调模型。此外，LongForm还为多任务学习和跨领域文本生成任务提供了新的研究思路，推动了自然语言处理领域的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集