MVPCorpus
收藏github2025-01-14 收录
下载链接:
https://github.com/RUCAIBox/MVP
下载链接
链接失效反馈官方服务:
资源简介:
MVPCorpus是由中国人民大学于2022年6月发布的一个大规模自然语言生成(NLG)数据集。该数据集从11种不同的NLG任务中收集了77个数据集,涵盖了常识生成、数据到文本生成、开放式对话系统、释义生成、问答、问题生成、故事生成、任务导向对话系统、文本简化、文本风格转换和文本摘要等多种任务。MVPCorpus被用于多任务监督预训练(MVP)模型,通过将不同任务的输入数据统一转换为文本到文本的格式,以监督学习的方式预训练文本生成模型。
The MVPCorpus, released by Renmin University of China in June 2022, is a large-scale Natural Language Generation (NLG) dataset. It aggregates 77 datasets from 11 distinct NLG tasks, encompassing a wide range of applications such as commonsense generation, data-to-text generation, open-domain dialogue systems, paraphrase generation, question answering, question generation, story generation, task-oriented dialogue systems, text simplification, text style transfer, and text summarization. The MVPCorpus is utilized for multi-task supervised pre-training (MVP) models, where input data from various tasks are uniformly transformed into a text-to-text format to pre-train text generation models through supervised learning.
提供机构:
中国人民大学
原始信息汇总
MVP数据集概述
数据集基本信息
- 名称:MVP (Multi-task Supervised Pre-training for Natural Language Generation)
- 架构:标准Transformer编码器-解码器结构
- 类型:监督预训练自然语言生成模型
- 特色:包含任务特定软提示(prompt)设计
支持任务与对应数据集
文本摘要
- CNN/Daily Mail (cnndm)
- XSum (xsum)
- SAMSum (samsum)
- WLE (wle)
开放式对话系统
- PersonaChat (pc)
- DailyDialog (dd)
- DSTC7-AVSD (da)
- SGD (sgd)
数据到文本生成
- WebNLG v2.1 (webnlg)
- WebNLG v3.0 (webnlg2)
- WikiBio (wikibio)
- E2E (e2e)
- DART (dart)
- ToTTo (totto)
问题生成
- SQuAD (squadqg)
- CoQA (coqaqg)
故事生成
- ROCStories (roc)
- WritingPrompts (wp)
问答系统
- SQuAD (squad)
- CoQA (coqa)
任务导向对话系统
- MultiWOZ 2.0 (multiwoz)
常识生成
- CommonGen (cg)
文本简化
- WikiAuto + Turk/ASSET (wia)
释义生成
- Quora (quora)
文本风格转换
- GYAFC-E&M (gyafc_em)
- GYAFC-F&R (gyafc_fr)
模型获取方式
- 基础模型:
RUCAIBox/mvp - 任务特定提示模型:
RUCAIBox/mvp-[task_name] - 多任务预训练变体:
RUCAIBox/mvp-multi-task
相关资源
- 论文地址:https://arxiv.org/abs/2206.12131
- 模型仓库:https://huggingface.co/models?filter=mvp
- 数据集下载:https://huggingface.co/RUCAIBox
搜集汇总
数据集介绍

构建方式
MVPCorpus数据集的构建基于标准的Transformer编码器-解码器架构,通过监督预训练的方式,使用标记的数据集进行训练。此外,该模型还引入了针对特定任务的软提示,以激发模型在执行相应任务时的潜能。
特点
MVPCorpus数据集的特点在于,它专门为自然语言生成任务设计,能够适应多种生成任务,并且还可以调整以用于自然语言理解任务。该数据集支持11种生成任务,涵盖了文本摘要、开放式对话系统、数据到文本生成、问题生成、故事生成、问题回答、面向任务的对话系统、常识生成、文本简化、释义生成和文本风格转换等。
使用方法
使用MVPCorpus数据集进行微调、推理和评估时,用户需先下载相应的数据集。通过提供的代码,可以按照管道化的方式进行模型的微调、推理和评估。用户可以根据需要选择不同的微调方法和模型,例如使用MVP、MVP+S/M、Single或BART进行微调。此外,还支持轻量级提示调整,以提高模型在特定任务上的表现。
背景与挑战
背景概述
MVPCorpus数据集源自2022年 Tang等人发表的研究成果,该研究旨在通过多任务监督预训练来提升自然语言生成任务的表现。该数据集基于RUCAIBox的文本生成库TextBox 2.0进行实现,采用了标准的Transformer编码器-解码器架构,并通过标注数据集进行监督预训练。MVPCorpus的设计专注于自然语言生成领域,并能够适应多种生成任务,其影响力在自然语言处理领域中可见一斑,为相关研究提供了重要的数据和模型基础。
当前挑战
MVPCorpus数据集在构建过程中面临的挑战主要包括如何有效融合多任务学习,以及如何在预训练阶段充分利用标注数据。研究团队需要解决的领域问题是如何提高模型在自然语言生成任务中的泛化能力和准确性。此外,数据集的多样性和规模也是构建过程中必须考虑的重要因素,这对于模型的训练和评估至关重要。
常用场景
经典使用场景
在自然语言生成领域,MVPCorpus数据集遵循标准的Transformer编码器-解码器架构,并采用有监督的预训练方法。其经典使用场景包括文本摘要、开放对话系统、数据到文本生成、问题生成、故事生成、问题回答、任务导向对话系统、常识生成、文本简化和文本风格转换等多种自然语言生成任务,展现了该数据集在促进模型多任务处理能力方面的广泛应用。
解决学术问题
MVPCorpus数据集通过多任务监督预训练,解决了自然语言生成任务中的数据不足、模型适应性差等问题。它使得预训练模型在特定任务上表现出色,同时支持轻量级提示调整,为学术研究提供了高效的任务适应性和模型微调策略,显著提升了相关任务的处理质量和效率。
衍生相关工作
基于MVPCorpus数据集的研究衍生出了多项相关工作,包括对MVP模型的改进、多任务学习的策略优化以及提示调整技术的深入研究,这些工作进一步拓宽了自然语言生成领域的研究视野,并推动了相关技术的商业化和产业化进程。
以上内容由遇见数据集搜集并总结生成



