five

MVPCorpus|自然语言生成数据集|多任务学习数据集

收藏
github2025-01-14 收录
自然语言生成
多任务学习
下载链接:
https://github.com/RUCAIBox/MVP
下载链接
链接失效反馈
资源简介:
MVPCorpus是由中国人民大学于2022年6月发布的一个大规模自然语言生成(NLG)数据集。该数据集从11种不同的NLG任务中收集了77个数据集,涵盖了常识生成、数据到文本生成、开放式对话系统、释义生成、问答、问题生成、故事生成、任务导向对话系统、文本简化、文本风格转换和文本摘要等多种任务。MVPCorpus被用于多任务监督预训练(MVP)模型,通过将不同任务的输入数据统一转换为文本到文本的格式,以监督学习的方式预训练文本生成模型。

The MVPCorpus, released by Renmin University of China in June 2022, is a large-scale Natural Language Generation (NLG) dataset. It aggregates 77 datasets from 11 distinct NLG tasks, encompassing a wide range of applications such as commonsense generation, data-to-text generation, open-domain dialogue systems, paraphrase generation, question answering, question generation, story generation, task-oriented dialogue systems, text simplification, text style transfer, and text summarization. The MVPCorpus is utilized for multi-task supervised pre-training (MVP) models, where input data from various tasks are uniformly transformed into a text-to-text format to pre-train text generation models through supervised learning.
提供机构:
中国人民大学
原始信息汇总

MVP数据集概述

数据集基本信息

  • 名称:MVP (Multi-task Supervised Pre-training for Natural Language Generation)
  • 架构:标准Transformer编码器-解码器结构
  • 类型:监督预训练自然语言生成模型
  • 特色:包含任务特定软提示(prompt)设计

支持任务与对应数据集

文本摘要

  • CNN/Daily Mail (cnndm)
  • XSum (xsum)
  • SAMSum (samsum)
  • WLE (wle)

开放式对话系统

  • PersonaChat (pc)
  • DailyDialog (dd)
  • DSTC7-AVSD (da)
  • SGD (sgd)

数据到文本生成

  • WebNLG v2.1 (webnlg)
  • WebNLG v3.0 (webnlg2)
  • WikiBio (wikibio)
  • E2E (e2e)
  • DART (dart)
  • ToTTo (totto)

问题生成

  • SQuAD (squadqg)
  • CoQA (coqaqg)

故事生成

  • ROCStories (roc)
  • WritingPrompts (wp)

问答系统

  • SQuAD (squad)
  • CoQA (coqa)

任务导向对话系统

  • MultiWOZ 2.0 (multiwoz)

常识生成

  • CommonGen (cg)

文本简化

  • WikiAuto + Turk/ASSET (wia)

释义生成

  • Quora (quora)

文本风格转换

  • GYAFC-E&M (gyafc_em)
  • GYAFC-F&R (gyafc_fr)

模型获取方式

  • 基础模型:RUCAIBox/mvp
  • 任务特定提示模型:RUCAIBox/mvp-[task_name]
  • 多任务预训练变体:RUCAIBox/mvp-multi-task

相关资源

  • 论文地址:https://arxiv.org/abs/2206.12131
  • 模型仓库:https://huggingface.co/models?filter=mvp
  • 数据集下载:https://huggingface.co/RUCAIBox
AI搜集汇总
数据集介绍
main_image_url
构建方式
MVPCorpus数据集的构建基于标准的Transformer编码器-解码器架构,通过监督预训练的方式,使用标记的数据集进行训练。此外,该模型还引入了针对特定任务的软提示,以激发模型在执行相应任务时的潜能。
特点
MVPCorpus数据集的特点在于,它专门为自然语言生成任务设计,能够适应多种生成任务,并且还可以调整以用于自然语言理解任务。该数据集支持11种生成任务,涵盖了文本摘要、开放式对话系统、数据到文本生成、问题生成、故事生成、问题回答、面向任务的对话系统、常识生成、文本简化、释义生成和文本风格转换等。
使用方法
使用MVPCorpus数据集进行微调、推理和评估时,用户需先下载相应的数据集。通过提供的代码,可以按照管道化的方式进行模型的微调、推理和评估。用户可以根据需要选择不同的微调方法和模型,例如使用MVP、MVP+S/M、Single或BART进行微调。此外,还支持轻量级提示调整,以提高模型在特定任务上的表现。
背景与挑战
背景概述
MVPCorpus数据集源自2022年 Tang等人发表的研究成果,该研究旨在通过多任务监督预训练来提升自然语言生成任务的表现。该数据集基于RUCAIBox的文本生成库TextBox 2.0进行实现,采用了标准的Transformer编码器-解码器架构,并通过标注数据集进行监督预训练。MVPCorpus的设计专注于自然语言生成领域,并能够适应多种生成任务,其影响力在自然语言处理领域中可见一斑,为相关研究提供了重要的数据和模型基础。
当前挑战
MVPCorpus数据集在构建过程中面临的挑战主要包括如何有效融合多任务学习,以及如何在预训练阶段充分利用标注数据。研究团队需要解决的领域问题是如何提高模型在自然语言生成任务中的泛化能力和准确性。此外,数据集的多样性和规模也是构建过程中必须考虑的重要因素,这对于模型的训练和评估至关重要。
常用场景
经典使用场景
在自然语言生成领域,MVPCorpus数据集遵循标准的Transformer编码器-解码器架构,并采用有监督的预训练方法。其经典使用场景包括文本摘要、开放对话系统、数据到文本生成、问题生成、故事生成、问题回答、任务导向对话系统、常识生成、文本简化和文本风格转换等多种自然语言生成任务,展现了该数据集在促进模型多任务处理能力方面的广泛应用。
解决学术问题
MVPCorpus数据集通过多任务监督预训练,解决了自然语言生成任务中的数据不足、模型适应性差等问题。它使得预训练模型在特定任务上表现出色,同时支持轻量级提示调整,为学术研究提供了高效的任务适应性和模型微调策略,显著提升了相关任务的处理质量和效率。
衍生相关工作
基于MVPCorpus数据集的研究衍生出了多项相关工作,包括对MVP模型的改进、多任务学习的策略优化以及提示调整技术的深入研究,这些工作进一步拓宽了自然语言生成领域的研究视野,并推动了相关技术的商业化和产业化进程。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9

该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。

huggingface 收录

stanford_cars

该数据集是一个包含多个汽车品牌和型号的图片数据集,每个图片样本都标记有相应的汽车品牌和型号信息。数据集适用于图像识别和分类任务,特别是汽车品牌和型号的识别。

huggingface 收录

Granary

Granary是一个包含25种欧洲语言的大规模语音识别和翻译数据集,由NVIDIA等多家机构联合创建。数据集通过伪标签技术生成,旨在解决低资源语言的语音处理问题。数据集包含约643,237.57小时的语音数据,经过精心筛选和处理,旨在提高数据质量并减少数据中的错误。该数据集可用于自动语音识别(ASR)和自动语音翻译(AST)等领域的研究,有助于提高语音模型在低资源语言上的准确性和鲁棒性。

arXiv 收录

ShapeNet

ShapeNet 是由斯坦福大学、普林斯顿大学和美国芝加哥丰田技术研究所的研究人员开发的大型 3D CAD 模型存储库。该存储库包含超过 3 亿个模型,其中 220,000 个模型被分类为使用 WordNet 上位词-下位词关系排列的 3,135 个类。 ShapeNet Parts 子集包含 31,693 个网格,分为 16 个常见对象类(即桌子、椅子、平面等)。每个形状基本事实包含 2-5 个部分(总共 50 个部分类)。

OpenDataLab 收录

Spambase

Spambase数据集是一个垃圾邮件数据集,包含57个属性和4601个实例。该数据集主要用于垃圾邮件的识别和分类。垃圾邮件的资源都来自邮件管理员和提交垃圾邮件的个人。可用于构建垃圾邮件过滤器。 该数据集由惠普实验室在1999年7月发布,马克·霍普金斯、埃里克·里伯、乔治·福尔曼和雅普·苏蒙德为主要贡献者。

OpenDataLab 收录