BatsResearch/ctga-v1

Name: BatsResearch/ctga-v1
Creator: BatsResearch
Published: 2024-06-11 12:11:35
License: 暂无描述

Hugging Face2024-06-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/BatsResearch/ctga-v1

下载链接

链接失效反馈

官方服务：

资源简介：

ctga-v1（带有属性的条件任务生成）是一个通过重新混合现有的指令调优数据集（P3）来创建的新数据集，用于训练Bonito模型。该数据集包含多种任务类型，如文本生成、主题分类、情感分析等。每个数据实例包含多个字段，如上下文、任务输入、任务输出等。

提供机构：

BatsResearch

原始信息汇总

数据集卡片 for ctga-v1

数据集详情

ctga-v1 或 conditional task generation with attributes 是一个通过重新混合现有的指令调优数据集（P3）创建的新数据集，用于训练 Bonito。

python3 from datasets import load_dataset dataset = load_dataset("BatsResearch/ctga-v1")

数据集描述

仓库: Github Repo
论文: Arxiv
联系人: Nihal V. Nayak

数据集创建

该数据集源自 P3，通过注释来自 39 个数据集的 323 个提示模板和 16 种任务类型生成。

提示模板在 P3 中被重新混合以创建元模板，进而生成训练示例。

元模板输入包含任务类型 (<|tasktype|>) 作为属性，后跟未注释的文本或上下文 (<|context|>)。

元模板的输出包含带有提示或任务描述的属性任务和上下文 ({context})，后跟管道符号 (<|pipe|>) 和任务的解决方案。

我们使用 <|pipe|> 符号来分隔用于适应下游模型的指令和响应对。

数据实例

每个数据实例包含以下特征：context, task_input, task_output, dataset, dataset_config, task_type, input 和 output。

(input, output) 对用于训练 Bonito 模型。

数据字段

context: 输入上下文
task_input: 无上下文的提示输入
task_output: 相应的输出
dataset: 源数据集
dataset_config: 源数据集配置
task_type: 相应的任务类型
input: 重新格式化的输入
output: 重新格式化的输出

源数据

所有数据集均来自 datasets 库。

抽取式问答 & 问题生成
- adversarial_qa/dbert
- adversarial_qa/dbidaf
- adversarial_qa/droberta
- duorc/ParaphraseRC
- duorc/SelfRC
- squad
主题分类
- ag_news
- dbpedia_14
- hellaswag
- duorc/ParaphraseRC
- duorc/SelfRC
- squad
情感分析
- amazon_polarity
- imdb
- rotten_tomatoes
- yelp_review_full
自然语言推理
- anli
- super_glue/cb
多选题问答
- app_reviews
- cosmos_qa
- dream
- qasc
- quail
- quartz
- race/all
- social_i_qa
- super_glue/boolq
- super_glue/record
- wiki_hop/original
文本生成
- app_reviews
- cnn_dailymail/3.0.0
- dream
- duorc/ParaphraseRC
- duorc/SelfRC
- gigaword
- samsum
摘要
- cnn_dailymail/3.0.0
- duorc/ParaphraseRC
- duorc/SelfRC
- gigaword
- multi_newspaws/labeled_final
- samsum
- xsum
释义生成 & 识别
- glue/mrpc
- multi_newspaws/labeled_final
是非题问答
- race/all
- social_i_qa
- super_glue/boolq
句子补全
- hellaswag
- super_glue/copa
文本蕴含
- super_glue/rte
词义消歧
- super_glue/wic
指代消解
- super_glue/wsc.fixed

引用

BibTeX:

@inproceedings{bonito:aclfindings24, title = {Learning to Generate Instruction Tuning Datasets for Zero-Shot Task Adaptation}, author = {Nayak, Nihal V. and Nan, Yiyang and Trost, Avi and Bach, Stephen H.}, booktitle = {Findings of the Association for Computational Linguistics: ACL 2024}, year = {2024}}

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，数据集的构建往往涉及对现有资源的重组与优化。ctga-v1数据集通过重新组合P3数据集中的323个提示模板，这些模板来自39个不同的数据集，涵盖16种任务类型。通过这种方式，ctga-v1生成了新的元模板，这些元模板进一步生成训练示例。每个元模板输入包含任务类型和未注释的文本或上下文，而输出则包括带有任务描述和上下文的任务，后跟一个管道符号和任务的解决方案。这种结构化的数据生成方式，旨在为下游模型如Bonito提供适应性训练数据。

特点

ctga-v1数据集的显著特点在于其高度结构化和多样化的任务类型。该数据集不仅涵盖了从提取式问答到文本生成等多种任务，还通过管道符号清晰地分隔了指令和响应对，便于模型理解和处理。此外，数据集的构建过程中，对源数据进行了细致的标注和重组，确保了数据的高质量和适用性。这种多任务、多源数据的融合，使得ctga-v1成为训练和评估自然语言处理模型的理想选择。

使用方法

使用ctga-v1数据集进行模型训练或评估时，用户首先需要通过HuggingFace的datasets库加载数据集。具体操作可以通过调用load_dataset函数，指定数据集名称为'BatsResearch/ctga-v1'。加载后的数据集包含多个字段，如上下文、任务输入、任务输出等，这些字段可以直接用于模型的输入和输出训练。特别地，数据集中的('input', 'output')对是训练Bonito模型的关键数据，用户可以根据具体需求选择合适的字段进行模型训练或评估。

背景与挑战

背景概述

在自然语言处理领域，任务生成与属性条件化是一个新兴的研究方向。`ctga-v1`数据集由BatsResearch团队创建，旨在通过重新组合现有的指令调优数据集（如P3）来训练Bonito模型。该数据集的核心研究问题是如何在零样本任务适应中生成有效的指令调优数据。通过注释323个来自39个数据集的提示模板，并将其与16种任务类型结合，`ctga-v1`数据集为研究者提供了一个丰富的资源，以探索任务生成与属性条件化的前沿技术。该数据集的创建不仅推动了自然语言处理技术的发展，还为未来的研究提供了坚实的基础。

当前挑战

尽管`ctga-v1`数据集在任务生成与属性条件化方面展现了巨大的潜力，但其构建过程中仍面临诸多挑战。首先，数据集的多样性要求在不同任务类型和数据源之间进行有效的整合与标注，这增加了数据处理的复杂性。其次，如何确保生成的指令在零样本任务适应中具有高度的有效性和泛化能力，是一个亟待解决的问题。此外，数据集的规模和质量直接影响模型的训练效果，如何在有限的资源下优化数据集的构建过程，也是研究者需要面对的挑战。

常用场景

经典使用场景

在自然语言处理领域，BatsResearch/ctga-v1数据集的经典使用场景主要集中在条件任务生成与属性标注。该数据集通过重新组合现有的指令调优数据集（如P3），生成包含任务类型和上下文信息的元模板，从而为训练Bonito模型提供丰富的训练样本。这种设计使得模型能够在不同任务类型之间进行灵活转换，适用于多种文本生成任务，如摘要生成、问题回答和情感分析等。

实际应用

在实际应用中，BatsResearch/ctga-v1数据集被广泛用于构建和优化自然语言处理系统。例如，在智能客服、自动文本摘要和情感分析等领域，该数据集为模型提供了多样化的训练数据，从而提高了系统的性能和适应性。此外，该数据集还支持跨领域的任务迁移，使得模型能够在不同应用场景中保持高效和准确。

衍生相关工作

基于BatsResearch/ctga-v1数据集，研究者们开展了一系列相关工作。例如，有研究利用该数据集进行多任务学习的实验，验证了任务类型属性对模型性能的提升作用。此外，还有工作探讨了如何利用该数据集进行零样本学习的策略优化，进一步推动了自然语言处理技术的发展。这些研究不仅丰富了数据集的应用场景，也为后续研究提供了宝贵的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集