ctga-v1

github2024-02-28 更新2024-05-31 收录

下载链接：

https://github.com/BatsResearch/bonito

下载链接

链接失效反馈

官方服务：

资源简介：

ctga-v1 or conditional task generation with attributes is a new dataset created by remixing existing instruction tuning datasets (P3) to train Bonito.

ctga-v1（带属性的条件任务生成，Conditional Task Generation with Attributes）是通过重混现有指令微调数据集（P3）构建的新型数据集，专为训练Bonito设计。

创建时间：

2024-02-25

原始信息汇总

数据集概述

数据集名称

名称: ctga-v1
链接: ctga-v1

数据集用途

用途: 用于生成合成指令调优数据集，支持从无标注文本转换为特定任务的训练数据集。

支持的任务类型

任务类型:
- extractive question answering (exqa)
- multiple-choice question answering (mcqa)
- question generation (qg)
- question answering without choices (qa)
- yes-no question answering (ynqa)
- coreference resolution (coref)
- paraphrase generation (paraphrase)
- paraphrase identification (paraphrase_id)
- sentence completion (sent_comp)
- sentiment (sentiment)
- summarization (summarization)
- text generation (text_gen)
- topic classification (topic_class)
- word sense disambiguation (wsd)
- textual entailment (te)
- natural language inference (nli)

数据集生成方法

生成方法: 使用Bonito模型，结合Hugging Face的transformers和vllm库，通过指定任务类型和采样参数，从无标注文本生成合成数据集。

示例代码

python from bonito import Bonito from vllm import SamplingParams from datasets import load_dataset

bonito = Bonito("BatsResearch/bonito-v1") unannotated_text = load_dataset( "BatsResearch/bonito-experiment", "unannotated_contract_nli" )["train"].select(range(10)) sampling_params = SamplingParams(max_tokens=256, top_p=0.95, temperature=0.5, n=1) synthetic_dataset = bonito.generate_tasks( unannotated_text, context_col="input", task_type="nli", sampling_params=sampling_params )

引用信息

引用:

@inproceedings{bonito:aclfindings24, title = {Learning to Generate Instruction Tuning Datasets for Zero-Shot Task Adaptation}, author = {Nayak, Nihal V. and Nan, Yiyang and Trost, Avi and Bach, Stephen H.}, booktitle = {Findings of the Association for Computational Linguistics: ACL 2024}, year = {2024} }

搜集汇总

数据集介绍

构建方式

ctga-v1数据集的构建依托于Bonito模型，该模型专为条件任务生成而设计，旨在将未标注的文本转化为任务特定的训练数据集。通过Hugging Face的`transformers`和`vllm`库，Bonito能够高效地生成合成数据集。具体流程包括加载未标注文本、初始化Bonito模型，并利用采样参数生成任务特定的数据集。这一过程不仅简化了数据集的创建，还确保了数据的多样性和任务适应性。

使用方法

使用ctga-v1数据集时，用户首先需要初始化Bonito模型，并加载未标注的文本数据。随后，通过指定任务类型和采样参数，调用`generate_tasks`方法生成合成数据集。该数据集可直接用于指令调优，提升模型在特定任务上的表现。此外，用户还可以参考提供的教程，在Google Colab环境中使用量化版本的模型进行实验，进一步优化数据处理和模型训练的效率。

背景与挑战

背景概述

ctga-v1数据集是Bonito项目的重要组成部分，旨在通过条件任务生成技术将未标注的文本转化为任务特定的训练数据集，以支持指令调优任务。该数据集由BatsResearch团队于2024年发布，其核心研究问题在于如何高效地生成高质量的合成数据集，以解决零样本任务适应中的挑战。Bonito模型基于Hugging Face的`transformers`和`vllm`库构建，支持多种任务类型，如问答、文本生成、情感分析等。该数据集及相关研究在自然语言处理领域具有重要影响力，特别是在提升模型泛化能力和减少对大规模标注数据的依赖方面。

当前挑战

ctga-v1数据集在构建和应用过程中面临多重挑战。首先，生成高质量且多样化的合成数据需要克服模型在任务类型和文本风格上的局限性，以确保生成的数据能够有效支持下游任务。其次，数据生成过程中的计算资源消耗较大，尤其是在处理大规模未标注文本时，如何优化生成效率成为关键问题。此外，生成的合成数据需要与真实数据分布保持一致，以避免模型在训练过程中出现过拟合或偏差。这些挑战不仅考验了数据生成技术的鲁棒性，也对模型的泛化能力提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，ctga-v1数据集被广泛应用于生成指令调优数据集，特别是在零样本任务适应场景中。通过将未标注的文本转换为特定任务的训练数据，该数据集为模型提供了丰富的指令调优资源，使其能够在未见过的任务上表现出色。研究人员利用该数据集进行实验，验证了其在多种任务类型中的有效性，如文本生成、问答系统和情感分析等。

解决学术问题

ctga-v1数据集解决了自然语言处理中零样本任务适应的关键问题。传统的模型在面对新任务时，往往需要大量的标注数据进行训练，而ctga-v1通过生成合成数据集，显著减少了这一需求。该数据集为研究人员提供了一个高效的工具，使得模型能够在缺乏标注数据的情况下，依然能够进行有效的任务适应和泛化，推动了零样本学习领域的发展。

实际应用

在实际应用中，ctga-v1数据集被广泛用于构建智能对话系统和自动化文本生成工具。例如，在客户服务领域，该数据集生成的指令调优数据可以帮助构建更加智能的聊天机器人，使其能够理解并回应用户的多样化需求。此外，在内容创作领域，ctga-v1数据集也被用于生成高质量的文本内容，如新闻摘要、产品描述等，提升了内容生成的效率和质量。

数据集最近研究