BatsResearch/ctga-v1
收藏数据集卡片 for ctga-v1
数据集详情
ctga-v1 或 conditional task generation with attributes 是一个通过重新混合现有的指令调优数据集(P3)创建的新数据集,用于训练 Bonito。
python3 from datasets import load_dataset dataset = load_dataset("BatsResearch/ctga-v1")
数据集描述
- 仓库: Github Repo
- 论文: Arxiv
- 联系人: Nihal V. Nayak
数据集创建
该数据集源自 P3,通过注释来自 39 个数据集的 323 个提示模板和 16 种任务类型生成。
提示模板在 P3 中被重新混合以创建元模板,进而生成训练示例。
元模板输入包含任务类型 (<|tasktype|>) 作为属性,后跟未注释的文本或上下文 (<|context|>)。
元模板的输出包含带有提示或任务描述的属性任务和上下文 ({context}),后跟管道符号 (<|pipe|>) 和任务的解决方案。
我们使用 <|pipe|> 符号来分隔用于适应下游模型的指令和响应对。
数据实例
每个数据实例包含以下特征:context, task_input, task_output, dataset, dataset_config, task_type, input 和 output。
(input, output) 对用于训练 Bonito 模型。
数据字段
- context: 输入上下文
- task_input: 无上下文的提示输入
- task_output: 相应的输出
- dataset: 源数据集
- dataset_config: 源数据集配置
- task_type: 相应的任务类型
- input: 重新格式化的输入
- output: 重新格式化的输出
源数据
所有数据集均来自 datasets 库。
-
抽取式问答 & 问题生成
- adversarial_qa/dbert
- adversarial_qa/dbidaf
- adversarial_qa/droberta
- duorc/ParaphraseRC
- duorc/SelfRC
- squad
-
主题分类
- ag_news
- dbpedia_14
- hellaswag
- duorc/ParaphraseRC
- duorc/SelfRC
- squad
-
情感分析
- amazon_polarity
- imdb
- rotten_tomatoes
- yelp_review_full
-
自然语言推理
- anli
- super_glue/cb
-
多选题问答
- app_reviews
- cosmos_qa
- dream
- qasc
- quail
- quartz
- race/all
- social_i_qa
- super_glue/boolq
- super_glue/record
- wiki_hop/original
-
文本生成
- app_reviews
- cnn_dailymail/3.0.0
- dream
- duorc/ParaphraseRC
- duorc/SelfRC
- gigaword
- samsum
-
摘要
- cnn_dailymail/3.0.0
- duorc/ParaphraseRC
- duorc/SelfRC
- gigaword
- multi_newspaws/labeled_final
- samsum
- xsum
-
释义生成 & 识别
- glue/mrpc
- multi_newspaws/labeled_final
-
是非题问答
- race/all
- social_i_qa
- super_glue/boolq
-
句子补全
- hellaswag
- super_glue/copa
-
文本蕴含
- super_glue/rte
-
词义消歧
- super_glue/wic
-
指代消解
- super_glue/wsc.fixed
引用
BibTeX:
@inproceedings{bonito:aclfindings24, title = {Learning to Generate Instruction Tuning Datasets for Zero-Shot Task Adaptation}, author = {Nayak, Nihal V. and Nan, Yiyang and Trost, Avi and Bach, Stephen H.}, booktitle = {Findings of the Association for Computational Linguistics: ACL 2024}, year = {2024}}




