bigscience/P3
收藏Hugging Face2024-03-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigscience/P3
下载链接
链接失效反馈资源简介:
P3(Public Pool of Prompts)是由BigScience项目开发的英文提示数据集集合,旨在促进多任务自然语言处理模型的训练与评估。该数据集汇聚了177个NLP任务的数据集,涵盖文本分类、问答、自然语言推理等多种任务类型。每个任务配备了多个提示模板,共计2073个,平均每个任务约11.7个模板。P3的数据通过PromptSource工具集构建,该工具由全球600多名研究人员共同开发,支持将标准监督数据转换为自然语言提示格式。P3的设计旨在提升模型在零样本和少样本设置下的泛化能力,已被用于训练如T0和BLOOM等大型语言模型。
P3 (Public Pool of Prompts) is a collection of English prompt datasets developed by the BigScience project, aiming to facilitate the training and evaluation of multi-task natural language processing (NLP) models. This dataset aggregates datasets from 177 NLP tasks, covering various task types such as text classification, question answering, natural language inference, and more. Each task is equipped with multiple prompt templates, totaling 2073 in all, with an average of approximately 11.7 templates per task. The data of P3 is constructed using the PromptSource toolset, which was developed by over 600 researchers across the globe and supports converting standard supervised data into natural language prompt formats. Designed to improve the generalization capability of models under zero-shot and few-shot settings, P3 has been utilized to train large language models such as T0 and BLOOM.
提供机构:
bigscience
原始信息汇总
数据集概述
基本信息
- 标注创建者: 众包和专家生成
- 语言: 英语
- 许可证: Apache 2.0
- 多语言性: 单语种
- 大小类别: 100M < n < 1B
- 任务类别: 其他
- 数据集名称: P3
配置详情
配置: adversarial_qa_dbert_answer_the_following_q
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 18313753 字节, 10000 样本validation: 1791034 字节, 1000 样本
- 下载大小: 6288641 字节
- 数据集大小: 20104787 字节
配置: adversarial_qa_dbert_based_on
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 17580553 字节, 10000 样本validation: 1717566 字节, 1000 样本
- 下载大小: 6206744 字节
- 数据集大小: 19298119 字节
配置: adversarial_qa_dbert_generate_question
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 18552810 字节, 10000 样本validation: 1824231 字节, 1000 样本test: 1954952 字节, 1000 样本
- 下载大小: 5882604 字节
- 数据集大小: 22331993 字节
配置: adversarial_qa_dbert_question_context_answer
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 16859685 字节, 10000 样本validation: 1646118 字节, 1000 样本
- 下载大小: 6180363 字节
- 数据集大小: 18505803 字节
配置: adversarial_qa_dbert_tell_what_it_is
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 17793277 字节, 10000 样本validation: 1739418 字节, 1000 样本
- 下载大小: 6276720 字节
- 数据集大小: 19532695 字节
配置: adversarial_qa_dbidaf_answer_the_following_q
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 18273217 字节, 10000 样本validation: 1797789 字节, 1000 样本
- 下载大小: 6321670 字节
- 数据集大小: 20071006 字节
配置: adversarial_qa_dbidaf_based_on
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 17539777 字节, 10000 样本validation: 1724577 字节, 1000 样本
- 下载大小: 6247591 字节
- 数据集大小: 19264354 字节
配置: adversarial_qa_dbidaf_generate_question
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 18508967 字节, 10000 样本validation: 1830585 字节, 1000 样本test: 1925723 字节, 1000 样本
- 下载大小: 5983857 字节
- 数据集大小: 22265275 字节
配置: adversarial_qa_dbidaf_question_context_answer
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 16821505 字节, 10000 样本validation: 1652425 字节, 1000 样本
- 下载大小: 6292806 字节
- 数据集大小: 18473930 字节
配置: adversarial_qa_dbidaf_tell_what_it_is
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 17755161 字节, 10000 样本validation: 1745717 字节, 1000 样本
- 下载大小: 6250903 字节
- 数据集大小: 19500878 字节
配置: adversarial_qa_droberta_answer_the_following_q
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 18084393 字节, 10000 样本validation: 1798375 字节, 1000 样本
- 下载大小: 6223439 字节
- 数据集大小: 19882768 字节
配置: adversarial_qa_droberta_based_on
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 17352073 字节, 10000 样本validation: 1725151 字节, 1000 样本
- 下载大小: 6202901 字节
- 数据集大小: 19077224 字节
配置: adversarial_qa_droberta_generate_question
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 18257414 字节, 10000 样本validation: 1828966 字节, 1000 样本test: 1997556 字节, 1000 样本
- 下载大小: 5928633 字节
- 数据集大小: 22083936 字节
配置: adversarial_qa_droberta_question_context_answer
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 16638393 字节, 10000 样本validation: 1653815 字节, 1000 样本
- 下载大小: 6193786 字节
- 数据集大小: 18292208 字节
配置: adversarial_qa_droberta_tell_what_it_is
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 17571837 字节, 10000 样本validation: 1747043 字节, 1000 样本
- 下载大小: 6152157 字节
- 数据集大小: 19318880 字节
配置: ag_news_classify
- 特征:
answer_choices: 序列, stringinputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 79459523 字节, 120000 样本test: 5007082 字节, 7600 样本
- 下载大小: 37504540 字节
- 数据集大小: 84466605 字节
配置: ag_news_classify_question_first
- 特征:
answer_choices: 序列, stringinputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 79339523 字节, 120000 样本test: 4999482 字节, 7600 样本
- 下载大小: 37311664 字节
- 数据集大小: 84339005 字节
配置: ag_news_classify_with_choices
- 特征:
answer_choices: 序列, stringinputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 91699523 字节, 120000 样本test: 5782282 字节, 7600 样本
- 下载大小: 38377186 字节
- 数据集大小: 97481805 字节
配置: ag_news_classify_with_choices_question_first
- 特征:
answer_choices: 序列, stringinputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 91699523 字节, 120000 样本test: 5782282 字节, 7600 样本
- 下载大小: 38318638 字节
- 数据集大小: 97481805 字节
配置: ag_news_recommend
- 特征:
answer_choices: 序列, stringinputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 94039523 字节, 120000 样本test: 5930482 字节, 7600 样本
- 下载大小: 38368116 字节
- 数据集大小: 99970005 字节
配置: ag_news_which_section
- 特征:
answer_choices: 序列, stringinputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 83899523 字节, 120000 样本test: 5288282 字节, 7600 样本
- 下载大小: 37893964 字节
- 数据集大小: 89187805 字节
配置: ag_news_which_section_choices
- 特征:
answer_choices: 序列, stringinputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 100099523 字节, 120000 样本test: 6314282 字节, 7600 样本
- 下载大小: 39167925 字节
- 数据集大小: 106413805 字节
配置: ai2_arc_ARC_Challenge_heres_a_problem
- 特征:
answer_choices: 序列, stringinputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train:
搜集汇总
数据集介绍

构建方式
P3数据集通过众包和专家生成的方式构建,包含了多种配置名称,每个配置名称下的数据集针对不同的任务类别,如对抗性问答、新闻分类等。数据集以单语种英文为主,遵循Apache-2.0协议。
特点
P3数据集的特点在于其多样性,涵盖了多种任务类型,如对抗性问答、新闻分类、情感分析等。数据集规模较大,训练集和验证集的样本数量充足,有利于模型的训练和评估。此外,数据集还提供了预处理后的输入,方便用户使用。
使用方法
使用P3数据集时,用户可以根据不同的任务类别选择相应的配置名称。每个配置名称下的数据集都包含了训练集和验证集,部分还包含了测试集。用户可以下载整个数据集或仅下载所需的 splits。数据集以JSON格式存储,可以通过HuggingFace的库进行加载和处理。
背景与挑战
背景概述
P3数据集是由专家和众包方式创建的,旨在为对抗性问答和自然语言处理任务提供支持。该数据集包含了多种配置,如adversarial_qa_dbert_answer_the_following_q、adversarial_qa_dbert_based_on等,每个配置都有训练集和验证集。创建于近期,P3数据集由bigscience组织负责,其主要研究人员或机构信息不详。该数据集的核心研究问题是提升机器学习模型在对抗性环境下的问答能力,对相关领域产生了重要影响。
当前挑战
P3数据集在构建过程中遇到的挑战主要包括:如何有效生成对抗性样本,以及如何确保数据集的质量和多样性。此外,由于数据集规模较大,处理和存储也是一个挑战。在研究领域问题方面,挑战包括如何提高模型在复杂问题情境下的泛化能力,以及如何处理和回答含有隐含意义或需要推理的问题。
常用场景
经典使用场景
P3数据集广泛应用于自然语言处理任务,如对抗性问答、文本分类、情感分析等。其中,经典的使用场景包括在大型预训练模型如BERT、DBERT、RoBERTa上进行微调,以适应特定的任务需求,例如回答生成、问题回答、文本分类等。
衍生相关工作
基于P3数据集,研究人员衍生出了多项相关工作,包括开发新的模型架构以处理对抗性问答任务,提出更有效的情感分析模型,以及构建基于深度学习的文本分类系统等。这些工作进一步推动了自然语言处理领域的研究进展。
数据集最近研究
最新研究方向
bigscience/P3数据集的最新研究方向主要聚焦于对抗性问答和新闻分类任务。在对抗性问答领域,研究者致力于探索如何基于不同模型(如DBert、DBidaf、Droberta)生成对抗性问题、回答问题以及识别问题背景等。而在新闻分类任务中,则关注于如何利用模型对新闻文章进行分类、推荐以及判断新闻所属的版块。这些研究对于提升自然语言处理技术在现实世界应用中的鲁棒性和准确性具有重要意义。
以上内容由遇见数据集搜集并总结生成



