five

bigscience/P3|自然语言处理数据集|数据模板数据集

收藏
hugging_face2024-03-04 更新2024-03-04 收录
自然语言处理
数据模板
下载链接:
https://hf-mirror.com/datasets/bigscience/P3
下载链接
链接失效反馈
资源简介:
P3(Public Pool of Prompts)是由BigScience项目开发的英文提示数据集集合,旨在促进多任务自然语言处理模型的训练与评估。​该数据集汇聚了177个NLP任务的数据集,涵盖文本分类、问答、自然语言推理等多种任务类型。​每个任务配备了多个提示模板,共计2073个,平均每个任务约11.7个模板。​P3的数据通过PromptSource工具集构建,​该工具由全球600多名研究人员共同开发,支持将标准监督数据转换为自然语言提示格式。​P3的设计旨在提升模型在零样本和少样本设置下的泛化能力,已被用于训练如T0和BLOOM等大型语言模型。
提供机构:
bigscience
原始信息汇总

数据集概述

基本信息

  • 标注创建者: 众包和专家生成
  • 语言: 英语
  • 许可证: Apache 2.0
  • 多语言性: 单语种
  • 大小类别: 100M < n < 1B
  • 任务类别: 其他
  • 数据集名称: P3

配置详情

配置: adversarial_qa_dbert_answer_the_following_q

  • 特征:
    • inputs: 序列, int32
    • inputs_pretokenized: 数据类型, string
    • targets: 序列, int32
    • targets_pretokenized: 数据类型, string
  • 分割:
    • train: 18313753 字节, 10000 样本
    • validation: 1791034 字节, 1000 样本
  • 下载大小: 6288641 字节
  • 数据集大小: 20104787 字节

配置: adversarial_qa_dbert_based_on

  • 特征:
    • inputs: 序列, int32
    • inputs_pretokenized: 数据类型, string
    • targets: 序列, int32
    • targets_pretokenized: 数据类型, string
  • 分割:
    • train: 17580553 字节, 10000 样本
    • validation: 1717566 字节, 1000 样本
  • 下载大小: 6206744 字节
  • 数据集大小: 19298119 字节

配置: adversarial_qa_dbert_generate_question

  • 特征:
    • inputs: 序列, int32
    • inputs_pretokenized: 数据类型, string
    • targets: 序列, int32
    • targets_pretokenized: 数据类型, string
  • 分割:
    • train: 18552810 字节, 10000 样本
    • validation: 1824231 字节, 1000 样本
    • test: 1954952 字节, 1000 样本
  • 下载大小: 5882604 字节
  • 数据集大小: 22331993 字节

配置: adversarial_qa_dbert_question_context_answer

  • 特征:
    • inputs: 序列, int32
    • inputs_pretokenized: 数据类型, string
    • targets: 序列, int32
    • targets_pretokenized: 数据类型, string
  • 分割:
    • train: 16859685 字节, 10000 样本
    • validation: 1646118 字节, 1000 样本
  • 下载大小: 6180363 字节
  • 数据集大小: 18505803 字节

配置: adversarial_qa_dbert_tell_what_it_is

  • 特征:
    • inputs: 序列, int32
    • inputs_pretokenized: 数据类型, string
    • targets: 序列, int32
    • targets_pretokenized: 数据类型, string
  • 分割:
    • train: 17793277 字节, 10000 样本
    • validation: 1739418 字节, 1000 样本
  • 下载大小: 6276720 字节
  • 数据集大小: 19532695 字节

配置: adversarial_qa_dbidaf_answer_the_following_q

  • 特征:
    • inputs: 序列, int32
    • inputs_pretokenized: 数据类型, string
    • targets: 序列, int32
    • targets_pretokenized: 数据类型, string
  • 分割:
    • train: 18273217 字节, 10000 样本
    • validation: 1797789 字节, 1000 样本
  • 下载大小: 6321670 字节
  • 数据集大小: 20071006 字节

配置: adversarial_qa_dbidaf_based_on

  • 特征:
    • inputs: 序列, int32
    • inputs_pretokenized: 数据类型, string
    • targets: 序列, int32
    • targets_pretokenized: 数据类型, string
  • 分割:
    • train: 17539777 字节, 10000 样本
    • validation: 1724577 字节, 1000 样本
  • 下载大小: 6247591 字节
  • 数据集大小: 19264354 字节

配置: adversarial_qa_dbidaf_generate_question

  • 特征:
    • inputs: 序列, int32
    • inputs_pretokenized: 数据类型, string
    • targets: 序列, int32
    • targets_pretokenized: 数据类型, string
  • 分割:
    • train: 18508967 字节, 10000 样本
    • validation: 1830585 字节, 1000 样本
    • test: 1925723 字节, 1000 样本
  • 下载大小: 5983857 字节
  • 数据集大小: 22265275 字节

配置: adversarial_qa_dbidaf_question_context_answer

  • 特征:
    • inputs: 序列, int32
    • inputs_pretokenized: 数据类型, string
    • targets: 序列, int32
    • targets_pretokenized: 数据类型, string
  • 分割:
    • train: 16821505 字节, 10000 样本
    • validation: 1652425 字节, 1000 样本
  • 下载大小: 6292806 字节
  • 数据集大小: 18473930 字节

配置: adversarial_qa_dbidaf_tell_what_it_is

  • 特征:
    • inputs: 序列, int32
    • inputs_pretokenized: 数据类型, string
    • targets: 序列, int32
    • targets_pretokenized: 数据类型, string
  • 分割:
    • train: 17755161 字节, 10000 样本
    • validation: 1745717 字节, 1000 样本
  • 下载大小: 6250903 字节
  • 数据集大小: 19500878 字节

配置: adversarial_qa_droberta_answer_the_following_q

  • 特征:
    • inputs: 序列, int32
    • inputs_pretokenized: 数据类型, string
    • targets: 序列, int32
    • targets_pretokenized: 数据类型, string
  • 分割:
    • train: 18084393 字节, 10000 样本
    • validation: 1798375 字节, 1000 样本
  • 下载大小: 6223439 字节
  • 数据集大小: 19882768 字节

配置: adversarial_qa_droberta_based_on

  • 特征:
    • inputs: 序列, int32
    • inputs_pretokenized: 数据类型, string
    • targets: 序列, int32
    • targets_pretokenized: 数据类型, string
  • 分割:
    • train: 17352073 字节, 10000 样本
    • validation: 1725151 字节, 1000 样本
  • 下载大小: 6202901 字节
  • 数据集大小: 19077224 字节

配置: adversarial_qa_droberta_generate_question

  • 特征:
    • inputs: 序列, int32
    • inputs_pretokenized: 数据类型, string
    • targets: 序列, int32
    • targets_pretokenized: 数据类型, string
  • 分割:
    • train: 18257414 字节, 10000 样本
    • validation: 1828966 字节, 1000 样本
    • test: 1997556 字节, 1000 样本
  • 下载大小: 5928633 字节
  • 数据集大小: 22083936 字节

配置: adversarial_qa_droberta_question_context_answer

  • 特征:
    • inputs: 序列, int32
    • inputs_pretokenized: 数据类型, string
    • targets: 序列, int32
    • targets_pretokenized: 数据类型, string
  • 分割:
    • train: 16638393 字节, 10000 样本
    • validation: 1653815 字节, 1000 样本
  • 下载大小: 6193786 字节
  • 数据集大小: 18292208 字节

配置: adversarial_qa_droberta_tell_what_it_is

  • 特征:
    • inputs: 序列, int32
    • inputs_pretokenized: 数据类型, string
    • targets: 序列, int32
    • targets_pretokenized: 数据类型, string
  • 分割:
    • train: 17571837 字节, 10000 样本
    • validation: 1747043 字节, 1000 样本
  • 下载大小: 6152157 字节
  • 数据集大小: 19318880 字节

配置: ag_news_classify

  • 特征:
    • answer_choices: 序列, string
    • inputs: 序列, int32
    • inputs_pretokenized: 数据类型, string
    • targets: 序列, int32
    • targets_pretokenized: 数据类型, string
  • 分割:
    • train: 79459523 字节, 120000 样本
    • test: 5007082 字节, 7600 样本
  • 下载大小: 37504540 字节
  • 数据集大小: 84466605 字节

配置: ag_news_classify_question_first

  • 特征:
    • answer_choices: 序列, string
    • inputs: 序列, int32
    • inputs_pretokenized: 数据类型, string
    • targets: 序列, int32
    • targets_pretokenized: 数据类型, string
  • 分割:
    • train: 79339523 字节, 120000 样本
    • test: 4999482 字节, 7600 样本
  • 下载大小: 37311664 字节
  • 数据集大小: 84339005 字节

配置: ag_news_classify_with_choices

  • 特征:
    • answer_choices: 序列, string
    • inputs: 序列, int32
    • inputs_pretokenized: 数据类型, string
    • targets: 序列, int32
    • targets_pretokenized: 数据类型, string
  • 分割:
    • train: 91699523 字节, 120000 样本
    • test: 5782282 字节, 7600 样本
  • 下载大小: 38377186 字节
  • 数据集大小: 97481805 字节

配置: ag_news_classify_with_choices_question_first

  • 特征:
    • answer_choices: 序列, string
    • inputs: 序列, int32
    • inputs_pretokenized: 数据类型, string
    • targets: 序列, int32
    • targets_pretokenized: 数据类型, string
  • 分割:
    • train: 91699523 字节, 120000 样本
    • test: 5782282 字节, 7600 样本
  • 下载大小: 38318638 字节
  • 数据集大小: 97481805 字节

配置: ag_news_recommend

  • 特征:
    • answer_choices: 序列, string
    • inputs: 序列, int32
    • inputs_pretokenized: 数据类型, string
    • targets: 序列, int32
    • targets_pretokenized: 数据类型, string
  • 分割:
    • train: 94039523 字节, 120000 样本
    • test: 5930482 字节, 7600 样本
  • 下载大小: 38368116 字节
  • 数据集大小: 99970005 字节

配置: ag_news_which_section

  • 特征:
    • answer_choices: 序列, string
    • inputs: 序列, int32
    • inputs_pretokenized: 数据类型, string
    • targets: 序列, int32
    • targets_pretokenized: 数据类型, string
  • 分割:
    • train: 83899523 字节, 120000 样本
    • test: 5288282 字节, 7600 样本
  • 下载大小: 37893964 字节
  • 数据集大小: 89187805 字节

配置: ag_news_which_section_choices

  • 特征:
    • answer_choices: 序列, string
    • inputs: 序列, int32
    • inputs_pretokenized: 数据类型, string
    • targets: 序列, int32
    • targets_pretokenized: 数据类型, string
  • 分割:
    • train: 100099523 字节, 120000 样本
    • test: 6314282 字节, 7600 样本
  • 下载大小: 39167925 字节
  • 数据集大小: 106413805 字节

配置: ai2_arc_ARC_Challenge_heres_a_problem

  • 特征:
    • answer_choices: 序列, string
    • inputs: 序列, int32
    • inputs_pretokenized: 数据类型, string
    • targets: 序列, int32
    • targets_pretokenized: 数据类型, string
  • 分割:
    • train:
AI搜集汇总
数据集介绍
main_image_url
构建方式
P3数据集通过众包和专家生成的方式构建,包含了多种配置名称,每个配置名称下的数据集针对不同的任务类别,如对抗性问答、新闻分类等。数据集以单语种英文为主,遵循Apache-2.0协议。
特点
P3数据集的特点在于其多样性,涵盖了多种任务类型,如对抗性问答、新闻分类、情感分析等。数据集规模较大,训练集和验证集的样本数量充足,有利于模型的训练和评估。此外,数据集还提供了预处理后的输入,方便用户使用。
使用方法
使用P3数据集时,用户可以根据不同的任务类别选择相应的配置名称。每个配置名称下的数据集都包含了训练集和验证集,部分还包含了测试集。用户可以下载整个数据集或仅下载所需的 splits。数据集以JSON格式存储,可以通过HuggingFace的库进行加载和处理。
背景与挑战
背景概述
P3数据集是由专家和众包方式创建的,旨在为对抗性问答和自然语言处理任务提供支持。该数据集包含了多种配置,如adversarial_qa_dbert_answer_the_following_q、adversarial_qa_dbert_based_on等,每个配置都有训练集和验证集。创建于近期,P3数据集由bigscience组织负责,其主要研究人员或机构信息不详。该数据集的核心研究问题是提升机器学习模型在对抗性环境下的问答能力,对相关领域产生了重要影响。
当前挑战
P3数据集在构建过程中遇到的挑战主要包括:如何有效生成对抗性样本,以及如何确保数据集的质量和多样性。此外,由于数据集规模较大,处理和存储也是一个挑战。在研究领域问题方面,挑战包括如何提高模型在复杂问题情境下的泛化能力,以及如何处理和回答含有隐含意义或需要推理的问题。
常用场景
经典使用场景
P3数据集广泛应用于自然语言处理任务,如对抗性问答、文本分类、情感分析等。其中,经典的使用场景包括在大型预训练模型如BERT、DBERT、RoBERTa上进行微调,以适应特定的任务需求,例如回答生成、问题回答、文本分类等。
衍生相关工作
基于P3数据集,研究人员衍生出了多项相关工作,包括开发新的模型架构以处理对抗性问答任务,提出更有效的情感分析模型,以及构建基于深度学习的文本分类系统等。这些工作进一步推动了自然语言处理领域的研究进展。
数据集最近研究
最新研究方向
bigscience/P3数据集的最新研究方向主要聚焦于对抗性问答和新闻分类任务。在对抗性问答领域,研究者致力于探索如何基于不同模型(如DBert、DBidaf、Droberta)生成对抗性问题、回答问题以及识别问题背景等。而在新闻分类任务中,则关注于如何利用模型对新闻文章进行分类、推荐以及判断新闻所属的版块。这些研究对于提升自然语言处理技术在现实世界应用中的鲁棒性和准确性具有重要意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

中国区域地面气象要素驱动数据集 v2.0(1951-2020)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 70 年(1951~2020 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中,计划于 2025 年上半年发布,从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心 收录

Breast-Caner-Detection Dataset

该数据集包含约5000张用于训练和验证的标记乳房X光图像,以及约1800张未标记的测试图像。所有图像均为(224,224,3)格式,标签从Density1到Density4,表示乳房密度的增加,并分为良性或恶性。

github 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录