PromptSource|自然语言处理数据集|提示工程数据集

github2022-02-01 更新2025-01-17 收录

自然语言处理

提示工程

下载链接：

https://github.com/bigscience-workshop/promptsource

下载链接

链接失效反馈

资源简介：

PromptSource 是由布朗大学等机构开发的一个用于创建、共享和使用自然语言提示的工具包，其包含一个名为 P3 的提示集合，截至2022年1月20日，已为170多个英语数据集提供了约2000个英语提示。

提供机构：

Brown University et al.

创建时间：

2022-02-01

原始信息汇总

PromptSource 数据集概述

数据集简介

PromptSource 是一个用于创建、共享和使用自然语言提示的工具包。它包含一个不断增长的提示集合，称为 P3（Public Pool of Prompts）。截至2022年1月20日，P3 包含约2000个英文提示，覆盖170多个英文数据集。

数据集内容

提示数量：约2000个英文提示。
覆盖数据集：170多个英文数据集。
提示格式：提示使用 Jinja 模板语言编写，保存为独立的结构化文件。

数据集使用

API 使用：可以通过简单的 API 使用现有的和新建的提示。
示例代码： python from datasets import load_dataset from promptsource.templates import DatasetTemplates

dataset = load_dataset("ag_news", split="train") example = dataset[1] ag_news_prompts = DatasetTemplates(ag_news) prompt = ag_news_prompts["classify_question_first"] result = prompt.apply(example) print("INPUT: ", result[0]) print("TARGET: ", result[1])

数据集创建

创建工具：提供基于 Web 的 GUI，支持开发者使用模板语言编写提示，并立即查看不同示例的输出。
创建模式：
- Sourcing：创建和编写新提示。
- Prompted dataset viewer：查看编写的提示或现有提示在整个数据集上的效果。
- Helicopter view：聚合 P3 当前状态的高级指标。

数据集开发背景

PromptSource 和 P3 最初是作为 BigScience 项目的一部分开发的，该项目旨在研究大型模型和数据集。PromptSource 和 P3 是论文 Multitask Prompted Training Enables Zero-Shot Task Generalization 的第一步。

数据集引用

如果使用 P3 或 PromptSource，请引用以下文献： bibtex @misc{bach2022promptsource, title={PromptSource: An Integrated Development Environment and Repository for Natural Language Prompts}, author={Stephen H. Bach and Victor Sanh and Zheng-Xin Yong and Albert Webson and Colin Raffel and Nihal V. Nayak and Abheesht Sharma and Taewoon Kim and M Saiful Bari and Thibault Fevry and Zaid Alyafeai and Manan Dey and Andrea Santilli and Zhiqing Sun and Srulik Ben-David and Canwen Xu and Gunjan Chhablani and Han Wang and Jason Alan Fries and Maged S. Al-shaibani and Shanya Sharma and Urmish Thakker and Khalid Almubarak and Xiangru Tang and Xiangru Tang and Mike Tian-Jian Jiang and Alexander M. Rush}, year={2022}, eprint={2202.01279}, archivePrefix={arXiv}, primaryClass={cs.LG} }

AI搜集汇总

数据集介绍

构建方式

PromptSource数据集的构建依托于一个开源工具包，旨在为自然语言处理任务提供丰富的提示模板。该工具包通过Jinja模板语言，允许研究人员和开发者创建、共享和使用自然语言提示。数据集的核心部分P3（Public Pool of Prompts）包含了超过2000个英文提示，覆盖了170多个英文数据集。这些提示通过结构化文件保存，确保了其可扩展性和易用性。

特点

PromptSource数据集的特点在于其广泛的覆盖范围和灵活性。它不仅支持多种自然语言处理任务，还提供了丰富的提示模板，能够显著提升零样本和小样本学习的效果。数据集中的提示模板通过简单的API调用即可应用于Hugging Face数据集库中的各类数据，极大地方便了研究人员的使用。此外，PromptSource还提供了一个基于Web的GUI工具，支持开发者实时创建和预览提示模板，进一步增强了其易用性。

使用方法

使用PromptSource数据集时，用户可以通过Hugging Face数据集库加载所需的数据集，并利用PromptSource提供的API将提示模板应用于具体的数据样本。用户可以选择已有的提示模板，或通过Web GUI工具创建新的模板。PromptSource还支持对特定数据集的子集进行提示模板的筛选和应用。通过简单的Python代码，用户可以快速实现提示模板的加载和应用，从而提升模型的零样本和小样本学习能力。

背景与挑战

背景概述

PromptSource数据集是由BigScience项目开发的一个工具包，专注于自然语言提示（prompts）的创建、共享和使用。该数据集的核心研究问题在于如何通过提示来增强预训练语言模型在零样本和少样本任务中的表现。近年来，随着GPT-3、FLAN和T0等模型的成功，提示在自然语言处理（NLP）领域的重要性日益凸显。PromptSource通过提供一个公共提示池（P3），收录了超过2000个英文提示，覆盖了170多个英文数据集，极大地推动了NLP领域的研究和应用。该数据集的主要贡献在于为研究人员和工程师提供了一个统一的平台，用于生成和共享高质量的提示，从而提升模型的泛化能力。

当前挑战

PromptSource面临的挑战主要体现在两个方面。首先，在领域问题方面，提示的设计需要与特定任务高度契合，以确保模型能够准确理解并执行任务。然而，不同任务的复杂性和多样性使得提示的设计变得极具挑战性，尤其是在零样本和少样本场景下，提示的质量直接决定了模型的性能。其次，在构建过程中，PromptSource需要处理大量异构数据集，并确保提示的通用性和可扩展性。此外，由于部分数据集需要手动下载和处理，数据集的集成和管理也增加了构建的复杂性。这些挑战要求开发者在提示设计、数据集集成和工具链优化方面投入大量精力，以确保PromptSource的实用性和广泛适用性。

常用场景

经典使用场景

在自然语言处理领域，PromptSource数据集被广泛应用于零样本和少样本学习任务中。通过提供大量的自然语言提示模板，研究人员能够快速构建和测试各种任务模型，如文本分类、问答系统和语言生成等。这些提示模板不仅简化了模型的训练过程，还显著提高了模型在新任务上的泛化能力。

解决学术问题

PromptSource数据集解决了自然语言处理中零样本和少样本学习的关键问题。通过提供多样化的提示模板，研究人员能够在不依赖大量标注数据的情况下，训练出具有强大泛化能力的模型。这一突破不仅降低了数据标注的成本，还推动了多任务学习和跨领域迁移学习的研究进展。

衍生相关工作

PromptSource数据集衍生了许多经典的研究工作，如T0模型和FLAN模型。这些模型通过在P3数据集上进行多任务提示训练，展示了强大的零样本任务泛化能力。此外，PromptSource还为BigScience项目提供了重要的技术支持，推动了大规模语言模型的研究和应用。这些工作不仅验证了提示模板的有效性，还为未来的自然语言处理研究提供了新的方向。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

UniMed

UniMed是一个大规模、开源的多模态医学数据集，包含超过530万张图像-文本对，涵盖六种不同的医学成像模态：X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型（LLMs）将特定模态的分类数据集转换为图像-文本格式，并结合现有的医学领域的图像-文本数据，以促进可扩展的视觉语言模型（VLM）预训练。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

CMU-MOSI Dataset

The Multimodal Corpus of Sentiment Intensity (CMU-MOSI) dataset is a collection of 2199 opinion video clips. Each opinion video is annotated with sentiment in the range [-3,3]. The dataset is rigorously annotated with labels for subjectivity, sentiment intensity, per-frame and per-opinion annotated visual features, and per-milliseconds annotated audio features.

paperswithcode.com 收录

New locus reveals the genetic architecture of sex reversal in the Chinese tongue sole (Cynoglossus semilaevis)

Sex reversal in insects, amphibians, reptiles, and fishes is a complicated and interesting biological phenomenon. Sex reversal changes the sex ratio of populations and may complicate breeding schemes. In the Chinese tongue sole (Cynoglossus semilaevis), genetic females may change into pseudomales, thereby increasing aquaculture costs because of the lower growth rate of the males than that of the females. Here, we identify a new locus associated with sex reversal; this single nucleotide polymorphism (SNP) is located in the third intron of the doublesex and mab-3 related transcription factor 1 (Dmrt1) gene on the Z chromosome (named Cyn_Z_8564889) and has two alleles, A and G. Cyn_Z_8564889 regulates sex reversal interactively with our previously detected SNP (Cyn_Z_6676874), with the genetic females simultaneously carrying the T allele of Cyn_Z_6676874 and the A allele of Cyn_Z_8564889 changing into pseudomales. Other Dmrt1 polymorphisms were detected, which formed two haplotypes. Two SN...

DataONE 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录