PromptSource|自然语言处理数据集|提示工程数据集
收藏PromptSource 数据集概述
数据集简介
PromptSource 是一个用于创建、共享和使用自然语言提示的工具包。它包含一个不断增长的提示集合,称为 P3(Public Pool of Prompts)。截至2022年1月20日,P3 包含约2000个英文提示,覆盖170多个英文数据集。
数据集内容
- 提示数量:约2000个英文提示。
- 覆盖数据集:170多个英文数据集。
- 提示格式:提示使用 Jinja 模板语言编写,保存为独立的结构化文件。
数据集使用
-
API 使用:可以通过简单的 API 使用现有的和新建的提示。
-
示例代码: python from datasets import load_dataset from promptsource.templates import DatasetTemplates
dataset = load_dataset("ag_news", split="train") example = dataset[1] ag_news_prompts = DatasetTemplates(ag_news) prompt = ag_news_prompts["classify_question_first"] result = prompt.apply(example) print("INPUT: ", result[0]) print("TARGET: ", result[1])
数据集创建
- 创建工具:提供基于 Web 的 GUI,支持开发者使用模板语言编写提示,并立即查看不同示例的输出。
- 创建模式:
- Sourcing:创建和编写新提示。
- Prompted dataset viewer:查看编写的提示或现有提示在整个数据集上的效果。
- Helicopter view:聚合 P3 当前状态的高级指标。
数据集开发背景
PromptSource 和 P3 最初是作为 BigScience 项目 的一部分开发的,该项目旨在研究大型模型和数据集。PromptSource 和 P3 是论文 Multitask Prompted Training Enables Zero-Shot Task Generalization 的第一步。
数据集引用
如果使用 P3 或 PromptSource,请引用以下文献: bibtex @misc{bach2022promptsource, title={PromptSource: An Integrated Development Environment and Repository for Natural Language Prompts}, author={Stephen H. Bach and Victor Sanh and Zheng-Xin Yong and Albert Webson and Colin Raffel and Nihal V. Nayak and Abheesht Sharma and Taewoon Kim and M Saiful Bari and Thibault Fevry and Zaid Alyafeai and Manan Dey and Andrea Santilli and Zhiqing Sun and Srulik Ben-David and Canwen Xu and Gunjan Chhablani and Han Wang and Jason Alan Fries and Maged S. Al-shaibani and Shanya Sharma and Urmish Thakker and Khalid Almubarak and Xiangru Tang and Xiangru Tang and Mike Tian-Jian Jiang and Alexander M. Rush}, year={2022}, eprint={2202.01279}, archivePrefix={arXiv}, primaryClass={cs.LG} }

UniMed
UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。
github 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
CMU-MOSI Dataset
The Multimodal Corpus of Sentiment Intensity (CMU-MOSI) dataset is a collection of 2199 opinion video clips. Each opinion video is annotated with sentiment in the range [-3,3]. The dataset is rigorously annotated with labels for subjectivity, sentiment intensity, per-frame and per-opinion annotated visual features, and per-milliseconds annotated audio features.
paperswithcode.com 收录
New locus reveals the genetic architecture of sex reversal in the Chinese tongue sole (Cynoglossus semilaevis)
Sex reversal in insects, amphibians, reptiles, and fishes is a complicated and interesting biological phenomenon. Sex reversal changes the sex ratio of populations and may complicate breeding schemes. In the Chinese tongue sole (Cynoglossus semilaevis), genetic females may change into pseudomales, thereby increasing aquaculture costs because of the lower growth rate of the males than that of the females. Here, we identify a new locus associated with sex reversal; this single nucleotide polymorphism (SNP) is located in the third intron of the doublesex and mab-3 related transcription factor 1 (Dmrt1) gene on the Z chromosome (named Cyn_Z_8564889) and has two alleles, A and G. Cyn_Z_8564889 regulates sex reversal interactively with our previously detected SNP (Cyn_Z_6676874), with the genetic females simultaneously carrying the T allele of Cyn_Z_6676874 and the A allele of Cyn_Z_8564889 changing into pseudomales. Other Dmrt1 polymorphisms were detected, which formed two haplotypes. Two SN...
DataONE 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录