hackaprompt/hackaprompt-dataset
收藏HackAPrompt 数据集概述
数据集描述
HackAPrompt 数据集包含来自一个提示黑客竞赛的提交内容。用户在不同难度级别的挑战中竞争,试图“黑”不同的语言模型(LLMs)。每个级别评估三种模型:GPT-3 (text-davinci-003)、FlanT5-XXL (philschmid/flan-t5-xxl-sharded-fp16) 和 ChatGPT (gpt-3.5-turbo)。数据集包括从实验平台和官方提交平台收集的所有提交内容。
列描述
- level: 提示的难度或复杂性数值。
- user_input: 用户对给定挑战的输入。
- prompt: 用于查询模型的完整提示,包括用户的输入。
- completion: 模型基于用户输入生成的输出或完成。
- model: 生成完成的模型类型或版本。
- expected_completion: 给定用户输入时应生成的预期或理想输出。
- token_count: 用户输入中的令牌数量,作为输入长度的度量。
- correct: 布尔值,表示模型的完成是否正确。
- error: 布尔值,表示模型处理用户输入时是否出错。
- score: 根据准确性和正确性等评估指标分配给模型完成的数值分数。(仅适用于提交平台的提示)
- dataset: 表示提交来源的分类变量,包括 "playground_data"(来自实验平台)和 "submission_data"(来自官方提交)。
- timestamp: 提交的时间戳。(仅适用于实验平台数据集)
用途
该数据集旨在用于研究环境中,以更好地理解LLMs在实际中的不同类型攻击。
个人和敏感信息
数据集中未直接发布任何个人或敏感信息。实验平台上的用户可以匿名提交,未直接收集用户信息。提交数据中,团队以团队名称提交,但此信息未在此版本的数据集中提供,以保护参与者隐私。
偏差、风险和限制
数据通过公共门户提交,未在发布前进行筛选,可能包含冒犯性材料。请自行承担使用风险。
引用
bibtex @inproceedings{Schulhoff:Pinto:Khan:Bouchard:Si:Boyd-Graber:Anati:Tagliabue:Kost:Carnahan-2023, Title = {Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of LLMs Through a Global Prompt Hacking Competition}, Author = {Sander V Schulhoff and Jeremy Pinto and Anaum Khan and Louis-François Bouchard and Chenglei Si and Jordan Lee Boyd-Graber and Svetlina Anati and Valen Tagliabue and Anson Liu Kost and Christopher R Carnahan}, Booktitle = {Empirical Methods in Natural Language Processing}, Year = {2023}, Location = {Singapore} }




