five

hackaprompt/hackaprompt-dataset

收藏
Hugging Face2024-01-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hackaprompt/hackaprompt-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
HackAPrompt数据集包含来自一个提示词黑客竞赛的提交内容。竞赛中,用户尝试‘黑入’不同的大型语言模型(LLMs),包括GPT-3、FlanT5-XXL和ChatGPT。数据集收集了从实验平台和官方提交平台的所有提交,包括用户输入的提示词、模型的输出、预期的输出、正确性、错误信息、得分等。数据集旨在用于研究,以更好地理解对LLMs的不同类型的攻击。

The HackAPrompt dataset consists of submissions from a prompt hacking competition. In this competition, participants attempt to "hack into" various large language models (LLMs), including GPT-3, FlanT5-XXL, and ChatGPT. The dataset collects all submissions from both the experimental platform and the official submission platform, including user-provided prompts, model outputs, expected outputs, correctness metrics, error messages, scores, and more. This dataset is intended for research purposes to better understand various types of attacks against large language models.
提供机构:
hackaprompt
原始信息汇总

HackAPrompt 数据集概述

数据集描述

HackAPrompt 数据集包含来自一个提示黑客竞赛的提交内容。用户在不同难度级别的挑战中竞争,试图“黑”不同的语言模型(LLMs)。每个级别评估三种模型:GPT-3 (text-davinci-003)、FlanT5-XXL (philschmid/flan-t5-xxl-sharded-fp16) 和 ChatGPT (gpt-3.5-turbo)。数据集包括从实验平台和官方提交平台收集的所有提交内容。

列描述

  • level: 提示的难度或复杂性数值。
  • user_input: 用户对给定挑战的输入。
  • prompt: 用于查询模型的完整提示,包括用户的输入。
  • completion: 模型基于用户输入生成的输出或完成。
  • model: 生成完成的模型类型或版本。
  • expected_completion: 给定用户输入时应生成的预期或理想输出。
  • token_count: 用户输入中的令牌数量,作为输入长度的度量。
  • correct: 布尔值,表示模型的完成是否正确。
  • error: 布尔值,表示模型处理用户输入时是否出错。
  • score: 根据准确性和正确性等评估指标分配给模型完成的数值分数。(仅适用于提交平台的提示)
  • dataset: 表示提交来源的分类变量,包括 "playground_data"(来自实验平台)和 "submission_data"(来自官方提交)。
  • timestamp: 提交的时间戳。(仅适用于实验平台数据集)

用途

该数据集旨在用于研究环境中,以更好地理解LLMs在实际中的不同类型攻击。

个人和敏感信息

数据集中未直接发布任何个人或敏感信息。实验平台上的用户可以匿名提交,未直接收集用户信息。提交数据中,团队以团队名称提交,但此信息未在此版本的数据集中提供,以保护参与者隐私。

偏差、风险和限制

数据通过公共门户提交,未在发布前进行筛选,可能包含冒犯性材料。请自行承担使用风险。

引用

bibtex @inproceedings{Schulhoff:Pinto:Khan:Bouchard:Si:Boyd-Graber:Anati:Tagliabue:Kost:Carnahan-2023, Title = {Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of LLMs Through a Global Prompt Hacking Competition}, Author = {Sander V Schulhoff and Jeremy Pinto and Anaum Khan and Louis-François Bouchard and Chenglei Si and Jordan Lee Boyd-Graber and Svetlina Anati and Valen Tagliabue and Anson Liu Kost and Christopher R Carnahan}, Booktitle = {Empirical Methods in Natural Language Processing}, Year = {2023}, Location = {Singapore} }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集收集了提示黑客竞赛中的用户提交,包含多种难度级别和不同LLM模型的交互数据,用于研究大型语言模型的漏洞和攻击方式。数据集提供了详细的列描述,包括用户输入、模型输出、正确性等关键信息,适用于研究LLM安全性的场景。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作