PromptSET

Name: PromptSET
Creator: 多伦多都会大学，滑铁卢大学，多伦多大学
Published: 2025-02-10 07:01:03
License: 暂无描述

arXiv2025-02-10 更新2025-02-12 收录

下载链接：

https://github.com/Narabzad/prompt-sensitivity

下载链接

链接失效反馈

官方服务：

资源简介：

PromptSET数据集是由多伦多都会大学等机构的研究人员创建的，旨在研究提示语轻微变化对大型语言模型性能的影响。该数据集基于TriviaQA和HotpotQA数据集，包含11,469个提示及其生成的9个变体，每个提示和变体都由LLM模型生成回答。数据集可用于提示敏感性预测任务，以评估不同LLM模型对提示变化的敏感性。

The PromptSET dataset was developed by researchers from institutions including Toronto Metropolitan University, with the goal of studying the impact of subtle prompt variations on the performance of large language models (LLMs). Built upon the TriviaQA and HotpotQA datasets, this resource contains 11,469 original prompts and 9 generated variants for each prompt, where responses for every original prompt and its variants are generated by LLM models. This dataset can be employed for prompt sensitivity prediction tasks to evaluate the sensitivity of different LLM models to prompt changes.

提供机构：

多伦多都会大学，滑铁卢大学，多伦多大学

创建时间：

2025-02-10

搜集汇总

数据集介绍

构建方式

PromptSET数据集的构建始于精选TrivaQA和HotpotQA两个问答数据集中的问题，这些问题的特点是具有确定性和简洁的答案。为了生成数据集，研究人员首先选择了初始的问题集，然后利用预训练的语言模型（如LLaMA 3.1和Mistral-nemo）来生成每个问题的多个变体，这些变体保持了与原始问题的高语义相似性。生成的变体经过筛选，以确保它们既不直接回答问题，又保持了原始问题的信息需求。最后，通过比较语言模型对原始问题和变体的回答与数据集中提供的答案，对每个问题及其变体进行标注，从而形成了一个包含11,469个问题和它们9个不同变体的数据集。

特点

PromptSET数据集的特点在于其专注于研究大型语言模型对提示变体的敏感性。该数据集包含精心设计的提示变体，旨在揭示即使是微小的提示变化也可能导致模型性能的显著差异。数据集的构建过程确保了变体与原始提示在语义上的高度相似性，但又不直接提供答案，从而为研究提供了丰富的实验材料。此外，数据集还通过对比原始问题和变体的回答准确性，为评估语言模型对提示变化的敏感度提供了一个基准。

使用方法

PromptSET数据集的使用方法主要围绕于对语言模型提示敏感度的预测。研究者可以运用数据集来训练和评估各种预测模型，以判断给定的提示或其变体是否能够被语言模型正确回答。此外，数据集还可以用于研究提示工程的艺术，帮助用户设计出更有效、更可靠的提示，从而提高语言模型生成准确响应的能力。通过对比不同语言模型在不同提示变体上的表现，研究者还可以探索模型之间的差异和优缺点，为模型的改进和优化提供依据。

背景与挑战

背景概述

PromptSET数据集由Amirhossein Razavi等研究人员在2025年创建，旨在探索大型语言模型（LLMs）对提示变化的敏感性。该数据集基于TriviaQA和HotpotQA数据集，通过生成提示的变体并评估其有效性，对多个LLMs进行了测试。该数据集的核心研究问题是预测LLMs对输入提示的响应是否能够满足用户的信息需求。PromptSET的创建为研究提示工程和评估LLMs对提示变化的响应提供了基准，对相关领域产生了重要影响。

当前挑战

PromptSET数据集面临的挑战包括：1) LLMs对提示变化的敏感性，即提示的微小变化可能导致LLMs生成截然不同的输出；2) 构建过程中遇到的挑战，例如，生成具有高语义相似性的提示变体，并确保这些变体能够反映相同的信息需求。此外，现有的方法在解决提示敏感性预测任务方面表现不佳，突显了开发针对该任务的新方法的必要性。

常用场景

经典使用场景

PromptSET数据集主要用于研究大型语言模型（LLM）对提示词变化的敏感性问题。通过比较原始提示词和经过轻微修改的提示词在LLM上的表现，可以评估LLM对提示词变化的敏感程度。此外，PromptSET还可以用于评估LLM的自我评估能力，即让LLM自己判断其能否准确回答给定的提示词。此外，PromptSET还可以用于文本分类任务，预测LLM对提示词的回答是否能够满足用户的信息需求。

衍生相关工作

PromptSET数据集的提出引发了对LLM对提示词变化敏感性的深入研究，并衍生了相关的研究工作。例如，研究人员开始探索如何通过优化提示词设计来提高LLM的回答准确性和可靠性，以及如何通过LLM的自我评估来预测其回答能力。此外，PromptSET还促进了文本分类和查询性能预测技术在LLM领域的应用，为LLM的研究和应用提供了新的思路和方法。

数据集最近研究