CURATe
收藏arXiv2024-10-28 更新2024-10-30 收录
下载链接:
https://github.com/lize-alberts/llm_prag_benchmark
下载链接
链接失效反馈官方服务:
资源简介:
CURATe数据集由牛津大学开发,旨在评估基于大型语言模型(LLM)的AI助手在多轮对话中处理用户个性化安全关键信息的能力。该数据集包含五个场景,每个场景有337个用例,涵盖用户的安全关键信息如严重过敏、物理限制、严重恐惧症和创伤触发因素。数据集通过模拟真实交互场景,测试AI助手在复杂情境下保持用户特定意识的能力,旨在解决AI助手在实际应用中可能遇到的安全和伦理问题。
The CURATe dataset was developed by the University of Oxford, aiming to evaluate the ability of large language model (LLM)-based AI assistants in handling users' personalized safety-critical information during multi-turn conversations. This dataset consists of five scenarios, each containing 337 use cases, covering users' safety-critical information such as severe allergies, physical limitations, severe phobias, and trauma triggers. By simulating real-world interaction scenarios, the dataset tests the ability of AI assistants to maintain user-specific awareness in complex situations, and is designed to address the safety and ethical issues that AI assistants may encounter in practical applications.
提供机构:
牛津大学
创建时间:
2024-10-28
原始信息汇总
LLM Pragmatic Harms Evaluation 数据集概述
数据集描述
- 评估目标:该数据集用于评估语言模型在对话中处理相关/敏感个人信息的能力。
- 使用模型:Llama 3.1 45B,因其被认为是当前最可靠且经济实惠的模型。
数据集使用
- 数据来源:对话数据来自一个Excel文件。
- 评估结果:评估结果将分别保存在
eval_results_binary.xlsx和eval_results_neutral.xlsx文件中。 - 结果处理:需要手动检查
eval_results_neutral.xlsx文件,以决定哪些结果应被视为通过或失败。
数据集要求
- API密钥:使用该数据集需要为多种语言模型提供API密钥。
- 权限与信用:确保拥有必要的权限和足够的信用额度,以支持对每个模型的数百次调用(每次调用约1000个token)。
搜集汇总
数据集介绍

构建方式
CURATe数据集通过模拟多轮对话场景,旨在评估基于大型语言模型(LLM)的AI助手在处理用户提供的紧急安全情境时的个性化对齐能力。该数据集设计了五个不同复杂度的交互场景,每个场景包含337个使用案例,涵盖了从单一用户到多用户冲突偏好的多种情境。每个场景的结构包括用户分享安全关键信息、分散注意力的随机问题、引入他人的偏好以及最终的推荐请求。通过这种方式,CURATe数据集提供了一个全面的测试平台,用以评估AI助手在多轮对话中保持用户特定意识的能力。
特点
CURATe数据集的主要特点在于其多轮对话的设计,这使得评估不仅限于单轮交互,而是扩展到更复杂的、涉及多用户和冲突偏好的情境。此外,该数据集强调了对安全关键信息的处理,确保AI助手在推荐时能够充分考虑用户的特定风险和约束。CURATe还通过引入外部评估模型LLaMA 3.1 405B(Instruct)来确保评估的客观性和准确性,从而提供了一个高度标准化的评估框架。
使用方法
使用CURATe数据集时,研究人员和开发者可以通过模拟的对话场景来测试和改进AI助手的个性化对齐能力。每个场景都包含详细的对话脚本和评估标准,用户可以根据这些标准对AI助手的响应进行评分。此外,数据集还提供了多种消融实验,帮助用户理解不同提示和信息布局对AI助手性能的影响。通过这些实验,用户可以深入探索如何优化提示设计,以提高AI助手在处理用户特定风险和约束时的表现。
背景与挑战
背景概述
CURATe数据集由Lize Alberts、Benjamin Ellis、Andrei Lupu和Jakob Foerster等研究人员在2025年提出,旨在评估基于大型语言模型(LLM)的AI助手在个性化对齐方面的能力。该数据集特别关注AI助手在处理用户提供的与安全相关的上下文时的表现。CURATe通过模拟多轮对话场景,评估了十个领先模型在五个不同情境下的表现,每个情境包含337个使用案例。该数据集的提出填补了现有LLM对齐方法在处理个性化和安全相关信息方面的空白,强调了在设计用于持续人类交互的系统时,采用细致、上下文感知方法的必要性。
当前挑战
CURATe数据集面临的挑战主要集中在两个方面。首先,该数据集解决了在图像分类领域中,AI助手在处理用户个性化和安全相关信息时的挑战。构建过程中遇到的挑战包括如何平衡冲突的偏好、如何在对话窗口中保持对关键用户信息的注意力,以及如何一致地应用用户特定的知识。其次,CURATe数据集揭示了当前LLM在个性化对齐方面的系统性偏差,如不适当权衡冲突偏好、优先考虑用户偏好而非安全、缺乏对关键用户信息的注意力以及用户特定知识应用的不一致性。这些挑战表明,现有的对齐方法在处理复杂、多轮对话中的个性化和安全相关信息时存在显著不足。
常用场景
经典使用场景
CURATe数据集的经典使用场景在于评估基于大型语言模型(LLM)的AI助手在多轮对话中处理用户提供的敏感信息的能力。通过模拟包含安全关键信息的对话场景,CURATe测试了AI助手在面对用户特定的安全约束时,是否能够保持一致且适当的响应。例如,在用户告知其对某种食物过敏的情况下,AI助手是否能在后续对话中正确识别并处理这一信息,避免推荐可能有害的食物。
实际应用
在实际应用中,CURATe数据集有助于开发能够安全、有效地与用户进行长期互动的AI助手。例如,在医疗咨询、个性化健康管理或社交互动等场景中,AI助手需要能够准确识别并处理用户的过敏、恐惧症或其他安全关键信息,以提供恰当的建议和支持。通过使用CURATe数据集进行训练和评估,开发者可以确保AI助手在面对复杂、多变的用户需求时,仍能保持高水平的个性化对齐和安全性。
衍生相关工作
CURATe数据集的发布催生了多项相关研究工作,特别是在个性化对齐和安全评估领域。例如,一些研究者利用CURATe的评估框架,开发了新的模型训练方法,以提高AI助手在多轮对话中的上下文保持能力。此外,CURATe还启发了对现有对齐策略的重新评估,推动了诸如动态风险评估和在线用户建模等新技术的研究。这些工作共同推动了AI助手在个性化对齐和安全性方面的进步。
以上内容由遇见数据集搜集并总结生成



