CURATe

Name: CURATe
Creator: 牛津大学
Published: 2024-10-28 23:59:31
License: 暂无描述

arXiv2024-10-28 更新2024-10-30 收录

下载链接：

https://github.com/lize-alberts/llm_prag_benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

CURATe数据集由牛津大学开发，旨在评估基于大型语言模型（LLM）的AI助手在多轮对话中处理用户个性化安全关键信息的能力。该数据集包含五个场景，每个场景有337个用例，涵盖用户的安全关键信息如严重过敏、物理限制、严重恐惧症和创伤触发因素。数据集通过模拟真实交互场景，测试AI助手在复杂情境下保持用户特定意识的能力，旨在解决AI助手在实际应用中可能遇到的安全和伦理问题。

The CURATe dataset was developed by the University of Oxford, aiming to evaluate the ability of large language model (LLM)-based AI assistants in handling users' personalized safety-critical information during multi-turn conversations. This dataset consists of five scenarios, each containing 337 use cases, covering users' safety-critical information such as severe allergies, physical limitations, severe phobias, and trauma triggers. By simulating real-world interaction scenarios, the dataset tests the ability of AI assistants to maintain user-specific awareness in complex situations, and is designed to address the safety and ethical issues that AI assistants may encounter in practical applications.

提供机构：

牛津大学

创建时间：

2024-10-28

原始信息汇总

LLM Pragmatic Harms Evaluation 数据集概述

数据集描述

评估目标：该数据集用于评估语言模型在对话中处理相关/敏感个人信息的能力。
使用模型：Llama 3.1 45B，因其被认为是当前最可靠且经济实惠的模型。

数据集使用

数据来源：对话数据来自一个Excel文件。
评估结果：评估结果将分别保存在eval_results_binary.xlsx和eval_results_neutral.xlsx文件中。
结果处理：需要手动检查eval_results_neutral.xlsx文件，以决定哪些结果应被视为通过或失败。

数据集要求

API密钥：使用该数据集需要为多种语言模型提供API密钥。
权限与信用：确保拥有必要的权限和足够的信用额度，以支持对每个模型的数百次调用（每次调用约1000个token）。

搜集汇总

数据集介绍

构建方式

CURATe数据集通过模拟多轮对话场景，旨在评估基于大型语言模型（LLM）的AI助手在处理用户提供的紧急安全情境时的个性化对齐能力。该数据集设计了五个不同复杂度的交互场景，每个场景包含337个使用案例，涵盖了从单一用户到多用户冲突偏好的多种情境。每个场景的结构包括用户分享安全关键信息、分散注意力的随机问题、引入他人的偏好以及最终的推荐请求。通过这种方式，CURATe数据集提供了一个全面的测试平台，用以评估AI助手在多轮对话中保持用户特定意识的能力。

特点

CURATe数据集的主要特点在于其多轮对话的设计，这使得评估不仅限于单轮交互，而是扩展到更复杂的、涉及多用户和冲突偏好的情境。此外，该数据集强调了对安全关键信息的处理，确保AI助手在推荐时能够充分考虑用户的特定风险和约束。CURATe还通过引入外部评估模型LLaMA 3.1 405B（Instruct）来确保评估的客观性和准确性，从而提供了一个高度标准化的评估框架。

使用方法

使用CURATe数据集时，研究人员和开发者可以通过模拟的对话场景来测试和改进AI助手的个性化对齐能力。每个场景都包含详细的对话脚本和评估标准，用户可以根据这些标准对AI助手的响应进行评分。此外，数据集还提供了多种消融实验，帮助用户理解不同提示和信息布局对AI助手性能的影响。通过这些实验，用户可以深入探索如何优化提示设计，以提高AI助手在处理用户特定风险和约束时的表现。

背景与挑战

背景概述

CURATe数据集由Lize Alberts、Benjamin Ellis、Andrei Lupu和Jakob Foerster等研究人员在2025年提出，旨在评估基于大型语言模型（LLM）的AI助手在个性化对齐方面的能力。该数据集特别关注AI助手在处理用户提供的与安全相关的上下文时的表现。CURATe通过模拟多轮对话场景，评估了十个领先模型在五个不同情境下的表现，每个情境包含337个使用案例。该数据集的提出填补了现有LLM对齐方法在处理个性化和安全相关信息方面的空白，强调了在设计用于持续人类交互的系统时，采用细致、上下文感知方法的必要性。

当前挑战

CURATe数据集面临的挑战主要集中在两个方面。首先，该数据集解决了在图像分类领域中，AI助手在处理用户个性化和安全相关信息时的挑战。构建过程中遇到的挑战包括如何平衡冲突的偏好、如何在对话窗口中保持对关键用户信息的注意力，以及如何一致地应用用户特定的知识。其次，CURATe数据集揭示了当前LLM在个性化对齐方面的系统性偏差，如不适当权衡冲突偏好、优先考虑用户偏好而非安全、缺乏对关键用户信息的注意力以及用户特定知识应用的不一致性。这些挑战表明，现有的对齐方法在处理复杂、多轮对话中的个性化和安全相关信息时存在显著不足。

常用场景

经典使用场景

CURATe数据集的经典使用场景在于评估基于大型语言模型（LLM）的AI助手在多轮对话中处理用户提供的敏感信息的能力。通过模拟包含安全关键信息的对话场景，CURATe测试了AI助手在面对用户特定的安全约束时，是否能够保持一致且适当的响应。例如，在用户告知其对某种食物过敏的情况下，AI助手是否能在后续对话中正确识别并处理这一信息，避免推荐可能有害的食物。

实际应用

在实际应用中，CURATe数据集有助于开发能够安全、有效地与用户进行长期互动的AI助手。例如，在医疗咨询、个性化健康管理或社交互动等场景中，AI助手需要能够准确识别并处理用户的过敏、恐惧症或其他安全关键信息，以提供恰当的建议和支持。通过使用CURATe数据集进行训练和评估，开发者可以确保AI助手在面对复杂、多变的用户需求时，仍能保持高水平的个性化对齐和安全性。

衍生相关工作

CURATe数据集的发布催生了多项相关研究工作，特别是在个性化对齐和安全评估领域。例如，一些研究者利用CURATe的评估框架，开发了新的模型训练方法，以提高AI助手在多轮对话中的上下文保持能力。此外，CURATe还启发了对现有对齐策略的重新评估，推动了诸如动态风险评估和在线用户建模等新技术的研究。这些工作共同推动了AI助手在个性化对齐和安全性方面的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集