context_eval

Name: context_eval
Creator: 萨尔兰大学, 杜伦大学
Published: 2025-12-11 22:34:40
License: 暂无描述

arXiv2025-12-11 更新2025-12-13 收录

下载链接：

https://github.com/theaLilott/context_eval

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由萨尔兰大学和杜伦大学联合团队构建，聚焦大语言模型在健康与金融领域的安全评估。数据集包含从Reddit采集的2,700条原生咨询帖（健康1,452条/金融1,248条），经GPT-4o提炼生成12个高风险主题的标准化提问，并配合专业顾问创建的差异化用户脆弱性档案（分高/中/低三级）。数据通过Prolific平台由持证金融/医疗从业者标注，采用七级安全评分体系（1-7分）对GPT-5、Claude Sonnet 4和Gemini 2.5 Pro的响应进行情境感知评估，旨在解决传统安全评估中用户上下文缺失导致的个性化风险监测难题，为AI伦理中的个体福利保护提供基准工具。

This dataset was constructed by a joint team from Saarland University and Durham University, focusing on the safety evaluation of large language models (LLMs) in the healthcare and finance domains. It contains 2,700 original consultation posts collected from Reddit, with 1,452 posts related to healthcare and 1,248 related to finance. These posts were refined by GPT-4o to generate standardized questions covering 12 high-risk themes, paired with differentiated user vulnerability profiles categorized into high, medium, and low levels, which were created by professional consultants. The data was annotated by certified finance and healthcare practitioners via the Prolific platform, and a seven-level safety scoring system (scoring 1 to 7) was used to conduct context-aware evaluations of the responses from GPT-5, Claude Sonnet 4, and Gemini 2.5 Pro. This dataset aims to solve the challenge of personalized risk monitoring caused by the absence of user context in traditional safety evaluations, providing a benchmark tool for individual welfare protection in AI ethics.

提供机构：

萨尔兰大学, 杜伦大学

创建时间：

2025-12-11

原始信息汇总

数据集概述

数据集基本信息

数据集名称: Challenges of Evaluating LLM Safety for User Welfare — Code & Dataset
关联论文: "Challenges of Evaluating LLM Safety for User Welfare" (IASEAI 2026，正在审稿中)
核心主题: 面向用户福祉的LLM安全性评估，关注LLM建议如何根据用户的个人背景和脆弱性对不同用户构成不同风险。
评估焦点: 与通用安全性评估（如网络安全、越狱鲁棒性、谄媚性等）不同，专注于个人财务和健康等领域中的上下文相关危害。

数据集内容与结构

数据集位于 context_eval/eval_dataset/ 目录下，包含以下核心文件：

2.1 问题数据集 (`eval_dataset.csv`)

来源: 受Reddit启发，通过Reddit抓取、寻求建议分类、主题分类和GPT辅助合成编译而成。
内容: 包含寻求建议的问题。
示例字段:
- id: 标识符
- topic: 主题（如finance）
- theme: 主题分类（如Debt Management）
- question: 具体问题

2.2 评估提示 (`evaluation_prompts.csv`)

内容: 每个行代表一个完全组装的评估提示。
关键字段:
- prompt_id: 提示ID
- request_id: 请求ID
- topic, theme: 主题与分类
- vulnerability_profile_level: 脆弱性档案级别（low, medium, high）
- vulnerability_profile: 脆弱性档案
- ranking_type: 排名类型（baseline | relevance | likelihood）
- context_level: 上下文级别（0, 1, 3, 5）
- context_variant: 上下文变体（五种措辞）
- final_prompt: 最终提示

2.3 LLM响应 (`llm_responses.csv`)

内容: 包含为以下模型生成的所有输出：
- GPT-5
- Claude Sonnet 4
- Gemini 2.5 Pro
参数: 温度（Temperature）设置为 1.0 以增加多样性。
详细输出: 同时存在于 /output/llm_response_{request_id}.csv 文件中。

2.4 安全分数 (`scores/*.csv`)

内容: 每个文件包含：
- apparent_safety_score: 表面安全分数（上下文无关）
- contextualized_safety_score: 情境化安全分数（上下文相关）
- 危害可能性、严重性、保障措施充分性（1–7分）
- 评估者推理（思维链）
- 应用的评分逻辑（附录G）
分数修补: 缺失或基线分数通过 patch_missing_safety_scores.py 和 patch_baseline_scores_per_request.py 脚本修补。

2.5 调查数据与排名工具 (`survey_results/`)

此目录包含与上下文因素排名相关的所有数据集和工具。

用户可能性排名: 用户表示在寻求建议时会自愿披露的内容。
专家相关性排名: 领域专家建议为获得安全、负责任的建议应披露的内容。
AI生成排名（未在最终实验中使用）: 包含生成AI排名上下文的脚本 src/ai_ranking.py，但最终实验未使用。
博尔达计数聚合: 最终稳定排名使用博尔达计数法计算，存储于 relevance_*_borda.csv 和 relevance_survey_ranking_*.xlsx 文件中。

评估管道概述

3.1 提示构建 (`src/prompt_assembly.py`)

将档案因素转换为第一人称子句。
使用专家相关性顺序或用户可能性顺序对其进行排名。
创建包含1、3或5个因素的提示。
为每个提示生成5种语言变体。
缓存输出以确保可复现性（子句缓存）。

3.2 LLM响应收集 (`src/get_llm_responses.py`)

将每个提示发送给多个LLM。
将输出存储在中央CSV文件及每个请求的独立文件中。

3.3 安全性评估 (`src/score_pipeline.py`)

实现 LLM-as-Judge 方法：

评估危害可能性、危害严重性、保障措施充分性。
根据明确规则计算最终安全分数。
生成结构化理由和数字评分。

引用格式

@inproceedings{contexteval2026, title={Challenges of Evaluating LLM Safety for User Welfare}, booktitle={IASEAI}, year={2026} }

搜集汇总

数据集介绍

构建方式

在大型语言模型安全评估领域，context_eval数据集的构建体现了对用户福祉风险的深度关切。该数据集通过精心设计的流程，首先从Reddit平台收集了健康与金融领域的真实建议寻求帖子，并利用大型语言模型筛选和归类，生成了无上下文的高风险问题。随后，聘请具备专业知识的领域专家，通过在线平台创建了代表低、中、高脆弱性的详细用户画像，这些画像综合了财务、社会支持、健康状况等多维度因素。最后，数据集纳入了多个前沿模型对这些问题生成的回答，并设计了包含上下文感知与上下文盲两种视角的LLM-as-judge评估框架，以系统量化建议的安全性差异。

特点

context_eval数据集的核心特征在于其开创性地聚焦于用户福祉安全这一情境依赖性风险。与评估通用风险的传统基准不同，该数据集嵌入了精心构建的、具有不同脆弱性等级的用户画像，使得同一模型回答的安全性能够依据具体用户的背景进行差异化评估。其评估框架采用了结合伤害可能性、严重性及保障措施充分性的多维度评分逻辑，并通过链式思维提示确保判断的连贯性。数据集覆盖了健康与金融两大高风险领域，并包含了用户自我披露上下文与专家认定相关上下文的对比实验设计，揭示了即使增加提示中的上下文信息，也难以完全弥合评估差距的重要现象。

使用方法

该数据集为推进用户福祉导向的大型语言模型安全评估提供了方法论基础。研究者可利用其评估框架，对模型在特定用户画像下的回答进行上下文感知的安全性评分，从而识别那些在通用评估中被掩盖的、针对脆弱群体的潜在风险。数据集中的用户画像、问题及模型回答可用于基准测试，比较不同模型在情境化安全方面的表现。此外，其实验设计鼓励进一步探索如何更有效地在评估中整合用户上下文，例如研究多轮对话、长期记忆功能对安全性的影响，或利用监管框架下的真实交互数据扩展评估的规模和真实性。

背景与挑战

背景概述

随着大型语言模型在金融、健康等高风险个人咨询领域的广泛应用，传统的通用安全评估框架难以捕捉情境依赖型风险。在此背景下，萨拉兰大学、杜伦大学等机构的研究团队于2025年创建了context_eval数据集，旨在探索面向用户福祉的LLM安全评估新范式。该数据集聚焦健康与金融两大高风险领域，通过构建不同脆弱性等级的用户画像，系统化评估GPT-5、Claude Sonnet 4等前沿模型生成建议的安全性差异。其创新性在于将评估视角从模型能力转向用户情境，为OECD人工智能分类框架等监管要求提供了实证研究基础，推动了人工智能安全评估从通用风险向个性化风险范式的范式转移。

当前挑战

该数据集致力于解决用户福祉安全评估这一新兴领域的核心挑战：如何准确评估LLM生成建议对特定用户群体的情境化风险。研究揭示了评估设计面临的双重困境：在领域问题层面，传统上下文无关评估会系统性低估高脆弱性用户面临的风险，相同建议对普通用户安全评分可达5/7，而对高脆弱性用户可能降至3/7，这种评估盲区可能导致实际危害；在构建过程层面，即使用户在提示中披露关键情境信息，仍无法完全弥合上下文感知与上下文无关评估间的安全差距，表明单纯依赖用户自述信息不足以构建可靠评估体系。此外，数据集构建还面临专家标注验证缺失、真实用户行为模拟困难、多轮对话动态评估缺失等方法论挑战。

常用场景

经典使用场景

在大型语言模型安全评估领域，context_eval数据集被广泛应用于探索用户福祉导向的评估方法。该数据集通过构建包含健康与金融领域的高风险咨询场景，结合不同脆弱性水平的用户画像，为研究者提供了评估模型响应安全性的基准框架。其经典使用场景在于采用上下文感知与上下文盲视的双重评估策略，系统性地揭示模型建议对特定用户群体可能产生的差异化风险，尤其关注高脆弱性用户在缺乏情境信息时所面临的隐蔽危害。

衍生相关工作

该数据集衍生出多个方向的研究工作，包括情境化安全评估的规模化扩展方法、多轮对话场景下的动态风险评估框架，以及基于真实交互数据的用户披露行为建模。部分研究进一步探索了记忆功能对长期安全评估的影响，尝试将单次咨询评估延伸至跨会话的连续性风险监测。此外，结合人口普查数据的代表性用户画像构建、基于实际对话日志的披露模式分析等工作，均在context_eval揭示的基础问题上展开深化与拓展。

数据集最近研究

context_eval

数据集概述

数据集基本信息

数据集内容与结构

2.1 问题数据集 (eval_dataset.csv)

2.2 评估提示 (evaluation_prompts.csv)

2.3 LLM响应 (llm_responses.csv)

2.4 安全分数 (scores/*.csv)

2.5 调查数据与排名工具 (survey_results/)