feedback-forensics-annotations

Hugging Face2025-05-22 更新2025-05-23 收录

下载链接：

https://huggingface.co/datasets/rdnfn/feedback-forensics-annotations

下载链接

链接失效反馈

官方服务：

资源简介：

Feedback Forensics Annotations数据集包含了《Feedback Forensics》论文中实验的人格特质注释，注释针对提示和两个响应的成对模型输出，涵盖了如自信等单一人格特质，表明响应间特质的差异或者特质的适用性。数据以AnnotatedPairs json格式提供，并包含多个子集，如MultiPref、PRISM和Chatbot Arena。

创建时间：

2025-05-16

原始信息汇总

Feedback Forensics Annotations v1.0 数据集概述

数据集基本信息

许可证: Open Data Commons License Attribution License (ODC-By)
数据集名称: Feedback Forensics Annotations v1.0
数据格式: JSON
数据文件:
- allenai_multipref.json (multipref)
- chatbot_arena.json (chatbot_arena)
- llama4_arena_vs_public_version.json (llama4_arena)
- model_comparison.json (model_comparison)
- prism.json (prism)

数据集内容

数据类型: 人格特质标注
标注对象: 成对模型输出（通常包含一个提示和两个响应）
标注内容:
- 两个响应在特定人格特质上的差异（如"自信"）
- 特质不适用于两个响应或在两个响应中相等的情况
标注方法: 使用Inverse Constitutional AI (ICAI)标注流程，固定人格特质集，使用gpt-4o-mini-2024-07-18模型

数据格式

格式名称: AnnotatedPairs json数据格式
主要结构:
- metadata: 数据集元数据
- annotators: 标注者信息
- comparisons: 比较数据，包含提示、响应和标注
关键字段:
- comparisons[i]["annotations"]: 主要标注数据
- comparisons[i]["metadata"]: 用于合并的元数据

包含的数据集子集

数据集名称	许可证	来源
MultiPref	ODC-By (MultiPref), 子集不同	MultiPref on HuggingFace
PRISM	CC-BY-4.0 (提示), CC-BY-NC-4.0 (响应), 加模型条款	PRISM on HuggingFace
Chatbot Arena
└ Arena Explorer 发布	CC-BY-4.0 (提示), 模型使用条款 (响应)	Arena Explorer on HuggingFace
└ Llama-4-Maverick 发布	CC-BY-4.0 (提示), 模型使用条款 (响应)	Llama-4-Maverick on HuggingFace
FF Generations	ODC-By 和 CC-BY-4.0 (提示), 模型使用条款 (响应)	FF Generations on Huggingface

注意事项

不包含原始数据集的提示和响应，仅提供元数据以便合并
标注数据足够独立进行本地分析，无需合并

搜集汇总

数据集介绍

构建方式

在人工智能对话系统评估领域，Feedback Forensics Annotations数据集采用逆向宪法AI（ICAI）标注流程构建而成。该流程基于gemini-2.5-flash模型，针对成对模型输出的对话响应进行系统性人格特质标注。标注过程中，每个样本包含一个提示词和两个对应回复，标注者需要判断两个回复在特定人格特质维度上的差异程度，包括特质不适用、特质表现相等或存在明显差异等情况。数据集通过精心设计的标注协议，确保了人格特质评估的一致性和可复现性。

特点

该数据集最显著的特征在于其专注于对话模型人格特质的多维度评估，涵盖自信度等丰富的人格特征指标。数据集采用标准化的AnnotatedPairs JSON格式组织，确保了数据结构的清晰性和易用性。特别值得注意的是，数据集仅提供标注结果和必要元数据，原始对话内容需通过conversation_id等字段与源数据集进行关联，这种设计既保护了原始数据版权，又支持独立的分析验证。数据集整合了来自MultiPref、PRISM等多个知名基准的标注结果，具有广泛的代表性。

使用方法

研究人员可通过加载标准JSON格式文件直接访问标注数据，主要信息存储于comparisons列表下的annotations字段。每个标注条目包含完整的提示词、模型回复对比及多维度人格特质评分。数据集支持与Feedback Forensics Gradio应用的无缝集成，便于进行可视化分析和模型行为诊断。使用时应遵循ODC-By许可协议，并通过提供的元数据字段与原始数据集进行关联，以获取完整的对话上下文信息。这种设计使得数据集既适用于独立的人格特质分析，也支持与原始数据的联合研究。

背景与挑战

背景概述

随着大型语言模型在自然语言处理领域的广泛应用，模型输出的人格特质分析成为评估其社会适应性的关键环节。feedback-forensics-annotations数据集由艾伦人工智能研究所于2025年发布，聚焦于通过逆向宪法人工智能框架对多源对话数据的人格特征进行系统性标注。该数据集通过量化模型回复在自信度、冒险性等维度的差异，为理解人工智能行为模式提供了可验证的基准，推动了可解释人工智能与价值观对齐研究的交叉融合。

当前挑战

在人格特质标注领域，该数据集需解决模型行为细微差异的量化难题，包括主观性特质的标准界定与跨文化语境下的表现稳定性。构建过程中面临多重挑战：原始数据涉及CC-BY-NC等混合许可协议导致合规性风险，异构数据源的结构对齐需要复杂预处理，而基于Gemini模型的自动化标注系统仍需通过人类标注验证来克服语义模糊性。这些技术障碍共同构成了人格计算研究中的典型瓶颈。

常用场景

经典使用场景

在人工智能对话系统评估领域，该数据集通过逆向宪法AI标注框架，对多组模型输出的成对响应进行人格特质差异标注。研究者可借助该数据集系统分析不同模型在自信度、冒险性等维度上的表现差异，为模型行为偏好研究提供标准化评估基准。

衍生相关工作

基于该数据集衍生的经典研究包括多偏好对齐算法优化、人格一致性验证框架构建等。其标注范式已被拓展至跨文化对话分析、伦理价值对齐等多个前沿领域，催生了如人格感知奖励模型、特质驱动对话生成等创新性工作。

数据集最近研究