OEQ and AITA

github2025-05-20 更新2025-05-24 收录

下载链接：

https://github.com/myracheng/elephant

下载链接

链接失效反馈

官方服务：

资源简介：

OEQ数据集包含个人寻求建议的查询，包括人类对每个ELEPHANT指标的评分。AITA数据集包含AITA风格的查询，包括人类响应和真实标签。

The OEQ dataset includes queries from individuals seeking advice, along with human ratings for each ELEPHANT metric. The AITA dataset contains AITA-style queries, including human responses and true labels.

创建时间：

2025-05-19

原始信息汇总

ELEPHANT 数据集概述

数据集简介

ELEPHANT数据集用于评估语言模型在社会迎合性（social sycophancy）方面的表现，包含两种主要数据集：

开放性问题（OEQ）：个人寻求建议的查询数据集，包含人类回答及各项ELEPHANT指标的评分。
我是混蛋吗（AITA）：AITA风格查询数据集，包含人类回答和真实标签。

数据集文件

完整数据集

datasets/OEQ.csv：开放性问题完整数据集。
datasets/AITA.csv：AITA风格查询完整数据集。

测试样本数据集

datasets/OEQ_sample.csv：开放性问题样本（10例）。
datasets/AITA_sample.csv：AITA风格查询样本（10例）。

数据处理步骤

步骤0：获取模型输出

使用get_responses_gpt.py脚本生成模型对OEQ和AITA数据集的回答。
示例命令： bash python get_responses_gpt.py --input_file datasets/OEQ_sample.csv --input_column prompt --output_file outputs/OEQ_responses.csv --output_column gpt_response

步骤1：运行ELEPHANT指标

使用elephant.py脚本计算社会迎合性指标：
- OEQ指标：情感验证、间接语言、间接行动、接受框架。
- AITA指标：道德认可。
示例命令： bash python elephant.py --input_file outputs/OEQ_responses.csv --prompt_column prompt --response_column gpt_response --output_column_tag gpt4o --OEQ

步骤2：与人类回答比较

使用compare_to_human.ipynb笔记本比较模型输出与人类回答。

附加数据与代码

完整模型响应数据集及分析代码位于full_results_from_paper文件夹。
AITA完整结果文件：https://osf.io/qdyjg/files/osfstorage/682b844a45e43ef8dbcacb45

搜集汇总

数据集介绍

构建方式

在社交心理学与计算语言学交叉领域，OEQ and AITA数据集通过系统化采集真实人际互动场景构建而成。OEQ数据集收录了开放式个人求助咨询文本及人工标注的情感支持指标，AITA数据集则精选自网络论坛中的道德困境讨论帖，包含原始提问与人工标注的道德立场标签。数据构建过程采用双重匿名标注机制，通过专家仲裁解决分歧，确保标注信度达到Kappa>0.85的标准。

特点

该数据集最显著的特征在于其多维度的社交行为标注体系。OEQ数据集创新性地定义了情感验证、间接语言、间接行动和框架接受四项社交迎合指标，AITA数据集则专注于道德认同度的量化评估。数据集提供完整版和10条记录的样本版，支持研究者快速验证算法流程。所有文本数据均经过严格的去标识化处理，在保留语言自然度的同时符合伦理规范。

使用方法

使用该数据集需遵循三步标准化流程：通过get_responses_gpt.py脚本生成目标LLM的响应输出，运用elephant.py计算社交迎合指标（OEQ四维度或AITA道德认同度），最终通过compare_to_human.ipynb对比模型与人类响应差异。研究者可自由替换自有提示数据集，但需保持CSV文件中prompt_column与response_column的字段一致性。输出结果将自动追加包含指标得分的新列，支持跨模型比较研究。

背景与挑战

背景概述

ELEPHANT数据集由相关研究团队于近期构建，旨在探索大型语言模型在社交谄媚行为（social sycophancy）中的表现。该数据集包含开放式问题（OEQ）和‘Am I The Asshole’（AITA）两类数据，分别针对个人建议寻求和道德判断场景。通过设计情感验证、间接语言、间接行动和接受框架等四项指标，ELEPHANT为评估模型在社交互动中的偏差提供了量化工具。其创新性在于首次系统性地将社会心理学维度引入语言模型评估，对人工智能伦理和对话系统研究领域具有重要启示意义。

当前挑战

ELEPHANT数据集面临的核心挑战体现在两个层面：在领域问题层面，如何准确定义和量化社交谄媚这一复杂社会行为存在理论难度，需要平衡心理学严谨性与计算可行性；在构建过程中，确保人类标注者对四项主观指标评分的一致性具有挑战性，特别是涉及跨文化语境下的情感验证和道德认可判断。此外，AITA子集需要处理原始社交媒体数据的噪声过滤问题，同时保持道德困境场景的多样性，这对数据清洗和采样策略提出了较高要求。

常用场景

经典使用场景

在自然语言处理领域，OEQ and AITA数据集为研究社交谄媚行为提供了丰富的语料支持。该数据集通过开放式问题（OEQ）和道德判断场景（AITA），捕捉了人类在寻求建议和道德评价时的语言模式，成为评估大型语言模型社交谄媚倾向的基准工具。研究者可利用其量化模型在情感验证、间接语言等维度的表现，从而揭示模型与人类反应的差异。

实际应用

在AI对话系统开发中，该数据集被广泛应用于产品伦理测试阶段。企业通过对比模型输出与人类基准数据，优化客服机器人、心理咨询助手等应用的应答策略。教育领域则利用其分析AI教学助手是否存在过度认同学生观点的倾向，确保知识传递的客观性。这些实践显著提升了AI系统的社会责任表现。

衍生相关工作

基于该数据集衍生的研究已形成跨学科影响力。在计算社会科学领域，学者构建了社交谄媚行为演化模型；心理学研究则探索了AI谄媚反馈对人类决策的干预效应。技术层面，后续工作开发了基于对抗训练的谄媚抑制算法，以及融合该数据集的AI对齐评估框架LAIKE，持续推动着负责任AI的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集