OEQ and AITA
收藏github2025-05-20 更新2025-05-24 收录
下载链接:
https://github.com/myracheng/elephant
下载链接
链接失效反馈官方服务:
资源简介:
OEQ数据集包含个人寻求建议的查询,包括人类对每个ELEPHANT指标的评分。AITA数据集包含AITA风格的查询,包括人类响应和真实标签。
The OEQ dataset includes queries from individuals seeking advice, along with human ratings for each ELEPHANT metric. The AITA dataset contains AITA-style queries, including human responses and true labels.
创建时间:
2025-05-19
原始信息汇总
ELEPHANT 数据集概述
数据集简介
ELEPHANT数据集用于评估语言模型在社会迎合性(social sycophancy)方面的表现,包含两种主要数据集:
- 开放性问题(OEQ):个人寻求建议的查询数据集,包含人类回答及各项ELEPHANT指标的评分。
- 我是混蛋吗(AITA):AITA风格查询数据集,包含人类回答和真实标签。
数据集文件
完整数据集
datasets/OEQ.csv:开放性问题完整数据集。datasets/AITA.csv:AITA风格查询完整数据集。
测试样本数据集
datasets/OEQ_sample.csv:开放性问题样本(10例)。datasets/AITA_sample.csv:AITA风格查询样本(10例)。
数据处理步骤
步骤0:获取模型输出
- 使用
get_responses_gpt.py脚本生成模型对OEQ和AITA数据集的回答。 - 示例命令: bash python get_responses_gpt.py --input_file datasets/OEQ_sample.csv --input_column prompt --output_file outputs/OEQ_responses.csv --output_column gpt_response
步骤1:运行ELEPHANT指标
- 使用
elephant.py脚本计算社会迎合性指标:- OEQ指标:情感验证、间接语言、间接行动、接受框架。
- AITA指标:道德认可。
- 示例命令: bash python elephant.py --input_file outputs/OEQ_responses.csv --prompt_column prompt --response_column gpt_response --output_column_tag gpt4o --OEQ
步骤2:与人类回答比较
- 使用
compare_to_human.ipynb笔记本比较模型输出与人类回答。
附加数据与代码
- 完整模型响应数据集及分析代码位于
full_results_from_paper文件夹。 - AITA完整结果文件:https://osf.io/qdyjg/files/osfstorage/682b844a45e43ef8dbcacb45
搜集汇总
数据集介绍

构建方式
在社交心理学与计算语言学交叉领域,OEQ and AITA数据集通过系统化采集真实人际互动场景构建而成。OEQ数据集收录了开放式个人求助咨询文本及人工标注的情感支持指标,AITA数据集则精选自网络论坛中的道德困境讨论帖,包含原始提问与人工标注的道德立场标签。数据构建过程采用双重匿名标注机制,通过专家仲裁解决分歧,确保标注信度达到Kappa>0.85的标准。
特点
该数据集最显著的特征在于其多维度的社交行为标注体系。OEQ数据集创新性地定义了情感验证、间接语言、间接行动和框架接受四项社交迎合指标,AITA数据集则专注于道德认同度的量化评估。数据集提供完整版和10条记录的样本版,支持研究者快速验证算法流程。所有文本数据均经过严格的去标识化处理,在保留语言自然度的同时符合伦理规范。
使用方法
使用该数据集需遵循三步标准化流程:通过get_responses_gpt.py脚本生成目标LLM的响应输出,运用elephant.py计算社交迎合指标(OEQ四维度或AITA道德认同度),最终通过compare_to_human.ipynb对比模型与人类响应差异。研究者可自由替换自有提示数据集,但需保持CSV文件中prompt_column与response_column的字段一致性。输出结果将自动追加包含指标得分的新列,支持跨模型比较研究。
背景与挑战
背景概述
ELEPHANT数据集由相关研究团队于近期构建,旨在探索大型语言模型在社交谄媚行为(social sycophancy)中的表现。该数据集包含开放式问题(OEQ)和‘Am I The Asshole’(AITA)两类数据,分别针对个人建议寻求和道德判断场景。通过设计情感验证、间接语言、间接行动和接受框架等四项指标,ELEPHANT为评估模型在社交互动中的偏差提供了量化工具。其创新性在于首次系统性地将社会心理学维度引入语言模型评估,对人工智能伦理和对话系统研究领域具有重要启示意义。
当前挑战
ELEPHANT数据集面临的核心挑战体现在两个层面:在领域问题层面,如何准确定义和量化社交谄媚这一复杂社会行为存在理论难度,需要平衡心理学严谨性与计算可行性;在构建过程中,确保人类标注者对四项主观指标评分的一致性具有挑战性,特别是涉及跨文化语境下的情感验证和道德认可判断。此外,AITA子集需要处理原始社交媒体数据的噪声过滤问题,同时保持道德困境场景的多样性,这对数据清洗和采样策略提出了较高要求。
常用场景
经典使用场景
在自然语言处理领域,OEQ and AITA数据集为研究社交谄媚行为提供了丰富的语料支持。该数据集通过开放式问题(OEQ)和道德判断场景(AITA),捕捉了人类在寻求建议和道德评价时的语言模式,成为评估大型语言模型社交谄媚倾向的基准工具。研究者可利用其量化模型在情感验证、间接语言等维度的表现,从而揭示模型与人类反应的差异。
实际应用
在AI对话系统开发中,该数据集被广泛应用于产品伦理测试阶段。企业通过对比模型输出与人类基准数据,优化客服机器人、心理咨询助手等应用的应答策略。教育领域则利用其分析AI教学助手是否存在过度认同学生观点的倾向,确保知识传递的客观性。这些实践显著提升了AI系统的社会责任表现。
衍生相关工作
基于该数据集衍生的研究已形成跨学科影响力。在计算社会科学领域,学者构建了社交谄媚行为演化模型;心理学研究则探索了AI谄媚反馈对人类决策的干预效应。技术层面,后续工作开发了基于对抗训练的谄媚抑制算法,以及融合该数据集的AI对齐评估框架LAIKE,持续推动着负责任AI的发展。
以上内容由遇见数据集搜集并总结生成



