PERSONACONFLICTS CORPUS

Name: PERSONACONFLICTS CORPUS
Creator: 麻省理工学院（美国马萨诸塞州剑桥市）, 卡内基梅隆大学（美国宾夕法尼亚州匹兹堡市）, 艾伦人工智能研究所（美国华盛顿州西雅图市）
Published: 2025-05-28 01:23:57
License: 暂无描述

arXiv2025-05-28 更新2025-05-29 收录

下载链接：

http://arxiv.org/abs/2505.21451v1

下载链接

链接失效反馈

官方服务：

资源简介：

PERSONACONFLICTS CORPUS是一个包含N = 5,772个模拟对话的数据集，这些对话涵盖了在朋友、家庭成员和恋人之间发生的各种冲突场景。该数据集由麻省理工学院、卡内基梅隆大学和艾伦人工智能研究所的研究团队创建，旨在研究关系背景对人类和模型感知对话冲突的影响。数据集中包含了自然模拟的对话，这些对话由LLMs生成，并针对对话中每个回合的沟通崩溃类型进行了细粒度的标注。该数据集为评估LLMs在检测有害沟通方面的能力提供了一个重要的框架，并为开发更个性化的AI系统以解决人际关系中的冲突提供了新的视角。

The PERSONACONFLICTS CORPUS is a dataset containing N=5,772 simulated dialogues covering a wide range of conflict scenarios between friends, family members, and romantic partners. Developed by research teams from the Massachusetts Institute of Technology, Carnegie Mellon University, and the Allen Institute for Artificial Intelligence, this dataset aims to investigate the impact of relational context on how humans and models perceive conversational conflicts. It consists of naturally simulated dialogues generated by LLMs, with fine-grained annotations for the type of communication breakdown in each dialogue turn. This dataset provides a critical framework for evaluating LLMs' ability to detect harmful communication, and offers new perspectives for developing more personalized AI systems to resolve conflicts in interpersonal relationships.

提供机构：

麻省理工学院（美国马萨诸塞州剑桥市）, 卡内基梅隆大学（美国宾夕法尼亚州匹兹堡市）, 艾伦人工智能研究所（美国华盛顿州西雅图市）

创建时间：

2025-05-28

搜集汇总

数据集介绍

构建方式

PERSONACONFLICTS CORPUS的构建基于非暴力沟通理论（NVC），通过大规模语言模型模拟生成了5,772段自然对话，涵盖朋友、家人和伴侣之间的多样化冲突场景。研究团队首先定义了角色和关系类型，随后通过精心设计的提示词引导模型生成包含冲突和非冲突的对话。每个对话均配备两种对立背景故事（积极与消极），以探究背景故事对冲突感知的影响。对话生成后，通过人工验证确保其真实性和理论一致性，最终形成了这一兼具理论深度和实用性的数据集。

使用方法

使用该数据集时，研究者可通过三种递进式上下文条件展开实验：仅分析单轮对话、结合完整对话语境、以及引入关系背景故事。数据集支持两项核心任务：冲突轮次检测（4级Likert量表）和情感影响预测（3分类）。建议采用交叉验证评估模型性能，重点关注背景故事引入前后指标变化。对于人工标注子集，可计算Krippendorff's Alpha等指标评估标注一致性。实验设计应控制背景故事类型（积极/消极）作为自变量，以系统考察其对人类和模型判断的影响机制。

背景与挑战

背景概述

PERSONACONFLICTS CORPUS是由麻省理工学院、卡内基梅隆大学和艾伦人工智能研究所的研究团队于2025年创建的重要数据集，专注于亲密关系中的暴力沟通检测。该数据集基于非暴力沟通理论(NVC)，包含5,772个模拟对话，涵盖朋友、家人和伴侣之间的多样化冲突场景。研究团队通过控制变量的人体实验，标注了对话中精细的沟通崩溃类型标签，并评估了背景故事对人类和模型冲突感知的影响。这一数据集填补了亲密关系语境下冲突检测研究的空白，为人际沟通中的AI调解系统提供了重要的理论基础和数据支持。

当前挑战

PERSONACONFLICTS CORPUS面临的核心挑战体现在两个方面：在领域问题层面，亲密关系中的暴力沟通检测需要处理高度主观的语境依赖性，同一句话在不同关系背景下可能产生完全相反的解读；在构建过程中，研究团队需要平衡模拟对话的真实性与伦理考量，同时确保背景故事能有效诱导不同的情感解读。技术挑战包括：1)模型难以有效利用背景故事信息来调整冲突检测，2)LLMs普遍高估信息的积极情感影响，3)多标签标注中'应得思维'等复杂沟通类型的识别一致性较低。这些挑战突显了人际关系语境建模的复杂性。

常用场景

经典使用场景

PERSONACONFLICTS CORPUS数据集在自然语言处理领域中被广泛用于研究亲密关系中的对话冲突检测与分析。该数据集通过模拟朋友、家人和伴侣之间的冲突与非冲突对话，为研究者提供了一个丰富的资源，用于探索关系背景如何影响对话的感知。经典使用场景包括训练和评估大型语言模型（LLM）在检测对话冲突时的表现，尤其是在考虑关系历史和情感背景的情况下。

解决学术问题

该数据集解决了现有研究中对话冲突检测任务普遍忽视关系动态的问题。通过引入关系背景故事，PERSONACONFLICTS CORPUS为研究者提供了工具，以探索背景故事如何影响人类和模型对冲突的感知。其意义在于揭示了背景故事在冲突检测中的关键作用，并为开发更具上下文感知能力的AI系统奠定了基础。

实际应用

在实际应用中，PERSONACONFLICTS CORPUS可用于开发AI辅助的沟通调解工具，帮助改善亲密关系中的对话质量。例如，该数据集可以用于训练模型识别潜在的冲突信号，并提供建设性的改写建议，从而减少误解和情感伤害。此外，它还可用于心理咨询和教育领域，帮助专业人士更好地理解和分析关系中的沟通模式。

数据集最近研究