spawn99/PersuasionForGood
收藏Hugging Face2023-12-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/spawn99/PersuasionForGood
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Persuasion for Good,旨在为社会公益服务的个性化说服对话系统提供支持。数据集包含对话的多个特征,如对话ID(B2)、角色(B4,0表示说服者,1表示被说服者)、对话轮次(Turn)和句子(Unit)。数据集被划分为FullDialog,包含20932个示例,总大小为3043959字节。该数据集及相关代码库发表于ACL 2019,并提供了相关论文的引用信息。
The dataset is named Persuasion for Good, and it is intended to support personalized persuasive dialogue systems for social good. It encompasses multiple dialogue-specific features, including dialogue ID (B2), role (B4, where 0 denotes the persuader and 1 denotes the persuadee), dialogue turn (Turn), and utterance (Unit). The dataset is partitioned into the FullDialog subset, which contains 20,932 instances with a total size of 3,043,959 bytes. This dataset and its accompanying codebase were published at ACL 2019, and relevant citation details for the associated paper are provided.
提供机构:
spawn99
原始信息汇总
数据集概述
数据集信息
- 许可证: MIT
- 特征:
Unnamed: 0: 数据类型为int64Unit: 数据类型为stringTurn: 数据类型为int64B4: 数据类型为int64B2: 数据类型为string
- 分割:
FullDialog: 字节数为 3043959,样本数为 20932
- 下载大小: 1186349 字节
- 数据集大小: 3043959 字节
配置
- 配置名称: default
- 数据文件:
split: FullDialogpath: data/FullDialog-*
特征说明
B2: 对话IDB4: 角色(0 表示说服者,1 表示被说服者)Turn: 轮次索引Unit: 话语中的句子
搜集汇总
数据集介绍

构建方式
该数据集源于ACL 2019长文《Persuasion for Good: Towards a Personalized Persuasive Dialogue System for Social Good》,旨在推动个性化说服性对话系统在社会公益领域的应用。构建过程中,研究人员采集了多轮对话数据,每条对话由说服者(Role为0)和说服对象(Role为1)交替发言组成。数据以对话ID(B2)、角色标识(B4)、轮次索引(Turn)和语句单元(Unit)四个字段进行结构化存储,共包含20,932条对话轮次,整合为FullDialog单一分片,确保了对话流程的完整性与连贯性。
特点
数据集具有鲜明的个性化与公益导向特征。其核心设计在于捕捉说服性对话中角色动态与策略演变,通过角色标注区分说服者与说服对象,便于分析说服策略的交互效果。每个对话单元按轮次索引有序排列,保留了完整的上下文依赖关系,适用于序列建模与策略学习任务。此外,数据规模适中,涵盖广泛的社会公益议题场景,为构建可迁移的个性化说服系统提供了高质量的训练与评估基础。
使用方法
使用时可直接加载HuggingFace上的default配置,通过FullDialog分片访问所有对话轮次数据。每条样本包含对话ID、角色、轮次和语句字段,适合用于序列到序列的对话生成、说服策略分类或角色行为建模等任务。建议在训练前按对话ID分组,以维护对话完整性;同时可依据角色字段分别处理说服者与说服对象的语言模式,从而深入挖掘个性化说服机制。数据采用MIT许可证,便于学术研究与商业应用中的自由使用与扩展。
背景与挑战
背景概述
在人工智能与自然语言处理领域,说服性对话系统作为一项具有社会价值的研究方向,旨在通过个性化交互促进公众行为的积极改变。由加州大学戴维斯分校的王学伟、石伟彦等学者于2019年在ACL会议上发表的Persuasion for Good数据集,正是针对这一核心问题而构建。该数据集由研究者精心设计,包含超过两万条对话轮次,每条对话均标注了说服者与被说服者的角色身份、对话单元及轮次索引,从而为探究说服策略的个性化适配提供了结构化基础。其创建不仅填补了面向社会公益的说服对话数据空白,更推动了模型在健康倡导、环保行为激励等场景中的实际应用,成为该领域后续研究的重要基准资源。
当前挑战
当前该数据集面临的核心挑战包括:其一,在领域问题层面,说服性对话需应对用户心理状态与动机的动态变化,现有模型难以精准捕捉说服策略与个体特质间的复杂映射,导致系统在跨场景泛化时效果衰减;其二,在构建过程中,数据标注需人工分辨说服意图与自然语言表达间的微妙差异,例如区分“建议”与“说服”的语义边界,这要求标注者具备心理学与语言学双重知识,增加了数据一致性的维护难度;此外,对话轮次的递增性使得长程依赖关系建模成为瓶颈,现有方法在处理超过十轮的交互时,说服效果评估指标尚缺乏统一标准,制约了技术从实验室到真实部署的转化进程。
常用场景
经典使用场景
PersuasionForGood数据集在计算社会语言学与对话系统交叉领域占据重要地位,其经典使用场景聚焦于构建和评估个性化说服性对话系统。该数据集收录了超过两万轮真实对话单元,每一轮对话均标注了角色身份(说服者或说服对象)与对话轮次,为研究者提供了分析说服策略在人际互动中动态演变的宝贵语料。通过解析这些对话,学者们得以模拟人类如何在环保、健康等公益议题中通过语言技巧影响他人态度与行为,从而推动说服性人工智能从通用模型向个性化、情境化方向演进。
衍生相关工作
该数据集问世后,衍生了一系列具有里程碑意义的研究工作。最为突出的当属Wang等人(2019)在ACL上发表的原始论文,其提出的个性化说服对话框架成为后续研究的基准。随后,研究者基于此数据集开发了多种对抗性说服策略检测模型,用以区分真诚劝导与恶意操纵;另有工作将其与强化学习结合,设计出能够通过多轮对话逐步缩小用户态度差距的奖励函数。此外,跨文化说服策略迁移、说服效果预测与对话解译等方向也涌现出大量成果,使PersuasionForGood成为说服性人工智能领域最具影响力的基准语料之一。
数据集最近研究
最新研究方向
在自然语言处理与社会计算交叉领域,PersuasionForGood数据集为构建面向社会公益的个性化说服对话系统提供了关键基准。当前前沿研究聚焦于利用该数据集探索说服策略的动态建模,例如结合用户画像与对话历史,实现自适应说服信息生成。相关热点事件包括ACL 2019上该工作引发的关于对话系统伦理与有效性的讨论,推动了对说服过程中情感感知与信任建立的深入分析。该数据集的意义在于,它不仅促进了人机交互中说服理论的实证研究,还为医疗健康、环保倡导等社会议题中的对话干预提供了数据支撑,其多轮对话结构使得研究者能够追踪说服效果的时序演变,从而设计更具同理心与影响力的智能对话代理。
以上内容由遇见数据集搜集并总结生成



