spawn99/PersuasionForGood

Name: spawn99/PersuasionForGood
Creator: spawn99
Published: 2023-12-29 20:09:42
License: 暂无描述

Hugging Face2023-12-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/spawn99/PersuasionForGood

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Persuasion for Good，旨在为社会公益服务的个性化说服对话系统提供支持。数据集包含对话的多个特征，如对话ID（B2）、角色（B4，0表示说服者，1表示被说服者）、对话轮次（Turn）和句子（Unit）。数据集被划分为FullDialog，包含20932个示例，总大小为3043959字节。该数据集及相关代码库发表于ACL 2019，并提供了相关论文的引用信息。

The dataset is named Persuasion for Good, and it is intended to support personalized persuasive dialogue systems for social good. It encompasses multiple dialogue-specific features, including dialogue ID (B2), role (B4, where 0 denotes the persuader and 1 denotes the persuadee), dialogue turn (Turn), and utterance (Unit). The dataset is partitioned into the FullDialog subset, which contains 20,932 instances with a total size of 3,043,959 bytes. This dataset and its accompanying codebase were published at ACL 2019, and relevant citation details for the associated paper are provided.

提供机构：

spawn99

原始信息汇总

数据集概述

数据集信息

许可证: MIT
特征:
- Unnamed: 0: 数据类型为 int64
- Unit: 数据类型为 string
- Turn: 数据类型为 int64
- B4: 数据类型为 int64
- B2: 数据类型为 string
分割:
- FullDialog: 字节数为 3043959，样本数为 20932
下载大小: 1186349 字节
数据集大小: 3043959 字节

配置

配置名称: default
数据文件:
- split: FullDialog
- path: data/FullDialog-*

特征说明

B2: 对话ID
B4: 角色（0 表示说服者，1 表示被说服者）
Turn: 轮次索引
Unit: 话语中的句子

搜集汇总

数据集介绍

构建方式

该数据集源于ACL 2019长文《Persuasion for Good: Towards a Personalized Persuasive Dialogue System for Social Good》，旨在推动个性化说服性对话系统在社会公益领域的应用。构建过程中，研究人员采集了多轮对话数据，每条对话由说服者（Role为0）和说服对象（Role为1）交替发言组成。数据以对话ID（B2）、角色标识（B4）、轮次索引（Turn）和语句单元（Unit）四个字段进行结构化存储，共包含20,932条对话轮次，整合为FullDialog单一分片，确保了对话流程的完整性与连贯性。

特点

数据集具有鲜明的个性化与公益导向特征。其核心设计在于捕捉说服性对话中角色动态与策略演变，通过角色标注区分说服者与说服对象，便于分析说服策略的交互效果。每个对话单元按轮次索引有序排列，保留了完整的上下文依赖关系，适用于序列建模与策略学习任务。此外，数据规模适中，涵盖广泛的社会公益议题场景，为构建可迁移的个性化说服系统提供了高质量的训练与评估基础。

使用方法

使用时可直接加载HuggingFace上的default配置，通过FullDialog分片访问所有对话轮次数据。每条样本包含对话ID、角色、轮次和语句字段，适合用于序列到序列的对话生成、说服策略分类或角色行为建模等任务。建议在训练前按对话ID分组，以维护对话完整性；同时可依据角色字段分别处理说服者与说服对象的语言模式，从而深入挖掘个性化说服机制。数据采用MIT许可证，便于学术研究与商业应用中的自由使用与扩展。

背景与挑战

背景概述

在人工智能与自然语言处理领域，说服性对话系统作为一项具有社会价值的研究方向，旨在通过个性化交互促进公众行为的积极改变。由加州大学戴维斯分校的王学伟、石伟彦等学者于2019年在ACL会议上发表的Persuasion for Good数据集，正是针对这一核心问题而构建。该数据集由研究者精心设计，包含超过两万条对话轮次，每条对话均标注了说服者与被说服者的角色身份、对话单元及轮次索引，从而为探究说服策略的个性化适配提供了结构化基础。其创建不仅填补了面向社会公益的说服对话数据空白，更推动了模型在健康倡导、环保行为激励等场景中的实际应用，成为该领域后续研究的重要基准资源。

当前挑战

当前该数据集面临的核心挑战包括：其一，在领域问题层面，说服性对话需应对用户心理状态与动机的动态变化，现有模型难以精准捕捉说服策略与个体特质间的复杂映射，导致系统在跨场景泛化时效果衰减；其二，在构建过程中，数据标注需人工分辨说服意图与自然语言表达间的微妙差异，例如区分“建议”与“说服”的语义边界，这要求标注者具备心理学与语言学双重知识，增加了数据一致性的维护难度；此外，对话轮次的递增性使得长程依赖关系建模成为瓶颈，现有方法在处理超过十轮的交互时，说服效果评估指标尚缺乏统一标准，制约了技术从实验室到真实部署的转化进程。

常用场景

经典使用场景

PersuasionForGood数据集在计算社会语言学与对话系统交叉领域占据重要地位，其经典使用场景聚焦于构建和评估个性化说服性对话系统。该数据集收录了超过两万轮真实对话单元，每一轮对话均标注了角色身份（说服者或说服对象）与对话轮次，为研究者提供了分析说服策略在人际互动中动态演变的宝贵语料。通过解析这些对话，学者们得以模拟人类如何在环保、健康等公益议题中通过语言技巧影响他人态度与行为，从而推动说服性人工智能从通用模型向个性化、情境化方向演进。

衍生相关工作

该数据集问世后，衍生了一系列具有里程碑意义的研究工作。最为突出的当属Wang等人（2019）在ACL上发表的原始论文，其提出的个性化说服对话框架成为后续研究的基准。随后，研究者基于此数据集开发了多种对抗性说服策略检测模型，用以区分真诚劝导与恶意操纵；另有工作将其与强化学习结合，设计出能够通过多轮对话逐步缩小用户态度差距的奖励函数。此外，跨文化说服策略迁移、说服效果预测与对话解译等方向也涌现出大量成果，使PersuasionForGood成为说服性人工智能领域最具影响力的基准语料之一。

数据集最近研究