winning-arguments-ling-enriched

Hugging Face2025-09-11 更新2025-09-12 收录

下载链接：

https://huggingface.co/datasets/mmmaurer/winning-arguments-ling-enriched

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集是Winning Arguments Corpus的增强版，包含了通过Adapter Models获得的论证质量特征和elfen工具提取的语言学特征。适用于研究在线讨论中的互动动态和说服策略。

创建时间：

2025-09-09

原始信息汇总

数据集概述

基本信息

许可证: CC-BY-NC-4.0
语言: 英语
标签: Reddit、CMV
规模: 100K到1M之间

数据内容

该数据集是Winning Arguments Corpus的增强版本，包含以下额外特征：

通过Adapter Models获取的论证质量特征
使用elfen提取的语言学特征

使用说明

使用此数据需要先下载原始语料库，然后通过post_id和comment_id进行合并。

语言学特征仅针对每篇文章中最多点赞、最少点赞和获得delta的评论以及文章文本本身提取。所有评论都包含论证质量特征。如需其他评论的语言学特征，可使用elfen自行提取。

引用信息

在学术工作中使用此数据集时，请引用： bibtex @inproceedings{doenmez-maurer-2025-ai, title = "AI Argues Differently: Distinct Argumentative and Linguistic Patterns of LLMs in Persuasive Contexts", author = "Dönmez, Esra and Maurer, Maximilian and Lapesa, Gabriella and Falenska, Agnieszka", year = {2025}, booktitle = "To appear: Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing", }

以及原始语料库： bibtex @inproceedings{tan+etal:16a, author = {Chenhao Tan and Vlad Niculae and Cristian Danescu-Niculescu-Mizil and Lillian Lee}, title = {Winning Arguments: Interaction Dynamics and Persuasion Strategies in Good-faith Online Discussions}, year = {2016}, booktitle = {Proceedings of WWW} }

搜集汇总

数据集介绍

构建方式

在计算论辩学领域，winning-arguments-ling-enriched数据集基于原始Winning Arguments Corpus进行深度扩展。其构建过程通过整合来自Reddit平台ChangeMyView子论坛的讨论数据，采用适配器模型自动标注论辩质量特征，并利用elfen工具包提取语言学特征。该数据集仅对每篇帖子中获最高赞、最低赞及获得Delta奖励的评论进行语言学标注，其余评论则保留论辩质量特征，形成多维度融合的数据结构。

特点

该数据集的核心特点体现在其多维特征融合体系：既包含传统文本数据，又整合了基于适配器模型生成的论辩质量量化指标，以及通过elfen工具提取的深层语言学特征。这种设计使得数据同时具备社会计算视角下的交互动态信息和语言学分析所需的结构化特征，为研究在线说服性对话的论辩策略和语言模式提供了丰富的研究维度。特别值得注意的是，数据集标注覆盖了说服成功案例（Delta评论）与群体反馈两极（最高/最低赞评论），构建了独特的说服效果对比研究框架。

使用方法

研究者使用该数据集时需先下载原始语料库，通过post_id和comment_id字段与本数据集进行匹配融合。对于语言学特征需求，建议优先采用已标注的三类核心评论（最高赞、最低赞、Delta评论），若需扩展分析范围，可借助elfen工具对剩余评论进行特征提取。该数据集特别适用于计算论辩学、自然语言处理及社会计算领域的研究，支持论辩质量评估、说服策略分析、语言模式检测等多类任务，为探究人类与LLM在说服性对话中的差异提供基准数据。

背景与挑战

背景概述

在计算社会科学与自然语言处理的交叉领域，Winning Arguments Corpus由康奈尔大学研究团队于2016年创建，旨在解析在线辩论中的说服机制。该数据集基于Reddit平台的ChangeMyView板块，收录了用户间高质量的观点交锋数据，为论证挖掘与对话分析研究提供了重要基础。其多维度标注体系显著推动了计算论辩学的发展，成为研究 persuasion dynamics 的基准数据集之一。

当前挑战

该数据集核心挑战在于量化论证质量与语言特征的关联性，需解决自然语言中隐含论证结构的识别难题。构建过程中面临多维度特征融合的技术瓶颈，包括适配器模型参数优化与语言学特征提取的一致性保障。原始数据的稀疏标注要求跨模态特征对齐，而辩论语料的语境依赖性则增加了特征泛化难度。

常用场景

经典使用场景

在计算论辩学领域，该数据集被广泛用于分析在线说服性对话中的论辩结构和语言策略。研究者通过其丰富的论辩质量特征和语言学特征，深入探索有效论辩的构成要素，例如在Reddit的ChangeMyView板块中，用户如何通过理性讨论改变他人观点。

衍生相关工作

该数据集衍生了许多经典研究工作，例如基于论辩质量适配器的模型优化和语言学特征增强的论辩分析。相关研究不仅扩展了原始语料的应用范围，还催生了多篇顶会论文，推动了计算论辩学与自然语言处理交叉领域的创新发展。

数据集最近研究