five

winning-arguments-ling-enriched

收藏
Hugging Face2025-09-11 更新2025-09-12 收录
下载链接:
https://huggingface.co/datasets/mmmaurer/winning-arguments-ling-enriched
下载链接
链接失效反馈
官方服务:
资源简介:
这个数据集是Winning Arguments Corpus的增强版,包含了通过Adapter Models获得的论证质量特征和elfen工具提取的语言学特征。适用于研究在线讨论中的互动动态和说服策略。
创建时间:
2025-09-09
原始信息汇总

数据集概述

基本信息

  • 许可证: CC-BY-NC-4.0
  • 语言: 英语
  • 标签: Reddit、CMV
  • 规模: 100K到1M之间

数据内容

该数据集是Winning Arguments Corpus的增强版本,包含以下额外特征:

使用说明

使用此数据需要先下载原始语料库,然后通过post_idcomment_id进行合并。

语言学特征仅针对每篇文章中最多点赞最少点赞获得delta的评论以及文章文本本身提取。所有评论都包含论证质量特征。如需其他评论的语言学特征,可使用elfen自行提取。

引用信息

在学术工作中使用此数据集时,请引用: bibtex @inproceedings{doenmez-maurer-2025-ai, title = "AI Argues Differently: Distinct Argumentative and Linguistic Patterns of LLMs in Persuasive Contexts", author = "Dönmez, Esra and Maurer, Maximilian and Lapesa, Gabriella and Falenska, Agnieszka", year = {2025}, booktitle = "To appear: Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing", }

以及原始语料库: bibtex @inproceedings{tan+etal:16a, author = {Chenhao Tan and Vlad Niculae and Cristian Danescu-Niculescu-Mizil and Lillian Lee}, title = {Winning Arguments: Interaction Dynamics and Persuasion Strategies in Good-faith Online Discussions}, year = {2016}, booktitle = {Proceedings of WWW} }

搜集汇总
数据集介绍
main_image_url
构建方式
在计算论辩学领域,winning-arguments-ling-enriched数据集基于原始Winning Arguments Corpus进行深度扩展。其构建过程通过整合来自Reddit平台ChangeMyView子论坛的讨论数据,采用适配器模型自动标注论辩质量特征,并利用elfen工具包提取语言学特征。该数据集仅对每篇帖子中获最高赞、最低赞及获得Delta奖励的评论进行语言学标注,其余评论则保留论辩质量特征,形成多维度融合的数据结构。
特点
该数据集的核心特点体现在其多维特征融合体系:既包含传统文本数据,又整合了基于适配器模型生成的论辩质量量化指标,以及通过elfen工具提取的深层语言学特征。这种设计使得数据同时具备社会计算视角下的交互动态信息和语言学分析所需的结构化特征,为研究在线说服性对话的论辩策略和语言模式提供了丰富的研究维度。特别值得注意的是,数据集标注覆盖了说服成功案例(Delta评论)与群体反馈两极(最高/最低赞评论),构建了独特的说服效果对比研究框架。
使用方法
研究者使用该数据集时需先下载原始语料库,通过post_id和comment_id字段与本数据集进行匹配融合。对于语言学特征需求,建议优先采用已标注的三类核心评论(最高赞、最低赞、Delta评论),若需扩展分析范围,可借助elfen工具对剩余评论进行特征提取。该数据集特别适用于计算论辩学、自然语言处理及社会计算领域的研究,支持论辩质量评估、说服策略分析、语言模式检测等多类任务,为探究人类与LLM在说服性对话中的差异提供基准数据。
背景与挑战
背景概述
在计算社会科学与自然语言处理的交叉领域,Winning Arguments Corpus由康奈尔大学研究团队于2016年创建,旨在解析在线辩论中的说服机制。该数据集基于Reddit平台的ChangeMyView板块,收录了用户间高质量的观点交锋数据,为论证挖掘与对话分析研究提供了重要基础。其多维度标注体系显著推动了计算论辩学的发展,成为研究 persuasion dynamics 的基准数据集之一。
当前挑战
该数据集核心挑战在于量化论证质量与语言特征的关联性,需解决自然语言中隐含论证结构的识别难题。构建过程中面临多维度特征融合的技术瓶颈,包括适配器模型参数优化与语言学特征提取的一致性保障。原始数据的稀疏标注要求跨模态特征对齐,而辩论语料的语境依赖性则增加了特征泛化难度。
常用场景
经典使用场景
在计算论辩学领域,该数据集被广泛用于分析在线说服性对话中的论辩结构和语言策略。研究者通过其丰富的论辩质量特征和语言学特征,深入探索有效论辩的构成要素,例如在Reddit的ChangeMyView板块中,用户如何通过理性讨论改变他人观点。
衍生相关工作
该数据集衍生了许多经典研究工作,例如基于论辩质量适配器的模型优化和语言学特征增强的论辩分析。相关研究不仅扩展了原始语料的应用范围,还催生了多篇顶会论文,推动了计算论辩学与自然语言处理交叉领域的创新发展。
数据集最近研究
最新研究方向
在计算论辩学领域,winning-arguments-ling-enriched数据集正推动对大型语言模型论辩模式的前沿探索。研究者通过融合论证质量特征与语言学特征,深入解析人类与AI在说服性对话中的差异性表达策略。该数据集已成为检测模型生成论点的可信度与人类论辩差异性的重要基准,相关研究已揭示LLMs在论证结构、情感负载及修辞手法上的独特模式,为构建更自然的人机交互系统提供了理论支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作