winning-arguments-ling-enriched
收藏数据集概述
基本信息
- 许可证: CC-BY-NC-4.0
- 语言: 英语
- 标签: Reddit、CMV
- 规模: 100K到1M之间
数据内容
该数据集是Winning Arguments Corpus的增强版本,包含以下额外特征:
- 通过Adapter Models获取的论证质量特征
- 使用elfen提取的语言学特征
使用说明
使用此数据需要先下载原始语料库,然后通过post_id和comment_id进行合并。
语言学特征仅针对每篇文章中最多点赞、最少点赞和获得delta的评论以及文章文本本身提取。所有评论都包含论证质量特征。如需其他评论的语言学特征,可使用elfen自行提取。
引用信息
在学术工作中使用此数据集时,请引用: bibtex @inproceedings{doenmez-maurer-2025-ai, title = "AI Argues Differently: Distinct Argumentative and Linguistic Patterns of LLMs in Persuasive Contexts", author = "Dönmez, Esra and Maurer, Maximilian and Lapesa, Gabriella and Falenska, Agnieszka", year = {2025}, booktitle = "To appear: Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing", }
以及原始语料库: bibtex @inproceedings{tan+etal:16a, author = {Chenhao Tan and Vlad Niculae and Cristian Danescu-Niculescu-Mizil and Lillian Lee}, title = {Winning Arguments: Interaction Dynamics and Persuasion Strategies in Good-faith Online Discussions}, year = {2016}, booktitle = {Proceedings of WWW} }




