webis-cmv-20-pairs
收藏Hugging Face2026-05-07 更新2026-05-08 收录
下载链接:
https://huggingface.co/datasets/idodah/webis-cmv-20-pairs
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征字段,主要涉及文本内容和相关元数据。具体特征包括:submission_id(唯一标识符)、topic(主题)、original_argument(原始论点文本)、original_tokens(原始论点的词数)、created_utc(创建时间戳)、submission_score(提交分数)、num_comments(评论数量)、delta_argument(修改后的论点文本)、delta_chars(修改后论点的字符数)、delta_tokens(修改后论点的词数)、delta_score(修改后论点的分数)、delta_similarity(修改前后论点的相似度)、nodelta_argument(未修改的论点文本)、nodelta_chars(未修改论点的字符数)、nodelta_tokens(未修改论点的词数)、nodelta_score(未修改论点的分数)、nodelta_similarity(未修改论点的相似度)以及comments_similarity(评论相似度)。数据集分为训练集(5,553个样本)、验证集(694个样本)和测试集(695个样本),总大小约为32.9MB。该数据集可能适用于自然语言处理任务,如文本修改分析、论点质量评估或文本相似度计算。
创建时间:
2026-05-06
原始信息汇总
数据集概述
数据集名称:webis-cmv-20-pairs
数据来源:来自ChangeMyView社区的用户评论,包含原始帖子和带有Delta(观点改变)标记的论点对。
数据结构
数据集包含以下字段:
submission_id:帖子IDtopic:帖子主题original_argument:原始论点内容original_tokens:原始论点标记数created_utc:创建时间戳submission_score:帖子得分num_comments:评论数量delta_argument:获得Delta的论点内容delta_chars:获得Delta的论点字符数delta_tokens:获得Delta的论点标记数delta_score:获得Delta的论点得分delta_similarity:获得Delta的论点相似度nodelta_argument:未获得Delta的论点内容nodelta_chars:未获得Delta的论点字符数nodelta_tokens:未获得Delta的论点标记数nodelta_score:未获得Delta的论点得分nodelta_similarity:未获得Delta的论点相似度comments_similarity:评论相似度
数据规模
- 总数据集大小:32,936,213 字节
- 下载大小:16,460,825 字节
数据集分为三个子集:
| 子集 | 样本数 | 大小(字节) |
|---|---|---|
| train | 5,553 | 26,299,848 |
| validation | 694 | 3,283,166 |
| test | 695 | 3,353,199 |
配置信息
- 默认配置:default
- 数据文件路径:
data/train-*(训练集)、data/validation-*(验证集)、data/test-*(测试集)
搜集汇总
数据集介绍

构建方式
webis-cmv-20-pairs数据集源自Reddit的Change My View(CMV)社区,专注于论证质量评估任务。其构建过程首先从CMV中提取包含原始论点(topic)的帖子,并获取每个帖子下的评论作为反驳(delta_argument)或非反驳(nodelta_argument)回应。数据集中每条样本包含原始提交的ID、主题、原始论点文本及令牌数、创建时间、帖子得分、评论数,以及成对出现的反驳与非反驳评论的文本、字符数、令牌数、得分和与原始论点的相似度。最终形成训练集5553条、验证集694条、测试集695条的划分,总数据量约32.9MB。
特点
该数据集的核心特点在于其双评论结构,即每一条样本都包含一个原始提交的论点、一个被作者标记为改变看法的反驳评论(delta_argument)和一个未改变看法的非反驳评论(nodelta_argument),使得模型能够学习区分具有说服力与缺乏说服力的论证。此外,数据集提供了多维度量化指标,包括字符数、令牌数、评论得分以及评论与原始论点间的语义相似度,为论证质量建模提供了丰富的特征空间。这些属性使数据集成为研究论证说服力自动评估与论证生成质量的基准资源。
使用方法
使用该数据集时,可通过HuggingFace Datasets库加载,指定配置名称'default',并选择所需划分(train、validation或test)。典型应用场景是训练论证质量二元分类器或排序模型:将original_argument与delta_argument或nodelta_argument拼接作为输入,预测其是否为有效说服。研究人员也可利用delta_similarity与comments_similarity等数值特征进行回归分析,或探索令牌数、得分等属性对论证效果的影响。数据集已预先划分为三部分,便于直接用于模型训练、调参和性能评估。
背景与挑战
背景概述
webis-cmv-20-pairs数据集由德国魏玛大学的Webis研究团队于2020年创建,专注于计算语言学与论证挖掘交叉领域中的‘变更我的观点’(Change My View)任务。该数据集从Reddit论坛的CMV子版块采集,旨在探究在线辩论中论点如何影响用户观点转变。核心研究问题聚焦于识别导致立场改变的论证特征,以及量化说服性语言的内在机制。通过对原始帖子与回帖中delta(观点转变)与非delta论证的对比分析,该数据集为论证强度评估、说服效果建模提供了宝贵的平行语料,对社交媒体分析、政治传播及人工智能伦理等领域产生了重要影响。
当前挑战
该数据集面临多重挑战。领域层面,论证挖掘中的说服力建模具有高度主观性和语境依赖性,需要模型捕捉隐含逻辑、情感诉求及修辞策略,而现有自然语言处理技术难以量化论证的因果效力与动态说服过程。构建过程中,挑战在于从非结构化论坛数据中准确标注‘观点转变’事件,需人工标注者依据社区规则(delta授予机制)判断,但边界模糊案例导致标注一致性困难。此外,数据稀疏性(仅694个验证样本和695个测试样本)限制了模型泛化能力,且论坛内容涉及敏感话题,增加了伦理审查与偏见控制的复杂性。
常用场景
经典使用场景
在计算论辩与自然语言处理交叉领域,webis-cmv-20-pairs数据集扮演着评估论证质量与论辩演变轨迹的关键角色。该数据集从ChangeMyView社区中精心抽取了数千对观点转变前后的论证文本,每个样本包含原始论点与经过反驳后形成的修正论点,并附带了详尽的社区评分与文本相似性指标。研究者常将其用于训练和测评论证重构模型,探究如何在保留原始论证合理成分的基础上,生成更具说服力的替换性论证,从而揭示有效论辩中逻辑调整与语言改造的内在规律。
解决学术问题
该数据集精准回应了论证研究中长期存在的两大难题:论证质量量化的主观性困境与论辩动态过程的建模缺失。通过提供带有明确社区认可度(delta_score)与文本相似性(delta_similarity)的成对数据,它使得研究者能够客观衡量论证修改的效果,从而系统分析哪些修辞策略或逻辑结构能显著增强说服力。这一资源推动了从静态论证分析向动态论辩演化研究的范式转换,为构建能够自动评估并改进论证质量的智能系统奠定了实证基础。
衍生相关工作
webis-cmv-20-pairs问世以来,衍生了一系列探索论辩深度结构与生成机制的经典工作。研究者基于该数据集开发了论证修订序列生成模型,将原始论点向修正论点的转变过程建模为可学习的文本编辑操作链。另有工作聚焦于论证相似性度量,利用其中的delta_similarity特征训练能够区分微弱观点差异的嵌入模型。该数据集还催生了关于社区投票行为与论证有效性之间关系的计量研究,揭示了论证修改幅度与说服成功率之间的非线性关联,为论辩系统的设计提供了可资借鉴的数据驱动洞察。
以上内容由遇见数据集搜集并总结生成



