IBM-ArgQ-6.3kArgs

Name: IBM-ArgQ-6.3kArgs
Creator: IBM研究院
Published: 2019-09-03 17:00:44
License: 暂无描述

arXiv2019-09-03 更新2024-06-21 收录

下载链接：

https://www.research.ibm.com/haifa/dept/vst/debating_data.shtml#ArgumentQuality

下载链接

链接失效反馈

官方服务：

资源简介：

IBM-ArgQ-6.3kArgs数据集由IBM研究院创建，包含6300个经过精心标注的论据，每个论据都明确标注了质量评分。数据集通过在线和现场实验收集，主要来源包括辩论俱乐部成员和参与实验的广泛观众。创建过程中，研究人员选择了11个争议性概念，并通过辩论术语制定了两个对立的政策或观点。数据集的应用领域包括自动化决策支持、论据搜索和写作支持，旨在通过高质量论据提升决策过程。

The IBM-ArgQ-6.3kArgs dataset was developed by IBM Research, comprising 6,300 meticulously annotated arguments, each of which is explicitly labeled with a quality score. The dataset was collected via both online and on-site experiments, with its primary sources being debate club members and a broad audience participating in the experiments. During the dataset's creation, researchers selected 11 controversial concepts and formulated two opposing policy stances or viewpoints using debate-specific terminology. Its application domains include automated decision support, argument search and writing assistance, with the goal of enhancing decision-making processes through high-quality arguments.

提供机构：

IBM研究院

创建时间：

2019-09-03

搜集汇总

数据集介绍

构建方式

在计算论证学领域，高质量标注数据的匮乏长期制约着自动论证质量评估的发展。IBM-ArgQ-6.3kArgs数据集通过主动式采集策略构建，依托Speech by Crowd平台，从辩论俱乐部成员与广泛参与者中征集了6257条论证。每条论证均围绕11个争议性议题（如社交媒体、兴奋剂）展开，兼具正反立场，并严格限定8至36词的长度。在标注环节，采用绝对与相对两种范式：为每条论证分配个体质量分数（由15至17名标注者以二元问题投票产生），并额外标注了14k对论证的相对质量偏好，从而构建起多层次的质量评估体系。

特点

该数据集的核心特色在于其规模与标注的严谨性。相较于此前仅含千余条论证的UKPRank数据集，IBM-ArgQ-6.3kArgs收录了逾6.3k条论证，体量提升五倍以上。所有论证均通过专用界面主动采集，文本干净度极高，94.78%的条目不含格式错误，长度分布亦更为均匀，有效降低了长度偏差对质量判断的干扰。尤为重要的是，数据集同时提供了个体质量分数与成对比较标签，两者在75%的成对案例中保持一致性，且成对标注的复现性相关系数高达0.81，充分验证了标注的稳健性与可靠性。

使用方法

研究者可灵活运用该数据集开展两类核心任务：论证排名与成对分类。对于排名任务，可采用基于BERT的Arg-Ranker模型，通过微调后的嵌入向量训练回归网络，预测论证在[0,1]区间内的质量分数。对于分类任务，则可利用Arg-Classifier模型，将论证对编码为[CLS]A[SEP]B序列，进行二分类判断。实验表明，该分类方法在IBMPairs数据集上准确率达80%，显著超越传统方法。此外，数据集还提供了经过清洗的子集（如IBMRank与IBMPairs），便于开展可复现的基准测试与跨数据集对比研究。

背景与挑战

背景概述

在计算论证学领域，自动评估论证质量是提升决策支持、论据检索与写作辅助等应用的关键环节。IBM研究院的研究团队于2019年构建了IBM-ArgQ-6.3kArgs数据集，旨在突破先前数据集规模小、标注方式单一的局限。该数据集包含6,300余条精心收集的论证，每条均获得独立质量评分，并附带14,000对论证的相对质量标注。通过主动采集与严格清洗，数据集在文本洁净度与长度均匀性上显著优于UKPConvArgRank等前人资源，为论证质量建模提供了更可靠的基础。该数据集与IBM的Project Debater和Speech by Crowd系统紧密关联，推动了从辩论系统到公民参与平台的实际应用。

当前挑战

该数据集面临的核心挑战在于论证质量评估固有的主观性。尽管通过大规模众包标注（每实例15-17人）与多重质控（Kappa分析、测试题过滤、高先验剔除）提升了可靠性，但个体质量标注的Kappa值仅0.1，反映标注者间一致性极低。构建过程中，主动收集的论证虽减少了噪声，却受限于8-36词的长度约束，可能遗漏复杂论证。此外，模型在预测时难以区分说服力与表达质量的权重，例如含拼写错误但具冲击力的论证常被误判；同时，对离题、煽动性或缺乏依据的论证识别不足，这些在‘假新闻’时代尤为关键。数据集的长度均匀性虽降低了长度偏倚，却也增加了分类难度，使IBMPairs上的准确率低于UKPStrict。

常用场景

经典使用场景

在计算论证与自然语言处理领域，IBM-ArgQ-6.3kArgs数据集被广泛用于论证质量自动评估任务。该数据集包含超过六千条精心收集与标注的论证文本，每个论证均被赋予一个[0,1]区间内的质量分数，为研究者提供了规模远超以往的高质量标注资源。其经典使用场景包括基于单条论证的绝对质量回归预测，以及基于论证对的相对质量分类任务，后者要求模型判断一对论证中哪一条质量更高。由于数据收集过程采用主动采集方式并施加了严格的长度与内容约束，该数据集相较从网络辩论平台采样的语料具有更低的噪声与更高的文本一致性，因此成为训练与评估论证质量判别模型的理想基准。

实际应用

在实际应用中，IBM-ArgQ-6.3kArgs所支撑的论证质量评估技术已融入IBM的Speech by Crowd平台，该平台旨在从大规模人群中收集自由文本论证并生成有意义的叙事。一个典型应用场景是公民参与领域，例如马德里开放决策平台Decide Madrid与城市治理公司Zencity，它们利用群体智慧辅助公共决策。在这些场景中，自动质量评估能够从海量用户贡献中筛选出高质量的论证，使其在辩论或决策过程中脱颖而出。此外，该技术还可延伸至写作辅助系统，帮助用户优化论证表达；以及智能个人助手中的口头沟通场景，通过评估论证的清晰度与说服力来提升对话质量。

衍生相关工作

基于IBM-ArgQ-6.3kArgs数据集，研究者衍生出一系列富有影响力的后续工作。最直接的是论文中提出的Arg-Classifier与Arg-Ranker模型，前者在论证对分类任务上显著超越此前基于GPPL的方法，后者在单条论证排序任务上达到与当时最先进技术相当的性能。这些模型均基于BERT预训练语言模型进行微调，展示了大规模预训练表征在论证质量建模中的潜力。此外，该数据集推动了论证质量评估从静态文本向动态口语场景的拓展，并启发了对三元分类模型的研究，旨在处理质量相近的论证对。后续工作还进一步探索了主动学习策略，将昂贵的成对标注资源集中于质量差异较小的论证对，以提升标注效率与模型性能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集