UKPLab/UKP_ASPECT
收藏数据集概述
数据集名称
UKP ASPECT Corpus
数据集摘要
UKP ASPECT Corpus 包含3,595对句子,涉及28个争议话题。这些句子从大型网络爬虫中提取,并通过ArgumenText系统识别为特定话题的论点。通过众包方式对句子对的论点相似性进行标注,每个工人可以从四个标注选项中选择。
支持的任务
- 句子对分类
- 话题分类
语言
英语
数据集结构
数据实例
每个实例包含一个话题、一对句子和一个论点相似性标签。
数据字段
- 话题: 用于检索文档的话题关键词
- 句子1: 句子对中的第一个句子
- 句子2: 句子对中的第二个句子
- 标签: 句子对的众包黄金标准标注(DTORCD, NS, SS, HS)
数据分割
数据集目前不包含标准的数据分割。
数据集创建
数据收集与规范化
使用ArgumenText系统从大型网络爬虫中识别出特定话题的论点句子,并采用弱监督方法平衡相似性,最终形成3,595对论点句子。
标注过程
通过Amazon Mechanical Turk平台上的众包工人对论点对的相似性进行标注,使用Multi-Annotator Competence Estimation (MACE)方法整合投票结果。
附加信息
数据集管理者
由UKP的数据管理者负责。
许可信息
CC-by-NC 3.0
引用信息
@inproceedings{reimers2019classification, title={Classification and Clustering of Arguments with Contextualized Word Embeddings}, author={Reimers, Nils and Schiller, Benjamin and Beck, Tilman and Daxenberger, Johannes and Stab, Christian and Gurevych, Iryna}, booktitle={Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics}, pages={567--578}, year={2019} }
贡献者
感谢@buenalaune添加此数据集。




