UKPLab/UKP_ASPECT

Name: UKPLab/UKP_ASPECT
Creator: UKPLab
Published: 2023-06-19 08:18:13
License: 暂无描述

Hugging Face2023-06-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/UKPLab/UKP_ASPECT

下载链接

链接失效反馈

官方服务：

资源简介：

UKP ASPECT语料库包含3,595对句子，涉及28个有争议的话题。这些句子通过ArgumenText系统从大型网络爬取中识别为特定话题的论点，并通过众包进行论点相似性标注。每对句子都有一个论点相似性标签，标签包括不同话题/无法决定、无相似性、部分相似性和高度相似性。数据集支持句子对分类和话题分类任务，语言为英语。

提供机构：

UKPLab

原始信息汇总

数据集概述

数据集名称

UKP ASPECT Corpus

数据集摘要

UKP ASPECT Corpus 包含3,595对句子，涉及28个争议话题。这些句子从大型网络爬虫中提取，并通过ArgumenText系统识别为特定话题的论点。通过众包方式对句子对的论点相似性进行标注，每个工人可以从四个标注选项中选择。

支持的任务

句子对分类
话题分类

语言

英语

数据集结构

数据实例

每个实例包含一个话题、一对句子和一个论点相似性标签。

数据字段

话题: 用于检索文档的话题关键词
句子1: 句子对中的第一个句子
句子2: 句子对中的第二个句子
标签: 句子对的众包黄金标准标注（DTORCD, NS, SS, HS）

数据分割

数据集目前不包含标准的数据分割。

数据集创建

数据收集与规范化

使用ArgumenText系统从大型网络爬虫中识别出特定话题的论点句子，并采用弱监督方法平衡相似性，最终形成3,595对论点句子。

标注过程

通过Amazon Mechanical Turk平台上的众包工人对论点对的相似性进行标注，使用Multi-Annotator Competence Estimation (MACE)方法整合投票结果。

附加信息

数据集管理者

由UKP的数据管理者负责。

许可信息

CC-by-NC 3.0

引用信息

@inproceedings{reimers2019classification, title={Classification and Clustering of Arguments with Contextualized Word Embeddings}, author={Reimers, Nils and Schiller, Benjamin and Beck, Tilman and Daxenberger, Johannes and Stab, Christian and Gurevych, Iryna}, booktitle={Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics}, pages={567--578}, year={2019} }

贡献者

感谢@buenalaune添加此数据集。

搜集汇总

数据集介绍

背景与挑战

背景概述

UKP_ASPECT数据集是一个用于论点相似性分析的英文文本数据集，包含3,595个句子对，覆盖28个争议性话题，每个句子对通过众包标注了四种相似性标签（DTORCD、NS、SS、HS）。该数据集主要用于句子对分类和主题分类任务，支持自然语言处理中的论点聚类和相似性评估研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集