five

UKPLab/UKP_ASPECT

收藏
Hugging Face2023-06-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/UKPLab/UKP_ASPECT
下载链接
链接失效反馈
官方服务:
资源简介:
UKP ASPECT语料库包含3,595对句子,涉及28个有争议的话题。这些句子通过ArgumenText系统从大型网络爬取中识别为特定话题的论点,并通过众包进行论点相似性标注。每对句子都有一个论点相似性标签,标签包括不同话题/无法决定、无相似性、部分相似性和高度相似性。数据集支持句子对分类和话题分类任务,语言为英语。
提供机构:
UKPLab
原始信息汇总

数据集概述

数据集名称

UKP ASPECT Corpus

数据集摘要

UKP ASPECT Corpus 包含3,595对句子,涉及28个争议话题。这些句子从大型网络爬虫中提取,并通过ArgumenText系统识别为特定话题的论点。通过众包方式对句子对的论点相似性进行标注,每个工人可以从四个标注选项中选择。

支持的任务

  • 句子对分类
  • 话题分类

语言

英语

数据集结构

数据实例

每个实例包含一个话题、一对句子和一个论点相似性标签。

数据字段

  • 话题: 用于检索文档的话题关键词
  • 句子1: 句子对中的第一个句子
  • 句子2: 句子对中的第二个句子
  • 标签: 句子对的众包黄金标准标注(DTORCD, NS, SS, HS)

数据分割

数据集目前不包含标准的数据分割。

数据集创建

数据收集与规范化

使用ArgumenText系统从大型网络爬虫中识别出特定话题的论点句子,并采用弱监督方法平衡相似性,最终形成3,595对论点句子。

标注过程

通过Amazon Mechanical Turk平台上的众包工人对论点对的相似性进行标注,使用Multi-Annotator Competence Estimation (MACE)方法整合投票结果。

附加信息

数据集管理者

由UKP的数据管理者负责。

许可信息

CC-by-NC 3.0

引用信息

@inproceedings{reimers2019classification, title={Classification and Clustering of Arguments with Contextualized Word Embeddings}, author={Reimers, Nils and Schiller, Benjamin and Beck, Tilman and Daxenberger, Johannes and Stab, Christian and Gurevych, Iryna}, booktitle={Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics}, pages={567--578}, year={2019} }

贡献者

感谢@buenalaune添加此数据集。

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
UKP_ASPECT数据集是一个用于论点相似性分析的英文文本数据集,包含3,595个句子对,覆盖28个争议性话题,每个句子对通过众包标注了四种相似性标签(DTORCD、NS、SS、HS)。该数据集主要用于句子对分类和主题分类任务,支持自然语言处理中的论点聚类和相似性评估研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作