DFKI-SLT/cdcp

Name: DFKI-SLT/cdcp
Creator: DFKI-SLT
Published: 2025-03-10 15:30:45
License: 暂无描述

Hugging Face2025-03-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/DFKI-SLT/cdcp

下载链接

链接失效反馈

官方服务：

资源简介：

CDCP（也称为Cornell eRulemaking Corpus）数据集包含731条来自eRulemaking平台的英文用户评论。数据集注释了五种组件类型（事实、证词、参考、价值、政策）和两种支持关系类型（理由、证据）。数据集包含4931个基本单位和1221个支持关系注释。数据集主要用于论证挖掘、链接预测、组件分类和关系分类等任务。

提供机构：

DFKI-SLT

原始信息汇总

CDCP数据集概述

数据集概要

CDCP（又称Cornell eRulemaking Corpus）包含731条来自eRulemaking平台的英文用户评论。数据集基于Park等人的研究（2015年），标注了五种类型的组件（fact, testimony, reference, value, policy）和两种类型的支持关系（reason 和 evidence）。总计包含4931个基本单元和1221个支持关系标注。

支持的任务和排行榜

任务: 论点挖掘、链接预测、组件分类、关系分类
排行榜: https://paperswithcode.com/dataset/cdcp

语言

数据集语言为英语（美式英语）。

数据集结构

数据实例

下载数据集文件大小: 5.37 MB

数据字段

id: 文本实例的ID，字符串类型
text: 文本内容，字符串类型
proposition: 标注的跨度和标签列表，字典类型
- start: 跨度开始索引，列表类型，整数
- end: 跨度结束索引，列表类型，整数
- label: 跨度类型索引，列表类型，整数
- urls: 对应跨度的URL链接，列表类型，字符串
relation: 标注的跨度间关系，字典类型
- head: 关系中第一个元素的索引，列表类型，整数
- tail: 关系中第二个元素的索引，列表类型，整数
- label: 关系类型索引，列表类型，整数

数据分割

分割	实例数量
训练	580
测试	150

标签描述和统计

组件

组件	训练	测试	总计	百分比
`fact`	653	132	785	15.9%
`testimony`	873	244	1117	22.7%
`reference`	31	1	32	0.6%
`value`	1686	496	2182	44.3%
`policy`	658	153	811	16.5%

关系

关系	训练	测试	总计	百分比
`reason`	1055	298	1353	94.9%
`evidence`	47	26	73	5.1%

数据集创建

采集理由

数据集旨在构建能够从非结构化文本中提取论点并识别论点改进方式的论点挖掘系统，以提高评论的评估性。

源数据

源数据来自eRulemaking平台的用户评论，主要涉及消费者债务收集实践规则。

注释过程

每条评论由两名注释者独立标注，使用GATE工具确定基本单元和支持关系类型，第三名注释者解决冲突。

注释者

注释者信息未提供。

个人和敏感信息

信息未提供。

数据使用考虑

数据集可用于自动评估评论的评估性，并提供实时反馈以改进论点结构。

社会影响

数据集的应用包括自动排名评论和提供实时写作反馈，以提高评论的评估性和论点的质量。

讨论偏见

数据集中的value类型组件占比较高，且大多数支持关系发生在相邻单元之间，这可能影响对非相邻关系识别的准确性。

其他已知限制

信息未提供。

数据集贡献者

@idalr

许可信息

信息未提供。

引用信息

@inproceedings{park2018corpus, title={A corpus of erulemaking user comments for measuring evaluability of arguments}, author={Park, Joonsuk and Cardie, Claire}, booktitle={Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)}, year={2018} }

搜集汇总

数据集介绍

背景与挑战

背景概述

DFKI-SLT/cdcp数据集是一个用于论证挖掘和相关任务的英文数据集，包含731条用户评论，标注了五种组件类型和两种支持关系。数据集结构清晰，适用于多种自然语言处理任务。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集