DFKI-SLT/cdcp
收藏CDCP数据集概述
数据集概要
CDCP(又称Cornell eRulemaking Corpus)包含731条来自eRulemaking平台的英文用户评论。数据集基于Park等人的研究(2015年),标注了五种类型的组件(fact, testimony, reference, value, policy)和两种类型的支持关系(reason 和 evidence)。总计包含4931个基本单元和1221个支持关系标注。
支持的任务和排行榜
- 任务: 论点挖掘、链接预测、组件分类、关系分类
- 排行榜: https://paperswithcode.com/dataset/cdcp
语言
数据集语言为英语(美式英语)。
数据集结构
数据实例
- 下载数据集文件大小: 5.37 MB
数据字段
id: 文本实例的ID,字符串类型text: 文本内容,字符串类型proposition: 标注的跨度和标签列表,字典类型start: 跨度开始索引,列表类型,整数end: 跨度结束索引,列表类型,整数label: 跨度类型索引,列表类型,整数urls: 对应跨度的URL链接,列表类型,字符串
relation: 标注的跨度间关系,字典类型head: 关系中第一个元素的索引,列表类型,整数tail: 关系中第二个元素的索引,列表类型,整数label: 关系类型索引,列表类型,整数
数据分割
| 分割 | 实例数量 |
|---|---|
| 训练 | 580 |
| 测试 | 150 |
标签描述和统计
组件
| 组件 | 训练 | 测试 | 总计 | 百分比 |
|---|---|---|---|---|
fact |
653 | 132 | 785 | 15.9% |
testimony |
873 | 244 | 1117 | 22.7% |
reference |
31 | 1 | 32 | 0.6% |
value |
1686 | 496 | 2182 | 44.3% |
policy |
658 | 153 | 811 | 16.5% |
关系
| 关系 | 训练 | 测试 | 总计 | 百分比 |
|---|---|---|---|---|
reason |
1055 | 298 | 1353 | 94.9% |
evidence |
47 | 26 | 73 | 5.1% |
数据集创建
采集理由
数据集旨在构建能够从非结构化文本中提取论点并识别论点改进方式的论点挖掘系统,以提高评论的评估性。
源数据
源数据来自eRulemaking平台的用户评论,主要涉及消费者债务收集实践规则。
注释过程
每条评论由两名注释者独立标注,使用GATE工具确定基本单元和支持关系类型,第三名注释者解决冲突。
注释者
注释者信息未提供。
个人和敏感信息
信息未提供。
数据使用考虑
数据集可用于自动评估评论的评估性,并提供实时反馈以改进论点结构。
社会影响
数据集的应用包括自动排名评论和提供实时写作反馈,以提高评论的评估性和论点的质量。
讨论偏见
数据集中的value类型组件占比较高,且大多数支持关系发生在相邻单元之间,这可能影响对非相邻关系识别的准确性。
其他已知限制
信息未提供。
数据集贡献者
许可信息
信息未提供。
引用信息
@inproceedings{park2018corpus, title={A corpus of erulemaking user comments for measuring evaluability of arguments}, author={Park, Joonsuk and Cardie, Claire}, booktitle={Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)}, year={2018} }




