five

DFKI-SLT/cdcp

收藏
Hugging Face2025-03-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DFKI-SLT/cdcp
下载链接
链接失效反馈
官方服务:
资源简介:
CDCP(也称为Cornell eRulemaking Corpus)数据集包含731条来自eRulemaking平台的英文用户评论。数据集注释了五种组件类型(事实、证词、参考、价值、政策)和两种支持关系类型(理由、证据)。数据集包含4931个基本单位和1221个支持关系注释。数据集主要用于论证挖掘、链接预测、组件分类和关系分类等任务。

CDCP(也称为Cornell eRulemaking Corpus)数据集包含731条来自eRulemaking平台的英文用户评论。数据集注释了五种组件类型(事实、证词、参考、价值、政策)和两种支持关系类型(理由、证据)。数据集包含4931个基本单位和1221个支持关系注释。数据集主要用于论证挖掘、链接预测、组件分类和关系分类等任务。
提供机构:
DFKI-SLT
原始信息汇总

CDCP数据集概述

数据集概要

CDCP(又称Cornell eRulemaking Corpus)包含731条来自eRulemaking平台的英文用户评论。数据集基于Park等人的研究(2015年),标注了五种类型的组件(fact, testimony, reference, value, policy)和两种类型的支持关系(reasonevidence)。总计包含4931个基本单元和1221个支持关系标注。

支持的任务和排行榜

语言

数据集语言为英语(美式英语)。

数据集结构

数据实例

  • 下载数据集文件大小: 5.37 MB

数据字段

  • id: 文本实例的ID,字符串类型
  • text: 文本内容,字符串类型
  • proposition: 标注的跨度和标签列表,字典类型
    • start: 跨度开始索引,列表类型,整数
    • end: 跨度结束索引,列表类型,整数
    • label: 跨度类型索引,列表类型,整数
    • urls: 对应跨度的URL链接,列表类型,字符串
  • relation: 标注的跨度间关系,字典类型
    • head: 关系中第一个元素的索引,列表类型,整数
    • tail: 关系中第二个元素的索引,列表类型,整数
    • label: 关系类型索引,列表类型,整数

数据分割

分割 实例数量
训练 580
测试 150

标签描述和统计

组件

组件 训练 测试 总计 百分比
fact 653 132 785 15.9%
testimony 873 244 1117 22.7%
reference 31 1 32 0.6%
value 1686 496 2182 44.3%
policy 658 153 811 16.5%

关系

关系 训练 测试 总计 百分比
reason 1055 298 1353 94.9%
evidence 47 26 73 5.1%

数据集创建

采集理由

数据集旨在构建能够从非结构化文本中提取论点并识别论点改进方式的论点挖掘系统,以提高评论的评估性。

源数据

源数据来自eRulemaking平台的用户评论,主要涉及消费者债务收集实践规则。

注释过程

每条评论由两名注释者独立标注,使用GATE工具确定基本单元和支持关系类型,第三名注释者解决冲突。

注释者

注释者信息未提供。

个人和敏感信息

信息未提供。

数据使用考虑

数据集可用于自动评估评论的评估性,并提供实时反馈以改进论点结构。

社会影响

数据集的应用包括自动排名评论和提供实时写作反馈,以提高评论的评估性和论点的质量。

讨论偏见

数据集中的value类型组件占比较高,且大多数支持关系发生在相邻单元之间,这可能影响对非相邻关系识别的准确性。

其他已知限制

信息未提供。

数据集贡献者

@idalr

许可信息

信息未提供。

引用信息

@inproceedings{park2018corpus, title={A corpus of erulemaking user comments for measuring evaluability of arguments}, author={Park, Joonsuk and Cardie, Claire}, booktitle={Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)}, year={2018} }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
DFKI-SLT/cdcp数据集是一个用于论证挖掘和相关任务的英文数据集,包含731条用户评论,标注了五种组件类型和两种支持关系。数据集结构清晰,适用于多种自然语言处理任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作