PERSUADE corpus|论证分析数据集|话语分析数据集
收藏PERSUADE Corpus 1.0 概述
数据集描述
- 名称: PERSUADE Corpus 1.0
- 内容: 包含超过25,000篇议论文的280,000个话语注释。
- 用途: 作为2021-2022年冬季Kaggle举办的Feedback Prize的核心数据集。
数据结构
- 文件格式: 单一的.csv文件,可被常用电子表格软件打开。
- 数据列:
- essay_id_comp: 文章ID
- competition_set: 文章属于训练集或测试集
- full_text: 文章全文
- discourse_id: 话语元素ID
- discourse_start: 话语元素在文章中的起始字符位置
- discourse_end: 话语元素在文章中的结束字符位置
- discourse_text: 话语元素文本
- discourse_type: 话语元素的人工标注类型
- discourse_type_num: 文章中话语元素的编号
注释过程
- 注释类型: 人工注释议论文和话语元素及其关系。
- 注释方法: 采用双盲评分和100%裁决,每篇文章由两位专家独立评审,并由第三位专家裁决。
注释标准
- 开发: 内部开发,基于教师小组和研究咨询委员会的反馈多次修订。
- 来源: 基于Nussbaum, Kardash, Graham (2005) 和 Stapleton & Wu (2015) 的研究,简化自Toulmin辩论框架(1958)。
- 话语元素:
- Lead: 通过统计、引用等手段吸引读者注意并指向论点的引言。
- Position: 对主要问题的观点或结论。
- Claim: 支持立场的声明。
- Counterclaim: 反驳其他声明或提供对立理由的声明。
- Rebuttal: 反驳反声明的声明。
- Evidence: 支持声明、反声明或立场的想法或例子。
- Concluding Summary: 重申立场和声明的结论性陈述。
- Unannotated: 未被注释的话语元素。
许可
- 类型: CC BY-NC-SA 4.0
- 描述: 署名-非商业性使用-相同方式共享 4.0 国际许可。

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录
PCLT20K
PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。
arXiv 收录
长江干流实时水位观测数据集(2024年)
该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。
国家地球系统科学数据中心 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录