five

PERSUADE corpus|论证分析数据集|话语分析数据集

收藏
github2024-04-18 更新2024-05-31 收录
论证分析
话语分析
下载链接:
https://github.com/scrosseye/PERSUADE_corpus
下载链接
链接失效反馈
资源简介:
PERSUADE语料库是一个包含超过280,000个话语注释的语料库,用于评估、选择和理解论证性和话语元素的论文。该语料库包含超过25,000篇论证性论文,每篇论文都由人工标注了论证和话语元素及其之间的关系。

The PERSUADE corpus is a repository comprising over 280,000 annotated utterances, designed for the evaluation, selection, and comprehension of argumentative and discourse elements in essays. This corpus includes more than 25,000 argumentative essays, each meticulously annotated by human experts to identify argumentative and discourse elements along with their interrelations.
创建时间:
2022-03-26
原始信息汇总

PERSUADE Corpus 1.0 概述

数据集描述

  • 名称: PERSUADE Corpus 1.0
  • 内容: 包含超过25,000篇议论文的280,000个话语注释。
  • 用途: 作为2021-2022年冬季Kaggle举办的Feedback Prize的核心数据集。

数据结构

  • 文件格式: 单一的.csv文件,可被常用电子表格软件打开。
  • 数据列:
    • essay_id_comp: 文章ID
    • competition_set: 文章属于训练集或测试集
    • full_text: 文章全文
    • discourse_id: 话语元素ID
    • discourse_start: 话语元素在文章中的起始字符位置
    • discourse_end: 话语元素在文章中的结束字符位置
    • discourse_text: 话语元素文本
    • discourse_type: 话语元素的人工标注类型
    • discourse_type_num: 文章中话语元素的编号

注释过程

  • 注释类型: 人工注释议论文和话语元素及其关系。
  • 注释方法: 采用双盲评分和100%裁决,每篇文章由两位专家独立评审,并由第三位专家裁决。

注释标准

  • 开发: 内部开发,基于教师小组和研究咨询委员会的反馈多次修订。
  • 来源: 基于Nussbaum, Kardash, Graham (2005) 和 Stapleton & Wu (2015) 的研究,简化自Toulmin辩论框架(1958)。
  • 话语元素:
    • Lead: 通过统计、引用等手段吸引读者注意并指向论点的引言。
    • Position: 对主要问题的观点或结论。
    • Claim: 支持立场的声明。
    • Counterclaim: 反驳其他声明或提供对立理由的声明。
    • Rebuttal: 反驳反声明的声明。
    • Evidence: 支持声明、反声明或立场的想法或例子。
    • Concluding Summary: 重申立场和声明的结论性陈述。
    • Unannotated: 未被注释的话语元素。

许可

  • 类型: CC BY-NC-SA 4.0
  • 描述: 署名-非商业性使用-相同方式共享 4.0 国际许可。
AI搜集汇总
数据集介绍
main_image_url
构建方式
PERSUADE语料库的构建基于对超过25,000篇议论文的详尽标注,涵盖了超过280,000个话语元素的注释。每篇论文均通过双盲评分流程进行人工标注,确保了标注的准确性与一致性。具体而言,每篇论文由两名专家独立评审,并通过第三名专家的仲裁进行最终确认。标注标准基于内部开发的评分体系,经过多次修订,结合了教师小组和研究咨询委员会的反馈,确保其科学性和实用性。
特点
PERSUADE语料库的显著特点在于其详尽的标注体系和广泛的应用场景。该语料库不仅包含了议论文的全文,还详细标注了每个话语元素的起始和结束位置、类型及其在论文中的编号。此外,语料库还涵盖了话语元素之间的关系,如论点、反论点及反驳等,为研究议论文的结构和逻辑提供了丰富的数据支持。
使用方法
PERSUADE语料库的使用方法简便且灵活。用户可以通过下载包含所有数据的单一CSV文件,利用常见的电子表格软件或编程语言(如Python)进行数据读取和分析。该语料库特别适用于自然语言处理、话语分析和写作教学等领域的研究。用户可以根据需求提取特定的话语元素或分析论文的整体结构,从而深入理解议论文的写作技巧和逻辑构建。
背景与挑战
背景概述
PERSUADE corpus,即说服性论文评分、选择和理解论证与话语元素的数据集,由Crossley等人于2022年发布。该数据集包含了超过25,000篇论证性论文的超过280,000个话语注释,是Kaggle 2021-2022年冬季Feedback Prize竞赛的核心数据集。PERSUADE corpus通过双盲评分过程和100%的仲裁机制,确保了注释的高质量。其注释标准基于Toulmin论证框架,并结合了Nussbaum、Kardash和Graham(2005)以及Stapleton和Wu(2015)的研究成果,旨在识别和评估论证性写作中常见的话语元素。该数据集的发布不仅为自然语言处理和机器学习领域提供了宝贵的资源,还为教育评估和写作教学提供了新的研究视角。
当前挑战
PERSUADE corpus的构建面临多重挑战。首先,如何在保持注释一致性的同时,确保注释过程的效率是一个关键问题。双盲评分和仲裁机制虽然提高了注释的准确性,但也增加了时间和资源的消耗。其次,注释标准的制定和修订过程复杂,需要结合多学科专家的反馈,确保注释框架的科学性和实用性。此外,数据集的规模庞大,如何在保证数据质量的前提下,高效地处理和存储这些数据也是一个技术挑战。最后,如何将该数据集有效地应用于教育评估和写作教学,以实现其潜在的社会价值,仍需进一步的研究和实践。
常用场景
经典使用场景
PERSUADE语料库的经典使用场景主要集中在论证性写作的分析与评估。该数据集通过提供超过25,000篇经过人工标注的论证性文章,支持研究者对文章中的论证元素和话语结构进行深入分析。研究者可以利用这些标注信息,开发和验证用于自动识别和评估论证结构的自然语言处理模型,特别是在教育评估和写作教学领域。
衍生相关工作
基于PERSUADE语料库,研究者们开发了多种相关的经典工作。例如,有研究利用该数据集训练模型,以自动识别和分类论证性文章中的各种话语元素。此外,还有工作专注于论证结构的建模和分析,探索如何更有效地评估论证的质量和逻辑性。这些研究不仅丰富了自然语言处理领域的理论基础,还为实际应用提供了有力的技术支持。
数据集最近研究
最新研究方向
在自然语言处理领域,PERSUADE语料库因其对议论文中论辩和话语元素的详细标注而备受关注。最新的研究方向主要集中在利用该语料库进行自动话语分析和论辩结构识别,以提升机器对复杂文本的理解能力。此外,结合深度学习模型,研究者们正探索如何更精确地预测和生成论辩元素,从而在教育评估、文本生成和智能辅导系统中发挥重要作用。PERSUADE语料库的广泛应用不仅推动了论辩话语分析的前沿研究,还为相关领域的学术研究和实际应用提供了宝贵的资源。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

长江干流实时水位观测数据集(2024年)

该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。

国家地球系统科学数据中心 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录