PERSUADE corpus

github2024-04-18 更新2024-05-31 收录

下载链接：

https://github.com/scrosseye/PERSUADE_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

PERSUADE语料库是一个包含超过280,000个话语注释的语料库，用于评估、选择和理解论证性和话语元素的论文。该语料库包含超过25,000篇论证性论文，每篇论文都由人工标注了论证和话语元素及其之间的关系。

The PERSUADE corpus is a repository comprising over 280,000 annotated utterances, designed for the evaluation, selection, and comprehension of argumentative and discourse elements in essays. This corpus includes more than 25,000 argumentative essays, each meticulously annotated by human experts to identify argumentative and discourse elements along with their interrelations.

创建时间：

2022-03-26

原始信息汇总

PERSUADE Corpus 1.0 概述

数据集描述

名称: PERSUADE Corpus 1.0
内容: 包含超过25,000篇议论文的280,000个话语注释。
用途: 作为2021-2022年冬季Kaggle举办的Feedback Prize的核心数据集。

数据结构

文件格式: 单一的.csv文件，可被常用电子表格软件打开。
数据列:
- essay_id_comp: 文章ID
- competition_set: 文章属于训练集或测试集
- full_text: 文章全文
- discourse_id: 话语元素ID
- discourse_start: 话语元素在文章中的起始字符位置
- discourse_end: 话语元素在文章中的结束字符位置
- discourse_text: 话语元素文本
- discourse_type: 话语元素的人工标注类型
- discourse_type_num: 文章中话语元素的编号

注释过程

注释类型: 人工注释议论文和话语元素及其关系。
注释方法: 采用双盲评分和100%裁决，每篇文章由两位专家独立评审，并由第三位专家裁决。

注释标准

开发: 内部开发，基于教师小组和研究咨询委员会的反馈多次修订。
来源: 基于Nussbaum, Kardash, Graham (2005) 和 Stapleton & Wu (2015) 的研究，简化自Toulmin辩论框架（1958）。
话语元素:
- Lead: 通过统计、引用等手段吸引读者注意并指向论点的引言。
- Position: 对主要问题的观点或结论。
- Claim: 支持立场的声明。
- Counterclaim: 反驳其他声明或提供对立理由的声明。
- Rebuttal: 反驳反声明的声明。
- Evidence: 支持声明、反声明或立场的想法或例子。
- Concluding Summary: 重申立场和声明的结论性陈述。
- Unannotated: 未被注释的话语元素。

许可

类型: CC BY-NC-SA 4.0
描述: 署名-非商业性使用-相同方式共享 4.0 国际许可。

搜集汇总

数据集介绍

构建方式

PERSUADE语料库的构建基于对超过25,000篇议论文的详尽标注，涵盖了超过280,000个话语元素的注释。每篇论文均通过双盲评分流程进行人工标注，确保了标注的准确性与一致性。具体而言，每篇论文由两名专家独立评审，并通过第三名专家的仲裁进行最终确认。标注标准基于内部开发的评分体系，经过多次修订，结合了教师小组和研究咨询委员会的反馈，确保其科学性和实用性。

特点

PERSUADE语料库的显著特点在于其详尽的标注体系和广泛的应用场景。该语料库不仅包含了议论文的全文，还详细标注了每个话语元素的起始和结束位置、类型及其在论文中的编号。此外，语料库还涵盖了话语元素之间的关系，如论点、反论点及反驳等，为研究议论文的结构和逻辑提供了丰富的数据支持。

使用方法

PERSUADE语料库的使用方法简便且灵活。用户可以通过下载包含所有数据的单一CSV文件，利用常见的电子表格软件或编程语言（如Python）进行数据读取和分析。该语料库特别适用于自然语言处理、话语分析和写作教学等领域的研究。用户可以根据需求提取特定的话语元素或分析论文的整体结构，从而深入理解议论文的写作技巧和逻辑构建。

背景与挑战

背景概述

PERSUADE corpus，即说服性论文评分、选择和理解论证与话语元素的数据集，由Crossley等人于2022年发布。该数据集包含了超过25,000篇论证性论文的超过280,000个话语注释，是Kaggle 2021-2022年冬季Feedback Prize竞赛的核心数据集。PERSUADE corpus通过双盲评分过程和100%的仲裁机制，确保了注释的高质量。其注释标准基于Toulmin论证框架，并结合了Nussbaum、Kardash和Graham（2005）以及Stapleton和Wu（2015）的研究成果，旨在识别和评估论证性写作中常见的话语元素。该数据集的发布不仅为自然语言处理和机器学习领域提供了宝贵的资源，还为教育评估和写作教学提供了新的研究视角。

当前挑战

PERSUADE corpus的构建面临多重挑战。首先，如何在保持注释一致性的同时，确保注释过程的效率是一个关键问题。双盲评分和仲裁机制虽然提高了注释的准确性，但也增加了时间和资源的消耗。其次，注释标准的制定和修订过程复杂，需要结合多学科专家的反馈，确保注释框架的科学性和实用性。此外，数据集的规模庞大，如何在保证数据质量的前提下，高效地处理和存储这些数据也是一个技术挑战。最后，如何将该数据集有效地应用于教育评估和写作教学，以实现其潜在的社会价值，仍需进一步的研究和实践。

常用场景

经典使用场景

PERSUADE语料库的经典使用场景主要集中在论证性写作的分析与评估。该数据集通过提供超过25,000篇经过人工标注的论证性文章，支持研究者对文章中的论证元素和话语结构进行深入分析。研究者可以利用这些标注信息，开发和验证用于自动识别和评估论证结构的自然语言处理模型，特别是在教育评估和写作教学领域。

衍生相关工作

基于PERSUADE语料库，研究者们开发了多种相关的经典工作。例如，有研究利用该数据集训练模型，以自动识别和分类论证性文章中的各种话语元素。此外，还有工作专注于论证结构的建模和分析，探索如何更有效地评估论证的质量和逻辑性。这些研究不仅丰富了自然语言处理领域的理论基础，还为实际应用提供了有力的技术支持。

数据集最近研究