PERSUADE 2.0 corpus
收藏github2024-04-18 更新2024-05-31 收录
下载链接:
https://github.com/scrosseye/persuade_corpus_2.0
下载链接
链接失效反馈官方服务:
资源简介:
PERSUADE 2.0语料库基于PERSUADE 1.0语料库,为每个说服性文章提供了整体评分,以及每个论点和话语元素的熟练度评分。该版本包含超过25,000篇由6至12年级美国学生针对15个提示撰写的论说文,涵盖独立和基于来源的写作任务。此外,还提供了每位作者的详细个人和人口统计信息以及PERSUADE 1.0中的初始论点和话语元素注释。
The PERSUADE 2.0 corpus is developed based on the PERSUADE 1.0 corpus. It provides holistic scores for each persuasive essay, alongside proficiency ratings for each individual argumentative and discourse element. This iteration encompasses more than 25,000 argumentative essays composed by U.S. students in grades 6 to 12 in response to 15 writing prompts, covering both independent and source-based writing assignments. Additionally, detailed personal and demographic information for each author, as well as the initial argumentative and discourse element annotations from PERSUADE 1.0, are included in the corpus.
创建时间:
2023-02-18
原始信息汇总
persuade_corpus_2.0
数据集概述
PERSUADE 2.0 语料库是在 PERSUADE 1.0 语料库的基础上构建的,为 PERSUADE 1.0 语料库中的每篇说服性文章提供了全面的作文评分,以及每个初始语料库中发现的论证和话语元素的能力评分。此版本包含所有文章(与仅链接 Kaggle 竞赛训练集的 1.0 版本相比)。
数据集内容
- 总共包含超过 25,000 篇由美国 6-12 年级学生撰写的论证性文章,涉及 15 个写作任务:独立写作和基于来源的写作。
- 提供每位作者的详细个人信息和人口统计信息,以及 PERSUADE 1.0 中发现的论证和话语元素的初始注释。
数据文件链接
数据许可
数据集遵循 CC BY-NC-SA 4.0 DEED Attribution-NonCommercial-ShareAlike 4.0 International 许可协议。
搜集汇总
数据集介绍

构建方式
PERSUADE 2.0语料库在PERSUADE 1.0的基础上进行了扩展,不仅为每篇说服性文章提供了全面的评分,还为初始语料库中的每个论证和话语元素提供了熟练度评分。该语料库包含了超过25,000篇由美国6至12年级学生撰写的论证性文章,涵盖了15个写作任务,包括独立写作和基于来源的写作。此外,PERSUADE 2.0还提供了每位作者的详细个人信息和人口统计信息,以及初始语料库中的论证和话语元素的注释。
特点
PERSUADE 2.0语料库的显著特点在于其大规模和多样性。它不仅包含了大量的论证性文章,还提供了详细的评分和注释,使得研究者能够深入分析学生的写作能力和论证技巧。此外,语料库中的数据涵盖了不同年级和写作任务,为跨年级和跨任务的比较研究提供了丰富的资源。
使用方法
使用PERSUADE 2.0语料库时,用户可以通过提供的链接下载训练集和测试集的CSV文件。测试集文件是密码保护的ZIP文件,密码为'persuade_test'。用户需要使用特定的软件如7-Zip(Windows)或Keka(Mac)来解密ZIP文件。该语料库适用于评估和分析学生的写作能力,特别是论证和话语元素的有效性,适合教育研究者和自然语言处理领域的研究者使用。
背景与挑战
背景概述
PERSUADE 2.0语料库是在PERSUADE 1.0语料库的基础上构建的,旨在为每个说服性文章提供全面的评分,包括每个论证和话语元素的熟练度评分。该语料库包含了超过25,000篇由美国6至12年级学生撰写的论证性文章,涵盖15个写作任务,分为独立写作和基于来源的写作两类。PERSUADE 2.0不仅提供了详细的个人和人口统计信息,还保留了PERSUADE 1.0中的初始论证和话语元素注释。该语料库由Crossley等人于2024年发布,其研究成果发表在《Assessing Writing》期刊上,对评估写作和论证分析领域具有重要影响。
当前挑战
PERSUADE 2.0语料库在构建过程中面临多项挑战。首先,如何准确评估和量化学生作文中的论证和话语元素的熟练度是一个复杂的问题。其次,处理和分析超过25,000篇作文的数据量,确保数据的质量和一致性,也是一项技术挑战。此外,保护测试集数据的隐私和安全,通过加密技术确保数据访问的控制,增加了数据管理的复杂性。这些挑战不仅涉及技术实现,还涉及教育评估理论和实践的结合,以确保语料库的有效性和可靠性。
常用场景
经典使用场景
PERSUADE 2.0语料库在教育评估领域中具有广泛的应用,尤其是在评估学生写作中的论证和说服能力方面。该数据集通过提供全面的作文评分以及每个论证和话语元素的熟练度评分,为研究者提供了一个详尽的分析框架。经典的使用场景包括开发和验证自动评分系统,这些系统能够评估学生在独立写作和基于资源写作任务中的表现,从而为教育工作者提供有价值的反馈。
衍生相关工作
PERSUADE 2.0语料库的发布激发了大量相关研究工作,特别是在自然语言处理和教育技术领域。研究者们利用该数据集开发了多种自动评分模型和写作分析工具,这些工具不仅提高了评估的准确性,还为教育研究提供了新的视角。此外,该数据集还促进了关于论证结构和说服技巧的深入研究,推动了写作教学方法的创新和改进。
数据集最近研究
最新研究方向
在教育与语言学领域,PERSUADE 2.0语料库的最新研究方向主要集中在利用大规模数据分析学生议论文中的论证与话语元素,以评估其写作能力。该数据集不仅提供了全面的作文评分,还包含了每个论证和话语元素的熟练度评分,这为研究者提供了深入分析学生写作技巧的宝贵资源。通过结合独立写作与基于来源的写作任务,研究者能够探索不同写作任务对学生论证能力的影响,进而为教育实践提供科学依据。此外,该数据集的详细个体和人口统计信息为研究写作能力与社会背景之间的关系提供了可能,推动了教育公平与个性化教学的研究。
以上内容由遇见数据集搜集并总结生成



