Chinese Essay Argument Mining Corpus (CEAMC)

Name: Chinese Essay Argument Mining Corpus (CEAMC)
Creator: 华东师范大学
Published: 2025-05-17 22:36:51
License: 暂无描述

arXiv2025-05-17 更新2025-05-21 收录

下载链接：

http://arxiv.org/abs/2505.12028v1

下载链接

链接失效反馈

官方服务：

资源简介：

CEAMC数据集是由华东师范大学的研究团队创建的，包含226篇中国高中生议论文，每篇论文都被标注了4种粗粒度和10种细粒度的句子级论证成分。数据集还包括了作文的得分信息。研究团队对论证成分之间的关系进行了详细的标注，从垂直和水平两个维度分析了论证结构，共标注了4837个关系。这些标注数据为论证分析、写作质量评估和文本生成等下游NLP任务提供了重要的支持。

The CEAMC dataset was created by a research team from East China Normal University. It contains 226 argumentative essays written by Chinese high school students, each annotated with 4 coarse-grained and 10 fine-grained sentence-level argumentative components. The dataset also includes scoring information for each composition. The research team conducted detailed annotation of the relationships between argumentative components, analyzed the argumentation structure from both vertical and horizontal dimensions, and annotated a total of 4,837 relationships. These annotated data provide important support for downstream NLP tasks such as argument analysis, writing quality assessment, and text generation.

提供机构：

华东师范大学

创建时间：

2025-05-17

搜集汇总

数据集介绍

构建方式

Chinese Essay Argument Mining Corpus (CEAMC) 是一个专注于中文议论文论证结构分析的数据集，构建过程涉及226篇高中考试背景的议论文。每篇论文经过细致的标注，包括4种粗粒度和10种细粒度的句子级论证成分（如断言、证据、阐述等）。标注团队由语言学和教育学专家组成，通过独立标注和专家协调解决分歧，确保标注的一致性和准确性。标注过程中，特别关注论证单元边界的明确划分，以应对中文语境下多句连续讨论同一内容带来的挑战。最终数据集包含3,458个论证单元和4,837个论证关系，涵盖了垂直和水平维度的14种细粒度关系类型。

使用方法

CEAMC数据集支持三项核心任务：论证成分检测、关系预测和自动化作文评分。在论证成分检测中，可采用序列标注模型（如BERT、RoBERTa）对句子级论证成分进行分类；关系预测任务需处理多标签分类问题，可利用负采样技术解决数据不平衡问题；自动化作文评分任务可结合论证成分和关系特征，提升评分模型的解释性。实验表明，大型语言模型（如ChatGLM）在微调后表现优异，尤其在论证成分检测中F1值达58.50%。数据集按8:1:1比例划分训练集、开发集和测试集，并提供基准模型性能对比，为后续研究提供参考。

背景与挑战

背景概述

Chinese Essay Argument Mining Corpus (CEAMC) 是由华东师范大学教育人工智能实验室等机构的研究团队于2024年提出的中文议论文论证挖掘数据集。该数据集包含226篇高中考试背景的议论文，标注了4种粗粒度和10种细粒度的句子级论证成分，以及14种从垂直和水平维度定义的论证关系类型。CEAMC的创新之处在于突破了传统论证关系中仅支持与反对的二元划分，通过深度融合论证关系与篇章关系，实现了对论证策略和模式的细粒度刻画。该数据集的建立为论证结构分析、写作质量评估等教育场景中的自然语言处理任务提供了重要资源，特别在中文议论文论证模式研究领域填补了空白。

当前挑战

CEAMC数据集面临的挑战主要体现在两个方面：在领域问题层面，传统论证挖掘研究难以捕捉复杂论证结构中的关键信息，如论证策略和模式，而CEAMC通过细粒度关系标注虽有所突破，但仍需解决多维度论证关系的自动识别难题；在构建过程中，中文议论文特有的连续同类型句子现象给论证单元边界划分带来困难，且14种关系类型的标注需要语言学专家参与，导致标注成本高昂且存在主观性差异。此外，数据规模限制（仅226篇）也影响了模型的泛化能力，特别是在处理高质量议论文中复杂的论证结构时表现欠佳。

常用场景

经典使用场景

Chinese Essay Argument Mining Corpus (CEAMC) 作为教育领域内首个针对中文议论文的细粒度论辩分析语料库，其经典应用场景聚焦于学术写作智能评估。该数据集通过标注14种垂直与水平维度的论辩关系，系统化解析了高中生议论文中的论元组件（如主张、证据、阐述）及其交互模式，为自动化评分系统提供了结构化的分析框架。例如，在检测学生作文中‘主张-证据’链的完整性时，CEAMC的细粒度标签能精准识别例证引用、隐喻论证等策略差异，从而支撑教育场景下的议论文逻辑质量评估。

解决学术问题

CEAMC有效解决了传统论辩挖掘中关系类型单一化（如仅支持/攻击二元分类）的局限，通过融合话语关系理论，定义了比较论证、假设论证等新型关系，显著提升了对复杂论辩结构的表征能力。在学术层面，该数据集为三大核心任务（论元组件检测、关系预测、自动评分）提供了基准：1）揭示了写作质量与论辩结构清晰度的正相关性；2）验证了细粒度标注对LLMs性能提升的作用（如ChatGLM在关系预测任务中Macro-F1达32.68%）；3）通过认知网络分析（ENA）发现了高质量议论文更倾向使用递进、让步等高级话语策略的规律。

实际应用

在实际教育应用中，CEAMC已赋能多项智能写作辅助功能：1）实时反馈系统可基于‘细节-背景’关系识别学生论证的层次缺失；2）个性化教学工具通过分析‘例证-引用’分布差异，针对性强化证据多样性训练；3）省级考试院利用其评分模型（QWK=0.83）实现大规模作文初筛。特别在中文教育场景下，该数据集对隐喻论证、假言推理等汉语特色策略的标注，为跨文化论辩研究提供了独特视角。

数据集最近研究