five

CERD

收藏
arXiv2024-09-29 更新2024-10-02 收录
下载链接:
https://github.com/cubenlp/cerd
下载链接
链接失效反馈
官方服务:
资源简介:
CERD(中文作文修辞数据集)是由华东师范大学创建的一个综合性的中文修辞数据集,包含503篇来自中小学生的作文。数据集涵盖了4种常见的粗粒度修辞类别和23种细粒度类别,旨在全面理解修辞手法及其在作文中的应用。数据集的创建过程包括手动标注和多任务分类,确保了数据的高质量和多样性。CERD主要应用于教育技术领域,旨在提高学生的写作能力和语言表达技巧,特别是在自动作文评估和修辞生成方面。

CERD (Chinese Essay Rhetoric Dataset) is a comprehensive Chinese rhetoric dataset created by East China Normal University, which contains 503 essays written by primary and secondary school students. The dataset covers 4 common coarse-grained rhetorical categories and 23 fine-grained categories, aiming to comprehensively understand rhetorical devices and their applications in essays. The construction process of the dataset includes manual annotation and multi-task classification, ensuring high data quality and diversity. CERD is mainly applied in the field of educational technology, with the goal of improving students' writing ability and language expression skills, especially in automated essay evaluation and rhetorical generation.
提供机构:
华东师范大学
创建时间:
2024-09-29
搜集汇总
数据集介绍
main_image_url
构建方式
CERD数据集的构建基于真实教育环境中中小学生撰写的503篇作文。该数据集包括五个相互关联的子任务,涵盖修辞理解和生成。首先,从作文中提取句子,并进行人工标注,涵盖四个粗粒度类别(隐喻、拟人、夸张和排比)和23个细粒度类别。其次,通过抽象不同细粒度类别中的修辞成分类型,实现统一框架内的提取。最后,在作文级别进行标注,为生成完整修辞句子提供更多上下文。
使用方法
CERD数据集适用于多种修辞理解和生成任务,包括多标签分类、命名实体识别和可控文本生成。研究者可以使用该数据集进行模型训练和评估,以提升对中文修辞的理解和生成能力。具体使用方法包括:首先,利用数据集中的标注信息进行模型训练;其次,通过多任务学习方法,结合不同子任务的数据进行联合训练;最后,使用自动评估指标(如BLEU、ROUGE、PPL和BERTScore)和人工评估,对模型生成的修辞句子进行质量评估。
背景与挑战
背景概述
CERD(Chinese Essay Rhetoric Dataset)是由华东师范大学计算机科学与技术学院和上海人工智能教育研究院联合开发的综合性中文修辞数据集。该数据集由刘诺伟等人于2024年创建,旨在解决现有修辞理解和生成数据集主要关注单一粗粒度或细粒度类别,忽视不同修辞手段之间内在联系的问题。CERD包含四个常用的粗粒度类别(比喻、拟人、夸张和排比)和23个细粒度类别,涵盖形式和内容两个层面。该数据集通过手动标注,提供了五个相互关联的子任务,有助于理解各种修辞手段、识别相应的修辞成分,并在给定条件下生成修辞句子,从而提高作者的写作能力和语言运用技巧。CERD的推出对中文修辞学研究和教育技术的发展具有重要影响。
当前挑战
CERD在构建过程中面临多重挑战。首先,修辞理解和生成领域的现有数据集主要关注单一类别,缺乏对不同修辞手段之间内在联系的全面理解。其次,手动标注过程中,如何确保标注的一致性和准确性是一个难题。此外,数据集的多样性和代表性也需要精心设计,以确保能够真实反映学生在实际教育环境中使用修辞的能力。最后,如何在多任务学习框架下有效利用数据集,提升模型的修辞理解和生成能力,也是研究中的一个重要挑战。
常用场景
经典使用场景
CERD数据集的经典使用场景在于其能够支持多种修辞手法的理解与生成任务。通过包含隐喻、拟人、夸张和排比等四种粗粒度类别及23种细粒度类别的标注,CERD不仅能够帮助模型识别和理解各种修辞手法,还能在给定条件下生成具有修辞效果的句子。这种多任务的训练方式使得模型在修辞理解与生成方面表现出色,尤其适用于教育技术领域中的自动作文评估和写作辅助系统。
解决学术问题
CERD数据集解决了现有修辞理解与生成数据集主要关注单一粗粒度或细粒度类别,忽视不同修辞手法之间内在联系的问题。通过提供多种修辞手法的全面标注,CERD促进了模型对修辞现象的全面理解,增强了模型在识别修辞成分和生成修辞句子方面的能力。这不仅提升了作者的写作技巧,还为未来修辞学研究设立了新的基准。
实际应用
CERD数据集在实际应用中具有广泛的前景,特别是在教育领域。它可以用于开发自动作文评分系统,通过识别和评估学生作文中的修辞手法来提高评分准确性。此外,CERD还可用于写作辅助工具,帮助学生和作家在创作过程中更好地运用修辞手法,从而提升文本的表现力和说服力。
数据集最近研究
最新研究方向
在修辞学领域,CERD数据集的最新研究方向主要集中在多任务学习和跨任务关联性的探索上。研究者们通过构建包含五个子任务的综合性中文修辞数据集,旨在深入理解不同修辞手法之间的内在联系,并提升模型在修辞理解和生成任务中的表现。实验结果表明,大型语言模型在多数任务中表现优异,且通过多任务联合微调进一步提升了性能。这一研究不仅为未来的修辞学研究设立了基准,还为提升学生的写作能力和语言运用技能提供了新的技术支持。
相关研究论文
  • 1
    CERD: A Comprehensive Chinese Rhetoric Dataset for Rhetorical Understanding and Generation in Essays华东师范大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作