RAAMove
收藏arXiv2024-03-23 更新2024-06-21 收录
下载链接:
https://github.com/ljk1228/RAAMove
下载链接
链接失效反馈官方服务:
资源简介:
RAAMove是由北京理工大学外国语学院等机构开发的一个大型多领域语料库,专注于研究文章摘要中的移动结构注释。该数据集包含来自人工智能、通信工程和机械工程三个科学领域的33,988个注释实例。数据集的构建分为两个阶段:首先由专家注释者手动注释高质量数据,随后使用基于BERT的模型进行自动注释,并由专家进行修正。RAAMove旨在促进移动分析和自动移动识别,可作为移动分析、英语语言教学和写作以及自然语言处理中与移动/话语相关任务的重要资源。
RAAMove is a large-scale multi-domain corpus developed by the School of Foreign Studies of Beijing Institute of Technology and other institutions, focusing on the annotation research of move structures in academic abstracts. This corpus contains 33,988 annotated instances from three scientific disciplines: artificial intelligence, communication engineering, and mechanical engineering. The construction of the dataset is divided into two stages: first, high-quality data is manually annotated by expert annotators, then automatically annotated using a BERT-based model, and finally revised by experts. RAAMove aims to facilitate move analysis and automatic move recognition, and can serve as an important resource for move analysis, English language teaching and writing, and move/discourse-related tasks in natural language processing.
提供机构:
北京理工大学外国语学院
创建时间:
2024-03-23
搜集汇总
数据集介绍

构建方式
在学术写作分析领域,RAAMove数据集的构建采用了融合人工与机器智能的协同标注策略。该过程起始于从人工智能与工程学领域的高影响力期刊及会议中精选研究论文摘要,并依据Hyland的语步分类理论进行修订,确立了背景、缺口、目的、方法、结果、结论、启示与贡献八类语步标签。初始阶段由语言学专家团队进行精细的人工标注,确保数据的高质量与一致性;随后,基于已标注数据训练了集成显著性归因机制的BERT模型,以实现自动标注,并由专家对模型输出进行校正与迭代优化,最终形成了包含33,988个标注实例的大规模多学科语料库。
特点
RAAMove语料库的突出特点在于其跨学科覆盖与精细的语步标注体系。该数据集涵盖人工智能、通信工程与机械工程三大科学领域,反映了不同学科在摘要结构上的共性与差异。语步分类在传统框架基础上进行了针对性修订,如将引言细分为背景与缺口,将产品调整为结果,并新增启示与贡献类别,从而提升了标注的粒度与适用性。统计显示,语步分布呈现显著差异,其中方法描述占比最高,而启示语步则较为罕见,体现了学术摘要的功能性侧重。此外,语料库规模宏大、标注质量可靠,为跨领域的比较研究与自然语言处理任务提供了坚实基础。
使用方法
RAAMove数据集主要服务于学术语篇分析与自然语言处理研究。在语步分析方面,研究者可利用该数据集探究不同学科摘要的修辞结构模式与变异,为英语学术写作教学提供实证依据。在计算应用中,该语料库适用于训练与评估语步自动识别模型,例如基于BERT的序列标注方法,以支持智能写作辅助系统的开发。使用前需从指定开源平台获取数据集,其标注格式为JSON,包含句子级语步标签,便于直接导入机器学习框架。初步实验表明,基于该数据训练的模型在语步识别任务上表现优于通用基线,验证了其在实际应用中的有效性。
背景与挑战
背景概述
RAAMove数据集由北京理工大学、北京工业大学等机构的研究团队于2024年构建,专注于学术论文摘要中的语步结构分析。该数据集旨在填补多领域研究论文摘要语步标注资源的空白,其核心研究问题在于如何系统性地识别与标注摘要中的功能性语步单元,以支持语步自动识别、学术写作教学及自然语言处理任务。基于Hyland的语步分类理论,研究团队通过修订与扩展,建立了包含背景、缺口、目的、方法、结果、结论、启示与贡献八类语步的标注体系,涵盖了人工智能与工程学等多个学科,共包含33,988条标注实例,为跨学科语步比较研究与计算分析提供了重要基础。
当前挑战
RAAMove数据集面临的挑战主要体现在两方面:在领域问题层面,语步识别任务需处理学术摘要中语步边界模糊、句法结构多样以及跨学科语步表达差异等复杂性,例如工程学与人工智能领域在语步分布与语言特征上存在显著区别,增加了模型泛化难度。在构建过程中,挑战包括语步类别体系的适应性修订,需通过试点研究调整原有分类以匹配现代学术写作实践;同时,大规模高质量标注依赖专家协作,需克服标注一致性维护与人工成本高昂的问题,为此团队结合了人工标注与基于BERT的自动标注模型,并通过显著性归因技术提升模型对关键语义结构的捕捉能力,以在保证质量的前提下实现标注效率与规模的平衡。
常用场景
经典使用场景
在学术英语写作与自然语言处理领域,RAAMove数据集为研究论文摘要的修辞结构分析提供了关键资源。该数据集通过标注摘要中的不同修辞单元,如背景、缺口、目的、方法、结果、结论、启示和贡献,使研究者能够深入探究跨学科摘要的修辞模式与组织逻辑。其经典应用场景包括基于大规模标注数据的修辞结构自动识别,支持计算模型对摘要语义功能的分类与预测,为学术文本的自动化处理奠定基础。
实际应用
在实际应用中,RAAMove数据集为学术写作辅助与语言教育提供了有力支持。它可用于开发智能写作工具,帮助非英语母语者理解和撰写符合学术规范的摘要。在自然语言处理领域,该数据集服务于修辞结构识别、文本生成及计算机辅助语言学习等任务。此外,教育机构可借助其标注模式设计教学材料,提升学生的学术写作能力,实现数字化语言教育的智能化转型。
衍生相关工作
RAAMove数据集衍生了一系列相关研究,尤其在修辞结构自动识别与跨学科分析方面。基于该数据集的BERT模型增强方法,推动了结合显著性归因的修辞分类技术发展。同时,它启发了多领域摘要修辞模式的比较研究,促进了学术文本挖掘与语篇分析任务的深入。这些工作不仅拓展了修辞理论的应用边界,也为后续大规模学术语料库的构建与智能写作系统的优化提供了参考范例。
以上内容由遇见数据集搜集并总结生成



