RUPOR
收藏arXiv2025-05-07 更新2025-05-09 收录
下载链接:
https://arxiv.org/pdf/2505.04507v1
下载链接
链接失效反馈官方服务:
资源简介:
RUPOR数据集是一个用于拼写检查、语法错误检测和纠正的俄语诗歌和短篇散文文本的标注数据集。它包含大量独特的2-和3-grams,数据格式与第三方数据集不同,语法和修辞手法也有显著差异。数据集中每个样本都是一组包含错误文本和正确文本的配对,用于评估和训练语法错误检测模型和拼写检查器。该数据集旨在解决诗歌领域特有的挑战,如句子分割、词汇和语法结构的复杂性,以及诗歌的多样性和创新性。
The RUPOR Dataset is an annotated dataset of Russian poetic and short prose texts for spell checking, grammatical error detection and correction. It contains a large number of unique 2-grams and 3-grams, with a data format distinct from third-party datasets, and notable differences in grammatical and rhetorical devices. Each sample in the dataset is a paired set of erroneous and correct texts, used for evaluating and training grammatical error detection models and spell checkers. This dataset aims to address challenges specific to the poetic domain, such as sentence segmentation, the complexity of lexical and grammatical structures, as well as the diversity and innovativeness of poetic works.
提供机构:
SalutDevices
创建时间:
2025-05-07
搜集汇总
数据集介绍

构建方式
RUPOR数据集的构建过程体现了严谨的学术规范与语言学深度。研究团队通过多源采集策略,从俄罗斯诗歌文本中精选12,173首诗歌和15,321篇散文片段,由专业语言学家进行双重标注。标注过程采用缺陷类型分类体系,涵盖语法错误、词汇异常、分词问题、标点错误和拼写错误五大类别,同时保留作者刻意使用的非规范表达。为确保数据质量,团队开发了基于规则的预处理流程,并采用交叉验证机制消除标注分歧,最终形成包含27,494个文本对的平行语料库。值得注意的是,数据集特别保留了诗歌特有的跨句语法现象和特殊修辞结构,为语言学分析提供了独特价值。
特点
该数据集的核心价值体现在其领域专属性与标注深度。作为首个专注于俄语诗歌语法检测的标注资源,RUPOR突破了传统语法检查数据集的散文偏向,完整保留了诗歌的韵律特征和跨句语法现象。数据样本涵盖从古典到现代的多元诗歌风格,包含5,133首带修正标注的诗歌和9,133篇散文,以及3,069首仅含错误标注的诗歌样本。特别设计的标注体系能有效区分创作性语言变异与真实语法错误,其中51%的诗歌标注涉及复杂语法修正,39%包含标点错误分析。数据集还提供词级编辑分类统计,为语法错误模式研究提供了量化基础。
使用方法
该数据集支持多层次的研究应用。在模型训练层面,研究者可采用序列到序列架构,利用文本对进行语法纠错模型训练;在评估层面,其提供的13,595首诗歌测试集支持域外泛化能力测评。使用时应特别注意诗歌文本的特殊处理:建议采用基于stanza的分块处理而非传统分句,并配合韵律分析工具识别合法变异。对于跨句语法检测任务,推荐使用数据集提供的 stanza-level 标注信息。评估指标建议采用兼顾准确率与召回率的F0.5分数,同时参考提供的词级编辑距离分析工具进行错误模式细粒度分析。数据集附带的合成数据生成算法也可用于数据增强。
背景与挑战
背景概述
RUPOR数据集由Ilya Koziev及其团队于2025年提出,专注于俄语诗歌文本中的拼写和语法异常检测。该数据集的创建旨在解决生成模型在计算创意任务(如诗歌或歌词生成)中因训练文本质量不佳而导致的流畅性缺陷问题。RUPOR是首个专门针对俄语诗歌领域设计的数据集,其规模和多样性使其成为在领域转移条件下评估语法错误检测模型和拼写检查器的理想资源。该数据集的推出为提升生成模型训练数据的质量提供了重要工具和见解,对计算创意和自然语言处理领域具有显著影响力。
当前挑战
RUPOR数据集面临的挑战主要包括两方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,诗歌文本具有独特的语言和结构特征,如分行、新词创造、语法边界的扩展等,这使得直接应用为散文设计的自然语言处理工具效果不佳。此外,诗歌领域的多样性和创新性增加了定义语法规范边界的难度。在构建过程中,数据收集和标注的高成本是一个主要挑战,因为识别和标注各种类型的缺陷(如拼写、语法、语用等)需要大量人工 effort。同时,确保数据集的质量和多样性,以及处理来自不同来源的潜在偏见,也是构建过程中的重要挑战。
常用场景
经典使用场景
RUPOR数据集专为俄语诗歌文本中的拼写和语法异常检测而设计,其经典使用场景包括训练和评估生成模型在俄语诗歌创作中的语言质量。通过提供大量人工标注的诗歌文本,该数据集能够帮助研究人员开发高效的算法,自动识别和过滤低质量的训练数据,从而提升生成诗歌的流畅性和语法准确性。
衍生相关工作
RUPOR数据集衍生了一系列关于诗歌文本处理的研究工作,包括基于Transformer架构的俄语诗歌生成模型、跨语言语法错误检测系统的比较研究,以及针对诗歌特殊语法结构的分析工具。该数据集还启发了对语言模型在创意文本生成中表现的研究,推动了计算创造力领域的发展。
数据集最近研究
最新研究方向
近年来,RUPOR数据集在自然语言处理领域的研究方向主要集中在俄语诗歌文本的语法和拼写异常检测上。该数据集通过结合人工标注和自动生成的方式,为研究者提供了丰富的俄语诗歌文本资源,特别适用于跨句子的语法错误检测任务。前沿研究探讨了无监督和监督文本异常检测方法的比较,并验证了预训练语言模型在俄语文本分类任务中的优越性能。此外,RUPOR数据集的应用还扩展到生成式模型的训练数据质量控制,为提升诗歌生成系统的语言流畅性和语法准确性提供了重要支持。该数据集的发布填补了俄语诗歌领域语法错误检测资源的空白,对推动计算创造力和多语言自然语言处理的发展具有重要意义。
相关研究论文
- 1Detecting Spelling and Grammatical Anomalies in Russian Poetry TextsSalutDevices · 2025年
以上内容由遇见数据集搜集并总结生成



