RIFMA
收藏arXiv2025-02-28 更新2025-03-04 收录
下载链接:
https://github.com/Koziev/Rifma
下载链接
链接失效反馈官方服务:
资源简介:
RIFMA数据集是由诗行和诗篇组成的俄罗斯语言诗歌片段,包含了不同体裁、形式以及不同诗人的作品,并标注了重音符号。该数据集旨在评估现代大型语言模型准确地在诗歌文本中放置重音符号的能力,可用于诗歌生成系统的数据工程和自动评估。
The RIFMA Dataset is a corpus of Russian poetic fragments composed of lines and stanzas. It covers works of diverse genres, poetic forms, and created by various poets, with stress marks fully annotated. This dataset is designed to evaluate the ability of modern large language models (LLMs) to accurately place stress marks within poetic texts, and can be used for data engineering in poetry generation systems as well as automatic evaluation.
提供机构:
不详
创建时间:
2025-02-28
搜集汇总
数据集介绍

构建方式
RIFMA数据集是由诗歌片段组成的,这些片段来源于不同体裁、形式和不同诗人的俄语诗歌。数据集通过人工标注的方式,为每个诗歌片段添加了重音标记和韵律方案信息。这种构建方式确保了数据集在评估现代大型语言模型准确放置重音标记的能力方面的实用价值。
特点
RIFMA数据集的特点在于其包含了广泛的诗歌体裁和形式,且涵盖了不同诗人的作品,这使得数据集具有很高的多样性和综合性。此外,数据集中的每个诗歌片段都经过了人工标注,具有准确的重音标记和韵律方案信息,为研究者提供了高质量的研究材料。
使用方法
使用RIFMA数据集时,研究者可以将其作为训练数据来提升大型语言模型在诗歌生成方面的性能。同时,数据集中的重音标记和韵律方案信息也可以用于评估和过滤生成诗歌的质量,确保生成的诗歌符合俄语诗歌的韵律规范。
背景与挑战
背景概述
RIFMA数据集源于对俄罗斯诗歌自动评估工具的研究,旨在解决生成诗歌系统在遵守诗歌韵律规则方面的评估问题。该数据集由Ilya Koziev主导,汇集了大约3600首由人类创作的俄罗斯诗歌诗节,每首诗都标注了重音和韵律方案信息。此数据集的创建,为研究和评估生成诗歌系统的能力提供了宝贵的资源,特别是在准确放置诗歌文本中的重音标记方面。RIFMA数据集的发布,对创意生成AI领域的研究人员和从业者具有重要的推动作用,为生成诗歌系统的发展与评估提供了便利。
当前挑战
在构建RIFMA数据集的过程中,研究人员面临着多个挑战。首先,必须确保评估工具的准确性,以便在评估过程中无需专家干预。其次,数据集需要具备可扩展性,以便在标准硬件上高效处理数百万首诗歌。此外,数据集的构建还涉及到了对诗歌韵律的识别、标注以及如何处理诗歌中的异常现象等问题。在数据集的实际应用中,还存在着如何有效过滤和选择训练样本的挑战,以保证语言模型训练的质量。
常用场景
经典使用场景
RIFMA数据集在俄罗斯诗歌的生成与评估领域中占据核心地位,其经典使用场景主要在于为现代大型语言模型提供高质量的训练数据。该数据集通过标注诗歌中的重音和韵律信息,助力语言模型学习并生成符合特定韵律规范的诗歌。
解决学术问题
该数据集解决了学术研究中对于诗歌自动评估工具的需求,特别是在诗歌韵律和押韵质量的评估方面。通过提供标注详细的诗歌片段,RIFMA数据集为研究人员提供了一种衡量生成诗歌质量的方法,从而推动了计算创作领域中诗歌生成系统的发展。
衍生相关工作
基于RIFMA数据集,衍生出了一系列相关研究工作。例如,研究人员利用该数据集开发出了针对俄罗斯诗歌的自动评估工具,进一步推动了诗歌生成系统中韵律和押韵模式的研究。此外,还有工作通过扩展RIFMA数据集,探索了多语言环境下诗歌生成的可能性。
以上内容由遇见数据集搜集并总结生成



