RST-annotated parallel Russian-English corpus

github2022-03-22 更新2024-05-31 收录

下载链接：

https://github.com/IHumonen/RHETORICAL_CORPUS

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含112个自动RST注释的俄语微文本及其相应的注释脚本，用于俄英平行语料库的RST注释。数据集的创建涉及对英语文本的RST标记和俄语翻译的考虑，通过实验改进了现有的俄语解析器，并使用自动映射从英语转移注释。此外，还修改了基本话语单元的划分，以充分对应英语的划分，并开发了文本集合的金标准分割，适应了修辞关系注释指令。

This dataset contains 112 automatically RST-annotated Russian microtexts and their corresponding annotation schemas, intended for RST annotation of Russian-English parallel corpora. The construction of this dataset involved accounting for both the RST tagging of English source texts and their Russian translations, experimentally improving existing Russian parsers, and transferring annotations from English via automatic mapping. Additionally, the segmentation of Elementary Discourse Units (EDUs) was revised to fully align with that of English texts, and a gold-standard segmentation for the text collection was developed, which complies with the annotation guidelines for rhetorical relations.

创建时间：

2021-09-19

原始信息汇总

数据集概述

数据集名称

RST-annotated parallel Russian-English corpus

数据集内容

该数据集包含112个短的自动rst-annotated俄语微文本及其相应的注释脚本。数据集的创建涉及对已标记RST的英语文本及其俄语翻译进行分析，以改进现有的俄语解析器，并使用自动映射从英语转移注释。

数据集开发背景

该项目由HSE大学的“计算语言学”硕士项目的第一年学生Daria Petrova和Innokentiy Humonen开发，得到Polina Gusenkova、Svetlana Toldova、Anastasiya A. Bonch-Osmolovskaya和Manfred Stede的帮助。

数据集来源

原始的平行文本语料库（已注释的英语文本和未注释的俄语翻译）可在此处获取：原始语料库链接

许可证和引用

数据集、注释及相关代码遵循Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License。如需引用，请参考以下文献：

Humonen I., Petrova D.  
Developing of the parallel Russian-English corpus with the discourse annotation [Unpublished manuscript].
Moscow, National Research University Higher School of Economics. 2022

相关链接

搜集汇总

数据集介绍

构建方式

RST-annotated parallel Russian-English corpus数据集的构建基于112篇俄语微文本及其对应的英语翻译文本。研究团队首先对英语文本进行了修辞结构理论（RST）标注，随后通过自动映射技术将这些标注迁移至俄语翻译文本中。在此过程中，团队对俄语文本的基本话语单元进行了重新划分，以确保其与英语文本的分段一致性，并开发了适用于俄语文本的黄金分段标准。此外，团队还调整了修辞关系的标注规则，并对俄语解析器的性能进行了深入分析，揭示了两种语言在解析过程中的差异与常见错误类型。

特点

该数据集的核心特点在于其双语平行性及修辞结构标注的精细度。数据集不仅包含了俄语和英语的平行文本，还通过自动映射技术实现了修辞标注的跨语言迁移，为对比语言学研究和机器翻译任务提供了宝贵资源。此外，数据集还提供了经过优化的俄语解析器性能分析结果，揭示了俄语与英语在修辞结构上的差异，为跨语言修辞分析提供了新的视角。

使用方法

该数据集适用于修辞结构理论（RST）研究、跨语言修辞分析以及机器翻译任务。用户可通过访问GitHub仓库获取数据集及其标注脚本，并参考提供的俄语解析器性能分析结果进行进一步研究。数据集的使用需遵循Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License，并在研究论文中引用相关文献以支持学术规范。

背景与挑战

背景概述

RST-annotated parallel Russian-English corpus 数据集由俄罗斯高等经济大学（HSE University）的计算语言学硕士项目学生Daria Petrova和Innokentiy Humonen主导开发，旨在通过修辞结构理论（RST）对俄语和英语平行文本进行标注，以提升俄语文本解析器的性能。该数据集包含112篇经过自动RST标注的俄语短文本及其对应的英语翻译，研究团队通过实验改进了现有的俄语解析器，并尝试将英语标注自动映射到俄语文本中。该项目的核心研究问题在于如何有效处理俄语和英语在修辞结构上的差异，并为俄语文本建立高质量的RST标注标准。这一工作不仅推动了俄语自然语言处理领域的发展，也为跨语言修辞结构分析提供了重要参考。

当前挑战

RST-annotated parallel Russian-English corpus 数据集在构建过程中面临多重挑战。首先，俄语和英语在修辞结构上存在显著差异，如何将英语的RST标注有效映射到俄语文本中是一个复杂的问题。研究团队需要调整基本话语单元的划分方式，以确保俄语和英语的标注能够对应一致。其次，自动标注过程中产生的错误类型多样，尤其是在跨语言映射时，语言间的句法和语义差异可能导致标注不准确。此外，构建高质量的金标准标注集需要大量的人工校对和语言学专业知识，这对研究团队的时间和资源提出了较高要求。这些挑战不仅反映了跨语言修辞结构分析的复杂性，也为未来相关研究提供了改进方向。

常用场景

经典使用场景

RST-annotated parallel Russian-English corpus 数据集在计算语言学领域中被广泛用于研究俄语和英语之间的修辞结构差异。通过自动化的RST标注，研究者能够深入分析两种语言在修辞关系上的映射与转换，特别是在跨语言文本生成和机器翻译任务中，该数据集为模型训练和评估提供了宝贵的资源。

衍生相关工作

基于该数据集，研究者们开发了一系列相关工具和方法，例如改进的俄语RST解析器和跨语言修辞关系映射算法。这些工作不仅扩展了数据集的适用范围，还为后续研究提供了技术基础。此外，该数据集还启发了更多关于多语言修辞结构分析的研究，推动了计算语言学领域的创新。

数据集最近研究