RussianNLP/RuSpellGold
收藏Hugging Face2023-05-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/RussianNLP/RuSpellGold
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- text-generation
language:
- ru
size_categories:
- 1K<n<10K
---
# Dataset Card for RuSpellGold
## Dataset Description
- **Paper:** # TODO
- **ArXiv:** # TODO
- **Point of Contact:** nikita.martynov.98@list.ru
- **Language:** Russian
### Dataset Summary
RuSpellGold is a benchmark of 1711 sentence pairs dedicated to a problem of automatic spelling correction in Russian language. The dataset is gathered from five different domains including news, Russian classic literature, social media texts, open web and strategic documents. It has been passed through two-stage manual labeling process with native speakers as annotators to correct spelling violation and preserve original style of text at the same time.
## Dataset Structure
### Supported Tasks and Leaderboards
- **Task:** automatic spelling correction.
- **Metrics:** https://www.dialog-21.ru/media/3427/sorokinaaetal.pdf.
### Languages
Russian.
### Data Instances
```
{
"sources": "Видела в городе афиши, анонсрующие ее концерт.",
"corrections": "Видела в городе афиши, анонсирующие её концерт",
"domain": "aranea"
}
```
### Data Fields
- ```sources (str)```: original sentence.
- ```corrections (str)```: corrected sentence.
- ```domain (str)```: domain, from which the sentence is taken from.
### Data Splits
Current version of benchmark is only represented by test part:
- ```test```: 1711 sentence pairs (```"data/test.csv"```).
which is then splitted into following domain-relaited shards:
- ```aranea```: 756 sentence pairs (```"data/aranea/split.csv"```);
- ```literature```: 260 sentence pairs (```"data/literature/split.csv"```);
- ```news```: 245 sentence pairs (```"data/news/split.csv"```);
- ```social_media```: 200 sentence pairs (```"data/social_media/split.csv"```);
- ```strategic_documents```: 250 sentence pairs (```"data/strategic_documents/split.csv"```);
## Dataset Creation
### Source Data
|Source |Strategy |Domain |
|---|---|---|
|Vladimír Benko. 2014. Aranea: Yet another family of (comparable) web corpora. // Text, Speech and Dialogue: 17th International Conference, TSD 2014, Brno, Czech Republic, September 8-12, 2014. Proceedings 17, P 247–256. Springer| Random sentences from Araneum Russicum|Open web (aranea) |
| Russian classic literature aggregated in this [corpus](https://www.kaggle.com/datasets/d0rj3228/russian-literature) | Random sentences | Literature |
|Ilya Gusev. 2020. Dataset for automatic summarization of russian news. // Artificial Intelligence and Natural Language: 9th Conference, AINL 2020, Helsinki, Finland, October 7–9, 2020, Proceedings 9, P 122–134. Springer | Random sentences | News |
|Social media platforms | Posts from social media platforms marked with specific hashtags | Social Media |
|Vitaly Ivanin, Ekaterina Artemova, Tatiana Batura, Vladimir Ivanov, Veronika Sarkisyan, Elena Tutubalina, and Ivan Smurov. 2020. Rurebus-2020 shared task: Russian relation extraction for business. // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialog” [Komp’iuternaia Lingvistika i Intellektual’nye Tehnologii: Trudy Mezhdunarodnoj Konferentsii “Dialog”], Moscow, Russia. | Random sentences | Strategic documents |
### Annotations
#### Annotation process
All of the sentences undergo a two-stage annotation procedure on [Toloka](https://toloka.ai), a crowd-sourcing platform for data labeling.
Each stage includes an unpaid training phase with explanations, control tasks for tracking annotation quality, and the main annotation task. Before starting, a worker is given detailed instructions describing the task, explaining the labels, and showing plenty of examples.
The instruction is available at any time during both the training and main annotation phases. To get access to the main phase, the worker should first complete the training phase by labeling more than 70% of its examples correctly. To ensure high-quality expertise on the matter of spelling, we set up additional test phase on a small portion of data, manually revised the results and approved only those annotators, who managed to avoid any mistakes.
- **Stage 1: Data gathering**
We provide texts with possible mistakes to annotators and ask them to write the sentence correctly preserving the original style-markers of the text.
- **Stage 2: Validation**
We provide annotators with the pair of sentences (origin and its corresponding correction from the previous stage) and ask them to check if the correction is right.
### Personal and Sensitive Information
Each annotator is warned about potentially sensitive topics in data (e.g., politics, societal minorities, and religion).
## Additional Information
### Dataset Curators
Correspondence: ```nikita.martynov.98@list.ru```
### Licensing Information
The corpus is available under the Apache 2.0 license. The copyright (where applicable) of texts from the linguistic publications and resources remains with the original authors or publishers.
### Other
Please refer to our paper # TODO for more details.
---
license: Apache 2.0
任务类别:
- 文本生成
语言:
- 俄语
规模类别:
- 1000 < 样本数 < 10000
---
# RuSpellGold 数据集卡片
## 数据集概述
- **论文**:待补充
- **预印本(ArXiv)**:待补充
- **联系邮箱**:nikita.martynov.98@list.ru
- **语言**:俄语
### 数据集概况
RuSpellGold是包含1711个句对的基准数据集,专门面向俄语自动拼写校正任务。该数据集采集自五大领域,分别为新闻、俄罗斯经典文学、社交媒体文本、公开网页与战略文档。数据集采用两阶段人工标注流程,以母语使用者作为标注人员,在修正拼写错误的同时保留文本原有风格与格式标记。
## 数据集结构
### 支持任务与基准榜单
- **任务**:自动拼写校正
- **评估指标**:详见https://www.dialog-21.ru/media/3427/sorokinaaetal.pdf
### 语言
俄语。
### 数据样例
{
"sources": "Видела в городе афиши, анонсрующие ее концерт.",
"corrections": "Видела в городе афиши, анонсирующие её концерт",
"domain": "aranea"
}
### 数据字段
- `sources (str)`:原始文本句子。
- `corrections (str)`:校正后的文本句子。
- `domain (str)`:该句子所属的领域。
### 数据分片
当前版本的基准数据集仅包含测试集:
- `test`: 1711个句对(文件路径:"data/test.csv")。
该测试集进一步按领域划分为多个子分片:
- `aranea`:756个句对(文件路径:"data/aranea/split.csv");
- `literature`:260个句对(文件路径:"data/literature/split.csv");
- `news`:245个句对(文件路径:"data/news/split.csv");
- `social_media`:200个句对(文件路径:"data/social_media/split.csv");
- `strategic_documents`:250个句对(文件路径:"data/strategic_documents/split.csv");
## 数据集构建
### 源数据
| 数据源 | 采集策略 | 领域 |
|---|---|---|
| Vladimír Benko. 2014. *Aranea: Yet another family of (comparable) web corpora*. // *Text, Speech and Dialogue: 17th International Conference, TSD 2014, Brno, Czech Republic, September 8-12, 2014. Proceedings*, 第17卷,第247–256页,Springer | 从Araneum Russicum中随机选取句子 | 公开网页(aranea) |
| 俄罗斯经典文学语料库,聚合自该[语料库](https://www.kaggle.com/datasets/d0rj3228/russian-literature) | 随机选取句子 | 文学 |
| Ilya Gusev. 2020. *Dataset for automatic summarization of russian news*. // *Artificial Intelligence and Natural Language: 9th Conference, AINL 2020, Helsinki, Finland, October 7–9, 2020. Proceedings*, 第9卷,第122–134页,Springer | 随机选取句子 | 新闻 |
| 社交媒体平台 | 带有特定话题标签的社交媒体帖子 | 社交媒体 |
| Vitaly Ivanin 等. 2020. *Rurebus-2020 shared task: Russian relation extraction for business*. // *Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialog”* [Komp’iuternaia Lingvistika i Intellektual’nye Tehnologii: Trudy Mezhdunarodnoj Konferentsii “Dialog”], 莫斯科, 俄罗斯 | 随机选取句子 | 战略文档 |
### 标注流程
#### 标注流程详情
所有句子均在[Toloka](https://toloka.ai)(专业数据标注众包平台)上完成两阶段标注流程。
每个阶段均包含带详细说明的免费培训环节、用于监控标注质量的控制任务,以及主标注任务。正式标注前,标注人员将获得完整的任务说明文档,涵盖任务要求、标签规则与大量示例,且该文档在培训与主标注阶段均可随时查阅。若要进入主标注环节,标注人员需先完成培训阶段,且正确标注超过70%的示例。为确保标注人员具备足够的拼写校正专业能力,我们针对小批量数据设置了额外测试环节:由人工逐一复核标注结果,仅通过该测试的标注人员才可参与主任务。
- **阶段1:数据采集**:向标注人员提供存在潜在拼写错误的文本,要求其在保留文本原有风格与格式标记的前提下,将句子修正为正确形式。
- **阶段2:验证**:向标注人员提供句对(原始句子与阶段1得到的对应校正句),要求其校验校正结果是否准确无误。
### 个人与敏感信息
所有标注人员均收到关于数据中可能存在敏感主题(如政治议题、社会少数群体、宗教内容)的提前告知。
## 补充信息
### 数据集维护者
通讯邮箱:`nikita.martynov.98@list.ru`
### 许可信息
本语料库采用Apache 2.0许可证发布。若适用,语言学出版物与资源中的文本版权仍归原作者或出版方所有。
### 其他说明
更多细节请参阅我们待补充的论文。
提供机构:
RussianNLP
原始信息汇总
数据集卡片 RuSpellGold
数据集描述
- 联系人: nikita.martynov.98@list.ru
- 语言: 俄语
数据集概述
RuSpellGold 是一个包含 1711 个句子对的基准数据集,用于解决俄语自动拼写校正问题。该数据集来自五个不同的领域,包括新闻、俄语经典文学、社交媒体文本、开放网络和战略文件。经过两阶段的手动标注过程,由母语为俄语的标注者进行拼写违规校正并保持原文风格。
数据集结构
支持的任务和排行榜
- 任务: 自动拼写校正
- 评估指标: https://www.dialog-21.ru/media/3427/sorokinaaetal.pdf
语言
俄语
数据实例
json { "sources": "Видела в городе афиши, анонсрующие ее концерт.", "corrections": "Видела в городе афиши, анонсирующие её концерт", "domain": "aranea" }
数据字段
sources (str): 原始句子corrections (str): 校正后的句子domain (str): 句子来源的领域
数据分割
test: 1711 个句子对 ("data/test.csv")aranea: 756 个句子对 ("data/aranea/split.csv")literature: 260 个句子对 ("data/literature/split.csv")news: 245 个句子对 ("data/news/split.csv")social_media: 200 个句子对 ("data/social_media/split.csv")strategic_documents: 250 个句子对 ("data/strategic_documents/split.csv")
数据集创建
源数据
| 来源 | 策略 | 领域 |
|---|---|---|
| Vladimír Benko. 2014. Aranea: Yet another family of (comparable) web corpora. // Text, Speech and Dialogue: 17th International Conference, TSD 2014, Brno, Czech Republic, September 8-12, 2014. Proceedings 17, P 247–256. Springer | 从 Araneum Russicum 随机抽取句子 | 开放网络 (aranea) |
| 俄语经典文学集合在这个 语料库 | 随机抽取句子 | 文学 |
| Ilya Gusev. 2020. Dataset for automatic summarization of russian news. // Artificial Intelligence and Natural Language: 9th Conference, AINL 2020, Helsinki, Finland, October 7–9, 2020, Proceedings 9, P 122–134. Springer | 随机抽取句子 | 新闻 |
| 社交媒体平台 | 带有特定标签的社交媒体帖子 | 社交媒体 |
| Vitaly Ivanin, Ekaterina Artemova, Tatiana Batura, Vladimir Ivanov, Veronika Sarkisyan, Elena Tutubalina, and Ivan Smurov. 2020. Rurebus-2020 shared task: Russian relation extraction for business. // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialog” [Komp’iuternaia Lingvistika i Intellektual’nye Tehnologii: Trudy Mezhdunarodnoj Konferentsii “Dialog”], Moscow, Russia. | 随机抽取句子 | 战略文件 |
标注
标注过程
所有句子都经过 Toloka 上的两阶段标注过程。每个阶段包括一个无报酬的培训阶段,解释任务、标签和示例,以及用于跟踪标注质量的控制任务和主要标注任务。在开始之前,标注者会得到详细的任务说明,包括标签解释和大量示例。在培训阶段,标注者需要正确标注超过 70% 的示例才能进入主要阶段。为了确保高质量的拼写专业知识,我们设置了一个额外的测试阶段,手动审查结果并仅批准那些没有犯任何错误的标注者。
-
阶段 1: 数据收集 我们向标注者提供可能包含错误的文本,并要求他们以保持原文风格的方式正确书写句子。
-
阶段 2: 验证 我们向标注者提供一对句子(原始句子和上一阶段的相应校正),并要求他们检查校正是否正确。
个人和敏感信息
每个标注者都被告知数据中可能存在的敏感主题(例如政治、社会少数群体和宗教)。
附加信息
数据集策展人
联系人: nikita.martynov.98@list.ru
许可信息
该语料库在 Apache 2.0 许可下可用。语言出版物和资源的版权(如适用)归原作者或出版商所有。
搜集汇总
数据集介绍

构建方式
在俄语自然语言处理领域,构建高质量的拼写校正基准数据集对于提升语言模型的精确性至关重要。RuSpellGold数据集的构建过程体现了严谨的学术设计理念,其语料源自新闻、俄罗斯经典文学、社交媒体、开放网络及战略文件五个不同领域,确保了数据来源的多样性与代表性。通过两阶段人工标注流程,首先由母语标注者在众包平台上对含有潜在错误的句子进行校正,并严格保留原文风格;随后进入验证阶段,由另一批标注者对校正结果进行复核,且标注者需通过严格的培训与质量控制测试,从而保障了数据标注的一致性与高可靠性。
特点
该数据集的核心特点在于其领域覆盖的广泛性与标注质量的高标准。RuSpellGold包含了1711个句子对,每个实例均明确标注了原始句子、校正后句子及所属领域,这为研究跨领域拼写校正提供了结构化基础。数据划分为五个领域子集,如开放网络、文学、新闻等,使得评估能够针对特定文本类型进行,增强了研究的针对性。此外,数据集仅提供测试部分,专为模型性能基准测试而设计,支持使用标准评估指标进行量化分析,为俄语自动拼写校正任务设立了明确的评估框架。
使用方法
在应用层面,RuSpellGold数据集主要用于俄语自动拼写校正模型的测试与基准比较。研究人员可直接加载数据集的CSV文件,利用提供的句子对(原始与校正)作为输入输出样本,构建或微正模型以学习拼写错误模式。由于数据已按领域划分,用户可进行跨领域性能分析,探索模型在不同文本类型上的泛化能力。使用时应遵循数据许可协议,并参考相关论文中的评估指标,以确保结果的可比性与科学性。
背景与挑战
背景概述
在自然语言处理领域,俄语自动拼写校正作为一项基础性任务,长期面临高质量基准数据稀缺的困境。RuSpellGold数据集由研究人员Nikita Martynov等人于近年构建,旨在为俄语拼写校正提供多领域评估基准。该数据集精心采集了涵盖新闻、经典文学、社交媒体、开放网络及战略文档五个领域的1711对句子,通过两阶段人工标注流程,不仅修正拼写错误,同时保留文本原始风格,显著提升了俄语文本处理模型的鲁棒性与实用性,对推动斯拉夫语系自然语言处理技术的发展具有重要价值。
当前挑战
俄语自动拼写校正任务的核心挑战在于处理语言的高度屈折性、复杂的语法规则以及多领域文本的风格变异,要求模型能够准确识别并修正各类拼写错误,同时保持语义连贯与风格一致。在数据集构建过程中,挑战主要体现在多领域语料的均衡采集与质量控制,以及通过两阶段众包标注确保修正准确性与风格保真度,这需要设计精细的标注流程与严格的审核机制,以应对俄语特有的语言现象与标注者主观性带来的干扰。
常用场景
经典使用场景
在俄语自然语言处理领域,RuSpellGold数据集作为自动拼写校正任务的基准测试集,其经典使用场景集中于评估和优化拼写校正模型的性能。该数据集覆盖新闻、经典文学、社交媒体、开放网络及战略文档五大领域,提供了丰富的语言变体与错误类型,使得研究者能够系统性地测试模型在不同文本风格下的校正能力。通过对比原始句子与人工校正后的句子,模型在保持文本原有意蕴的同时,精准修正拼写错误,这一过程不仅验证了算法的鲁棒性,也推动了俄语拼写校正技术的标准化进程。
实际应用
在实际应用层面,RuSpellGold数据集为俄语文本处理工具的开发与优化提供了关键支撑。基于该数据集训练的拼写校正模型,已广泛应用于俄语办公软件、在线编辑平台、社交媒体内容审核以及智能输入法等场景。例如,在新闻媒体行业,模型能够自动修正记者稿件中的拼写疏漏;在教育领域,辅助学习者改善书面表达。这些应用不仅提升了俄语用户的文本创作体验,也增强了信息传播的准确性与专业性,体现了自然语言处理技术在社会数字化进程中的实用价值。
衍生相关工作
围绕RuSpellGold数据集,衍生了一系列经典的学术研究工作,主要集中在拼写校正模型的创新与领域适应性探索上。研究者利用该数据集训练了基于Transformer架构的端到端校正模型,如结合预训练语言模型BERT的变体,显著提升了校正精度。同时,针对数据集中不同领域(如社交媒体与文学)的文本特性,出现了专注于领域迁移与多任务学习的研究,这些工作不仅深化了对俄语拼写错误模式的理解,也推动了跨语言拼写校正技术的发展,为后续更广泛的自然语言处理任务提供了方法论借鉴。
以上内容由遇见数据集搜集并总结生成



