alexanderpl/ru_gec_v1
收藏Hugging Face2026-03-08 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/alexanderpl/ru_gec_v1
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- text-generation
language:
- ru
tags:
- language
size_categories:
- 100K<n<1M
---
## **Dataset: RuGECv1 (Russian Grammatical Error Correction)**
This dataset contains **707,261** parallel examples specifically curated for training Grammatical Error Correction (GEC) models for the Russian language. The dataset follows an instruction-tuning format, making it suitable for fine-tuning instruction-following language models.
### **Dataset Structure**
Each example contains the following fields:
| Field | Type | Description |
|-------|------|-------------|
| **input** | string | Source text containing grammatical, spelling, punctuation, or stylistic errors. |
| **output** | string | Corrected version of the text. |
| **instruction** | string | Fixed instruction 'Lec.' (abbreviation for Linguistic Error Correction), following the Alpaca instruction format. |
| **source** | int64 | Numerical identifier indicating the data source. |
### **Data Characteristics**
* **Size:** 707,261 sentence pairs
* **Text Length:** Variable, with inputs ranging
* **Language:** Russian exclusively
* **Format:** Instruction-following (Alpaca-style)
* **Domain:** Mixed-domain including academic texts, technical documentation, medical literature, and general prose
### **Error Types Covered**
The dataset includes diverse grammatical and stylistic errors commonly found in Russian text:
1. **Verb Errors**
- Aspect misuse: "ложить" → "класть" / "положить"
- Conjugation errors: "будуш" → "буду"
- Tense agreement: "пришли" → "пришло"
2. **Agreement Errors**
- Noun-adjective agreement: "красивая платье" → "красивое платье"
- Subject-verb agreement: "Девочка играют" → "Девочка играет"
3. **Case Usage Errors**
- Prepositional case: "о друга" → "о друге"
- Genitive case constructions
4. **Spelling Errors**
- Common misspellings: "здраствуйте" → "здравствуйте"
- Typos and orthographic mistakes
5. **Punctuation & Spacing**
- Extra spaces: "хлеб ." → "хлеб."
- Comma placement and other punctuation marks
6. **Stylistic Improvements**
- Word choice refinement: "данный" → "этот"
- Sentence restructuring for clarity
- Removal of redundant phrases
7. **Colloquial/Non-standard Forms**
- Non-standard pronouns: "ихний" → "их"
- Informal constructions → formal equivalents
### **Example Samples**
Here are representative examples from the dataset:
| Input (Erroneous) | Output (Corrected) | Error Type |
|-------------------|--------------------|------------|
| "Он ложить книгу на стол." | "Он кладет книгу на стол." | Verb aspect error |
| "Я будуш делать задание завтра." | "Я буду делать задание завтра." | Spelling / conjugation |
| "Это моя лучшая друзья." | "Это моя лучшая подруга." | Gender / number agreement |
| "Мы договорились встретиться через пол часа." | "Мы договорились встретиться через полчаса." | Compound word spacing |
### **Format Compatibility**
The dataset is provided in Parquet format and is compatible with:
- Hugging Face Datasets library
- PyTorch and TensorFlow data pipelines
- Instruction-tuning frameworks (Alpaca, Supervised Fine-Tuning)
- Most modern NLP training setups
### **Citation & Usage**
When using this dataset, please acknowledge its contribution to Russian NLP resources. The dataset is particularly valuable due to the relative scarcity of large-scale, high-quality Russian GEC datasets.
---
## **Датасет: RuGECv1 (Исправление грамматических ошибок на русском языке)**
Этот датасет содержит **707 261** пару примеров, специально подобранных для обучения моделей исправления грамматических ошибок (Grammatical Error Correction, GEC) для русского языка. Датасет соответствует формату обучения с инструкциями, что делает его подходящим для дообучения языковых моделей.
### **Структура датасета**
Каждый пример содержит следующие поля:
| Поле | Тип | Описание |
|-------|------|-------------|
| **input** | string | Исходный текст, содержащий грамматические, орфографические, пунктуационные или стилистические ошибки. |
| **output** | string | Исправленная версия текста. |
| **instruction** | string | Фиксированная инструкция 'Lec.' (сокращение от Linguistic Error Correction), согласно формату Alpaca. |
| **source** | int64 | Числовой идентификатор, указывающий на источник данных. |
### **Характеристики данных**
* **Размер:** 707 261 пар предложений
* **Длина текста:** Переменная, с исходными текстами различной длины
* **Язык:** Только русский
* **Формат:** Обучение с инструкциями (Alpaca-style)
* **Предметная область:** Смешанная, включает академические тексты, техническую документацию, медицинскую литературу и др.
### **Типы покрываемых ошибок**
Датасет включает разнообразные грамматические и стилистические ошибки, часто встречающиеся в русском тексте:
1. **Ошибки в глаголах**
- Неправильный вид: "ложить" → "класть" / "положить"
- Ошибки в спряжении: "будуш" → "буду"
- Согласование времен: "пришли" → "пришло"
2. **Ошибки согласования**
- Согласование существительного и прилагательного: "красивая платье" → "красивое платье"
- Согласование подлежащего и сказуемого: "Девочка играют" → "Девочка играет"
3. **Ошибки в использовании падежей**
- Предложный падеж: "о друга" → "о друге"
- Конструкции родительного падежа
4. **Орфографические ошибки**
- Распространенные опечатки: "здраствуйте" → "здравствуйте"
- Опечатки и орфографические ошибки
5. **Пунктуация и пробелы**
- Лишние пробелы: "хлеб ." → "хлеб."
- Расстановка запятых и других знаков препинания
6. **Стилистические улучшения**
- Уточнение выбора слов: "данный" → "этот"
- Перестройка предложений для ясности
- Удаление избыточных фраз
7. **Разговорные/нестандартные формы**
- Нестандартные местоимения: "ихний" → "их"
- Неформальные конструкции → формальные эквиваленты
### **Примеры из датасета**
Вот репрезентативные примеры из датасета:
| Ввод (с ошибкой) | Вывод (исправленный) | Тип ошибки |
|-------------------|--------------------|------------|
| "Он ложить книгу на стол." | "Он кладет книгу на стол." | Ошибка в виде глагола |
| "Я будуш делать задание завтра." | "Я буду делать задание завтра." | Орфография / спряжение |
| "Это моя лучшая друзья." | "Это моя лучшая подруга." | Согласование по роду / числу |
| "Мы договорились встретиться через пол часа." | "Мы договорились встретиться через полчаса." | Пробел в сложном слове |
### **Совместимость формата**
Датасет предоставлен в формате Parquet и совместим с:
- Библиотекой Hugging Face Datasets
- Конвейерами данных PyTorch и TensorFlow
- Фреймворками обучения с инструкциями (Alpaca, Supervised Fine-Tuning)
- Большинством современных NLP
### **Цитирование и использование**
При использовании этого датасета, пожалуйста, укажите на него ссылку.
提供机构:
alexanderpl



