five

alexanderpl/ru_gec_v1

收藏
Hugging Face2026-03-08 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/alexanderpl/ru_gec_v1
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 task_categories: - text-generation language: - ru tags: - language size_categories: - 100K<n<1M --- ## **Dataset: RuGECv1 (Russian Grammatical Error Correction)** This dataset contains **707,261** parallel examples specifically curated for training Grammatical Error Correction (GEC) models for the Russian language. The dataset follows an instruction-tuning format, making it suitable for fine-tuning instruction-following language models. ### **Dataset Structure** Each example contains the following fields: | Field | Type | Description | |-------|------|-------------| | **input** | string | Source text containing grammatical, spelling, punctuation, or stylistic errors. | | **output** | string | Corrected version of the text. | | **instruction** | string | Fixed instruction 'Lec.' (abbreviation for Linguistic Error Correction), following the Alpaca instruction format. | | **source** | int64 | Numerical identifier indicating the data source. | ### **Data Characteristics** * **Size:** 707,261 sentence pairs * **Text Length:** Variable, with inputs ranging * **Language:** Russian exclusively * **Format:** Instruction-following (Alpaca-style) * **Domain:** Mixed-domain including academic texts, technical documentation, medical literature, and general prose ### **Error Types Covered** The dataset includes diverse grammatical and stylistic errors commonly found in Russian text: 1. **Verb Errors** - Aspect misuse: "ложить" → "класть" / "положить" - Conjugation errors: "будуш" → "буду" - Tense agreement: "пришли" → "пришло" 2. **Agreement Errors** - Noun-adjective agreement: "красивая платье" → "красивое платье" - Subject-verb agreement: "Девочка играют" → "Девочка играет" 3. **Case Usage Errors** - Prepositional case: "о друга" → "о друге" - Genitive case constructions 4. **Spelling Errors** - Common misspellings: "здраствуйте" → "здравствуйте" - Typos and orthographic mistakes 5. **Punctuation & Spacing** - Extra spaces: "хлеб ." → "хлеб." - Comma placement and other punctuation marks 6. **Stylistic Improvements** - Word choice refinement: "данный" → "этот" - Sentence restructuring for clarity - Removal of redundant phrases 7. **Colloquial/Non-standard Forms** - Non-standard pronouns: "ихний" → "их" - Informal constructions → formal equivalents ### **Example Samples** Here are representative examples from the dataset: | Input (Erroneous) | Output (Corrected) | Error Type | |-------------------|--------------------|------------| | "Он ложить книгу на стол." | "Он кладет книгу на стол." | Verb aspect error | | "Я будуш делать задание завтра." | "Я буду делать задание завтра." | Spelling / conjugation | | "Это моя лучшая друзья." | "Это моя лучшая подруга." | Gender / number agreement | | "Мы договорились встретиться через пол часа." | "Мы договорились встретиться через полчаса." | Compound word spacing | ### **Format Compatibility** The dataset is provided in Parquet format and is compatible with: - Hugging Face Datasets library - PyTorch and TensorFlow data pipelines - Instruction-tuning frameworks (Alpaca, Supervised Fine-Tuning) - Most modern NLP training setups ### **Citation & Usage** When using this dataset, please acknowledge its contribution to Russian NLP resources. The dataset is particularly valuable due to the relative scarcity of large-scale, high-quality Russian GEC datasets. --- ## **Датасет: RuGECv1 (Исправление грамматических ошибок на русском языке)** Этот датасет содержит **707 261** пару примеров, специально подобранных для обучения моделей исправления грамматических ошибок (Grammatical Error Correction, GEC) для русского языка. Датасет соответствует формату обучения с инструкциями, что делает его подходящим для дообучения языковых моделей. ### **Структура датасета** Каждый пример содержит следующие поля: | Поле | Тип | Описание | |-------|------|-------------| | **input** | string | Исходный текст, содержащий грамматические, орфографические, пунктуационные или стилистические ошибки. | | **output** | string | Исправленная версия текста. | | **instruction** | string | Фиксированная инструкция 'Lec.' (сокращение от Linguistic Error Correction), согласно формату Alpaca. | | **source** | int64 | Числовой идентификатор, указывающий на источник данных. | ### **Характеристики данных** * **Размер:** 707 261 пар предложений * **Длина текста:** Переменная, с исходными текстами различной длины * **Язык:** Только русский * **Формат:** Обучение с инструкциями (Alpaca-style) * **Предметная область:** Смешанная, включает академические тексты, техническую документацию, медицинскую литературу и др. ### **Типы покрываемых ошибок** Датасет включает разнообразные грамматические и стилистические ошибки, часто встречающиеся в русском тексте: 1. **Ошибки в глаголах** - Неправильный вид: "ложить" → "класть" / "положить" - Ошибки в спряжении: "будуш" → "буду" - Согласование времен: "пришли" → "пришло" 2. **Ошибки согласования** - Согласование существительного и прилагательного: "красивая платье" → "красивое платье" - Согласование подлежащего и сказуемого: "Девочка играют" → "Девочка играет" 3. **Ошибки в использовании падежей** - Предложный падеж: "о друга" → "о друге" - Конструкции родительного падежа 4. **Орфографические ошибки** - Распространенные опечатки: "здраствуйте" → "здравствуйте" - Опечатки и орфографические ошибки 5. **Пунктуация и пробелы** - Лишние пробелы: "хлеб ." → "хлеб." - Расстановка запятых и других знаков препинания 6. **Стилистические улучшения** - Уточнение выбора слов: "данный" → "этот" - Перестройка предложений для ясности - Удаление избыточных фраз 7. **Разговорные/нестандартные формы** - Нестандартные местоимения: "ихний" → "их" - Неформальные конструкции → формальные эквиваленты ### **Примеры из датасета** Вот репрезентативные примеры из датасета: | Ввод (с ошибкой) | Вывод (исправленный) | Тип ошибки | |-------------------|--------------------|------------| | "Он ложить книгу на стол." | "Он кладет книгу на стол." | Ошибка в виде глагола | | "Я будуш делать задание завтра." | "Я буду делать задание завтра." | Орфография / спряжение | | "Это моя лучшая друзья." | "Это моя лучшая подруга." | Согласование по роду / числу | | "Мы договорились встретиться через пол часа." | "Мы договорились встретиться через полчаса." | Пробел в сложном слове | ### **Совместимость формата** Датасет предоставлен в формате Parquet и совместим с: - Библиотекой Hugging Face Datasets - Конвейерами данных PyTorch и TensorFlow - Фреймворками обучения с инструкциями (Alpaca, Supervised Fine-Tuning) - Большинством современных NLP ### **Цитирование и использование** При использовании этого датасета, пожалуйста, укажите на него ссылку.
提供机构:
alexanderpl
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作