adeshkin/khakas-russian-dict
收藏Hugging Face2026-04-20 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/adeshkin/khakas-russian-dict
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
language:
- kjh
- ru
task_categories:
- translation
- text-generation
dataset_info:
- config_name: default
features:
- name: word
dtype: large_string
- name: alternat
dtype: large_string
- name: semgloss
dtype: large_string
- name: field1
dtype: large_string
- name: field1_parts
dtype: large_string
splits:
- name: train
num_bytes: 18176129
num_examples: 22324
download_size: 6762301
dataset_size: 18176129
- config_name: draft
features:
- name: field1_fix_fix
dtype: large_string
- name: headword_fix
dtype: large_string
- name: word_fix
dtype: large_string
- name: alternat_fix
dtype: large_string
- name: semgloss_fix
dtype: large_string
- name: field1_fix
dtype: large_string
- name: number
dtype: int64
- name: field1
dtype: large_string
- name: word
dtype: large_string
- name: headword
dtype: large_string
- name: headnum
dtype: int64
- name: alternat
dtype: large_string
- name: alternaten
dtype: large_string
- name: form
dtype: large_string
- name: deriv
dtype: large_string
- name: derivgloss
dtype: large_string
- name: semtag
dtype: large_string
- name: semgloss
dtype: large_string
- name: part
dtype: large_string
- name: dial
dtype: string
- name: etym
dtype: large_string
- name: rest
dtype: large_string
- name: note1
dtype: large_string
- name: notes
dtype: large_string
- name: source
dtype: large_string
splits:
- name: train
num_bytes: 35908496
num_examples: 22324
download_size: 14723619
dataset_size: 35908496
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- config_name: draft
data_files:
- split: train
path: draft/train-*
---
# Khakas-Russian Dictionary (Dataset)
**Dataset Developer:** Vasily Adeshkin
**Contact for inquiries:** adeshkin.vi@phystech.edu
## 📌 Important Notice & Citation
When using this dataset, please be sure to **cite this repository** and the **original dictionary**: [https://khakas.altaica.ru/dictionary/](https://khakas.altaica.ru/dictionary/).
*Please note: Some optical character recognition (OCR) errors may still be present in the data.*
## 🛠 Contribution & Authorship
I am **not** the author of the original dictionary, but I have contributed to its digitization and preparation for NLP tasks.
**My contribution (Data Preparation):**
- Correcting typos and OCR (Optical Character Recognition) errors.
- Fixing incorrect characters.
- Cleaning fields from unnecessary HTML/XML tags.
- Preparing and optimizing the data for correct search functionality.
## 📖 Source & Original Project
**Original dictionary:** [https://dictionary.khakas.altaica.ru/hrs_new34-0c5d0f0/hrs_new34](https://dictionary.khakas.altaica.ru/hrs_new34-0c5d0f0/hrs_new34) *(accessed: 16.04.2026)*
Original dictionary is part of the **Electronic Corpus of the Khakas Language**.
The main developers of the original project are:
- **A.V. Dybo** (Dr.habil. in Philology, Corr. Member of RAS, Head of the Ural-Altaic Languages Dept., Institute of Linguistics RAS)
- **A.V. Sheymovich** (Junior Researcher, Institute of Linguistics RAS)
- **V.S. Maltseva** (Junior Researcher, Institute of Linguistics RAS)
- **E.V. Sultrekova** (Ph.D. in Philology, formerly Researcher at KhakNIIYALI)
- **I.M. Chebochakova** (Ph.D. in Philology, Leading Researcher at KhakNIIYALI)
- **E.B. Chekmeneva** (Research Assistant, Institute of Linguistics RAS)
- **F.S. Krylov** (Programmer)
## 📊 Dataset Description
*Detailed description is available here:[https://khakas.altaica.ru/dictionary/](https://khakas.altaica.ru/dictionary/)*
**Dataset Size:** This table contains **22,324** dictionary entries.
The grammatical dictionary of Khakas stems was automatically extracted from the Khakas-Russian Dictionary edited by O.V. Subrakova (Novosibirsk, 2006) – hereafter referred to as *KRS* – using the StarLing database management system.
The stem dictionary is an annotated database containing content words (stems) in their initial form (lemmas) and word form variants in derived forms that cannot be reconstructed from the initial form. Information about derivation is recorded in special fields for subsequent output in the derivational annotation of the corpus.
### 🗂 Dataset Configurations
The dataset is divided into two configurations/parts:
- **`default`**: The fully processed and cleaned text.
- **`draft`**: A draft version of the processing. The original columns remain unchanged, while columns with the `_fix` suffix represent an intermediate stage of data processing and cleaning.
### Table Fields (default)
- `word`: The headword of the dictionary entry. As in KRS, this is the main (nominative) case for nouns, the infinitive ending in *-АрГА* (dative case from the participle on *-Ар*) for verbs, and the only existing form for uninflected words.
- `alternat`: Automatically copied verb stems, which in KRS are written in angle brackets after the infinitive form. The Khakas verb stem generally cannot be automatically derived from the infinitive by simply cutting off the *-АрГа* morpheme due to complex phonetic rules (voicing of consonants, vowel merging/dropping, etc.). This field stores the correct stem.
- `semgloss`: The translation of the stem intended for text glossing.
- `field1`: Duplicates the content of the KRS dictionary entry, preserving its original format and font styles.
- `field1_parts`: The `field1` content split into parts (using `;`) to facilitate searching for usages and to separate Khakas examples from Russian translations.
It stores a list of dictionaries in the following format:
```python
{'text': 'а ол ниме чоохтады?</b> а он что сказал?', 'tr_text': None, 'translated': False},
{'text': 'а син тапсабаазың ма?', 'tr_text': 'а ты промолчал?', 'translated': True}
```
- If `translated: False`: The `text` field contains text in either Khakas or Russian, and `tr_text` is `None`.
- If `translated: True`: The `text` field contains the Khakas text, and `tr_text` contains its Russian translation.
---
# Хакасско-русский словарь (Датасет)
**Разработчик данного датасета:** Василий Адешкин
**По всем вопросам можно писать на почту:** adeshkin.vi@phystech.edu
## 📌 Важное замечание
При использовании датасета огромная просьба **ссылаться на это репо** и **оригинальный словарь**: [https://khakas.altaica.ru/dictionary/](https://khakas.altaica.ru/dictionary/).
*Внимание: в данных возможны ошибки распознавания текста (OCR).*
## 🛠 Вклад и авторство
Я **не являюсь** автором данного словаря, но внес свой вклад в его оцифровку и подготовку для задач NLP.
**Мой вклад (подготовка данных):**
- Исправление опечаток и ошибок распознавания (OCR).
- Исправление некорректных символов.
- Чистка полей от лишних тегов (HTML/XML).
- Подготовка и оптимизация данных для корректной работы поиска.
## 📖 Источник и оригинальный проект
**Источник:** [https://dictionary.khakas.altaica.ru/hrs_new34-0c5d0f0/hrs_new34](https://dictionary.khakas.altaica.ru/hrs_new34-0c5d0f0/hrs_new34) *(дата обращения: 16.04.2026)*
Оригинальный словарь является частью проекта [**«Электронный корпус хакасского языка»**](https://khakas.altaica.ru).
Основные разработчики проекта:
- **Дыбо Анна Владимировна**, д.ф.н., чл.-корр. РАН, зав. Отделом урало-алтайских языков Института языкознания РАН
- **Шеймович Александра Валерьевна**, м.н.с. Института языкознания РАН
- **Мальцева Вера Сергеевна**, м.н.с. Института языкознания РАН
- **Султрекова Эльвира Валериевна**, к.ф.н. (в прошлом – н.с. ХакНИИЯЛИ)
- **Чебочакова Ирина Максимовна**, к.ф.н., в.н.с. ХакНИИЯЛИ
- **Чекменёва Евгения Борисовна**, лаборант-исследователь Института языкознания РАН
- **Крылов Филипп Сергеевич**, программист
## 📊 Описание датасета
*Подробное описание находится здесь: [https://khakas.altaica.ru/dictionary/](https://khakas.altaica.ru/dictionary/)*
Объем данных: Данная таблица содержит 22 324 словарные статьи.
Грамматический словарь основ хакасского языка автоматическим образом извлечен из Хакасско-русского словаря под ред. О.В.Субраковой (Новосибирск, 2006) – далее *ХРС* – с использованием системы управления базами данных StarLing.
Словарь основ представляет собой размеченную базу данных, содержащую полнозначные слова (основы) в начальной форме (леммы) и не восстановимые из начальной формы варианты словоформ в производных формах. Словообразовательные показатели фиксируются в специальных полях базы данных.
### 🗂 Конфигурации датасета
Датасет содержит две части/конфигурации:
- **`default`**: полностью обработанный и очищенный текст.
- **`draft`**: черновой вариант обработки. Исходные колонки оставлены без изменений, а колонки с постфиксом `_fix` представляют собой промежуточный этап обработки данных.
### Поля таблицы (default)
- `word`: Заголовочное слово словарной статьи. Как и в ХРС, это основной (именительный) падеж для имени, инфинитив на *-АрГА* (дательный падеж от причастия на *-Ар*) для глагола и единственная существующая форма для неизменяемого слова.
- `alternat`: Автоматически скопированные основы глаголов, которые в ХРС выписаны в косых скобках после формы инфинитива. Основа хакасского глагола не может быть автоматически получена из инфинитива отсечением морфемы *-АрГа* из-за сложных фонетических правил (озвончение, слияние/выпадение гласных). В этом поле хранится правильная основа.
- `semgloss`: Перевод основы, который должен фигурировать в глоссировках текстов.
- `field1`: Дублирует содержание оригинальной словарной статьи ХРС, сохраняя ее формат и шрифтовые выделения.
- `field1_parts`: Поле `field1`, разбитое на части (через `;`), чтобы было проще искать употребления и разделять примеры на хакасском и русском языках.
Представляет собой список словарей следующего вида:
```python
{'text': 'а ол ниме чоохтады?</b> а он что сказал?', 'tr_text': None, 'translated': False},
{'text': 'а син тапсабаазың ма?', 'tr_text': 'а ты промолчал?', 'translated': True}
```
- Если `translated: False`: в поле `text` находится текст либо на хакасском, либо на русском языке, а `tr_text: None`.
- Если `translated: True`: в поле `text` находится текст на хакасском, а в `tr_text` — его перевод на русский язык.
提供机构:
adeshkin



