five

adeshkin/khakas-russian-dict

收藏
Hugging Face2026-04-20 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/adeshkin/khakas-russian-dict
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-4.0 language: - kjh - ru task_categories: - translation - text-generation dataset_info: - config_name: default features: - name: word dtype: large_string - name: alternat dtype: large_string - name: semgloss dtype: large_string - name: field1 dtype: large_string - name: field1_parts dtype: large_string splits: - name: train num_bytes: 18176129 num_examples: 22324 download_size: 6762301 dataset_size: 18176129 - config_name: draft features: - name: field1_fix_fix dtype: large_string - name: headword_fix dtype: large_string - name: word_fix dtype: large_string - name: alternat_fix dtype: large_string - name: semgloss_fix dtype: large_string - name: field1_fix dtype: large_string - name: number dtype: int64 - name: field1 dtype: large_string - name: word dtype: large_string - name: headword dtype: large_string - name: headnum dtype: int64 - name: alternat dtype: large_string - name: alternaten dtype: large_string - name: form dtype: large_string - name: deriv dtype: large_string - name: derivgloss dtype: large_string - name: semtag dtype: large_string - name: semgloss dtype: large_string - name: part dtype: large_string - name: dial dtype: string - name: etym dtype: large_string - name: rest dtype: large_string - name: note1 dtype: large_string - name: notes dtype: large_string - name: source dtype: large_string splits: - name: train num_bytes: 35908496 num_examples: 22324 download_size: 14723619 dataset_size: 35908496 configs: - config_name: default data_files: - split: train path: data/train-* - config_name: draft data_files: - split: train path: draft/train-* --- # Khakas-Russian Dictionary (Dataset) **Dataset Developer:** Vasily Adeshkin **Contact for inquiries:** adeshkin.vi@phystech.edu ## 📌 Important Notice & Citation When using this dataset, please be sure to **cite this repository** and the **original dictionary**: [https://khakas.altaica.ru/dictionary/](https://khakas.altaica.ru/dictionary/). *Please note: Some optical character recognition (OCR) errors may still be present in the data.* ## 🛠 Contribution & Authorship I am **not** the author of the original dictionary, but I have contributed to its digitization and preparation for NLP tasks. **My contribution (Data Preparation):** - Correcting typos and OCR (Optical Character Recognition) errors. - Fixing incorrect characters. - Cleaning fields from unnecessary HTML/XML tags. - Preparing and optimizing the data for correct search functionality. ## 📖 Source & Original Project **Original dictionary:** [https://dictionary.khakas.altaica.ru/hrs_new34-0c5d0f0/hrs_new34](https://dictionary.khakas.altaica.ru/hrs_new34-0c5d0f0/hrs_new34) *(accessed: 16.04.2026)* Original dictionary is part of the **Electronic Corpus of the Khakas Language**. The main developers of the original project are: - **A.V. Dybo** (Dr.habil. in Philology, Corr. Member of RAS, Head of the Ural-Altaic Languages Dept., Institute of Linguistics RAS) - **A.V. Sheymovich** (Junior Researcher, Institute of Linguistics RAS) - **V.S. Maltseva** (Junior Researcher, Institute of Linguistics RAS) - **E.V. Sultrekova** (Ph.D. in Philology, formerly Researcher at KhakNIIYALI) - **I.M. Chebochakova** (Ph.D. in Philology, Leading Researcher at KhakNIIYALI) - **E.B. Chekmeneva** (Research Assistant, Institute of Linguistics RAS) - **F.S. Krylov** (Programmer) ## 📊 Dataset Description *Detailed description is available here:[https://khakas.altaica.ru/dictionary/](https://khakas.altaica.ru/dictionary/)* **Dataset Size:** This table contains **22,324** dictionary entries. The grammatical dictionary of Khakas stems was automatically extracted from the Khakas-Russian Dictionary edited by O.V. Subrakova (Novosibirsk, 2006) – hereafter referred to as *KRS* – using the StarLing database management system. The stem dictionary is an annotated database containing content words (stems) in their initial form (lemmas) and word form variants in derived forms that cannot be reconstructed from the initial form. Information about derivation is recorded in special fields for subsequent output in the derivational annotation of the corpus. ### 🗂 Dataset Configurations The dataset is divided into two configurations/parts: - **`default`**: The fully processed and cleaned text. - **`draft`**: A draft version of the processing. The original columns remain unchanged, while columns with the `_fix` suffix represent an intermediate stage of data processing and cleaning. ### Table Fields (default) - `word`: The headword of the dictionary entry. As in KRS, this is the main (nominative) case for nouns, the infinitive ending in *-АрГА* (dative case from the participle on *-Ар*) for verbs, and the only existing form for uninflected words. - `alternat`: Automatically copied verb stems, which in KRS are written in angle brackets after the infinitive form. The Khakas verb stem generally cannot be automatically derived from the infinitive by simply cutting off the *-АрГа* morpheme due to complex phonetic rules (voicing of consonants, vowel merging/dropping, etc.). This field stores the correct stem. - `semgloss`: The translation of the stem intended for text glossing. - `field1`: Duplicates the content of the KRS dictionary entry, preserving its original format and font styles. - `field1_parts`: The `field1` content split into parts (using `;`) to facilitate searching for usages and to separate Khakas examples from Russian translations. It stores a list of dictionaries in the following format: ```python {'text': 'а ол ниме чоохтады?</b> а он что сказал?', 'tr_text': None, 'translated': False}, {'text': 'а син тапсабаазың ма?', 'tr_text': 'а ты промолчал?', 'translated': True} ``` - If `translated: False`: The `text` field contains text in either Khakas or Russian, and `tr_text` is `None`. - If `translated: True`: The `text` field contains the Khakas text, and `tr_text` contains its Russian translation. --- # Хакасско-русский словарь (Датасет) **Разработчик данного датасета:** Василий Адешкин **По всем вопросам можно писать на почту:** adeshkin.vi@phystech.edu ## 📌 Важное замечание При использовании датасета огромная просьба **ссылаться на это репо** и **оригинальный словарь**: [https://khakas.altaica.ru/dictionary/](https://khakas.altaica.ru/dictionary/). *Внимание: в данных возможны ошибки распознавания текста (OCR).* ## 🛠 Вклад и авторство Я **не являюсь** автором данного словаря, но внес свой вклад в его оцифровку и подготовку для задач NLP. **Мой вклад (подготовка данных):** - Исправление опечаток и ошибок распознавания (OCR). - Исправление некорректных символов. - Чистка полей от лишних тегов (HTML/XML). - Подготовка и оптимизация данных для корректной работы поиска. ## 📖 Источник и оригинальный проект **Источник:** [https://dictionary.khakas.altaica.ru/hrs_new34-0c5d0f0/hrs_new34](https://dictionary.khakas.altaica.ru/hrs_new34-0c5d0f0/hrs_new34) *(дата обращения: 16.04.2026)* Оригинальный словарь является частью проекта [**«Электронный корпус хакасского языка»**](https://khakas.altaica.ru). Основные разработчики проекта: - **Дыбо Анна Владимировна**, д.ф.н., чл.-корр. РАН, зав. Отделом урало-алтайских языков Института языкознания РАН - **Шеймович Александра Валерьевна**, м.н.с. Института языкознания РАН - **Мальцева Вера Сергеевна**, м.н.с. Института языкознания РАН - **Султрекова Эльвира Валериевна**, к.ф.н. (в прошлом – н.с. ХакНИИЯЛИ) - **Чебочакова Ирина Максимовна**, к.ф.н., в.н.с. ХакНИИЯЛИ - **Чекменёва Евгения Борисовна**, лаборант-исследователь Института языкознания РАН - **Крылов Филипп Сергеевич**, программист ## 📊 Описание датасета *Подробное описание находится здесь: [https://khakas.altaica.ru/dictionary/](https://khakas.altaica.ru/dictionary/)* Объем данных: Данная таблица содержит 22 324 словарные статьи. Грамматический словарь основ хакасского языка автоматическим образом извлечен из Хакасско-русского словаря под ред. О.В.Субраковой (Новосибирск, 2006) – далее *ХРС* – с использованием системы управления базами данных StarLing. Словарь основ представляет собой размеченную базу данных, содержащую полнозначные слова (основы) в начальной форме (леммы) и не восстановимые из начальной формы варианты словоформ в производных формах. Словообразовательные показатели фиксируются в специальных полях базы данных. ### 🗂 Конфигурации датасета Датасет содержит две части/конфигурации: - **`default`**: полностью обработанный и очищенный текст. - **`draft`**: черновой вариант обработки. Исходные колонки оставлены без изменений, а колонки с постфиксом `_fix` представляют собой промежуточный этап обработки данных. ### Поля таблицы (default) - `word`: Заголовочное слово словарной статьи. Как и в ХРС, это основной (именительный) падеж для имени, инфинитив на *-АрГА* (дательный падеж от причастия на *-Ар*) для глагола и единственная существующая форма для неизменяемого слова. - `alternat`: Автоматически скопированные основы глаголов, которые в ХРС выписаны в косых скобках после формы инфинитива. Основа хакасского глагола не может быть автоматически получена из инфинитива отсечением морфемы *-АрГа* из-за сложных фонетических правил (озвончение, слияние/выпадение гласных). В этом поле хранится правильная основа. - `semgloss`: Перевод основы, который должен фигурировать в глоссировках текстов. - `field1`: Дублирует содержание оригинальной словарной статьи ХРС, сохраняя ее формат и шрифтовые выделения. - `field1_parts`: Поле `field1`, разбитое на части (через `;`), чтобы было проще искать употребления и разделять примеры на хакасском и русском языках. Представляет собой список словарей следующего вида: ```python {'text': 'а ол ниме чоохтады?</b> а он что сказал?', 'tr_text': None, 'translated': False}, {'text': 'а син тапсабаазың ма?', 'tr_text': 'а ты промолчал?', 'translated': True} ``` - Если `translated: False`: в поле `text` находится текст либо на хакасском, либо на русском языке, а `tr_text: None`. - Если `translated: True`: в поле `text` находится текст на хакасском, а в `tr_text` — его перевод на русский язык.
提供机构:
adeshkin
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作