commifeez/russian-it-topic-classification

Name: commifeez/russian-it-topic-classification
Creator: commifeez
Published: 2026-04-20 15:59:57
License: 暂无描述

Hugging Face2026-04-20 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/commifeez/russian-it-topic-classification

下载链接

链接失效反馈

官方服务：

资源简介：

--- pretty_name: "Russian IT Topic Classification" language: - ru task_categories: - text-classification task_ids: - multi-class-classification size_categories: - 10K<n<100K annotations_creators: - machine-generated multilinguality: - monolingual license: cc-by-sa-4.0 tags: - russian - it - nlp - text-classification - all-cups --- # Russian IT Topic Classification Dataset Уникальный размеченный русскоязычный датасет для задач классификации технических текстов по IT-направлениям. ## Кратко о датасете - Тип задачи: многоклассовая классификация текста. - Язык: русский. - Объем: `70 000` записей. - Сплиты: - `train`: `55 998` - `val`: `6 998` - `test`: `7 004` ## Классы - `ml_ai` - `cybersecurity` - `software_engineering` - `data_engineering` - `computer_vision_graphics` - `audio_speech` ## Формат записи Файлы в формате `JSONL`, одна запись на строку: ```json { "id": "vk_it_000000123", "text": "Текстовый фрагмент...", "label": "ml_ai", "label_confidence": 0.95, "source_title": "Название исходного материала", "source_url": "https://example.org/page" } ``` ## Состав релиза - `train.jsonl` - `val.jsonl` - `test.jsonl` - `labels.csv` - `stats.json` ## Качество и ограничения - Выполнена очистка и дедупликация текстов. - Исключены записи с признаками персональных данных и контентом 18+. - Метки формировались автоматически и могут содержать редкие пограничные случаи. ## Возможные сценарии использования - Соревнования по NLP и ML. - Обучение и сравнение baseline-моделей. - Исследования по тематической классификации русскоязычных технических текстов. ## Рекомендуемая постановка соревнования - **Задача:** определить IT-направление по текстовому фрагменту. - **Основная метрика:** `macro-F1`. - **Дополнительная метрика:** `accuracy`.

--- pretty_name: "俄语IT主题分类（Russian IT Topic Classification）" language: - 俄语（ru） task_categories: - 文本分类（text-classification） task_ids: - 多类别分类（multi-class-classification） size_categories: - 10000 < n < 100000（数据规模介于1万至10万条之间） annotations_creators: - 机器生成标注 multilinguality: - 单语言 license: CC BY-SA 4.0（知识共享署名-相同方式共享4.0协议） tags: - 俄语 - IT - 自然语言处理（Natural Language Processing，简称NLP） - 文本分类 - all-cups --- # 俄语IT主题分类数据集（Russian IT Topic Classification）本数据集为经标注的独特俄语数据集，用于面向IT领域的技术文本分类任务。 ## 数据集概览 - 任务类型：多类别分类（multi-class-classification） - 语言：俄语 - 数据规模：共70000条数据 - 数据集划分： - 训练集（train）：55998条 - 验证集（val）：6998条 - 测试集（test）：7004条 ## 类别标签 - `ml_ai`：机器学习与人工智能 - `cybersecurity`：网络安全 - `software_engineering`：软件工程 - `data_engineering`：数据工程 - `computer_vision_graphics`：计算机视觉与图形学 - `audio_speech`：音频与语音 ## 数据记录格式数据集文件采用JSONL格式，每行对应一条数据记录，示例如下： json { "id": "vk_it_000000123", "text": "文本片段...", "label": "ml_ai", "label_confidence": 0.95, "source_title": "源材料标题", "source_url": "https://example.org/page" } ## 发布文件组成 - `train.jsonl`：训练集数据文件 - `val.jsonl`：验证集数据文件 - `test.jsonl`：测试集数据文件 - `labels.csv`：类别标签表文件 - `stats.json`：数据集统计信息文件 ## 数据质量与使用限制 - 已完成文本清洗与去重操作 - 已过滤包含个人敏感信息及18+违规内容的数据记录 - 标签由自动化流程生成，可能存在少量边界模糊的样本 ## 适用场景 - 自然语言处理（Natural Language Processing，简称NLP）与机器学习（Machine Learning，简称ML）相关竞赛 - 基线模型的训练与性能对比 - 俄语技术文本主题分类相关研究 ## 竞赛推荐设置 - **任务目标：** 根据给定文本片段判定其所属IT领域方向 - **核心评价指标：** 宏平均F1值（macro-F1） - **辅助评价指标：** 准确率（accuracy）

提供机构：

commifeez

5,000+

优质数据集

54 个

任务类型

进入经典数据集