commifeez/russian-it-topic-classification
收藏Hugging Face2026-04-20 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/commifeez/russian-it-topic-classification
下载链接
链接失效反馈官方服务:
资源简介:
---
pretty_name: "Russian IT Topic Classification"
language:
- ru
task_categories:
- text-classification
task_ids:
- multi-class-classification
size_categories:
- 10K<n<100K
annotations_creators:
- machine-generated
multilinguality:
- monolingual
license: cc-by-sa-4.0
tags:
- russian
- it
- nlp
- text-classification
- all-cups
---
# Russian IT Topic Classification Dataset
Уникальный размеченный русскоязычный датасет для задач классификации технических текстов по IT-направлениям.
## Кратко о датасете
- Тип задачи: многоклассовая классификация текста.
- Язык: русский.
- Объем: `70 000` записей.
- Сплиты:
- `train`: `55 998`
- `val`: `6 998`
- `test`: `7 004`
## Классы
- `ml_ai`
- `cybersecurity`
- `software_engineering`
- `data_engineering`
- `computer_vision_graphics`
- `audio_speech`
## Формат записи
Файлы в формате `JSONL`, одна запись на строку:
```json
{
"id": "vk_it_000000123",
"text": "Текстовый фрагмент...",
"label": "ml_ai",
"label_confidence": 0.95,
"source_title": "Название исходного материала",
"source_url": "https://example.org/page"
}
```
## Состав релиза
- `train.jsonl`
- `val.jsonl`
- `test.jsonl`
- `labels.csv`
- `stats.json`
## Качество и ограничения
- Выполнена очистка и дедупликация текстов.
- Исключены записи с признаками персональных данных и контентом 18+.
- Метки формировались автоматически и могут содержать редкие пограничные случаи.
## Возможные сценарии использования
- Соревнования по NLP и ML.
- Обучение и сравнение baseline-моделей.
- Исследования по тематической классификации русскоязычных технических текстов.
## Рекомендуемая постановка соревнования
- **Задача:** определить IT-направление по текстовому фрагменту.
- **Основная метрика:** `macro-F1`.
- **Дополнительная метрика:** `accuracy`.
---
pretty_name: "俄语IT主题分类(Russian IT Topic Classification)"
language:
- 俄语(ru)
task_categories:
- 文本分类(text-classification)
task_ids:
- 多类别分类(multi-class-classification)
size_categories:
- 10000 < n < 100000(数据规模介于1万至10万条之间)
annotations_creators:
- 机器生成标注
multilinguality:
- 单语言
license: CC BY-SA 4.0(知识共享署名-相同方式共享4.0协议)
tags:
- 俄语
- IT
- 自然语言处理(Natural Language Processing,简称NLP)
- 文本分类
- all-cups
---
# 俄语IT主题分类数据集(Russian IT Topic Classification)
本数据集为经标注的独特俄语数据集,用于面向IT领域的技术文本分类任务。
## 数据集概览
- 任务类型:多类别分类(multi-class-classification)
- 语言:俄语
- 数据规模:共70000条数据
- 数据集划分:
- 训练集(train):55998条
- 验证集(val):6998条
- 测试集(test):7004条
## 类别标签
- `ml_ai`:机器学习与人工智能
- `cybersecurity`:网络安全
- `software_engineering`:软件工程
- `data_engineering`:数据工程
- `computer_vision_graphics`:计算机视觉与图形学
- `audio_speech`:音频与语音
## 数据记录格式
数据集文件采用JSONL格式,每行对应一条数据记录,示例如下:
json
{
"id": "vk_it_000000123",
"text": "文本片段...",
"label": "ml_ai",
"label_confidence": 0.95,
"source_title": "源材料标题",
"source_url": "https://example.org/page"
}
## 发布文件组成
- `train.jsonl`:训练集数据文件
- `val.jsonl`:验证集数据文件
- `test.jsonl`:测试集数据文件
- `labels.csv`:类别标签表文件
- `stats.json`:数据集统计信息文件
## 数据质量与使用限制
- 已完成文本清洗与去重操作
- 已过滤包含个人敏感信息及18+违规内容的数据记录
- 标签由自动化流程生成,可能存在少量边界模糊的样本
## 适用场景
- 自然语言处理(Natural Language Processing,简称NLP)与机器学习(Machine Learning,简称ML)相关竞赛
- 基线模型的训练与性能对比
- 俄语技术文本主题分类相关研究
## 竞赛推荐设置
- **任务目标:** 根据给定文本片段判定其所属IT领域方向
- **核心评价指标:** 宏平均F1值(macro-F1)
- **辅助评价指标:** 准确率(accuracy)
提供机构:
commifeez



