five

commifeez/russian-it-topic-classification

收藏
Hugging Face2026-04-20 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/commifeez/russian-it-topic-classification
下载链接
链接失效反馈
官方服务:
资源简介:
--- pretty_name: "Russian IT Topic Classification" language: - ru task_categories: - text-classification task_ids: - multi-class-classification size_categories: - 10K<n<100K annotations_creators: - machine-generated multilinguality: - monolingual license: cc-by-sa-4.0 tags: - russian - it - nlp - text-classification - all-cups --- # Russian IT Topic Classification Dataset Уникальный размеченный русскоязычный датасет для задач классификации технических текстов по IT-направлениям. ## Кратко о датасете - Тип задачи: многоклассовая классификация текста. - Язык: русский. - Объем: `70 000` записей. - Сплиты: - `train`: `55 998` - `val`: `6 998` - `test`: `7 004` ## Классы - `ml_ai` - `cybersecurity` - `software_engineering` - `data_engineering` - `computer_vision_graphics` - `audio_speech` ## Формат записи Файлы в формате `JSONL`, одна запись на строку: ```json { "id": "vk_it_000000123", "text": "Текстовый фрагмент...", "label": "ml_ai", "label_confidence": 0.95, "source_title": "Название исходного материала", "source_url": "https://example.org/page" } ``` ## Состав релиза - `train.jsonl` - `val.jsonl` - `test.jsonl` - `labels.csv` - `stats.json` ## Качество и ограничения - Выполнена очистка и дедупликация текстов. - Исключены записи с признаками персональных данных и контентом 18+. - Метки формировались автоматически и могут содержать редкие пограничные случаи. ## Возможные сценарии использования - Соревнования по NLP и ML. - Обучение и сравнение baseline-моделей. - Исследования по тематической классификации русскоязычных технических текстов. ## Рекомендуемая постановка соревнования - **Задача:** определить IT-направление по текстовому фрагменту. - **Основная метрика:** `macro-F1`. - **Дополнительная метрика:** `accuracy`.

--- pretty_name: "俄语IT主题分类(Russian IT Topic Classification)" language: - 俄语(ru) task_categories: - 文本分类(text-classification) task_ids: - 多类别分类(multi-class-classification) size_categories: - 10000 < n < 100000(数据规模介于1万至10万条之间) annotations_creators: - 机器生成标注 multilinguality: - 单语言 license: CC BY-SA 4.0(知识共享署名-相同方式共享4.0协议) tags: - 俄语 - IT - 自然语言处理(Natural Language Processing,简称NLP) - 文本分类 - all-cups --- # 俄语IT主题分类数据集(Russian IT Topic Classification) 本数据集为经标注的独特俄语数据集,用于面向IT领域的技术文本分类任务。 ## 数据集概览 - 任务类型:多类别分类(multi-class-classification) - 语言:俄语 - 数据规模:共70000条数据 - 数据集划分: - 训练集(train):55998条 - 验证集(val):6998条 - 测试集(test):7004条 ## 类别标签 - `ml_ai`:机器学习与人工智能 - `cybersecurity`:网络安全 - `software_engineering`:软件工程 - `data_engineering`:数据工程 - `computer_vision_graphics`:计算机视觉与图形学 - `audio_speech`:音频与语音 ## 数据记录格式 数据集文件采用JSONL格式,每行对应一条数据记录,示例如下: json { "id": "vk_it_000000123", "text": "文本片段...", "label": "ml_ai", "label_confidence": 0.95, "source_title": "源材料标题", "source_url": "https://example.org/page" } ## 发布文件组成 - `train.jsonl`:训练集数据文件 - `val.jsonl`:验证集数据文件 - `test.jsonl`:测试集数据文件 - `labels.csv`:类别标签表文件 - `stats.json`:数据集统计信息文件 ## 数据质量与使用限制 - 已完成文本清洗与去重操作 - 已过滤包含个人敏感信息及18+违规内容的数据记录 - 标签由自动化流程生成,可能存在少量边界模糊的样本 ## 适用场景 - 自然语言处理(Natural Language Processing,简称NLP)与机器学习(Machine Learning,简称ML)相关竞赛 - 基线模型的训练与性能对比 - 俄语技术文本主题分类相关研究 ## 竞赛推荐设置 - **任务目标:** 根据给定文本片段判定其所属IT领域方向 - **核心评价指标:** 宏平均F1值(macro-F1) - **辅助评价指标:** 准确率(accuracy)
提供机构:
commifeez
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作