YaroslavPr17/habr_extended_dataset
收藏Hugging Face2026-03-19 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/YaroslavPr17/habr_extended_dataset
下载链接
链接失效反馈官方服务:
资源简介:
# Датасет для хакатонов и олимпиад
## Цель и задачи проекта
**Цель:** собрать датасет, который может быть использован для проведения соревнований
**Требования к датасету:**
1. Данные размечены
2. Датасет должен быть уникальным
3. Датасет не содержит персональную информацию и данные 18+
4. Размер датасета: от 40 до 300 мегабайт в заархивированном виде
## Данные для объединения в датасет
Статьи Habr (HTML) до 2014 года, разметка.
## Процесс сбора данных и характеристики датасета
### Сбор данных
* asyncio, 20 асинхронных запросов на семафоре, загрузка HTML
* Парсинг HTML, выделение основных сущностей, доступных количественных метрик и флагов
* Извлечение признаков
* Датасет после сжатия в .zip занимает 254 МБ.
### Обработка данных
* BeautifulSoup
* Sklearn (LabelEncoder, векторизаторы)
* RegExp
* BERT (NER), BERT (Text-Classification)
* Rule-based toxicity filter
* Classical NLP: pymorphy2, NLTK
### Безопасность датасета
* Отсутствуют все собственные имена людей, URL страницы, Telegram-ссылки и соцсети.
* Отсутствует информация об авторе, однако статьи одного автора имеют одинаковый новый ID автора.
* Удалено точное время и день публикации.
* Удалён 18+ контент
* Удалены документы с ненормативной лексикой
## Задачи для соревнований
* Задача тематического моделирования в DL
* Ассистент по написанию статей на Habr:
* Генератор заголовков к статьям
* Форматтер для статьи
* Предиктор основных характеристик статьи
* Количество лайков
* Время чтения
* Техническая сложность статьи
* Лёгкость чтения статьи
* Провокационность заголовка
* Адаптация стиля под конкретного автора
---
task_categories:
- summarization
size_categories:
- 100K<n<1M
---
# 面向黑客松与学科竞赛的数据集
## 项目目标与任务
**目标:** 构建可用于举办各类竞赛的数据集
**数据集要求:**
1. 数据已完成标注
2. 数据集需具备唯一性
3. 数据集不得包含个人敏感信息及18禁内容
4. 压缩包体积范围为40至300兆字节
## 数据集构建数据源
哈勃技术社区(Habr)2014年前的HTML格式文章及对应标注数据
## 数据采集流程与数据集特性
### 数据采集
* 采用asyncio结合信号量控制的20路异步请求完成HTML页面抓取
* HTML解析流程:提取核心实体、可量化指标与标记字段
* 特征工程提取
* 最终压缩为ZIP格式后,数据集体积为254兆字节
### 数据处理
* BeautifulSoup网页解析库
* Scikit-learn(Sklearn)工具包:包含标签编码器(LabelEncoder)、特征向量器
* 正则表达式(RegExp)
* BERT模型:分别用于命名实体识别(Named Entity Recognition, NER)与文本分类任务
* 基于规则的毒性内容过滤器
* 经典自然语言处理工具:pymorphy2、NLTK
## 数据集安全规范
* 已移除所有自然人姓名、页面URL、Telegram链接及各类社交平台链接
* 已删除原始作者信息,但同一原作者的所有文章将分配统一的新作者ID
* 已移除发布时间的精确日期与时刻信息
* 已清理全部18禁违规内容
* 已过滤包含不规范用语的文档
## 竞赛可用任务
* 深度学习主题建模任务
* 哈勃社区文章创作助手套件:
* 文章标题生成器
* 文章格式标准化工具
* 文章核心属性预测模块:
* 点赞数预测
* 阅读时长预估
* 文章技术难度评级
* 文章易读性评分
* 标题煽动性预测
* 针对特定作者的文本风格适配任务
---
任务类别:
- 摘要生成
样本规模区间:
- 100000 < n < 1000000
---
提供机构:
YaroslavPr17



