YaroslavPr17/habr_extended_dataset

Name: YaroslavPr17/habr_extended_dataset
Creator: YaroslavPr17
Published: 2026-03-19 08:56:49
License: 暂无描述

Hugging Face2026-03-19 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/YaroslavPr17/habr_extended_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

# Датасет для хакатонов и олимпиад ## Цель и задачи проекта **Цель:** собрать датасет, который может быть использован для проведения соревнований **Требования к датасету:** 1. Данные размечены 2. Датасет должен быть уникальным 3. Датасет не содержит персональную информацию и данные 18+ 4. Размер датасета: от 40 до 300 мегабайт в заархивированном виде ## Данные для объединения в датасет Статьи Habr (HTML) до 2014 года, разметка. ## Процесс сбора данных и характеристики датасета ### Сбор данных * asyncio, 20 асинхронных запросов на семафоре, загрузка HTML * Парсинг HTML, выделение основных сущностей, доступных количественных метрик и флагов * Извлечение признаков * Датасет после сжатия в .zip занимает 254 МБ. ### Обработка данных * BeautifulSoup * Sklearn (LabelEncoder, векторизаторы) * RegExp * BERT (NER), BERT (Text-Classification) * Rule-based toxicity filter * Classical NLP: pymorphy2, NLTK ### Безопасность датасета * Отсутствуют все собственные имена людей, URL страницы, Telegram-ссылки и соцсети. * Отсутствует информация об авторе, однако статьи одного автора имеют одинаковый новый ID автора. * Удалено точное время и день публикации. * Удалён 18+ контент * Удалены документы с ненормативной лексикой ## Задачи для соревнований * Задача тематического моделирования в DL * Ассистент по написанию статей на Habr: * Генератор заголовков к статьям * Форматтер для статьи * Предиктор основных характеристик статьи * Количество лайков * Время чтения * Техническая сложность статьи * Лёгкость чтения статьи * Провокационность заголовка * Адаптация стиля под конкретного автора --- task_categories: - summarization size_categories: - 100K<n<1M ---

# 面向黑客松与学科竞赛的数据集 ## 项目目标与任务 **目标：** 构建可用于举办各类竞赛的数据集 **数据集要求：** 1. 数据已完成标注 2. 数据集需具备唯一性 3. 数据集不得包含个人敏感信息及18禁内容 4. 压缩包体积范围为40至300兆字节 ## 数据集构建数据源哈勃技术社区（Habr）2014年前的HTML格式文章及对应标注数据 ## 数据采集流程与数据集特性 ### 数据采集 * 采用asyncio结合信号量控制的20路异步请求完成HTML页面抓取 * HTML解析流程：提取核心实体、可量化指标与标记字段 * 特征工程提取 * 最终压缩为ZIP格式后，数据集体积为254兆字节 ### 数据处理 * BeautifulSoup网页解析库 * Scikit-learn（Sklearn）工具包：包含标签编码器（LabelEncoder）、特征向量器 * 正则表达式（RegExp） * BERT模型：分别用于命名实体识别（Named Entity Recognition, NER）与文本分类任务 * 基于规则的毒性内容过滤器 * 经典自然语言处理工具：pymorphy2、NLTK ## 数据集安全规范 * 已移除所有自然人姓名、页面URL、Telegram链接及各类社交平台链接 * 已删除原始作者信息，但同一原作者的所有文章将分配统一的新作者ID * 已移除发布时间的精确日期与时刻信息 * 已清理全部18禁违规内容 * 已过滤包含不规范用语的文档 ## 竞赛可用任务 * 深度学习主题建模任务 * 哈勃社区文章创作助手套件： * 文章标题生成器 * 文章格式标准化工具 * 文章核心属性预测模块： * 点赞数预测 * 阅读时长预估 * 文章技术难度评级 * 文章易读性评分 * 标题煽动性预测 * 针对特定作者的文本风格适配任务 --- 任务类别： - 摘要生成样本规模区间： - 100000 < n < 1000000 ---

提供机构：

YaroslavPr17

5,000+

优质数据集

54 个

任务类型

进入经典数据集