five

YaroslavPr17/habr_extended_dataset

收藏
Hugging Face2026-03-19 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/YaroslavPr17/habr_extended_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
# Датасет для хакатонов и олимпиад ## Цель и задачи проекта **Цель:** собрать датасет, который может быть использован для проведения соревнований **Требования к датасету:** 1. Данные размечены 2. Датасет должен быть уникальным 3. Датасет не содержит персональную информацию и данные 18+ 4. Размер датасета: от 40 до 300 мегабайт в заархивированном виде ## Данные для объединения в датасет Статьи Habr (HTML) до 2014 года, разметка. ## Процесс сбора данных и характеристики датасета ### Сбор данных * asyncio, 20 асинхронных запросов на семафоре, загрузка HTML * Парсинг HTML, выделение основных сущностей, доступных количественных метрик и флагов * Извлечение признаков * Датасет после сжатия в .zip занимает 254 МБ. ### Обработка данных * BeautifulSoup * Sklearn (LabelEncoder, векторизаторы) * RegExp * BERT (NER), BERT (Text-Classification) * Rule-based toxicity filter * Classical NLP: pymorphy2, NLTK ### Безопасность датасета * Отсутствуют все собственные имена людей, URL страницы, Telegram-ссылки и соцсети. * Отсутствует информация об авторе, однако статьи одного автора имеют одинаковый новый ID автора. * Удалено точное время и день публикации. * Удалён 18+ контент * Удалены документы с ненормативной лексикой ## Задачи для соревнований * Задача тематического моделирования в DL * Ассистент по написанию статей на Habr: * Генератор заголовков к статьям * Форматтер для статьи * Предиктор основных характеристик статьи * Количество лайков * Время чтения * Техническая сложность статьи * Лёгкость чтения статьи * Провокационность заголовка * Адаптация стиля под конкретного автора --- task_categories: - summarization size_categories: - 100K<n<1M ---

# 面向黑客松与学科竞赛的数据集 ## 项目目标与任务 **目标:** 构建可用于举办各类竞赛的数据集 **数据集要求:** 1. 数据已完成标注 2. 数据集需具备唯一性 3. 数据集不得包含个人敏感信息及18禁内容 4. 压缩包体积范围为40至300兆字节 ## 数据集构建数据源 哈勃技术社区(Habr)2014年前的HTML格式文章及对应标注数据 ## 数据采集流程与数据集特性 ### 数据采集 * 采用asyncio结合信号量控制的20路异步请求完成HTML页面抓取 * HTML解析流程:提取核心实体、可量化指标与标记字段 * 特征工程提取 * 最终压缩为ZIP格式后,数据集体积为254兆字节 ### 数据处理 * BeautifulSoup网页解析库 * Scikit-learn(Sklearn)工具包:包含标签编码器(LabelEncoder)、特征向量器 * 正则表达式(RegExp) * BERT模型:分别用于命名实体识别(Named Entity Recognition, NER)与文本分类任务 * 基于规则的毒性内容过滤器 * 经典自然语言处理工具:pymorphy2、NLTK ## 数据集安全规范 * 已移除所有自然人姓名、页面URL、Telegram链接及各类社交平台链接 * 已删除原始作者信息,但同一原作者的所有文章将分配统一的新作者ID * 已移除发布时间的精确日期与时刻信息 * 已清理全部18禁违规内容 * 已过滤包含不规范用语的文档 ## 竞赛可用任务 * 深度学习主题建模任务 * 哈勃社区文章创作助手套件: * 文章标题生成器 * 文章格式标准化工具 * 文章核心属性预测模块: * 点赞数预测 * 阅读时长预估 * 文章技术难度评级 * 文章易读性评分 * 标题煽动性预测 * 针对特定作者的文本风格适配任务 --- 任务类别: - 摘要生成 样本规模区间: - 100000 < n < 1000000 ---
提供机构:
YaroslavPr17
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作