five

IlyaGusev/habr

收藏
Hugging Face2023-03-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/IlyaGusev/habr
下载链接
链接失效反馈
官方服务:
资源简介:
Habr数据集包含来自habr.com的帖子和评论,habr.com是一个关于IT、计算机科学和互联网相关内容的俄罗斯协作博客。数据集的特征包括id、语言、url、标题、文本内容(markdown和html格式)、作者、原始作者、原始url、发布时间、统计信息(如评论数、收藏数、阅读数等)、标签、hubs、flows、tags、阅读时间、格式、复杂性以及评论等。数据集的语言主要为俄语和英语,包含一些编程代码。数据集的使用需要安装特定的Python库,并提供了数据加载和处理的示例代码。数据集的来源是Habr网站,处理脚本可在GitHub上找到。数据集未匿名化,包含个人姓名和原始作者信息。
提供机构:
IlyaGusev
原始信息汇总

数据集概述

数据集名称

Habr dataset

数据集特征

  • id: uint32
  • language: string
  • url: string
  • title: string
  • text_markdown: string
  • text_html: string
  • author: string
  • original_author: string
  • original_url: string
  • lead_html: string
  • lead_markdown: string
  • type: string
  • time_published: uint64
  • statistics: struct
    • commentsCount: uint32
    • favoritesCount: uint32
    • readingCount: uint32
    • score: int32
    • votesCount: int32
    • votesCountPlus: int32
    • votesCountMinus: int32
  • labels: sequence: string
  • hubs: sequence: string
  • flows: sequence: string
  • tags: sequence: string
  • reading_time: uint32
  • format: string
  • complexity: string
  • comments: sequence
    • id: uint64
    • parent_id: uint64
    • level: uint32
    • time_published: uint64
    • score: int32
    • votes: uint32
    • message_html: string
    • message_markdown: string
    • author: string
    • children: sequence: uint64

数据集大小

  • 下载大小: 3485570346
  • 数据集大小: 19968161329
  • 训练集大小: 19968161329, 包含302049个样本

语言

  • 俄语 (ru)
  • 英语 (en)

任务类别

  • 文本生成

数据实例

json { "id": 12730, "language": "ru", "url": "https://habr.com/ru/post/12730/", "text_markdown": "...", "text_html": "...", "lead_markdown": "...", "lead_html": "...", "type": "article", "labels": [], "original_author": null, "original_url": null, "time_published": 1185962380, "author": "...", "title": "Хочешь в университет — сделай презентацию", "statistics": { "commentsCount": 23, "favoritesCount": 1, "readingCount": 1542, "score": 7, "votesCount": 15, "votesCountPlus": 11, "votesCountMinus": 4 }, "hubs": ["itcompanies"], "flows": ["popsci"], "tags": ["PowerPoint", "презентация", "абитуриенты"], "reading_time": 1, "format": null, "complexity": null, "comments": { "id": [11653537, 11653541], "parent_id": [null, 11653537], "level": [0, 1], "time_published": [1185963192, 1185967886], "score": [-1, 0], "votes": [1, 0], "message_html": ["...", "..."], "author": ["...", "..."], "children": [[11653541], []] } }

数据来源

  • 数据来源于Habr网站。

个人信息和敏感信息

  • 数据集未匿名化,可能包含个人姓名。原作者信息尽可能包含在内。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作