five

mikex86/stackoverflow-posts

收藏
Hugging Face2023-08-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mikex86/stackoverflow-posts
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了2023年6月14日之前提交到StackOverflow的所有帖子,格式为Markdown文本。数据集包含约6000万个帖子,总大小约为35GB,文本字符数约为650亿。数据来源于Internet Archive StackExchange Data Dump。每个记录对应一个特定类型的帖子,帖子内容存储在`Body`字段中,许可证信息存储在`ContentLicense`字段中。数据集的结构和字段在README中有详细描述,并且提供了如何使用数据集的Python代码示例。此外,README还详细解释了如何将原始HTML格式的帖子内容转换为Markdown格式,并提供了转换规则。

该数据集包含了2023年6月14日之前提交到StackOverflow的所有帖子,格式为Markdown文本。数据集包含约6000万个帖子,总大小约为35GB,文本字符数约为650亿。数据来源于Internet Archive StackExchange Data Dump。每个记录对应一个特定类型的帖子,帖子内容存储在`Body`字段中,许可证信息存储在`ContentLicense`字段中。数据集的结构和字段在README中有详细描述,并且提供了如何使用数据集的Python代码示例。此外,README还详细解释了如何将原始HTML格式的帖子内容转换为Markdown格式,并提供了转换规则。
提供机构:
mikex86
原始信息汇总

数据集概述

数据集名称

  • StackOverflow Posts Markdown

数据集内容

  • 包含截至2023年6月14日之前提交给StackOverflow的所有帖子,格式为Markdown文本。
  • 数据集包含约6000万篇帖子,总大小约35GB,包含约650亿个字符。

数据集来源

数据集结构

  • 每个记录对应一个特定类型的帖子。
  • 原始数据排序因处理数据转储的脚本中的并行性而有所改变。
  • 每个帖子的Markdown内容存储在Body字段中,特定帖子的许可证信息存储在ContentLicense字段中。

数据字段

typescript { Id: long, PostTypeId: long, // 类型包括:1=Question, 2=Answer, 3=Orphaned tag wiki, 4=Tag wiki excerpt, 5=Tag wiki, 6=Moderator nomination, 7=Wiki Placeholder, 8=Privilige Wiki AcceptedAnswerId: long | null, // 仅当PostTypeId=1时存在 ParentId: long | null, // 仅当PostTypeId=2时存在 Score: long, ViewCount: long | null, Body: string | null, Title: string | null, ContentLicense: string | null, FavoriteCount: long | null, CreationDate: string | null, LastActivityDate: string | null, LastEditDate: string | null, LastEditorUserId: long | null, OwnerUserId: long | null, Tags: array<string> | null }

文本存储格式

  • 原始数据转储中的Body字段格式为HTML,现已转换为Markdown格式。
  • Markdown格式包括标题、代码块、列表、引用等,具体转换规则详见数据集详情。

使用方法

  • 数据集可通过from datasets import load_dataset加载,支持全量下载和按需下载。

转换细节

  • HTML到Markdown的转换使用Jsoup库进行,具体转换规则包括对不同HTML标签的处理,如<a>, <h1><h6>, <code>, <pre>, <li>, <blockquote>, <hr>, <img>, <table>等。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含Stack Overflow网站上截至2023年6月14日的所有帖子,以Markdown文本格式存储,约6000万条帖子,总计约35GB大小。数据来源于Internet Archive StackExchange数据转储,每条记录包含ID、帖子类型、分数、视图计数、正文内容等字段。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作