five

community-datasets/so_stacksample

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/so_stacksample
下载链接
链接失效反馈
官方服务:
资源简介:
SO StackSample数据集包含了Stack Overflow编程问答网站上10%的问题和答案文本,分为三个表:问题表、答案表和标签表。问题表包含问题的标题、正文、创建日期、关闭日期(如果适用)、评分和所有者ID;答案表包含答案的正文、创建日期、评分和所有者ID,并通过ParentId列链接回问题表;标签表包含每个问题的标签。该数据集支持的任务包括从问题文本中识别标签、预测问题是否会被投票或关闭、预测问题回答所需的时间以及开放域问答。数据集的语言为英语和编程语言。

SO StackSample数据集包含了Stack Overflow编程问答网站上10%的问题和答案文本,分为三个表:问题表、答案表和标签表。问题表包含问题的标题、正文、创建日期、关闭日期(如果适用)、评分和所有者ID;答案表包含答案的正文、创建日期、评分和所有者ID,并通过ParentId列链接回问题表;标签表包含每个问题的标签。该数据集支持的任务包括从问题文本中识别标签、预测问题是否会被投票或关闭、预测问题回答所需的时间以及开放域问答。数据集的语言为英语和编程语言。
提供机构:
community-datasets
原始信息汇总

数据集卡片 for SO StackSample

数据集描述

数据集摘要

该数据集包含Stack Overflow编程问答网站上10%的问题和答案的文本。数据集分为三个表:

  • Questions表:包含所有非删除的Stack Overflow问题的标题、正文、创建日期、关闭日期(如果适用)、分数和所有者ID,其ID是10的倍数。
  • Answers表:包含这些问题的答案的正文、创建日期、分数和所有者ID。ParentId列链接到Questions表。
  • Tags表:包含这些问题的标签。

支持的任务和排行榜

示例项目包括:

  • 从问题文本中识别标签
  • 根据问题的文本预测问题是否会获得投票、降票或关闭
  • 预测回答问题所需的时间
  • 开放域问答

语言

英语(en)和编程语言。

数据集结构

数据实例

Answers

json { "Id": { "feature_type": "Value", "dtype": "int32" }, "OwnerUserId": { "feature_type": "Value", "dtype": "int32" }, "CreationDate": { "feature_type": "Value", "dtype": "string" }, "ParentId": { "feature_type": "Value", "dtype": "int32" }, "Score": { "feature_type": "Value", "dtype": "int32" }, "Body": { "feature_type": "Value", "dtype": "string" } }

Questions

json { "Id": { "feature_type": "Value", "dtype": "int32" }, "OwnerUserId": { "feature_type": "Value", "dtype": "int32" }, "CreationDate": { "feature_type": "Value", "dtype": "string" }, "ClosedDate": { "feature_type": "Value", "dtype": "string" }, "Score": { "feature_type": "Value", "dtype": "int32" }, "Title": { "feature_type": "Value", "dtype": "string" }, "Body": { "feature_type": "Value", "dtype": "string" } }

Tags

json { "Id": { "feature_type": "Value", "dtype": "int32" }, "Tag": { "feature_type": "Value", "dtype": "string" } }

数据字段

Answers

  • Id:答案帖子的唯一ID
  • OwnerUserId:在StackOverflow上生成答案的人的用户ID,-1表示NA
  • CreationDate:答案生成的日期,遵循标准日期时间格式
  • ParentId:指答案所属问题的Id
  • Score:答案获得的投票总和,可以是负数
  • Body:答案的正文内容

Questions

  • Id:问题帖子的唯一ID
  • OwnerUserId:在StackOverflow上生成问题的人的用户ID,-1表示NA
  • CreationDate:问题生成的日期,遵循标准日期时间格式
  • ClosedDate:问题生成的日期,遵循标准日期时间格式,可以是NA
  • Score:问题获得的投票总和,可以是负数
  • Title:问题的标题
  • Body:问题的正文内容

Tags

  • Id:标签所属问题的ID
  • Tag:标签名称

数据分割

数据集分为三个部分:

  • Answers
  • Questions
  • Tags

数据集创建

策划理由

所有R问题和所有Python问题的数据集也在Kaggle上可用,但此数据集特别适用于跨多种语言的分析。

源数据

初始数据收集和规范化

[需要更多信息]

源语言生产者是谁?

StackOverflow用户。

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

此数据包含可识别StackOverflow个别用户的信息。信息是自报告的。

[需要更多信息]

使用数据时的注意事项

数据集的社会影响

StackOverflow答案不保证是安全、可靠或正确的。某些答案可能故意不安全,例如在https://stackoverflow.com/a/35571883/5768407答案中,用户zys展示了一种故意绕过Google Play商店安全检查的解决方案。此类答案可能导致使用此数据的有偏模型,进一步传播不安全和不可靠的编程实践。

[需要更多信息]

偏见的讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策展人

[需要更多信息]

许可信息

所有Stack Overflow用户贡献均在CC-BY-SA 3.0许可下发布,需要署名。

引用信息

内容来自Stack Overflow。

贡献

感谢@ncoop57添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作