community-datasets/so_stacksample
收藏数据集卡片 for SO StackSample
数据集描述
数据集摘要
该数据集包含Stack Overflow编程问答网站上10%的问题和答案的文本。数据集分为三个表:
- Questions表:包含所有非删除的Stack Overflow问题的标题、正文、创建日期、关闭日期(如果适用)、分数和所有者ID,其ID是10的倍数。
- Answers表:包含这些问题的答案的正文、创建日期、分数和所有者ID。ParentId列链接到Questions表。
- Tags表:包含这些问题的标签。
支持的任务和排行榜
示例项目包括:
- 从问题文本中识别标签
- 根据问题的文本预测问题是否会获得投票、降票或关闭
- 预测回答问题所需的时间
- 开放域问答
语言
英语(en)和编程语言。
数据集结构
数据实例
Answers
json { "Id": { "feature_type": "Value", "dtype": "int32" }, "OwnerUserId": { "feature_type": "Value", "dtype": "int32" }, "CreationDate": { "feature_type": "Value", "dtype": "string" }, "ParentId": { "feature_type": "Value", "dtype": "int32" }, "Score": { "feature_type": "Value", "dtype": "int32" }, "Body": { "feature_type": "Value", "dtype": "string" } }
Questions
json { "Id": { "feature_type": "Value", "dtype": "int32" }, "OwnerUserId": { "feature_type": "Value", "dtype": "int32" }, "CreationDate": { "feature_type": "Value", "dtype": "string" }, "ClosedDate": { "feature_type": "Value", "dtype": "string" }, "Score": { "feature_type": "Value", "dtype": "int32" }, "Title": { "feature_type": "Value", "dtype": "string" }, "Body": { "feature_type": "Value", "dtype": "string" } }
Tags
json { "Id": { "feature_type": "Value", "dtype": "int32" }, "Tag": { "feature_type": "Value", "dtype": "string" } }
数据字段
Answers
Id:答案帖子的唯一IDOwnerUserId:在StackOverflow上生成答案的人的用户ID,-1表示NACreationDate:答案生成的日期,遵循标准日期时间格式ParentId:指答案所属问题的IdScore:答案获得的投票总和,可以是负数Body:答案的正文内容
Questions
Id:问题帖子的唯一IDOwnerUserId:在StackOverflow上生成问题的人的用户ID,-1表示NACreationDate:问题生成的日期,遵循标准日期时间格式ClosedDate:问题生成的日期,遵循标准日期时间格式,可以是NAScore:问题获得的投票总和,可以是负数Title:问题的标题Body:问题的正文内容
Tags
Id:标签所属问题的IDTag:标签名称
数据分割
数据集分为三个部分:
AnswersQuestionsTags
数据集创建
策划理由
所有R问题和所有Python问题的数据集也在Kaggle上可用,但此数据集特别适用于跨多种语言的分析。
源数据
初始数据收集和规范化
[需要更多信息]
源语言生产者是谁?
StackOverflow用户。
注释
注释过程
[需要更多信息]
谁是注释者?
[需要更多信息]
个人和敏感信息
此数据包含可识别StackOverflow个别用户的信息。信息是自报告的。
[需要更多信息]
使用数据时的注意事项
数据集的社会影响
StackOverflow答案不保证是安全、可靠或正确的。某些答案可能故意不安全,例如在https://stackoverflow.com/a/35571883/5768407答案中,用户zys展示了一种故意绕过Google Play商店安全检查的解决方案。此类答案可能导致使用此数据的有偏模型,进一步传播不安全和不可靠的编程实践。
[需要更多信息]
偏见的讨论
[需要更多信息]
其他已知限制
[需要更多信息]
附加信息
数据集策展人
[需要更多信息]
许可信息
所有Stack Overflow用户贡献均在CC-BY-SA 3.0许可下发布,需要署名。
引用信息
内容来自Stack Overflow。
贡献
感谢@ncoop57添加此数据集。



