Federated Stack Overflow
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Federated_Stack_Overflow
下载链接
链接失效反馈官方服务:
资源简介:
数据由所有问题和答案的正文组成。身体被解析成句子,任何少于 100 个句子的用户都会从数据中删除。最少的预处理如下进行:
小写文本,
对 HTML 符号进行转义,
删除非ASCII符号,
单独的标点符号作为单独的标记(撇号和连字符除外),
去除多余的空白,
用特殊标记替换 URLS。
此外,还提供以下元数据:
创建日期
问题标题
问题标签
问题分数
类型(“问题”或“答案”)
数据分为三组:
训练:2018-01-01 UTC 之前的数据,保留的用户除外。 342,477 个唯一用户,135,818,730 个示例。
保留:来自 user_id % 10 == 0 的用户的所有示例(所有日期)。 38,758 个唯一用户,16,491,230 个示例。
测试:2018 年 1 月 1 日 UTC 之后的所有示例,来自坚持用户的除外。 204,088 个独立用户,16,586,035 个示例。
提供机构:
OpenDataLab
创建时间:
2022-08-11
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含Stack Overflow的问题和答案文本,经过预处理并附带元数据,如创建日期和标签。数据按时间划分为训练、保留和测试三部分,分别涵盖不同时间段的用户和示例,由Google Research于2022年发布。
以上内容由遇见数据集搜集并总结生成



