Federated Stack Overflow
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Federated_Stack_Overflow
下载链接
链接失效反馈官方服务:
资源简介:
数据由所有问题和答案的正文组成。身体被解析成句子,任何少于 100 个句子的用户都会从数据中删除。最少的预处理如下进行:
小写文本,
对 HTML 符号进行转义,
删除非ASCII符号,
单独的标点符号作为单独的标记(撇号和连字符除外),
去除多余的空白,
用特殊标记替换 URLS。
此外,还提供以下元数据:
创建日期
问题标题
问题标签
问题分数
类型(“问题”或“答案”)
数据分为三组:
训练:2018-01-01 UTC 之前的数据,保留的用户除外。 342,477 个唯一用户,135,818,730 个示例。
保留:来自 user_id % 10 == 0 的用户的所有示例(所有日期)。 38,758 个唯一用户,16,491,230 个示例。
测试:2018 年 1 月 1 日 UTC 之后的所有示例,来自坚持用户的除外。 204,088 个独立用户,16,586,035 个示例。
提供机构:
OpenDataLab
创建时间:
2022-08-11



