five

Federated Stack Overflow

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Federated_Stack_Overflow
下载链接
链接失效反馈
官方服务:
资源简介:
数据由所有问题和答案的正文组成。身体被解析成句子,任何少于 100 个句子的用户都会从数据中删除。最少的预处理如下进行: 小写文本, 对 HTML 符号进行转义, 删除非ASCII符号, 单独的标点符号作为单独的标记(撇号和连字符除外), 去除多余的空白, 用特殊标记替换 URLS。 此外,还提供以下元数据: 创建日期 问题标题 问题标签 问题分数 类型(“问题”或“答案”) 数据分为三组: 训练:2018-01-01 UTC 之前的数据,保留的用户除外。 342,477 个唯一用户,135,818,730 个示例。 保留:来自 user_id % 10 == 0 的用户的所有示例(所有日期)。 38,758 个唯一用户,16,491,230 个示例。 测试:2018 年 1 月 1 日 UTC 之后的所有示例,来自坚持用户的除外。 204,088 个独立用户,16,586,035 个示例。
提供机构:
OpenDataLab
创建时间:
2022-08-11
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作