five

Federated Stack Overflow

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Federated_Stack_Overflow
下载链接
链接失效反馈
官方服务:
资源简介:
数据由所有问题和答案的正文组成。身体被解析成句子,任何少于 100 个句子的用户都会从数据中删除。最少的预处理如下进行: 小写文本, 对 HTML 符号进行转义, 删除非ASCII符号, 单独的标点符号作为单独的标记(撇号和连字符除外), 去除多余的空白, 用特殊标记替换 URLS。 此外,还提供以下元数据: 创建日期 问题标题 问题标签 问题分数 类型(“问题”或“答案”) 数据分为三组: 训练:2018-01-01 UTC 之前的数据,保留的用户除外。 342,477 个唯一用户,135,818,730 个示例。 保留:来自 user_id % 10 == 0 的用户的所有示例(所有日期)。 38,758 个唯一用户,16,491,230 个示例。 测试:2018 年 1 月 1 日 UTC 之后的所有示例,来自坚持用户的除外。 204,088 个独立用户,16,586,035 个示例。
提供机构:
OpenDataLab
创建时间:
2022-08-11
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含Stack Overflow的问题和答案文本,经过预处理并附带元数据,如创建日期和标签。数据按时间划分为训练、保留和测试三部分,分别涵盖不同时间段的用户和示例,由Google Research于2022年发布。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作