apcl/so13m
收藏Hugging Face2023-05-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/apcl/so13m
下载链接
链接失效反馈官方服务:
资源简介:
so13m数据集包含来自StackOverflow的1300万条讨论线程,数据来源于2014年1月至2022年12月间的StackExchange数据转储。这些线程涵盖了多种主题,主要服务于软件工程领域的自然语言处理和代码生成任务。数据集有助于依赖于生成或理解自然语言的下游任务。
so13m数据集包含来自StackOverflow的1300万条讨论线程,数据来源于2014年1月至2022年12月间的StackExchange数据转储。这些线程涵盖了多种主题,主要服务于软件工程领域的自然语言处理和代码生成任务。数据集有助于依赖于生成或理解自然语言的下游任务。
提供机构:
apcl
原始信息汇总
数据集概述
数据集名称
- 名称: so13m
数据集描述
- 描述: so13m 包含来自 StackOverflow 的 1300 万讨论线程,数据源自 2014 年 1 月至 2022 年 12 月的 StackExchange 数据转储。这些线程涵盖了多个主题,主要用于软件工程领域的自然语言生成和理解任务。
数据集内容
- 文件列表:
so13m.pkl: 包含 StackOverflow 帖子的字典,键为帖子 ID,值为帖子内容。so13m.json.gz: 压缩的 JSON 文件,同样包含 StackOverflow 帖子的字典。stackoverflow_txtfiles.pkl: 包含 StackOverflow 帖子 ID 的列表。train.bin,val.bin: 用于模型训练和微调的二进制文件。
数据集统计信息
- 统计数据:
配置 值 令牌数量 10,495,518,108 Stack Overflow 帖子数量 13,071,148 处理后的大小(MB) 16,695
数据集使用
- 数据处理: 使用提供的脚本进行数据令牌化,脚本位于 Github 仓库。



