five

apcl/so13m

收藏
Hugging Face2023-05-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/apcl/so13m
下载链接
链接失效反馈
官方服务:
资源简介:
so13m数据集包含来自StackOverflow的1300万条讨论线程,数据来源于2014年1月至2022年12月间的StackExchange数据转储。这些线程涵盖了多种主题,主要服务于软件工程领域的自然语言处理和代码生成任务。数据集有助于依赖于生成或理解自然语言的下游任务。

so13m数据集包含来自StackOverflow的1300万条讨论线程,数据来源于2014年1月至2022年12月间的StackExchange数据转储。这些线程涵盖了多种主题,主要服务于软件工程领域的自然语言处理和代码生成任务。数据集有助于依赖于生成或理解自然语言的下游任务。
提供机构:
apcl
原始信息汇总

数据集概述

数据集名称

  • 名称: so13m

数据集描述

  • 描述: so13m 包含来自 StackOverflow 的 1300 万讨论线程,数据源自 2014 年 1 月至 2022 年 12 月的 StackExchange 数据转储。这些线程涵盖了多个主题,主要用于软件工程领域的自然语言生成和理解任务。

数据集内容

  • 文件列表:
    • so13m.pkl: 包含 StackOverflow 帖子的字典,键为帖子 ID,值为帖子内容。
    • so13m.json.gz: 压缩的 JSON 文件,同样包含 StackOverflow 帖子的字典。
    • stackoverflow_txtfiles.pkl: 包含 StackOverflow 帖子 ID 的列表。
    • train.bin, val.bin: 用于模型训练和微调的二进制文件。

数据集统计信息

  • 统计数据:
    配置
    令牌数量 10,495,518,108
    Stack Overflow 帖子数量 13,071,148
    处理后的大小(MB) 16,695

数据集使用

  • 数据处理: 使用提供的脚本进行数据令牌化,脚本位于 Github 仓库
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作