five

apcl/Jam-CGPT

收藏
Hugging Face2024-03-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/apcl/Jam-CGPT
下载链接
链接失效反馈
官方服务:
资源简介:
# Jam-CGPT Jam-CGPT dataset contains the summary generated by using GPT-3.5. The dataset size ranges from 170k to 2.15m. We follow [Jam](https://huggingface.co/apcl/jam)'s procedure to compile the dataset for finetuning. ## Jam-CGPT dataset files | Filename | Description | | ------- | ------- | |170k.tar.gz|170k summary train and val bin file| |620k.tar.gz | 620k summary train and val bin file| |1.25m.tar.gz | 1.25m summary train and val bin file | |2.15m.tar.gz | 2.15m summary train and val bin file | |jam_cgpt_test.tar.gz |Jam-CGPT testset | |raw_data.tar.gz |Jam-CGPT raw data without compiling to bin file and test and val function id pickle files | ## Jam-CGPT dataset tokens We provide the number of tokens for each dataset the following table: | Dataset | Number of tokens | | ------- | ------- | |170k|37,399,419 tokens| |620k | 118,941,493 tokens| |1.25m | 233,964,910 tokens | |2.15m | 403,770,021 | We tokenize our data using scripts provided in our [github repository](https://github.com/apcl-research/Jam-CGPT/blob/main/data/jam_cgpt_170k/prepare_fc_raw.py).
提供机构:
apcl
原始信息汇总

Jam-CGPT 数据集

Jam-CGPT 数据集包含由 GPT-3.5 生成的摘要,数据集规模从 170k 到 2.15m 不等。该数据集遵循 Jam 的流程进行编译,用于微调。

Jam-CGPT 数据集文件

文件名 描述
170k.tar.gz 170k 摘要训练和验证二进制文件
620k.tar.gz 620k 摘要训练和验证二进制文件
1.25m.tar.gz 1.25m 摘要训练和验证二进制文件
2.15m.tar.gz 2.15m 摘要训练和验证二进制文件
jam_cgpt_test.tar.gz Jam-CGPT 测试集
raw_data.tar.gz Jam-CGPT 原始数据,未编译为二进制文件,包含测试和验证功能ID的 pickle 文件

Jam-CGPT 数据集令牌数

数据集 令牌数
170k 37,399,419 令牌
620k 118,941,493 令牌
1.25m 233,964,910 令牌
2.15m 403,770,021 令牌

数据集使用 github 仓库 中提供的脚本进行令牌化。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作