apcl/Jam-CGPT
收藏Hugging Face2024-03-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/apcl/Jam-CGPT
下载链接
链接失效反馈官方服务:
资源简介:
# Jam-CGPT
Jam-CGPT dataset contains the summary generated by using GPT-3.5. The dataset size ranges from 170k to 2.15m. We follow [Jam](https://huggingface.co/apcl/jam)'s procedure to compile the dataset for finetuning.
## Jam-CGPT dataset files
| Filename | Description |
| ------- | ------- |
|170k.tar.gz|170k summary train and val bin file|
|620k.tar.gz | 620k summary train and val bin file|
|1.25m.tar.gz | 1.25m summary train and val bin file |
|2.15m.tar.gz | 2.15m summary train and val bin file |
|jam_cgpt_test.tar.gz |Jam-CGPT testset |
|raw_data.tar.gz |Jam-CGPT raw data without compiling to bin file and test and val function id pickle files |
## Jam-CGPT dataset tokens
We provide the number of tokens for each dataset the following table:
| Dataset | Number of tokens |
| ------- | ------- |
|170k|37,399,419 tokens|
|620k | 118,941,493 tokens|
|1.25m | 233,964,910 tokens |
|2.15m | 403,770,021 |
We tokenize our data using scripts provided in our [github repository](https://github.com/apcl-research/Jam-CGPT/blob/main/data/jam_cgpt_170k/prepare_fc_raw.py).
提供机构:
apcl
原始信息汇总
Jam-CGPT 数据集
Jam-CGPT 数据集包含由 GPT-3.5 生成的摘要,数据集规模从 170k 到 2.15m 不等。该数据集遵循 Jam 的流程进行编译,用于微调。
Jam-CGPT 数据集文件
| 文件名 | 描述 |
|---|---|
| 170k.tar.gz | 170k 摘要训练和验证二进制文件 |
| 620k.tar.gz | 620k 摘要训练和验证二进制文件 |
| 1.25m.tar.gz | 1.25m 摘要训练和验证二进制文件 |
| 2.15m.tar.gz | 2.15m 摘要训练和验证二进制文件 |
| jam_cgpt_test.tar.gz | Jam-CGPT 测试集 |
| raw_data.tar.gz | Jam-CGPT 原始数据,未编译为二进制文件,包含测试和验证功能ID的 pickle 文件 |
Jam-CGPT 数据集令牌数
| 数据集 | 令牌数 |
|---|---|
| 170k | 37,399,419 令牌 |
| 620k | 118,941,493 令牌 |
| 1.25m | 233,964,910 令牌 |
| 2.15m | 403,770,021 令牌 |
数据集使用 github 仓库 中提供的脚本进行令牌化。



