qywu/slimpajama_long
收藏Hugging Face2023-11-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/qywu/slimpajama_long
下载链接
链接失效反馈官方服务:
资源简介:
Long SlimPajama数据集包含经过过滤的文档,这些文档的长度超过8000个标记。该数据集还提供了用于过滤和标记化的处理脚本,用户可以通过运行这些脚本从SlimPajama-627B数据集中提取长文本数据,并使用指定的标记器对数据进行标记化处理。
Long SlimPajama数据集包含经过过滤的文档,这些文档的长度超过8000个标记。该数据集还提供了用于过滤和标记化的处理脚本,用户可以通过运行这些脚本从SlimPajama-627B数据集中提取长文本数据,并使用指定的标记器对数据进行标记化处理。
提供机构:
qywu
原始信息汇总
Long SlimPajama 数据集
概述
- 内容描述:该数据集包含经过筛选的文档,这些文档的长度超过8000个标记。
- 处理脚本:提供了用于筛选和标记化的处理脚本。
数据筛选
- 筛选命令: bash python get_long_text_data.py --data_path SlimPajama-627B/train/chunk1 --output_name long_text_data_train_chunk1.jsonl --word_limit 8000 --num_cpus 64
数据标记化
- 标记化命令: bash python tokenize_data.py --tokenizer "meta-llama/Llama-2-7b-hf" --input_file long_text_data_train_chunk1.jsonl --output_path llama



