five

qywu/slimpajama_long

收藏
Hugging Face2023-11-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/qywu/slimpajama_long
下载链接
链接失效反馈
官方服务:
资源简介:
Long SlimPajama数据集包含经过过滤的文档,这些文档的长度超过8000个标记。该数据集还提供了用于过滤和标记化的处理脚本,用户可以通过运行这些脚本从SlimPajama-627B数据集中提取长文本数据,并使用指定的标记器对数据进行标记化处理。

Long SlimPajama数据集包含经过过滤的文档,这些文档的长度超过8000个标记。该数据集还提供了用于过滤和标记化的处理脚本,用户可以通过运行这些脚本从SlimPajama-627B数据集中提取长文本数据,并使用指定的标记器对数据进行标记化处理。
提供机构:
qywu
原始信息汇总

Long SlimPajama 数据集

概述

  • 内容描述:该数据集包含经过筛选的文档,这些文档的长度超过8000个标记。
  • 处理脚本:提供了用于筛选和标记化的处理脚本。

数据筛选

  • 筛选命令: bash python get_long_text_data.py --data_path SlimPajama-627B/train/chunk1 --output_name long_text_data_train_chunk1.jsonl --word_limit 8000 --num_cpus 64

数据标记化

  • 标记化命令: bash python tokenize_data.py --tokenizer "meta-llama/Llama-2-7b-hf" --input_file long_text_data_train_chunk1.jsonl --output_path llama
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作