five

AlexHung29629/oscar-en-10k-megds

收藏
Hugging Face2023-06-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AlexHung29629/oscar-en-10k-megds
下载链接
链接失效反馈
官方服务:
资源简介:
--- task_categories: - text-generation language: - en size_categories: - 1K<n<10K --- # README This dataset is used to test the training of the LLAMA model with Megatron-Deepspeed. ## Source stas/oscar-en-10k ## Command ```bash python tools/preprocess_data.py \ --input oscar-en-10k.jsonl \ --tokenizer-type PretrainedFromHF \ --append-eod \ --tokenizer-name-or-path hf-internal-testing/llama-tokenizer \ --output-prefix oscar-en-10k ``` ## Info \#tokens = 34030076
提供机构:
AlexHung29629
原始信息汇总

数据集概述

基本信息

  • 任务类别: 文本生成
  • 语言: 英语
  • 数据集大小: 1K<n<10K

用途

用于测试LLAMA模型与Megatron-Deepspeed的训练。

数据源

  • 来源: stas/oscar-en-10k

处理命令

bash python tools/preprocess_data.py --input oscar-en-10k.jsonl --tokenizer-type PretrainedFromHF --append-eod --tokenizer-name-or-path hf-internal-testing/llama-tokenizer --output-prefix oscar-en-10k

数据集统计

  • 总令牌数: 34030076
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作