five

main-horse/ffv4-test-4

收藏
Hugging Face2023-07-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/main-horse/ffv4-test-4
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个预分词的ffv4_dataset_test/score0.8数据集,用于与llm-foundry一起使用。数据集中的每个样本都包含故事信息和故事片段,格式为`<info><story info metadata ...></info><chunk of story>`。故事片段被分割成最大长度为2048的token组,如果最后一个token组不足2048个token,则以`<|endoftext|>`标记结束,不包含填充。数据集不适用于`datasets`库,需要通过Git LFS克隆获取。`train/`文件夹来自fimfic,而`val_c4`文件夹是一个用于llm-foundry的垃圾C4数据集。

这是一个预分词的ffv4_dataset_test/score0.8数据集,用于与llm-foundry一起使用。数据集中的每个样本都包含故事信息和故事片段,格式为`<info><story info metadata ...></info><chunk of story>`。故事片段被分割成最大长度为2048的token组,如果最后一个token组不足2048个token,则以`<|endoftext|>`标记结束,不包含填充。数据集不适用于`datasets`库,需要通过Git LFS克隆获取。`train/`文件夹来自fimfic,而`val_c4`文件夹是一个用于llm-foundry的垃圾C4数据集。
提供机构:
main-horse
原始信息汇总

数据集概述

数据集名称

ffv4_dataset_test/score0.8

数据集来源

数据集格式

  • 数据样本结构:<info><story info metadata ...></info><chunk of story>
  • 特殊标记:<info></info>,由 edited mpt-7b-tokenizer 定义
  • 故事元数据:来自 ffv4 数据集的 info 列值
  • 故事块:将故事分割成不超过2048个令牌的组
  • 结尾处理:如果最后一个令牌组不足2048个令牌,以 <|endoftext|> 标记结束,无填充

使用说明

  • 不推荐使用 datasets 库,建议使用 git clone https://huggingface.co/datasets/main-horse/ffv4-test-4 获取数据集
  • 数据集结构:仅 train/ 文件夹来自 fimfic,val_c4 文件夹为 C4 数据集的非正式部分
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作