five

alasdairforsythe/text-english-code-fiction-nonfiction

收藏
Hugging Face2023-07-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/alasdairforsythe/text-english-code-fiction-nonfiction
下载链接
链接失效反馈
官方服务:
资源简介:
TokenMonster数据集包含了用于生成TokenMonster预构建词汇表的原始文本文件。训练数据主要来自Red Pajamas的1B Token样本,但为了减少正式英语内容并强调其他语言、非正式写作和代码,对c4_sample和cc_sample进行了裁剪,并添加了Reddit对话数据。此外,还添加了30种不同编程语言的代码样本,每种语言包含2MB和10MB的样本,以确保所有编程语言都有代表性。为了反映现代写作风格,数据集还包含了经过清理的现代小说样本。

TokenMonster数据集包含了用于生成TokenMonster预构建词汇表的原始文本文件。训练数据主要来自Red Pajamas的1B Token样本,但为了减少正式英语内容并强调其他语言、非正式写作和代码,对c4_sample和cc_sample进行了裁剪,并添加了Reddit对话数据。此外,还添加了30种不同编程语言的代码样本,每种语言包含2MB和10MB的样本,以确保所有编程语言都有代表性。为了反映现代写作风格,数据集还包含了经过清理的现代小说样本。
提供机构:
alasdairforsythe
原始信息汇总

数据集概述

数据集名称

  • TokenMonster Datasets: English, Code, Fiction, Non-fiction

数据集规模

  • 大小范围: 1B<n<10B

数据集标签

  • 文本: text
  • 英语: english
  • 小说: fiction
  • 非小说: nonfiction, non-fiction
  • 现代小说: modern fiction
  • 当代小说: contemporary fiction
  • 代码数据集: code dataset
  • 英语数据集: english dataset
  • 代码: code
  • 代码样本: code samples
  • 分词: tokenization
  • 分词数据集: tokenization datasets
  • 数据集: datasets

任务类别

  • 文本生成: text-generation

数据集内容

  • 主要来源: Red Pajamas 1B Token Sample
  • 其他来源:
    • c4_sample & cc_sample: 裁剪至100MB
    • Reddit对话数据: 裁剪至100MB
    • 代码样本: 来自codeparrot/github-code,每种编程语言2MB和10MB
    • 现代小说样本: fiction.txtfiction_100mb.txt,通过整合其他数据集并清理

文件列表

文件名 文件大小
arxiv_sample.txt 88,925,569
book_sample.txt 108,069,616
c4_sample.txt 100,560,318
cc_2023-06_sample.txt 100,852,231
code_2mb.txt 62,895,904
code_10mb.txt 314,006,799
fiction.txt 357,119,086
fiction_100mb.txt 94,235,489
github_sample.txt 191,123,094
stackexchange_sample.txt 71,940,138
wikipedia_sample.txt 79,181,873
reddit.txt 100,027,565

特殊说明

  • fiction_100mb.txtfiction.txt 的子集
  • code_2mb.txtcode_10mb.txt 的子集

许可证

  • Common Crawl Foundation Terms of Use
  • C4 license
  • the_pile_books3 licensepg19 license
  • ArXiv Terms of Use
  • Wikipedia License
  • StackExchange license on the Internet Archive
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作