alasdairforsythe/text-english-code-fiction-nonfiction
收藏Hugging Face2023-07-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/alasdairforsythe/text-english-code-fiction-nonfiction
下载链接
链接失效反馈官方服务:
资源简介:
TokenMonster数据集包含了用于生成TokenMonster预构建词汇表的原始文本文件。训练数据主要来自Red Pajamas的1B Token样本,但为了减少正式英语内容并强调其他语言、非正式写作和代码,对c4_sample和cc_sample进行了裁剪,并添加了Reddit对话数据。此外,还添加了30种不同编程语言的代码样本,每种语言包含2MB和10MB的样本,以确保所有编程语言都有代表性。为了反映现代写作风格,数据集还包含了经过清理的现代小说样本。
TokenMonster数据集包含了用于生成TokenMonster预构建词汇表的原始文本文件。训练数据主要来自Red Pajamas的1B Token样本,但为了减少正式英语内容并强调其他语言、非正式写作和代码,对c4_sample和cc_sample进行了裁剪,并添加了Reddit对话数据。此外,还添加了30种不同编程语言的代码样本,每种语言包含2MB和10MB的样本,以确保所有编程语言都有代表性。为了反映现代写作风格,数据集还包含了经过清理的现代小说样本。
提供机构:
alasdairforsythe
原始信息汇总
数据集概述
数据集名称
- TokenMonster Datasets: English, Code, Fiction, Non-fiction
数据集规模
- 大小范围: 1B<n<10B
数据集标签
- 文本: text
- 英语: english
- 小说: fiction
- 非小说: nonfiction, non-fiction
- 现代小说: modern fiction
- 当代小说: contemporary fiction
- 代码数据集: code dataset
- 英语数据集: english dataset
- 代码: code
- 代码样本: code samples
- 分词: tokenization
- 分词数据集: tokenization datasets
- 数据集: datasets
任务类别
- 文本生成: text-generation
数据集内容
- 主要来源: Red Pajamas 1B Token Sample
- 其他来源:
- c4_sample & cc_sample: 裁剪至100MB
- Reddit对话数据: 裁剪至100MB
- 代码样本: 来自codeparrot/github-code,每种编程语言2MB和10MB
- 现代小说样本:
fiction.txt和fiction_100mb.txt,通过整合其他数据集并清理
文件列表
| 文件名 | 文件大小 |
|---|---|
| arxiv_sample.txt | 88,925,569 |
| book_sample.txt | 108,069,616 |
| c4_sample.txt | 100,560,318 |
| cc_2023-06_sample.txt | 100,852,231 |
| code_2mb.txt | 62,895,904 |
| code_10mb.txt | 314,006,799 |
| fiction.txt | 357,119,086 |
| fiction_100mb.txt | 94,235,489 |
| github_sample.txt | 191,123,094 |
| stackexchange_sample.txt | 71,940,138 |
| wikipedia_sample.txt | 79,181,873 |
| reddit.txt | 100,027,565 |
特殊说明
fiction_100mb.txt是fiction.txt的子集code_2mb.txt是code_10mb.txt的子集
许可证
- Common Crawl Foundation Terms of Use
- C4 license
- the_pile_books3 license 和 pg19 license
- ArXiv Terms of Use
- Wikipedia License
- StackExchange license on the Internet Archive



