alasdairforsythe/text-english-code-fiction-nonfiction

Name: alasdairforsythe/text-english-code-fiction-nonfiction
Creator: alasdairforsythe
Published: 2023-07-02 05:27:15
License: 暂无描述

Hugging Face2023-07-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/alasdairforsythe/text-english-code-fiction-nonfiction

下载链接

链接失效反馈

官方服务：

资源简介：

TokenMonster数据集包含了用于生成TokenMonster预构建词汇表的原始文本文件。训练数据主要来自Red Pajamas的1B Token样本，但为了减少正式英语内容并强调其他语言、非正式写作和代码，对c4_sample和cc_sample进行了裁剪，并添加了Reddit对话数据。此外，还添加了30种不同编程语言的代码样本，每种语言包含2MB和10MB的样本，以确保所有编程语言都有代表性。为了反映现代写作风格，数据集还包含了经过清理的现代小说样本。

提供机构：

alasdairforsythe

原始信息汇总

数据集概述

数据集名称

TokenMonster Datasets: English, Code, Fiction, Non-fiction

数据集规模

大小范围: 1B<n<10B

数据集标签

文本: text
英语: english
小说: fiction
非小说: nonfiction, non-fiction
现代小说: modern fiction
当代小说: contemporary fiction
代码数据集: code dataset
英语数据集: english dataset
代码: code
代码样本: code samples
分词: tokenization
分词数据集: tokenization datasets
数据集: datasets

任务类别

文本生成: text-generation

数据集内容

主要来源: Red Pajamas 1B Token Sample
其他来源:
- c4_sample & cc_sample: 裁剪至100MB
- Reddit对话数据: 裁剪至100MB
- 代码样本: 来自codeparrot/github-code，每种编程语言2MB和10MB
- 现代小说样本: fiction.txt 和 fiction_100mb.txt，通过整合其他数据集并清理

文件列表

文件名	文件大小
arxiv_sample.txt	88,925,569
book_sample.txt	108,069,616
c4_sample.txt	100,560,318
cc_2023-06_sample.txt	100,852,231
code_2mb.txt	62,895,904
code_10mb.txt	314,006,799
fiction.txt	357,119,086
fiction_100mb.txt	94,235,489
github_sample.txt	191,123,094
stackexchange_sample.txt	71,940,138
wikipedia_sample.txt	79,181,873
reddit.txt	100,027,565

特殊说明

fiction_100mb.txt 是 fiction.txt 的子集
code_2mb.txt 是 code_10mb.txt 的子集

许可证

Common Crawl Foundation Terms of Use
C4 license
the_pile_books3 license 和 pg19 license
ArXiv Terms of Use
Wikipedia License
StackExchange license on the Internet Archive

5,000+

优质数据集

54 个

任务类型

进入经典数据集