LisaMegaWatts/philosophy-corpus
收藏Hugging Face2026-02-26 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/LisaMegaWatts/philosophy-corpus
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- text-generation
language:
- en
tags:
- philosophy
- classical-texts
- humanities
- wikitext
- bpe-tokenizer
- gpt-training
size_categories:
- 1M<n<10M
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
dataset_info:
features:
- name: text
dtype: string
splits:
- name: train
num_bytes: 2153173168
num_examples: 13683034
- name: validation
num_bytes: 238462992
num_examples: 1520338
download_size: 1628332782
dataset_size: 2391636160
---
# Philosophy & Humanities Corpus
Combined humanities and Wikipedia corpus for training small language models.
## Dataset
| Split | Lines | Size | Description |
|-------|-------|------|-------------|
| **train.txt** | 3.0M | 549 MB | Humanities (368K lines) + WikiText-103 (2.6M lines) |
| **val.txt** | 315K | 57 MB | Matching validation split |
## Sources
### Humanities (368K lines, 66 MB)
54 classical philosophy and humanities texts:
| Category | Works |
|---|---|
| **Plato** | Republic, Apology, Symposium, Phaedo, Crito, Meno, Phaedrus, Timaeus, Laws, Gorgias, Protagoras, Theaetetus |
| **Aristotle** | Categories, Ethics, Rhetoric, Physics, Metaphysics, Poetics, Politics, On the Soul, On the Heavens, Prior/Posterior Analytics, Topics, On Generation & Corruption |
| **Stoics** | Marcus Aurelius Meditations, Epictetus Discourses & Enchiridion, Seneca Moral Essays |
| **Roman** | Lucretius, Cicero (On Duties, Nature of Gods, On Friendship) |
| **Early Modern** | Descartes, Kant, Spinoza, Hobbes, Locke, Bacon |
| **Enlightenment/19th c.** | Hume, Rousseau, Nietzsche, Mill, Machiavelli, Emerson, Thoreau, Montaigne, Schopenhauer |
| **Other** | Boethius, Diogenes/Epicurus, Aeschylus, Latin Grammar, Euclid Elements |
Sources: [Project Gutenberg](https://www.gutenberg.org/), [MIT Internet Classics Archive](http://classics.mit.edu/)
### WikiText-103 (2.6M lines, 481 MB)
Wikipedia articles from [Salesforce/wikitext](https://huggingface.co/datasets/Salesforce/wikitext) (wikitext-103-v1). Cleaned, chunked, and deduplicated.
## Tokenizer
**tokenizer.json** — BPE tokenizer (4000 vocab) trained on the combined corpus.
- Format: HuggingFace tokenizers JSON (GPT-2 ByteLevel BPE)
- Special tokens: `<|pad|>` (id=0), `<|eos|>` (id=1)
## Files
| File | Description |
|------|-------------|
| `train.txt` | Combined training data (one chunk per line) |
| `val.txt` | Combined validation data |
| `tokenizer.json` | BPE tokenizer (vocab_size=4000) |
| `data/*.txt` | Individual source text files |
| `train_enriched.jsonl` | Enriched training data with metadata |
| `train_trivium.txt` | Trivium-phase subset |
| `train_quadrivium.txt` | Quadrivium-phase subset |
| `train_philosophy.txt` | Philosophy-phase subset |
## Usage
Training data for [JuliaGPT](https://github.com/DavinciDreams/JuliaGPT) — small transformer language models in Julia (Flux.jl).
```julia
# Auto-downloaded by juliadistill.ipynb
hf_download("LisaMegaWatts/philosophy-corpus", "train.txt"; repo_type="dataset")
hf_download("LisaMegaWatts/philosophy-corpus", "val.txt"; repo_type="dataset")
hf_download("LisaMegaWatts/philosophy-corpus", "tokenizer.json"; repo_type="dataset")
```
许可证:MIT协议
任务类别:文本生成
语言:英语
标签:哲学、古典文本、人文学科、WikiText、字节对编码(BPE)分词器、GPT训练
样本规模:100万 < 样本数 < 1000万
配置项:
- 配置名称:默认配置
数据文件:
- 拆分集:训练集,路径:data/train-*
- 拆分集:验证集,路径:data/validation-*
数据集信息:
特征字段:
- 名称:text,数据类型:字符串
数据集拆分:
- 训练集:字节数2153173168,样本数13683034
- 验证集:字节数238462992,样本数1520338
下载大小:1628332782字节,数据集总大小:2391636160字节
# 哲学与人文学科语料库
用于训练小型大语言模型的整合型人文学科与维基文本语料库。
## 数据集
| 数据拆分 | 行数 | 大小 | 描述 |
|-------|-------|------|-------------|
| **train.txt** | 300万行 | 549 MB | 人文学科文本(36.8万行)+ WikiText-103(260万行) |
| **val.txt** | 31.5万行 | 57 MB | 匹配训练集的验证集拆分 |
## 数据来源
### 人文学科子语料(36.8万行,66 MB)
收录54部经典哲学与人文学科著作:
| 类别 | 著作 |
|---|---|
| **柏拉图(Plato)** | 《理想国》(Republic)、《申辩篇》(Apology)、《会饮篇》(Symposium)、《斐多篇》(Phaedo)、《克里同篇》(Crito)、《美诺篇》(Meno)、《斐德罗篇》(Phaedrus)、《蒂迈欧篇》(Timaeus)、《法律篇》(Laws)、《高尔吉亚篇》(Gorgias)、《普罗泰戈拉篇》(Protagoras)、《泰阿泰德篇》(Theaetetus) |
| **亚里士多德(Aristotle)** | 《范畴篇》(Categories)、《伦理学》(Ethics)、《修辞学》(Rhetoric)、《物理学》(Physics)、《形而上学》(Metaphysics)、《诗学》(Poetics)、《政治学》(Politics)、《论灵魂》(On the Soul)、《论天》(On the Heavens)、《前分析篇/后分析篇》(Prior/Posterior Analytics)、《论题篇》(Topics)、《论生成与消亡》(On Generation & Corruption) |
| **斯多葛学派(Stoics)** | 马可·奥勒留《沉思录》(Marcus Aurelius Meditations)、爱比克泰德《谈话录》与《手册》(Epictetus Discourses & Enchiridion)、塞涅卡《道德论文集》(Seneca Moral Essays) |
| **古罗马文献** | 卢克莱修(Lucretius)、西塞罗(Cicero)(《论义务》(On Duties)、《论神性》(Nature of Gods)、《论友谊》(On Friendship)) |
| **早期近代哲学** | 笛卡尔(Descartes)、康德(Kant)、斯宾诺莎(Spinoza)、霍布斯(Hobbes)、洛克(Locke)、培根(Bacon) |
| **启蒙运动/19世纪** | 休谟(Hume)、卢梭(Rousseau)、尼采(Nietzsche)、密尔(Mill)、马基雅维利(Machiavelli)、爱默生(Emerson)、梭罗(Thoreau)、蒙田(Montaigne)、叔本华(Schopenhauer) |
| **其他** | 波爱修斯(Boethius)、第欧根尼/伊壁鸠鲁(Diogenes/Epicurus)、埃斯库罗斯(Aeschylus)、拉丁语语法教材(Latin Grammar)、《几何原本》(Euclid Elements) |
数据来源:[古腾堡计划(Project Gutenberg)](https://www.gutenberg.org/)、[MIT互联网经典文库(MIT Internet Classics Archive)](http://classics.mit.edu/)
### WikiText-103子语料(260万行,481 MB)
该子语料取自[SALESFORCE/wikitext](https://huggingface.co/datasets/Salesforce/wikitext) 公开数据集的wikitext-103-v1版本,经过清洗、分块与去重处理。
## 分词器
`tokenizer.json` — 基于整合语料训练得到的字节对编码(BPE)分词器,词汇表大小为4000:
- 格式:采用Hugging Face分词器JSON格式(GPT-2字节级BPE分词方案)
- 特殊标记:`<|pad|>`(编号0)、`<|eos|>`(编号1)
## 文件说明
| 文件 | 描述 |
|------|-------------|
| `train.txt` | 整合后的训练数据,每行对应一个文本分块 |
| `val.txt` | 匹配训练集的验证集数据 |
| `tokenizer.json` | BPE分词器(词汇表大小4000) |
| `data/*.txt` | 单条原始源文本文件 |
| `train_enriched.jsonl` | 包含元数据的增强版训练数据 |
| `train_trivium.txt` | 三艺(Trivium)阶段子数据集 |
| `train_quadrivium.txt` | 四艺(Quadrivium)阶段子数据集 |
| `train_philosophy.txt` | 哲学主题子数据集 |
## 使用方式
本数据集可用于训练[JuliaGPT](https://github.com/DavinciDreams/JuliaGPT) — 基于Julia语言(Flux.jl框架)构建的小型Transformer大语言模型。
julia
# Auto-downloaded by juliadistill.ipynb
hf_download("LisaMegaWatts/philosophy-corpus", "train.txt"; repo_type="dataset")
hf_download("LisaMegaWatts/philosophy-corpus", "val.txt"; repo_type="dataset")
hf_download("LisaMegaWatts/philosophy-corpus", "tokenizer.json"; repo_type="dataset")
提供机构:
LisaMegaWatts



