five

LisaMegaWatts/philosophy-corpus

收藏
Hugging Face2026-02-26 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/LisaMegaWatts/philosophy-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit task_categories: - text-generation language: - en tags: - philosophy - classical-texts - humanities - wikitext - bpe-tokenizer - gpt-training size_categories: - 1M<n<10M configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* dataset_info: features: - name: text dtype: string splits: - name: train num_bytes: 2153173168 num_examples: 13683034 - name: validation num_bytes: 238462992 num_examples: 1520338 download_size: 1628332782 dataset_size: 2391636160 --- # Philosophy & Humanities Corpus Combined humanities and Wikipedia corpus for training small language models. ## Dataset | Split | Lines | Size | Description | |-------|-------|------|-------------| | **train.txt** | 3.0M | 549 MB | Humanities (368K lines) + WikiText-103 (2.6M lines) | | **val.txt** | 315K | 57 MB | Matching validation split | ## Sources ### Humanities (368K lines, 66 MB) 54 classical philosophy and humanities texts: | Category | Works | |---|---| | **Plato** | Republic, Apology, Symposium, Phaedo, Crito, Meno, Phaedrus, Timaeus, Laws, Gorgias, Protagoras, Theaetetus | | **Aristotle** | Categories, Ethics, Rhetoric, Physics, Metaphysics, Poetics, Politics, On the Soul, On the Heavens, Prior/Posterior Analytics, Topics, On Generation & Corruption | | **Stoics** | Marcus Aurelius Meditations, Epictetus Discourses & Enchiridion, Seneca Moral Essays | | **Roman** | Lucretius, Cicero (On Duties, Nature of Gods, On Friendship) | | **Early Modern** | Descartes, Kant, Spinoza, Hobbes, Locke, Bacon | | **Enlightenment/19th c.** | Hume, Rousseau, Nietzsche, Mill, Machiavelli, Emerson, Thoreau, Montaigne, Schopenhauer | | **Other** | Boethius, Diogenes/Epicurus, Aeschylus, Latin Grammar, Euclid Elements | Sources: [Project Gutenberg](https://www.gutenberg.org/), [MIT Internet Classics Archive](http://classics.mit.edu/) ### WikiText-103 (2.6M lines, 481 MB) Wikipedia articles from [Salesforce/wikitext](https://huggingface.co/datasets/Salesforce/wikitext) (wikitext-103-v1). Cleaned, chunked, and deduplicated. ## Tokenizer **tokenizer.json** — BPE tokenizer (4000 vocab) trained on the combined corpus. - Format: HuggingFace tokenizers JSON (GPT-2 ByteLevel BPE) - Special tokens: `<|pad|>` (id=0), `<|eos|>` (id=1) ## Files | File | Description | |------|-------------| | `train.txt` | Combined training data (one chunk per line) | | `val.txt` | Combined validation data | | `tokenizer.json` | BPE tokenizer (vocab_size=4000) | | `data/*.txt` | Individual source text files | | `train_enriched.jsonl` | Enriched training data with metadata | | `train_trivium.txt` | Trivium-phase subset | | `train_quadrivium.txt` | Quadrivium-phase subset | | `train_philosophy.txt` | Philosophy-phase subset | ## Usage Training data for [JuliaGPT](https://github.com/DavinciDreams/JuliaGPT) — small transformer language models in Julia (Flux.jl). ```julia # Auto-downloaded by juliadistill.ipynb hf_download("LisaMegaWatts/philosophy-corpus", "train.txt"; repo_type="dataset") hf_download("LisaMegaWatts/philosophy-corpus", "val.txt"; repo_type="dataset") hf_download("LisaMegaWatts/philosophy-corpus", "tokenizer.json"; repo_type="dataset") ```

许可证:MIT协议 任务类别:文本生成 语言:英语 标签:哲学、古典文本、人文学科、WikiText、字节对编码(BPE)分词器、GPT训练 样本规模:100万 < 样本数 < 1000万 配置项: - 配置名称:默认配置 数据文件: - 拆分集:训练集,路径:data/train-* - 拆分集:验证集,路径:data/validation-* 数据集信息: 特征字段: - 名称:text,数据类型:字符串 数据集拆分: - 训练集:字节数2153173168,样本数13683034 - 验证集:字节数238462992,样本数1520338 下载大小:1628332782字节,数据集总大小:2391636160字节 # 哲学与人文学科语料库 用于训练小型大语言模型的整合型人文学科与维基文本语料库。 ## 数据集 | 数据拆分 | 行数 | 大小 | 描述 | |-------|-------|------|-------------| | **train.txt** | 300万行 | 549 MB | 人文学科文本(36.8万行)+ WikiText-103(260万行) | | **val.txt** | 31.5万行 | 57 MB | 匹配训练集的验证集拆分 | ## 数据来源 ### 人文学科子语料(36.8万行,66 MB) 收录54部经典哲学与人文学科著作: | 类别 | 著作 | |---|---| | **柏拉图(Plato)** | 《理想国》(Republic)、《申辩篇》(Apology)、《会饮篇》(Symposium)、《斐多篇》(Phaedo)、《克里同篇》(Crito)、《美诺篇》(Meno)、《斐德罗篇》(Phaedrus)、《蒂迈欧篇》(Timaeus)、《法律篇》(Laws)、《高尔吉亚篇》(Gorgias)、《普罗泰戈拉篇》(Protagoras)、《泰阿泰德篇》(Theaetetus) | | **亚里士多德(Aristotle)** | 《范畴篇》(Categories)、《伦理学》(Ethics)、《修辞学》(Rhetoric)、《物理学》(Physics)、《形而上学》(Metaphysics)、《诗学》(Poetics)、《政治学》(Politics)、《论灵魂》(On the Soul)、《论天》(On the Heavens)、《前分析篇/后分析篇》(Prior/Posterior Analytics)、《论题篇》(Topics)、《论生成与消亡》(On Generation & Corruption) | | **斯多葛学派(Stoics)** | 马可·奥勒留《沉思录》(Marcus Aurelius Meditations)、爱比克泰德《谈话录》与《手册》(Epictetus Discourses & Enchiridion)、塞涅卡《道德论文集》(Seneca Moral Essays) | | **古罗马文献** | 卢克莱修(Lucretius)、西塞罗(Cicero)(《论义务》(On Duties)、《论神性》(Nature of Gods)、《论友谊》(On Friendship)) | | **早期近代哲学** | 笛卡尔(Descartes)、康德(Kant)、斯宾诺莎(Spinoza)、霍布斯(Hobbes)、洛克(Locke)、培根(Bacon) | | **启蒙运动/19世纪** | 休谟(Hume)、卢梭(Rousseau)、尼采(Nietzsche)、密尔(Mill)、马基雅维利(Machiavelli)、爱默生(Emerson)、梭罗(Thoreau)、蒙田(Montaigne)、叔本华(Schopenhauer) | | **其他** | 波爱修斯(Boethius)、第欧根尼/伊壁鸠鲁(Diogenes/Epicurus)、埃斯库罗斯(Aeschylus)、拉丁语语法教材(Latin Grammar)、《几何原本》(Euclid Elements) | 数据来源:[古腾堡计划(Project Gutenberg)](https://www.gutenberg.org/)、[MIT互联网经典文库(MIT Internet Classics Archive)](http://classics.mit.edu/) ### WikiText-103子语料(260万行,481 MB) 该子语料取自[SALESFORCE/wikitext](https://huggingface.co/datasets/Salesforce/wikitext) 公开数据集的wikitext-103-v1版本,经过清洗、分块与去重处理。 ## 分词器 `tokenizer.json` — 基于整合语料训练得到的字节对编码(BPE)分词器,词汇表大小为4000: - 格式:采用Hugging Face分词器JSON格式(GPT-2字节级BPE分词方案) - 特殊标记:`<|pad|>`(编号0)、`<|eos|>`(编号1) ## 文件说明 | 文件 | 描述 | |------|-------------| | `train.txt` | 整合后的训练数据,每行对应一个文本分块 | | `val.txt` | 匹配训练集的验证集数据 | | `tokenizer.json` | BPE分词器(词汇表大小4000) | | `data/*.txt` | 单条原始源文本文件 | | `train_enriched.jsonl` | 包含元数据的增强版训练数据 | | `train_trivium.txt` | 三艺(Trivium)阶段子数据集 | | `train_quadrivium.txt` | 四艺(Quadrivium)阶段子数据集 | | `train_philosophy.txt` | 哲学主题子数据集 | ## 使用方式 本数据集可用于训练[JuliaGPT](https://github.com/DavinciDreams/JuliaGPT) — 基于Julia语言(Flux.jl框架)构建的小型Transformer大语言模型。 julia # Auto-downloaded by juliadistill.ipynb hf_download("LisaMegaWatts/philosophy-corpus", "train.txt"; repo_type="dataset") hf_download("LisaMegaWatts/philosophy-corpus", "val.txt"; repo_type="dataset") hf_download("LisaMegaWatts/philosophy-corpus", "tokenizer.json"; repo_type="dataset")
提供机构:
LisaMegaWatts
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作