five

mhla/gpt1900-physics-clm

收藏
Hugging Face2026-03-29 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/mhla/gpt1900-physics-clm
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit language: - en dataset_info: features: - name: text dtype: string tags: - pre-1900 - historical - physics - nlp --- # GPT-1900 Physics CLM Data Physics-domain text for continued pretraining (causal language modeling) of GPT-1900. This dataset contains chunks of text from seminal pre-1905 physics works — Newton's *Principia*, Maxwell's *Treatise on Electricity and Magnetism*, Faraday's *Experimental Researches*, Boltzmann, Gibbs, Hertz, and many others. Used to specialize the base GPT-1900 model toward physics reasoning before instruction tuning and reinforcement learning. ## Stats | Split | Rows | |-------|------| | Train | 319,461 | | Val | 16,814 | ## Format Parquet files with a single `text` column. Each row is a chunk of physics text. ## Source Texts Includes works by: Newton, Maxwell, Faraday, Boltzmann, Gibbs, Galileo, Hertz, Helmholtz, Kelvin, Lorentz, Rayleigh, Tyndall, Clausius, Carnot, Stokes, Thomson, Young, Huygens, Laplace, Poynting, Larmor, and others. Extended to a 1905 cutoff (includes Planck 1901, Lorentz 1904, Rutherford on radioactivity). ## Usage ```python from datasets import load_dataset ds = load_dataset("mhla/gpt1900-physics-clm") ``` ## Related - [mhla/gpt1900-d34-22btok](https://huggingface.co/mhla/gpt1900-d34-22btok) — GPT-1900 base model - [mhla/gpt1900-d34-v3-sft-physics](https://huggingface.co/mhla/gpt1900-d34-v3-sft-physics) — Instruct model built on top of this physics data - [mhla/gpt1900-d34-contradiction-rl-v11](https://huggingface.co/mhla/gpt1900-d34-contradiction-rl-v11) — Best RL model (downstream of this data)

--- 许可证:MIT许可证 语言: - 英语 数据集信息: 特征: - 字段名:text 数据类型:字符串(string) 标签: - 1900年前(pre-1900) - 历史(historical) - 物理学(physics) - 自然语言处理(Natural Language Processing,NLP) --- # GPT-1900 物理学因果语言建模数据集 本数据集为GPT-1900模型的持续预训练(因果语言建模)任务提供物理学领域文本。数据集包含1905年前开创性物理学著作的文本片段,涵盖牛顿的《自然哲学的数学原理》、麦克斯韦的《电磁通论》、法拉第的《电学实验研究》,以及玻尔兹曼、吉布斯、赫兹等学者的相关著作。 本数据集用于在指令微调与强化学习之前,将基础GPT-1900模型适配至物理学推理任务。 ## 统计信息 | 数据集划分 | 样本行数 | |----------|----------| | 训练集 | 319,461 | | 验证集 | 16,814 | ## 数据格式 数据集以Parquet文件存储,仅包含`text`一列,每一行对应一段物理学文本片段。 ## 源文本范围 本数据集涵盖以下学者的著作:牛顿、麦克斯韦、法拉第、玻尔兹曼、吉布斯、伽利略、赫兹、亥姆霍兹、开尔文、洛伦兹、瑞利、廷德尔、克劳修斯、卡诺、斯托克斯、汤姆森、杨、惠更斯、拉普拉斯、坡印廷、拉莫尔等。数据集截断至1905年,包含普朗克1901年、洛伦兹1904年的相关著作,以及卢瑟福关于放射性的研究成果。 ## 使用方法 可通过以下Python代码加载数据集: python from datasets import load_dataset ds = load_dataset("mhla/gpt1900-physics-clm") ## 相关资源 - [mhla/gpt1900-d34-22btok](https://huggingface.co/mhla/gpt1900-d34-22btok) — GPT-1900基础模型 - [mhla/gpt1900-d34-v3-sft-physics](https://huggingface.co/mhla/gpt1900-d34-v3-sft-physics) — 基于本物理学数据集构建的指令微调模型 - [mhla/gpt1900-d34-contradiction-rl-v11](https://huggingface.co/mhla/gpt1900-d34-contradiction-rl-v11) — 基于本数据集训练的最优强化学习模型
提供机构:
mhla
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作