baum-corpus

Hugging Face2025-10-26 更新2025-10-27 收录

下载链接：

https://huggingface.co/datasets/contextlab/baum-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

L. Frank Baum（弗兰克·鲍姆）作品全集，经过预处理后用于计算风格学研究的数据集。包含14本鲍姆的作品，文本转换为小写并去除了非叙事内容，适用于风格分析、语言模型训练等领域。

创建时间：

2025-10-26

原始信息汇总

L. Frank Baum Corpus 数据集概述

数据集基本信息

数据集名称: ContextLab L. Frank Baum Corpus
作者: L. Frank Baum (1856-1919)
语言: 英语
许可证: MIT License
任务类别: 文本生成
标签: 风格计量学、作者归属、文学分析、鲍姆、经典文学、古腾堡计划
规模: 1K<n<10K
格式: 纯文本文件(.txt)

数据集内容

书籍数量: 14本
总字符数: 3,354,451
总词数: 约617,021
平均书籍长度: 239,603字符
数据来源: 古腾堡计划

包含书籍列表

文件名	书名
`22566.txt`	The Emerald City of Oz
`26624.txt`	The Patchwork Girl of Oz
`30852.txt`	Tik-Tok of Oz
`33361.txt`	The Scarecrow of Oz
`39868.txt`	Rinkitink in Oz
`41667.txt`	The Lost Princess of Oz
`43936.txt`	The Tin Woodman of Oz
`50194.txt`	The Magic of Oz
`52176.txt`	Glinda of Oz
`54.txt`	The Wonderful Wizard of Oz
`955.txt`	The Marvelous Land of Oz
`957.txt`	Ozma of Oz
`958.txt`	Dorothy and the Wizard in Oz
`959.txt`	The Road to Oz

数据特征

文本处理: 全部转换为小写
格式: UTF-8纯文本
保留内容: 标点符号和段落分隔
移除内容: 古腾堡计划页眉页脚、章节标题、非叙述性文本

数据字段

text: 完整书籍文本（小写，已清理）
filename: 古腾堡计划ID

预期用途

风格计量学研究
语言模型训练
文学分析
历史自然语言处理
教育用途

使用限制

不适用于区分大小写的文本分析
仅包含公共领域作品
反映19世纪末至20世纪初的语言特征

引用信息

bibtex @article{StroEtal25, title={A Stylometric Application of Large Language Models}, author={Stropkay, Harrison F. and Chen, Jiayi and Jabelli, Mohammad J. L. and Rockmore, Daniel N. and Manning, Jeremy R.}, journal={arXiv preprint arXiv:XXXX.XXXXX}, year={2025} }

相关资源

数据集维护: ContextLab，达特茅斯学院
代码仓库: https://github.com/ContextLab/llm-stylometry
联系方式: Jeremy R. Manning (jeremy.r.manning@dartmouth.edu)

搜集汇总

数据集介绍

构建方式

使用方法

针对不同研究需求，该数据集提供了灵活多样的应用方式。研究者可通过Hugging Face数据集库直接加载完整语料或指定单本著作，亦能通过文件下载接口获取原始文本数据。在具体应用层面，该数据集特别适用于语言模型训练任务，用户可结合GPT-2等模型架构进行作者风格建模。同时，内置的文本统计功能支持快速获取字符数量、词汇分布等基础指标，为文学计量研究提供便捷的技术支持。

背景与挑战

背景概述

在计算文体学领域，对作家独特写作风格的量化分析一直是文学计算研究的核心议题。鲍姆语料库由ContextLab研究团队于2025年创建，收录了美国作家L. Frank Baum的14部经典文学作品，包括《绿野仙踪》系列全集。该数据集源自古登堡计划的公共领域文本，经过系统化预处理后专门用于支持论文《大型语言模型的文体计量应用》中的实证研究，为探索传统文学分析与现代自然语言处理技术的交叉融合提供了重要数据基础。

当前挑战

常用场景

解决学术问题

该数据集有效解决了传统文学研究中主观判断主导的局限性，通过可量化的文本特征为作者归属问题提供实证支持。其预处理流程特别针对文体分析需求设计，消除了拼写变异等干扰因素，使得机器学习模型能够更精准地捕捉作家特有的风格指纹，推动了计算人文领域的方法论革新。

实际应用

在教育科技领域，该语料库可作为文学风格教学的数字化案例，帮助学生直观理解作家风格特征。出版行业则利用其构建作者风格模型辅助文本鉴定，数字人文项目更将其作为19世纪末美国文学语言研究的基础资源，为文化遗产的数字化保存提供技术支撑。

数据集最近研究