baum-corpus
收藏Hugging Face2025-10-26 更新2025-10-27 收录
下载链接:
https://huggingface.co/datasets/contextlab/baum-corpus
下载链接
链接失效反馈官方服务:
资源简介:
L. Frank Baum(弗兰克·鲍姆)作品全集,经过预处理后用于计算风格学研究的数据集。包含14本鲍姆的作品,文本转换为小写并去除了非叙事内容,适用于风格分析、语言模型训练等领域。
创建时间:
2025-10-26
原始信息汇总
L. Frank Baum Corpus 数据集概述
数据集基本信息
- 数据集名称: ContextLab L. Frank Baum Corpus
- 作者: L. Frank Baum (1856-1919)
- 语言: 英语
- 许可证: MIT License
- 任务类别: 文本生成
- 标签: 风格计量学、作者归属、文学分析、鲍姆、经典文学、古腾堡计划
- 规模: 1K<n<10K
- 格式: 纯文本文件(.txt)
数据集内容
- 书籍数量: 14本
- 总字符数: 3,354,451
- 总词数: 约617,021
- 平均书籍长度: 239,603字符
- 数据来源: 古腾堡计划
包含书籍列表
| 文件名 | 书名 |
|---|---|
22566.txt |
The Emerald City of Oz |
26624.txt |
The Patchwork Girl of Oz |
30852.txt |
Tik-Tok of Oz |
33361.txt |
The Scarecrow of Oz |
39868.txt |
Rinkitink in Oz |
41667.txt |
The Lost Princess of Oz |
43936.txt |
The Tin Woodman of Oz |
50194.txt |
The Magic of Oz |
52176.txt |
Glinda of Oz |
54.txt |
The Wonderful Wizard of Oz |
955.txt |
The Marvelous Land of Oz |
957.txt |
Ozma of Oz |
958.txt |
Dorothy and the Wizard in Oz |
959.txt |
The Road to Oz |
数据特征
- 文本处理: 全部转换为小写
- 格式: UTF-8纯文本
- 保留内容: 标点符号和段落分隔
- 移除内容: 古腾堡计划页眉页脚、章节标题、非叙述性文本
数据字段
- text: 完整书籍文本(小写,已清理)
- filename: 古腾堡计划ID
预期用途
- 风格计量学研究
- 语言模型训练
- 文学分析
- 历史自然语言处理
- 教育用途
使用限制
- 不适用于区分大小写的文本分析
- 仅包含公共领域作品
- 反映19世纪末至20世纪初的语言特征
引用信息
bibtex @article{StroEtal25, title={A Stylometric Application of Large Language Models}, author={Stropkay, Harrison F. and Chen, Jiayi and Jabelli, Mohammad J. L. and Rockmore, Daniel N. and Manning, Jeremy R.}, journal={arXiv preprint arXiv:XXXX.XXXXX}, year={2025} }
相关资源
- 数据集维护: ContextLab,达特茅斯学院
- 代码仓库: https://github.com/ContextLab/llm-stylometry
- 联系方式: Jeremy R. Manning (jeremy.r.manning@dartmouth.edu)
搜集汇总
数据集介绍

构建方式
在文学计算分析领域,该数据集的构建体现了严谨的文本处理流程。所有原始文本均源自古登堡计划这一权威公共领域数字图书馆,涵盖L. Frank Baum创作的14部经典文学作品。通过系统化的预处理流程,研究人员移除了版权声明、章节标题等非叙事性内容,同时将全部文本转换为小写格式以消除大小写变量对文体特征分析的干扰。这种标准化处理不仅保留了原文的段落结构与标点符号,更为计算文体学研究提供了纯净的语料基础。
使用方法
针对不同研究需求,该数据集提供了灵活多样的应用方式。研究者可通过Hugging Face数据集库直接加载完整语料或指定单本著作,亦能通过文件下载接口获取原始文本数据。在具体应用层面,该数据集特别适用于语言模型训练任务,用户可结合GPT-2等模型架构进行作者风格建模。同时,内置的文本统计功能支持快速获取字符数量、词汇分布等基础指标,为文学计量研究提供便捷的技术支持。
背景与挑战
背景概述
在计算文体学领域,对作家独特写作风格的量化分析一直是文学计算研究的核心议题。鲍姆语料库由ContextLab研究团队于2025年创建,收录了美国作家L. Frank Baum的14部经典文学作品,包括《绿野仙踪》系列全集。该数据集源自古登堡计划的公共领域文本,经过系统化预处理后专门用于支持论文《大型语言模型的文体计量应用》中的实证研究,为探索传统文学分析与现代自然语言处理技术的交叉融合提供了重要数据基础。
当前挑战
该数据集致力于解决作家风格识别这一经典文体学问题的挑战,包括在跨作品语境中捕捉稳定的语言特征模式,以及区分作者个人风格与时代语言惯例的复杂交互。在构建过程中面临多重技术障碍:原始文本需精确剥离古登堡项目特有的版权声明与章节标题,同时保持叙事结构的完整性;全小写转换策略虽统一了文本表征,却可能导致专有名词识别困难;历史语料中的拼写变体与当代英语的差异亦增加了特征提取的复杂度。
常用场景
解决学术问题
该数据集有效解决了传统文学研究中主观判断主导的局限性,通过可量化的文本特征为作者归属问题提供实证支持。其预处理流程特别针对文体分析需求设计,消除了拼写变异等干扰因素,使得机器学习模型能够更精准地捕捉作家特有的风格指纹,推动了计算人文领域的方法论革新。
实际应用
在教育科技领域,该语料库可作为文学风格教学的数字化案例,帮助学生直观理解作家风格特征。出版行业则利用其构建作者风格模型辅助文本鉴定,数字人文项目更将其作为19世纪末美国文学语言研究的基础资源,为文化遗产的数字化保存提供技术支撑。
数据集最近研究
最新研究方向
在计算文体学领域,鲍姆语料库作为经典文学分析的重要资源,其最新研究方向聚焦于大语言模型在作者风格识别中的创新应用。该数据集通过预处理标准化文本,为探索L.弗兰克·鲍姆的独特叙事风格提供了基准数据,尤其在《绿野仙踪》系列作品的词汇选择与句法模式分析中展现出显著价值。当前研究热点围绕生成式模型与文体特征提取的交叉融合,通过对比不同时期作家的语言特征,揭示文学风格演变的深层规律。这一进展不仅推动了数字人文领域的方法论革新,更为文化遗产的智能化保护提供了技术支撑。
以上内容由遇见数据集搜集并总结生成



