CCB/cis5300-language-models
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/CCB/cis5300-language-models
下载链接
链接失效反馈官方服务:
资源简介:
该数据集支持两个主要任务:1. 莎士比亚文本生成:使用莎士比亚的作品(约4.5 MB,167K行)训练字符级n-gram语言模型,生成莎士比亚风格的文本。2. 城市名称分类:根据城市名称的字符模式分类其所属国家(包括阿富汗、中国、德国、芬兰、法国、印度、伊朗、巴基斯坦和南非)。数据集包含训练集、验证集和测试集,以及补充文件如莎士比亚的十四行诗和新闻文章。
This dataset supports two main tasks: 1. Shakespeare Text Generation: Training character-level n-gram language models using Shakespeares collected works (~4.5 MB, 167K lines) to generate Shakespeare-style text. 2. City Name Classification: Classifying city names by country of origin using character-level language models (countries include Afghanistan, China, Germany, Finland, France, India, Iran, Pakistan, and South Africa). The dataset includes training, validation, and test sets, as well as supplementary files such as Shakespeares sonnets and news articles.
提供机构:
CCB
搜集汇总
数据集介绍

构建方式
该数据集源自宾夕法尼亚大学CIS 5300自然语言处理课程的三号作业,旨在通过实践深化对n-gram语言模型的理解。数据集的构建融合了两大模块:其一为莎士比亚文本语料库,采集自Project Gutenberg的公共领域作品,包含约450万字符的完整戏剧与诗歌,用于训练字符级n-gram模型;其二为城市名称分类数据,基于GeoNames地理数据库(CC BY 4.0许可)精心筛选了来自阿富汗、中国、德国、芬兰、法国、印度、伊朗、巴基斯坦、南非九个国家的城市名称,共计12392条训练样本,每个样本均标注了城市名称、国家代码及完整国名,形成层次分明的监督学习框架。
特点
该数据集最显著的特质在于其双任务协同设计,将语言模型的理论学习与分类应用无缝衔接。莎士比亚文本支持从一阶到七阶的渐进式n-gram模型构建,配合《莎士比亚十四行诗》与《纽约时报》文章组成跨域困惑度评估体系,可深入探索模型阶数与平滑策略的影响。城市名称分类子集则巧妙利用各国城市命名的字符分布差异(如德语城市常以-burg结尾,中文城市音节结构独特),通过字符级语言模型实现多类别判别,既验证生成式模型在判别任务中的迁移能力,又呈现了语言学模式与机器学习算法的精妙结合。
使用方法
使用者可通过Hugging Face Datasets库便捷加载城市分类数据,调用load_dataset('CCB/cis5300-language-models', 'cities')获取划分为训练、验证、测试三组的数据集,其中测试集另附无标签版本供模型预测。莎士比亚文本则需通过hf_hub_download下载shakespeare.txt等独立文件,辅以shakespeare_sonnets.txt与nytimes_article.txt用于模型优化与跨域评估。典型工作流程涵盖:在莎士比亚语料上训练字符级n-gram模型并应用Add-k平滑,通过困惑度调节插值权重,最终将习得的语言模型应用于城市名称分类任务,以国家标签为基准评估分类准确率,形成完整的理论验证闭环。
背景与挑战
背景概述
该数据集由宾夕法尼亚大学Chris Callison-Burch团队于2026年创建,旨在为自然语言处理课程CIS 5300提供教学支持。其核心研究问题聚焦于字符级n-gram语言模型的构建与应用,包括莎士比亚文本生成与基于城市名称的国家分类任务。通过整合来自GeoNames的全球化城市名称数据与公共领域的莎士比亚语料库,数据集不仅支持语言模型的基础训练与评估,还引入了跨域困惑度分析(如《纽约时报》文章),推动了对模型泛化能力的探究。该数据集在教育领域具有显著影响力,为学生在实践中理解语言模型原理提供了标准化基准。
当前挑战
在领域问题层面,数据集面临的主要挑战包括:如何利用有限的字符级特征(如城市名称的拼写模式)实现多语言国家分类,以及如何解决n-gram模型在跨域文本(如新闻与文学)上的迁移性能退化。在构建过程中,挑战体现为:城市名称数据的多语言异质性(如德语与中文的字符分布差异)要求精心的特征对齐;莎士比亚语料库的古英语表达与现代文本的统计分布冲突增加了模型平滑与插值策略的设计难度;此外,小样本分类(如仅含10个国家的标签空间)与数据稀疏性(n>3时)对模型鲁棒性提出了严峻考验。
常用场景
经典使用场景
在自然语言处理教学中,该数据集被广泛用于构建和评估字符级n元语法语言模型。学生通过处理莎士比亚全集文本,依次训练从一元到七元的不同阶数模型,借此理解语言模型的核心原理,包括概率估计、序列生成以及模型阶数对文本质量的影响。同时,数据集中的城市名称分类任务则提供了一个将语言模型应用于实际问题的高效途径,利用不同国家城市名称的字符分布差异,训练分类器识别城市所属国家,从而深化对语言模型特征提取能力的认知。
实际应用
在实际应用中,该数据集所承载的城市名称分类任务可迁移至地理信息检索、人口迁移分析以及文化遗产保护等领域。例如,通过训练类似的语言模型,能够自动识别来自不同语言背景的姓名、地名或机构名称,辅助多语言数据清洗与标注工作。此外,莎士比亚文本生成任务所培养的字符级语言建模技术,可应用于古文字修复、文学文本风格模拟以及语音合成系统中音素序列的生成,展现出从课堂实验到产业落地的广泛潜力。
衍生相关工作
围绕该数据集,衍生了一系列关于平滑算法与模型插值的经典教学实践。研究者基于n元语言模型在莎士比亚文本上的表现,深入探讨了加k平滑对稀疏数据概率估计的改善作用,并利用不同阶数模型的插值融合实现了更稳健的语言建模效果。城市分类任务则激发了关于字符级特征在文本分类中有效性的讨论,相关工作进一步将类似方法拓展至作者归因、方言识别以及社交媒体文本的地理定位等领域,形成了以字符级n元模型为基石的系列研究范式。
以上内容由遇见数据集搜集并总结生成



