five

contextlab/austen-corpus

收藏
Hugging Face2025-10-28 更新2025-11-01 收录
下载链接:
https://hf-mirror.com/datasets/contextlab/austen-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
Jane Austen作品集,包含简·奥斯汀(1775-1817)的作品,经过计算风格学研究的预处理。这些文本来源于Project Gutenberg,并已清除用于论文[大规模语言模型的风格学应用](https://arxiv.org/abs/2510.21958) (Stropkay等人,2025年)的Project Gutenberg头部、尾部和章节标题,以专注于作者散文风格。该语料库包括简·奥斯汀的7本书,包括《傲慢与偏见》、《理智与情感》和《艾玛》。所有文本都转换为小写。

The Jane Austen Corpus is a dataset containing the works of Jane Austen (1775-1817), preprocessed for computational stylometry research. The texts were sourced from Project Gutenberg and cleaned for use in the paper A Stylometric Application of Large Language Models (Stropkay et al., 2025). The corpus includes 7 books by Jane Austen, including Pride and Prejudice, Sense and Sensibility, and Emma, all converted to lowercase.
提供机构:
contextlab
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作