British Library Corpus

github2024-02-27 更新2024-05-31 收录

下载链接：

https://github.com/stefan-it/blbooks-lms

下载链接

链接失效反馈

官方服务：

资源简介：

英国图书馆语料库，用于预训练多种语言模型，仅包含1800年至1900年间的英文文本，总大小为24GB。

The British Library Corpus, utilized for pre-training various language models, exclusively comprises English texts from the period between 1800 and 1900, with a total size of 24GB.

创建时间：

2023-01-28

原始信息汇总

数据集概述

数据集名称

British Library Corpus

数据集来源

可通过British Library和Datasets Hub获取。

数据集处理

过滤步骤：
- 使用langdetect提取仅包含英语的文本。
- 仅包含1800年至1900年之间的文本。
最终大小：24GB。

词汇生成

BERT/ELECTRA和ConvBERT：使用32k wordpiece词汇，基于整个语料库训练。
T5：使用32k词汇，通过sentencepiece训练。

预训练模型

模型列表：
- BERT
- ConvBERT
- ELECTRA
- T5
预训练资源：使用Google的TPU Research Cloud (TRC)提供的v3-32 TPU pod。

模型库

模型名称：
- bert-base-blbooks-cased
- electra-base-blbooks-cased-discriminator
- electra-base-blbooks-cased-generator
- convbert-base-blbooks-cased
- t5-efficient-blbooks-small-el32
- t5-efficient-blbooks-base-nl36
- t5-efficient-blbooks-large-nl36
预训练时间：从0.81天到3.83天不等。
参数数量：从34,646,272到1,090,051,072不等。

评估

评估数据集：AjMC dataset from HIPE-2022 Shared Task。
评估工具：Flair library。
评估结果：
- BERT：F1-Score 85.92 ± 0.53
- ELECTRA：F1-Score 85.53 ± 0.61
- ConvBERT：F1-Score 86.43 ± 0.82
- T5-Small：F1-Score 84.12 ± 1.11
- T5-Base：F1-Score 85.58 ± 0.62
- T5-Large：F1-Score 85.91 ± 1.09

搜集汇总

数据集介绍

构建方式

British Library Corpus的构建过程体现了对历史文本的深度挖掘与精细处理。该数据集源自大英图书馆的数字化书籍，通过`langdetect`工具筛选出纯英文文本，并限定时间范围为1800年至1900年之间的文献。最终，经过严格过滤的语料库规模达到24GB，涵盖了丰富的19世纪英语文本资源。词汇生成方面，针对BERT、ELECTRA和ConvBERT模型，采用了统一的32k WordPiece词汇表；而对于T5模型，则使用SentencePiece训练了32k词汇表，确保了模型在处理历史文本时的语言适应性。

特点

British Library Corpus以其独特的历史文本资源为核心特点，为研究19世纪英语语言演变提供了宝贵的数据支持。该数据集不仅规模庞大，还经过精细的筛选与处理，确保了文本的纯正性与时间范围的准确性。此外，针对不同预训练模型（如BERT、ELECTRA、ConvBERT和T5）的词汇表生成与训练过程，进一步提升了模型在历史文本任务中的表现。数据集的多样性与专业性使其成为历史语言学、自然语言处理等领域的重要研究工具。

使用方法

British Library Corpus的使用方法主要围绕预训练语言模型的开发与评估展开。用户可通过Hugging Face的Datasets Hub获取该数据集，并利用其训练BERT、ELECTRA、ConvBERT和T5等模型。在模型训练过程中，建议参考项目提供的详细文档，如词汇生成与预训练步骤的具体说明。此外，数据集还支持在AjMC数据集上进行模型评估，用户可使用Flair库加载数据并进行超参数搜索，以优化模型性能。通过这一系列操作，研究者能够深入挖掘历史文本的语言特征，并推动相关领域的技术进步。

背景与挑战

背景概述

British Library Corpus数据集由BigScience项目下的“历史文本语言模型”工作组于2023年1月27日首次发布，旨在为历史文本的自然语言处理研究提供支持。该数据集源自大英图书馆的数字化书籍，涵盖了1800年至1900年间的英文文本，经过严格的筛选和预处理，最终形成一个24GB的语料库。该数据集的核心研究问题在于如何利用大规模历史文本训练语言模型，以提升对历史文献的理解和分析能力。其发布不仅推动了历史文本处理领域的发展，还为研究者提供了丰富的资源，促进了跨学科研究的深入。

当前挑战

British Library Corpus数据集在构建和应用过程中面临多重挑战。首先，历史文本的语言风格与现代文本存在显著差异，如何准确捕捉并处理这些差异是模型训练中的一大难题。其次，数据集的筛选和预处理过程复杂，需通过`langdetect`工具提取英文文本，并限定时间范围，确保数据的质量和一致性。此外，训练大规模语言模型对计算资源要求极高，尽管借助了Google的TPU Research Cloud，仍需优化训练策略以提升效率。最后，如何在不同模型架构（如BERT、ELECTRA、T5等）上实现高效预训练，并确保其在具体任务（如命名实体识别）中的表现，也是亟待解决的问题。

常用场景

经典使用场景

British Library Corpus 数据集在历史文本的自然语言处理研究中扮演了重要角色。该数据集主要用于预训练语言模型，特别是针对19世纪的英文文本。通过过滤和筛选，数据集确保了文本的语言一致性和时间范围，使其成为研究历史语言变迁和文本分析的理想资源。研究人员可以利用该数据集训练BERT、ELECTRA、ConvBERT和T5等模型，以探索历史文本的语言特征和语义结构。

解决学术问题

British Library Corpus 数据集解决了历史文本处理中的多个学术问题。首先，它提供了大量19世纪的英文文本，填补了历史语言数据集的空白。其次，通过预训练语言模型，研究人员能够更好地理解历史文本的语言模式和语义变化。此外，该数据集还为跨时代的语言比较研究提供了基础，帮助学者揭示语言演变的规律和趋势。

衍生相关工作

基于 British Library Corpus 数据集，许多经典的研究工作得以展开。例如，BigScience 项目中的“历史文本语言模型”工作组利用该数据集预训练了多种语言模型，包括BERT、ELECTRA、ConvBERT和T5。这些模型在历史文本的命名实体识别、文本分类和语义分析等任务中表现出色。此外，该数据集还推动了历史文本处理领域的标准化和评估方法的发展，为后续研究提供了重要的参考和基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集