NationalLibraryOfScotland/encyclopaedia-britannica-lance
收藏Hugging Face2026-02-03 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/NationalLibraryOfScotland/encyclopaedia-britannica-lance
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc0-1.0
task_categories:
- image-to-text
- text-generation
language:
- en
tags:
- lance
- historical
- ocr
- encyclopaedia
- britannica
- 18th-century
- 19th-century
pretty_name: Encyclopaedia Britannica (1771-1860)
size_categories:
- 100K<n<1M
---
# Encyclopaedia Britannica (1771-1860) - Lance Format
This dataset contains 155,388 digitized pages from the Encyclopaedia Britannica, spanning editions from 1771 to 1860. The data is stored in **Lance format** for efficient streaming and lazy image loading.
## Dataset Details
- **Total Pages**: 155,388
- **Total Volumes**: 195
- **Format**: Lance (columnar format with blob storage for images)
- **Source**: National Library of Scotland (NLS)
- **License**: Public Domain (CC0)
## Loading the Dataset
```python
import lance
# Load from Hugging Face Hub
ds = lance.dataset("hf://datasets/davanstrien/encyclopaedia-britannica-lance-test/data/train.lance")
# Check total rows
print(f"Total pages: {ds.count_rows()}")
# Sample a few rows (metadata only, images are lazy-loaded)
sample = ds.take([0, 100, 1000]).to_pydict()
for i, idx in enumerate([0, 100, 1000]):
print(f"Page {idx}: {sample['volume_part'][i]}")
```
## Schema
| Field | Type | Description |
|-------|------|-------------|
| `volume_id` | string | NLS volume identifier |
| `page_number` | int32 | Page number within volume |
| `file_identifier` | string | Base filename identifier |
| `image` | binary (blob) | Page image (JPEG, lazy-loaded) |
| `text` | string | OCR text extracted from ALTO XML |
| `alto_xml` | string | Raw ALTO XML with full OCR structure |
| `has_image` | bool | Whether page has image |
| `has_alto` | bool | Whether page has ALTO XML |
| `edition` | string | Edition name (e.g., "First edition") |
| `volume_part` | string | Full volume description |
| `publication_year` | string | Year of publication |
| `editor` | string | Editor name |
| `full_title` | string | Full bibliographic title |
| `shelf_locator` | string | NLS shelf location |
## Editions Included
- First edition (1771)
- Second edition (1778-1783)
- Third edition (1788-1797)
- Fourth edition (1801-1810)
- Fifth edition (1815-1817)
- Sixth edition (1820-1823)
- Seventh edition (1830-1842)
- Supplement editions
## Source
Original data from the [National Library of Scotland Data Foundry](https://data.nls.uk/data/digitised-collections/encyclopaedia-britannica/).
license: CC0 1.0
task_categories:
- 图像到文本
- 文本生成
language:
- 英语
tags:
- Lance
- 历史
- OCR(Optical Character Recognition,光学字符识别)
- 百科全书
- 大英百科全书
- 18世纪
- 19世纪
pretty_name: 大英百科全书(1771-1860)
size_categories:
- 10万<样本量<100万
---
# 大英百科全书(1771-1860)——Lance 格式
本数据集包含155,388页源自1771年至1860年各版《大英百科全书》的数字化页面。数据以**Lance 格式**存储,可实现高效流式读取与延迟图像加载。
## 数据集详情
- **总页面数**:155,388
- **总卷数**:195
- **存储格式**:Lance(面向列的存储格式,搭配用于存储图像的二进制大对象)
- **数据来源**:苏格兰国家图书馆(National Library of Scotland,NLS)
- **许可证**:公共领域(CC0)
## 数据集加载
python
import lance
# 从 Hugging Face Hub 加载数据集
ds = lance.dataset("hf://datasets/davanstrien/encyclopaedia-britannica-lance-test/data/train.lance")
# 查看总条目数
print(f"总页面数:{ds.count_rows()}")
# 采样少量条目(仅加载元数据,图像采用延迟加载)
sample = ds.take([0, 100, 1000]).to_pydict()
for i, idx in enumerate([0, 100, 1000]):
print(f"第 {idx} 页:{sample['volume_part'][i]}")
## 数据 Schema
| 字段名 | 数据类型 | 描述 |
|-------|----------|------|
| `volume_id` | 字符串 | 苏格兰国家图书馆卷册标识符 |
| `page_number` | int32 | 卷内页码 |
| `file_identifier` | 字符串 | 基础文件名标识符 |
| `image` | 二进制(大对象) | 页面图像(JPEG 格式,延迟加载) |
| `text` | 字符串 | 从 ALTO XML 中提取的 OCR 文本 |
| `alto_xml` | 字符串 | 包含完整 OCR 结构的原始 ALTO XML |
| `has_image` | 布尔值 | 页面是否包含图像 |
| `has_alto` | 布尔值 | 页面是否包含 ALTO XML |
| `edition` | 字符串 | 版本名称(例如“第一版”) |
| `volume_part` | 字符串 | 完整卷册描述 |
| `publication_year` | 字符串 | 出版年份 |
| `editor` | 字符串 | 主编姓名 |
| `full_title` | 字符串 | 完整书目标题 |
| `shelf_locator` | 字符串 | 苏格兰国家图书馆馆藏架位号 |
## 收录版本
- 第一版(1771年)
- 第二版(1778-1783年)
- 第三版(1788-1797年)
- 第四版(1801-1810年)
- 第五版(1815-1817年)
- 第六版(1820-1823年)
- 第七版(1830-1842年)
- 增补版
## 数据来源
原始数据源自[苏格兰国家图书馆数据工坊](https://data.nls.uk/data/digitised-collections/encyclopaedia-britannica/)。
提供机构:
NationalLibraryOfScotland



