five

NationalLibraryOfScotland/encyclopaedia-britannica-lance

收藏
Hugging Face2026-02-03 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/NationalLibraryOfScotland/encyclopaedia-britannica-lance
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc0-1.0 task_categories: - image-to-text - text-generation language: - en tags: - lance - historical - ocr - encyclopaedia - britannica - 18th-century - 19th-century pretty_name: Encyclopaedia Britannica (1771-1860) size_categories: - 100K<n<1M --- # Encyclopaedia Britannica (1771-1860) - Lance Format This dataset contains 155,388 digitized pages from the Encyclopaedia Britannica, spanning editions from 1771 to 1860. The data is stored in **Lance format** for efficient streaming and lazy image loading. ## Dataset Details - **Total Pages**: 155,388 - **Total Volumes**: 195 - **Format**: Lance (columnar format with blob storage for images) - **Source**: National Library of Scotland (NLS) - **License**: Public Domain (CC0) ## Loading the Dataset ```python import lance # Load from Hugging Face Hub ds = lance.dataset("hf://datasets/davanstrien/encyclopaedia-britannica-lance-test/data/train.lance") # Check total rows print(f"Total pages: {ds.count_rows()}") # Sample a few rows (metadata only, images are lazy-loaded) sample = ds.take([0, 100, 1000]).to_pydict() for i, idx in enumerate([0, 100, 1000]): print(f"Page {idx}: {sample['volume_part'][i]}") ``` ## Schema | Field | Type | Description | |-------|------|-------------| | `volume_id` | string | NLS volume identifier | | `page_number` | int32 | Page number within volume | | `file_identifier` | string | Base filename identifier | | `image` | binary (blob) | Page image (JPEG, lazy-loaded) | | `text` | string | OCR text extracted from ALTO XML | | `alto_xml` | string | Raw ALTO XML with full OCR structure | | `has_image` | bool | Whether page has image | | `has_alto` | bool | Whether page has ALTO XML | | `edition` | string | Edition name (e.g., "First edition") | | `volume_part` | string | Full volume description | | `publication_year` | string | Year of publication | | `editor` | string | Editor name | | `full_title` | string | Full bibliographic title | | `shelf_locator` | string | NLS shelf location | ## Editions Included - First edition (1771) - Second edition (1778-1783) - Third edition (1788-1797) - Fourth edition (1801-1810) - Fifth edition (1815-1817) - Sixth edition (1820-1823) - Seventh edition (1830-1842) - Supplement editions ## Source Original data from the [National Library of Scotland Data Foundry](https://data.nls.uk/data/digitised-collections/encyclopaedia-britannica/).

license: CC0 1.0 task_categories: - 图像到文本 - 文本生成 language: - 英语 tags: - Lance - 历史 - OCR(Optical Character Recognition,光学字符识别) - 百科全书 - 大英百科全书 - 18世纪 - 19世纪 pretty_name: 大英百科全书(1771-1860) size_categories: - 10万<样本量<100万 --- # 大英百科全书(1771-1860)——Lance 格式 本数据集包含155,388页源自1771年至1860年各版《大英百科全书》的数字化页面。数据以**Lance 格式**存储,可实现高效流式读取与延迟图像加载。 ## 数据集详情 - **总页面数**:155,388 - **总卷数**:195 - **存储格式**:Lance(面向列的存储格式,搭配用于存储图像的二进制大对象) - **数据来源**:苏格兰国家图书馆(National Library of Scotland,NLS) - **许可证**:公共领域(CC0) ## 数据集加载 python import lance # 从 Hugging Face Hub 加载数据集 ds = lance.dataset("hf://datasets/davanstrien/encyclopaedia-britannica-lance-test/data/train.lance") # 查看总条目数 print(f"总页面数:{ds.count_rows()}") # 采样少量条目(仅加载元数据,图像采用延迟加载) sample = ds.take([0, 100, 1000]).to_pydict() for i, idx in enumerate([0, 100, 1000]): print(f"第 {idx} 页:{sample['volume_part'][i]}") ## 数据 Schema | 字段名 | 数据类型 | 描述 | |-------|----------|------| | `volume_id` | 字符串 | 苏格兰国家图书馆卷册标识符 | | `page_number` | int32 | 卷内页码 | | `file_identifier` | 字符串 | 基础文件名标识符 | | `image` | 二进制(大对象) | 页面图像(JPEG 格式,延迟加载) | | `text` | 字符串 | 从 ALTO XML 中提取的 OCR 文本 | | `alto_xml` | 字符串 | 包含完整 OCR 结构的原始 ALTO XML | | `has_image` | 布尔值 | 页面是否包含图像 | | `has_alto` | 布尔值 | 页面是否包含 ALTO XML | | `edition` | 字符串 | 版本名称(例如“第一版”) | | `volume_part` | 字符串 | 完整卷册描述 | | `publication_year` | 字符串 | 出版年份 | | `editor` | 字符串 | 主编姓名 | | `full_title` | 字符串 | 完整书目标题 | | `shelf_locator` | 字符串 | 苏格兰国家图书馆馆藏架位号 | ## 收录版本 - 第一版(1771年) - 第二版(1778-1783年) - 第三版(1788-1797年) - 第四版(1801-1810年) - 第五版(1815-1817年) - 第六版(1820-1823年) - 第七版(1830-1842年) - 增补版 ## 数据来源 原始数据源自[苏格兰国家图书馆数据工坊](https://data.nls.uk/data/digitised-collections/encyclopaedia-britannica/)。
提供机构:
NationalLibraryOfScotland
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作