five

EB7

收藏
Hugging Face2025-11-11 更新2025-11-12 收录
下载链接:
https://huggingface.co/datasets/pnugues/EB7
下载链接
链接失效反馈
官方服务:
资源简介:
EB7数据集包含《大英百科全书》第7版的条目文本,以及从中自动提取的地理坐标信息。每个条目都包括一个唯一的标识符、文本内容、地理坐标(如果有的话)以及一个免责声明。
创建时间:
2025-11-10
原始信息汇总

EB7数据集概述

数据集基本信息

  • 名称:EB7
  • 许可证:CC-BY-4.0
  • 任务类别:文本分类
  • 语言:英语
  • 数据规模:10万到100万条之间

数据来源

  • 原始文本:来自《大英百科全书》第七版(EB7)条目文本
  • 来源项目:Nineteenth-Century Knowledge Project
  • 来源网址:https://tu-plogan.github.io/source/r_7th_edition.html

数据结构

每个样本为JSON格式字典,包含以下字段:

  • id:条目在Nineteenth-Century Knowledge Project中的标识符
  • texte:条目文本内容
  • coords:自动提取的地理坐标(如有)
  • disclamer:版权声明和来源信息

数据示例

json { "texte": "NARLAH, a town of Hindustan, in the province of Orissa, possessed by independent native chiefs. It is thirty miles east from the town of Bustar. Long. 83. 5. E. Lat. 19. 50. N. 0", "id": "kp-eb0715-073501-8764", "disclamer": "ENCYCLOPEDIA BRITANNICA, SEVENTH EDITION: A MACHINE-READABLE TEXT TRANSCRIPTION (v3.1), The Nineteenth-Century Knowledge Project, 2024 nckp@temple.edu, https://tu-plogan.github.io/. License: CC-BY-4.0, https://creativecommons.org/licenses/by/4.0/. Source: Encyclopaedia Britannica: A Dictionary of Arts, Sciences, and General Literature. 7th ed., 21 vols. Edinburgh: Adam and Charles Black, 1830-1842. Image scans: Natl. Library of Scotland. This entry: 7th edition, volume 15, page 735 [7:15:735]", "coords": "19 50 N 83 5 E" }

相关资源

  • 坐标可视化:https://cdn-uploads.huggingface.co/production/uploads/66f656f41c540729cb56e01e/2A6bANREqSI95h8bve0Zj.png
  • 提取和可视化代码:https://github.com/pnugues/EB7

引用信息

@misc{pnugues2025, author = {Pierre Nugues}, title = {Extraction of geographical coordinates from the 7th edition of Encyclopædia Britannica}, year = 2025, url = {https://huggingface.co/datasets/pnugues/EB7} }

搜集汇总
数据集介绍
main_image_url
构建方式
作为19世纪英语世界最具权威性的知识汇编工程,EB7数据集的构建基于《大英百科全书》第七版原始文本的数字化转录。该过程通过自动化技术从条目文本中提取地理坐标信息,同时保留每一条目的完整文本内容及其在第十九世纪知识项目中的标识符。数据来源经美国天普大学的知识工程项目系统化处理,确保转录文本与爱丁堡原始出版版本的高度一致性。
特点
该数据集最显著的特征在于将历史文献与现代地理信息系统相结合,每个数据实例不仅包含完整的条目文本,还附有经度纬度坐标的标准化表达。其空间覆盖范围从图示可见遍布全球主要地理单元,坐标数据与文本描述形成互补印证。数据规模达到十万至百万级别,采用CC-BY-4.0开放许可,为研究19世纪地理认知与知识表征提供了独特的多模态资源。
使用方法
研究者可通过HuggingFace平台直接加载该数据集,利用其JSON格式的结构化数据开展历史地理学或知识演化研究。每条记录包含的坐标字段支持地理空间可视化分析,而完整文本内容则适用于自然语言处理任务。配套的GitHub仓库提供了数据提取与可视化代码,建议使用者遵循CC-BY-40协议规范进行学术引用,具体格式可参照数据集卡片提供的标准文献著录模板。
背景与挑战
背景概述
作为英语世界最具权威性的参考著作,《大英百科全书》第七版(EB7)由亚当与查尔斯·布莱克出版社于1830至1842年间在爱丁堡出版发行,共21卷。该数据集由皮埃尔·努格斯主导构建,通过十九世纪知识计划对原始文献进行数字化转录,不仅完整保留了词条文本内容,还创新性地实现了地理坐标的自动化提取。这一工作为历史地理语言学与数字人文研究提供了珍贵的语料库,使学者能够系统性分析19世纪知识体系的空间分布特征。
当前挑战
在历史文献数字化领域,EB7数据集需解决从非结构化文本中精准识别地理实体的核心难题。构建过程中面临双重挑战:其一是19世纪地名表述存在拼写变体与历史行政划分差异,要求坐标提取算法具备时空语境理解能力;其二是原始扫描文档的字符识别误差与版面噪声,需要设计多模态校验机制确保文本转录的完整性。这些技术瓶颈直接影响了地理空间分析的精度与覆盖范围。
常用场景
经典使用场景
在历史地理学和数字人文领域,EB7数据集作为19世纪知识体系的重要载体,其经典应用聚焦于文本挖掘与地理信息系统的交叉研究。学者们通过解析条目中的地理坐标与文本描述,能够重构历史时期的地理认知网络,揭示殖民时代知识传播的空间分布特征,这种基于机器可读文本的分析方法为传统文献研究注入了计算思维的新维度。
解决学术问题
该数据集有效解决了历史文献数字化过程中的关键挑战,即非结构化文本的空间信息提取难题。通过自动化坐标解析技术,它将散见于百科全书的隐性地理知识转化为结构化数据,为研究19世纪欧洲中心主义世界观提供了量化依据,同时推动了历史地理信息系统(HGIS)领域的方法论创新,使大规模历史空间数据的交叉验证成为可能。
衍生相关工作
基于EB7衍生的经典研究包括《十九世纪知识图谱构建》等开创性工作,这些研究通过结合命名实体识别与空间统计分析,重建了百科全书的知识网络拓扑。后续学者进一步开发了多模态检索系统,将文本描述与地图坐标进行动态关联,催生了“空间人文计算”这一新兴交叉学科,为数字人文研究范式转型提供了重要案例支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作