edda-coordinata
收藏Hugging Face2026-03-02 更新2026-03-03 收录
下载链接:
https://huggingface.co/datasets/GEODE/edda-coordinata
下载链接
链接失效反馈官方服务:
资源简介:
EDDA-Coordinata 是一个从18世纪狄德罗和达朗贝尔的《百科全书》中提取的丰富地理坐标的金标准数据集。该数据集旨在支持训练和评估用于检索和规范化历史地理坐标的模型,这些坐标通常以不同精度和非标准表示法表达。数据集包含15,278个条目,其中4,798个条目包含手动识别的显式坐标,10,480个条目包含描述性位置信息而无数值坐标。坐标以JSON字典形式提供,每个条目包含id-enccre、headword、text、coordinates和meridian等字段。空间几何类型包括点、矩形(边界框)、多边形链和序列。数据集还提供了精度统计,如度分(DM)、度(D)和度分秒(DMS)格式的条目数量。坐标通常以巴黎子午线为参考,转换为现代十进制度需调整约-17.66°。数据集通过双重标注过程构建,初始一致性为0.981(点)和0.523(面),并通过协作系统审查解决差异以确保三重检查的金标准。数据集适用于历史地理学领域的研究和应用。
创建时间:
2026-02-22
原始信息汇总
EDDA-Coordinata 数据集概述
数据集简介
EDDA-Coordinata 是一个从18世纪狄德罗和达朗贝尔的《百科全书》中提取的、经过富集的地理坐标黄金标准数据集。该数据集旨在支持用于检索和规范化历史地理坐标的模型的训练与评估,这些坐标通常以不同的精度级别和非标准符号表示。
数据集描述
- 作者: Ludovic Moncla、Pierre Nugues、Thierry Joliveau 和 Katherine McDonough,隶属于 GEODE 项目。
- 数据来源: ARTFL Encyclopédie Project、ENCCRE。
- 领域: 历史地理学。
- GitHub 仓库: https://github.com/GEODE-project/edda-coordinata
- 语言: 法语。
- 许可证: cc-by-nc-4.0
数据集结构
数据集以 JSON 字典列表的形式提供。
数据字段
每个条目包含以下六个键:
id-enccre:来自 ENCCRE 条目的唯一标识符。headword:文章的词目。text:文章的原始文本。coordinates:坐标列表,以嵌套列表中的字符串表示。meridian:文本中提及的特定本初子午线(如巴黎、北京、伦敦或隆德)的列表。
空间几何类型
坐标使用嵌套列表来表示不同的几何类型:
- 点: 表示为单例(例如
[["52 10 N 24 36 E"]])。 - 矩形(边界框): 表示为一对字符串(例如
[[6 N 48 E, 20 N 65 E]])。 - 多边形链: 以
pchain为前缀,表示如河流源头等连接点。 - 序列: 以
subart(子条目)或multsrc(多个引用来源)为前缀。
数据集构成
在总共 15,278 个条目中,数据集包含:
- 4,798 个条目:包含手动识别的、显式的坐标。
- 10,480 个条目:包含描述性位置信息,但无数值坐标。
格式良好的坐标点精度统计
数据集捕获了多种历史精度格式:
- 度与分(DM): 3,356 个条目(最常见)。
- 度(D): 116 个条目。
- 度、分、秒(DMS): 221 个条目。
重要说明
数据集中的经度坐标通常参考巴黎子午线(常以耶罗岛作为代理),要转换为相对于格林威治的现代十进制度数,可能需要减少约 -17.66°。
标注过程
数据集通过双重标注流程构建。
- 一致性: 点的初始标注一致性为 0.981,面的初始标注一致性为 0.523。
- 协调: 通过协作式系统审查解决差异,以确保形成经过三重检查的黄金标准。
引用
如果使用 EDDA-Coordinata 数据集或相关模型,请引用我们的 LREC 2026 论文: bibtex @inproceedings{moncla2026edda, title={EDDA-Coordinata: An Annotated Dataset of Historical Geographic Coordinates}, author={Moncla, Ludovic and Nugues, Pierre and Joliveau, Thierry and McDonough, Katherine}, booktitle={Proceedings of the 2026 Language Resources and Evaluation Conference (LREC 2026)}, year={2026}, url={https://arxiv.org/abs/2602.23941} }
搜集汇总
数据集介绍
构建方式
在历史地理学领域,构建高质量的地理坐标数据集对于研究古代地理认知至关重要。EDDA-Coordinata数据集源自18世纪狄德罗与达朗贝尔编纂的《百科全书》,通过双重标注流程精心构建。首先从ARTFL与ENCCRE项目获取原始文本,由专家团队手动识别并提取地理坐标信息;随后采用系统化复核机制,对初始标注结果进行协同审查与纠偏,最终形成经过三重校验的黄金标准数据集,其点坐标标注一致率达0.981,确保了数据的权威性与可靠性。
特点
该数据集在历史地理信息处理领域展现出独特的学术价值。其核心特征在于完整保留了18世纪地理坐标的原始表达形式,涵盖度分秒、度分及纯度数等多种历史精度格式,并明确标注巴黎子午线等特定基准参照。数据结构采用嵌套列表的灵活表示方式,既能描述单点坐标,也可表征矩形边界与多边形链等复杂空间几何形态,同时通过唯一标识符关联原文词条与经纬度信息,为历史地理实体标准化研究提供了多层次分析维度。
使用方法
研究者可借助该数据集开展历史地理坐标的标准化与空间建模工作。使用时应首先解析JSON格式的坐标字段,注意其中包含的巴黎子午线偏移量需通过约-17.66度的换算转换为现代格林威治坐标。对于机器学习任务,可将文本描述与坐标列表作为输入输出对,训练地理实体识别模型;在人文地理研究中,则可结合词条原文与空间几何数据,分析启蒙时期地理知识的表述范式与空间认知特征,相关代码实现可参考项目GitHub仓库提供的处理工具。
背景与挑战
背景概述
在历史地理学和数字人文领域,对古典文献中地理信息的精确提取与标准化是一项基础而关键的研究任务。EDDA-Coordinata数据集由Ludovic Moncla、Pierre Nugues、Thierry Joliveau和Katherine McDonough等学者在GEODE项目框架下创建,其核心研究问题聚焦于从18世纪狄德罗与达朗贝尔编纂的《百科全书》中,系统性地识别、抽取并规范化那些以非标准格式表达的历史地理坐标。该数据集的构建不仅为训练和评估地理信息检索模型提供了黄金标准,也深刻推动了历史地理空间数据的数字化与语义化进程,对理解早期现代地理认知具有重要学术价值。
当前挑战
该数据集旨在解决历史地理坐标的检索与规范化问题,其核心挑战在于处理坐标表达的多样性与非标准性,例如不同精度格式(度、分、秒)的混合使用,以及基于巴黎子午线等历史基准的坐标转换。在构建过程中,标注团队面临了双重挑战:一是从大量文本中准确识别并解析复杂的地理描述,尤其是对于多边形链或序列等空间几何类型的标注;二是通过双重标注与系统复核来保证数据质量,初始标注在点坐标上达成高度一致,而在面状要素的标注上则需通过协同审查以解决分歧,最终形成经过三重校验的黄金标准数据集。
常用场景
经典使用场景
在历史地理学与数字人文领域,EDDA-Coordinata数据集为研究18世纪《百科全书》中的地理坐标表达提供了关键资源。该数据集最经典的使用场景是训练和评估地理坐标检索与标准化模型,这些模型专门处理历史文献中非标准、多变的坐标表示形式,如基于巴黎子午线的度分秒格式。通过提供经过三重校验的黄金标准标注,研究者能够开发算法,自动识别并规范化文本中的坐标信息,从而支持大规模历史地理数据的结构化分析。
实际应用
在实际应用层面,EDDA-Coordinata数据集支持文化遗产数字化与历史地图重建项目。例如,博物馆和档案馆可利用该数据集训练模型,自动提取馆藏文献中的地理坐标,并将其转换为现代十进制格式,便于集成到地理信息系统(GIS)中。这有助于创建交互式历史地图,可视化启蒙时代的地理认知,为教育、旅游和文化保护提供直观的工具,提升公众对历史空间的理解。
衍生相关工作
围绕EDDA-Coordinata数据集,已衍生出多项经典研究工作。这些工作主要集中在历史坐标的自动识别、多基准面转换算法以及时空数据可视化工具的研发上。例如,基于该数据集的模型被应用于其他历史文献的坐标提取项目,扩展了其方法论的应用范围。相关研究还探讨了坐标精度与历史地理知识演变的关系,推动了数字人文与计算地理学的交叉创新。
以上内容由遇见数据集搜集并总结生成



