five

GeoGLUE

收藏
arXiv2023-05-11 更新2024-06-21 收录
下载链接:
https://modelscope.cn/datasets/damo/GeoGLUE/summary
下载链接
链接失效反馈
官方服务:
资源简介:
GeoGLUE是首个针对地理领域自然语言理解的评估基准,由华东师范大学和阿里巴巴集团联合创建。该数据集包含六个任务,涵盖地理文本相似度、地理元素标记、地理组合分析等多个方面,数据来源于公开的地理资源。GeoGLUE旨在为地理信息处理提供统一的评估标准,解决现有评估工具在地理领域应用的不足。数据集的创建过程注重隐私保护,确保数据的合规性。GeoGLUE的应用领域广泛,包括物流、位置导航等,旨在提高地理信息处理的自动化和智能化水平。

GeoGLUE is the first evaluation benchmark for natural language understanding in the geographic domain, jointly created by East China Normal University and Alibaba Group. This dataset contains six tasks covering multiple aspects such as geographic text similarity, geographic entity tagging, and geographic compositional analysis, with data sourced from public geographic resources. GeoGLUE aims to provide a unified evaluation standard for geographic information processing, addressing the shortcomings of existing evaluation tools in their geographic domain applications. The dataset's creation process prioritizes privacy protection and ensures data compliance. GeoGLUE has broad application scenarios including logistics and location navigation, and is designed to improve the automation and intelligence level of geographic information processing.
提供机构:
华东师范大学
创建时间:
2023-05-11
搜集汇总
数据集介绍
main_image_url
构建方式
GeoGLUE数据集的构建基于公开可获取的地理信息资源,涵盖六大自然语言理解任务。数据采集自GIS基础资源、二手房交易平台、本地信息服务及地图应用查询会话,经领域专家与专业标注员协同处理,采用BIOES标注方案及一致性检验(Fleiss' Kappa)确保质量。所有测试集均未公开,仅发布训练集与开发集以维护评估公正性。
特点
该数据集首次系统性地聚焦地理领域语言理解,具备复用性、多样性与代表性三大特性。其任务覆盖地理文本搜索、序列标注与文本分类三大场景,数据包含层次化地名、非规范口语表达及经纬度信息等地理特有要素。标注类别丰富,如GeoETA含18种地理语素,GeoCPA含28种成分类型,充分反映地理语言的实际复杂性。
使用方法
GeoGLUE提供标准化评估流程,每个任务配备明确评价指标(如MRR、Micro-F1、Macro-F1)。研究者可通过官方平台下载训练与开发数据,在五个基线模型(BERT、RoBERTa、ERNIE、Nezha、StructBERT)上进行对比实验。测试集托管于排行榜系统,支持公平的模型性能比较与持续迭代优化。
背景与挑战
背景概述
地理信息系统的蓬勃发展催生了海量地理文本数据,然而现有自然语言处理研究长期聚焦于通用领域,鲜有触及地理文本特有的表达范式与语义复杂性。为填补这一评估空白,华东师范大学与阿里巴巴集团的研究团队于2023年联合发布了GeoGLUE基准,这是首个面向地理语言理解的综合性评估框架。该基准涵盖地理文本检索、序列标注与文本分类三大类共六项任务,数据源自开放地理资源、二手房交易平台及地图应用查询日志,经领域专家精细标注构建而成。GeoGLUE的提出不仅为地理信息检索、地址解析与实体对齐等关键应用提供了标准化评估平台,更推动了地理领域预训练语言模型的发展,其相关模型下载量已逾二十九万次,彰显了深远的学术价值与产业影响力。
当前挑战
GeoGLUE所面临的挑战首先根植于地理文本的天然异质性:非规范的口语化查询、层级嵌套的地址结构以及同一地点的多样化表述(如全称与简称混用)构成了语义理解的核心障碍。在领域问题层面,现有通用模型在GeoCPA与GeoWWC等序列标注任务上表现欠佳,最高F1值仅约70%,暴露出对地理要素细粒度区分与上下文感知能力的不足。构建过程中,数据采集遭遇隐私保护与匿名化处理的严格约束,需从开放资源中过滤敏感信息;同时,标注工作依赖20名经验丰富的标注员遵循BIOES方案,并设置70%的一致性阈值以确保质量,而POI检索任务中正负样本的精准界定(如1公里范围内的硬负例筛选)更增加了构建的复杂性。
常用场景
经典使用场景
GeoGLUE作为首个地理自然语言理解综合评估基准,其经典使用场景聚焦于地理文本的检索与语义匹配。在物流配送、周边探索和位置导航等日常应用中,用户常以非规范的口语化表达查询兴趣点(POI),而地理数据又兼具层级化位置名称与GIS坐标信息。GeoGLUE通过设计地理文本相似性召回与重排序任务,精准模拟了从海量POI库中检索相关结果并优化排序的实际流程,为地理信息检索系统的性能评估提供了统一标尺。
解决学术问题
该基准有效解决了地理领域自然语言处理研究长期缺乏标准化评估框架的学术困境。此前,通用NLP基准如GLUE未能覆盖地理文本特有的层级结构、简称混用与口语化特征,而专门研究多局限于单一任务。GeoGLUE通过整合文本相似性、序列标注与文本分类六大任务,系统性地攻克了地理实体歧义消解、非规范地址解析及跨系统实体对齐等核心难题,其发布推动了地理预训练模型的发展,为后续研究奠定了可复现的评估基础。
衍生相关工作
GeoGLUE的发布催生了一系列衍生研究工作,其中最具代表性的是多模态地理预训练方法。例如,研究者基于GeoGLUE的数据构建了地理多模态预训练模型,通过融合文本与GIS信息提升了地理实体表示能力。此外,该基准被广泛用于评估和微调各类中文预训练语言模型(如StructBERT、Nezha)在地理任务上的表现,实验表明其全词掩码机制与长序列处理能力对地理实体识别具有显著增益。这些工作不仅验证了GeoGLUE的挑战性,也推动了地理NLP领域从单任务向多任务、多模态的演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作