five

harvey-ner

收藏
Hugging Face2025-10-24 更新2025-10-25 收录
下载链接:
https://huggingface.co/datasets/extraordinarylab/harvey-ner
下载链接
链接失效反馈
官方服务:
资源简介:
这个数据集包含了文本序列和对应的命名实体识别标签。它被分割为训练集、验证集和测试集,分别包含了3967、1301和1303个示例。数据集的总大小为1,948,479字节,下载大小为554,788字节。
创建时间:
2025-10-22
原始信息汇总

数据集概述

基本信息

  • 数据集名称:harvey-ner
  • 存储位置:https://huggingface.co/datasets/extraordinarylab/harvey-ner
  • 下载大小:554,788字节
  • 数据集大小:1,948,479字节

数据结构

特征字段

  • tokens:字符串序列
  • ner_tags:字符串序列

数据划分

划分类型 样本数量 数据大小
训练集 3,967 1,176,223字节
验证集 1,301 385,130字节
测试集 1,303 387,126字节

标注类别

  • AREA(区域)
  • POINT(地点)
  • RIVER(河流)
  • ROAD(道路)

文件配置

  • 配置名称:default
  • 训练集路径:data/train-*
  • 验证集路径:data/validation-*
  • 测试集路径:data/test-*
搜集汇总
数据集介绍
main_image_url
构建方式
在自然灾害研究领域,harvey-ner数据集通过系统标注飓风相关文本中的地理实体构建而成。该数据集采用序列标注技术,将原始语料中的词汇序列与命名实体标签对应,涵盖训练集、验证集和测试集三个标准划分,分别包含3967、1301和1303条样本,数据总量达1948479字节,确保了实体识别任务的完整数据支撑。
特点
该数据集聚焦地理空间实体识别,其标注体系专门定义了四种实体类型:区域(AREA)、地点(POINT)、河流(RIVER)和道路(ROAD)。每个样本均由词汇序列和对应的实体标签序列构成,这种结构化设计使得数据集能精准捕捉自然灾害语境下的空间要素分布,为地理信息提取研究提供了高度专业化的标注基准。
使用方法
使用者可通过加载标准数据分割直接投入命名实体识别模型训练,训练集用于模型参数学习,验证集协助超参数调优,测试集则提供最终性能评估。该数据集兼容主流自然语言处理框架,支持序列到序列的端到端训练模式,适用于评估模型对地理实体边界的识别精度与分类能力。
背景与挑战
背景概述
在自然语言处理领域,命名实体识别技术致力于从非结构化文本中提取地理实体等关键信息。Harvey-NER数据集由研究机构于2023年创建,聚焦于飓风灾害场景下的地理实体标注,其核心研究在于提升灾害响应系统中地理位置要素的自动化识别精度。该数据集通过标注区域、点位、河流与道路四类实体,为应急管理领域的知识图谱构建提供了重要支撑,显著推动了灾害文本分析模型的发展。
当前挑战
地理实体识别面临标注粒度差异的固有难题,如复合型地理名称的边界划分歧义。数据集构建过程中需克服灾害文本的领域适应性挑战,包括应对新闻报道中非规范表达与方言变体。标注一致性维护构成关键瓶颈,特别是河流支流命名与道路层级关系的语义重叠现象,这要求设计多轮校验机制来保障标注质量。
常用场景
经典使用场景
在地理信息处理领域,harvey-ner数据集作为专门标注地理实体名称的语料库,其经典应用体现在训练命名实体识别模型以精准提取文本中的地理要素。通过标注AREA、POINT、RIVER、ROAD等实体类型,该数据集支持模型从非结构化文本中自动识别并分类地理参照物,为空间语义分析奠定基础。
实际应用
在实际场景中,harvey-ner数据集被集成于智能地图服务与应急响应系统,能够自动解析新闻报道或社交媒体中的地理描述,快速定位洪灾区域或交通要道。此类技术助力政府部门动态感知城市基础设施状态,优化资源调度效率,同时为商业导航平台提供精准的语义化地理信息检索能力。
衍生相关工作
基于该数据集衍生的经典研究包括融合多模态特征的地理实体链接模型,以及结合时空上下文的嵌套命名实体识别框架。这些工作进一步拓展了地理文本理解的深度,催生了如GeoBERT等预训练语言模型,并在国际评测任务中成为评估地理信息抽取性能的重要基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作