five

ibm/Climate-Change-NER

收藏
Hugging Face2024-05-21 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/ibm/Climate-Change-NER
下载链接
链接失效反馈
官方服务:
资源简介:
Climate Change NER是一个包含534篇与气候相关的论文摘要的英文数据集。这些摘要来自Semantic Scholar Academic Graph的abstracts数据集,并手动标注了与气候相关的词汇,使用了14个不同的类别。数据集主要用于命名实体识别(NER)任务的评估。数据集的创建者、共享者、语言、许可证等信息也提供了详细的说明。
提供机构:
ibm
原始信息汇总

数据集卡片:Climate Change NER

数据集描述

Climate Change NER 是一个包含534篇气候相关论文摘要的英语数据集。这些摘要来自Semantic Scholar Academic Graph的“abstracts”数据集,通过使用一组气候相关关键词进行筛选。摘要通过手动标注,将相关词汇按照IOB格式(inside, outside, beginning)进行分类,共涉及14个不同的类别。

数据集详情

数据来源

用途

该数据集主要用于评估命名实体识别(NER)任务。

数据集结构

数据实例

每个实例包含多行,代表一个文档摘要及其标注。实例的开始由一行以-DOCSTART-标记,并包含文档在整个数据集中的唯一哈希值。摘要中的每个词汇单独一行,标注为以下标签之一:

  • O 如果词汇不属于任何命名实体实例
  • B 如果词汇是命名实体实例的开始
  • I 如果词汇在命名实体实例内部

如果词汇标记为OI,则添加实体类型。每个词汇最多可以分配一个实体类型,可能的类型包括:climate-assets, climate-datasets, climate-greenhouse-gases, climate-hazards, climate-impacts, climate-mitigations, climate-models, climate-nature, climate-observations, climate-organisms, climate-organizations, climate-problem-origins, 和 climate-properties

数据分割

Climate Change NER数据集分为三个部分:训练集、验证集和测试集。以下是版本1.0.0的数据统计:

数据集分割 实例数量
训练集 382
验证集 77
测试集 75

数据集创建

源数据

源数据是来自Semantic Scholar Academic Graph Dataset(“abstracts”数据集)的摘要。

标注

摘要通过手动标注,气候相关词汇根据以下类别进行分类:

  • climate-assets: 对人类有价值的物体或服务,可能被气候灾害破坏或减少。关键类别包括健康、建筑、基础设施和农作物或牲畜。
  • climate-datasets: 特定名称的气候数据集合。气候数据集可以是观测或模型的结果,例如预测或再分析。数据可以是列表、表格、数据库、清单或历史记录,其中数据占主导地位,代码附带。
  • climate-greenhouse-gases: 导致大气加热的气体(温室气体)。
  • climate-hazards: 对气候有潜在负面影响的灾害,如洪水、野火、干旱和热浪。文本中详细命名的灾害,整个术语被标注,例如“地表水洪水”或“土壤液化”。
  • climate-impacts: 灾害的影响,主要是对人类的负面影响。我们也考虑对牲畜的影响,因为这间接影响人类。
  • climate-mitigations: 减少气候变化或更好地应对后果的活动。
  • climate-models: 特定的物理、数学或人工智能对象,现在总是计算机可执行的,用于分析和通常预测气候参数。
  • climate-nature: 自然界中非生物的方面,如海洋、河流、大气、风和雪。
  • climate-observations: 有名称的气候观测工具。例如卫星、无线电光谱仪、雨量计、野生动物相机和问卷。
  • climate-organisms: 被视为气候生物的动物、植物和其他生物。
  • climate-organizations: 具有气候相关兴趣的现实世界组织。
  • climate-problem-origins: 描述气候变化原因的问题。关键例子包括“化石燃料”和“森林砍伐”。我们还提到可以被引用为能源使用原因的部门。例如,在关于运输部门能源消耗的文本中,“运输部门”被标注为“问题”。
  • climate-properties: 气候本身的属性(不是抽象对象如模型和数据集),通常带有值和单位。

标注者

数据集由Birgit Pfitzmann标注。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作