five

SciER|科学信息提取数据集|人工智能数据集

收藏
arXiv2024-10-28 更新2024-10-30 收录
科学信息提取
人工智能
下载链接:
https://github.com/edzq/SciER
下载链接
链接失效反馈
资源简介:
SciER是一个用于科学文档中实体和关系提取的数据集,由天普大学创建。该数据集包含106篇手动标注的全文科学出版物,涵盖超过24,000个实体和12,000个关系。数据集内容来自Papers with Code网站,涉及人工智能领域的自然语言处理、机器学习、计算机视觉等主题。创建过程中,数据集采用了细粒度的关系标签集,以捕捉实体在全文中的复杂交互。SciER数据集主要用于评估和开发科学信息提取模型,旨在解决科学文献中实体和关系的精确提取问题。
提供机构:
天普大学
创建时间:
2024-10-28
原始信息汇总

SciER 数据集概述

数据集内容

  • 实体标注:包含科学文档中的实体标注。
  • 关系标注:包含科学文档中的关系标注。

实体类型

  • Dataset
  • Method
  • Task

数据格式

LLM 文件夹

  • 文件格式:每行是一个句子,包含以下结构: json { "doc_id": "文档ID", "sentence": "句子文本", "ner": [["实体字符串", "实体类型"]], "rel": [["主体实体", "关系类型", "客体实体"]], "rel_plus": [["主体实体:实体类型", "关系类型", "客体实体:实体类型"]] }

PLM 文件夹

  • 文件格式:用于训练监督模型,包含以下结构: json { "doc_key": "文档ID", "sentences": [["句子中的词"]], "ner": [[边界位置, 实体类型]], "relations": [[主体实体边界, 客体实体边界, 关系类型]] }
AI搜集汇总
数据集介绍
main_image_url
构建方式
SciER数据集的构建基于106篇经过人工标注的全文科学出版物,涵盖了与数据集、方法和任务相关的实体及其关系。这些出版物来自Papers with Code网站,涵盖了人工智能领域的多个子领域,如自然语言处理、机器学习和计算机视觉。数据集包含了超过24,000个实体和12,000个关系,通过精细的标注过程捕捉了全文中的复杂交互。此外,数据集还提供了一个分布外的测试集,以评估模型在面对新发布文献时的鲁棒性。
特点
SciER数据集的主要特点在于其全面性和精细性。首先,它涵盖了全文科学出版物,而非仅限于摘要或特定段落,从而捕捉了更多上下文中的实体提及和关系。其次,数据集引入了细粒度的关系标签集,用于描述数据集、方法和任务之间的交互,如TRAINED-WITH和EVALUATED-WITH等。此外,SciER还提供了分布外的测试集,以更真实地评估模型的泛化能力。
使用方法
SciER数据集可用于评估和开发科学信息提取模型,特别是命名实体识别(NER)和关系提取(RE)任务。研究者可以使用该数据集来训练和验证模型,以识别和分类科学文献中的实体及其关系。数据集支持单独的NER和RE任务,也支持端到端的实体和关系提取(ERE)任务。通过使用SciER,研究者可以开发出更精确和鲁棒的科学信息提取模型,从而推动科学文献挖掘领域的发展。
背景与挑战
背景概述
SciER数据集由Temple University和University of Illinois Chicago的研究团队于2024年发布,专注于从科学文献中提取实体及其关系。该数据集的核心研究问题是如何从复杂的科学文本中准确提取与数据集、方法和任务相关的实体及其关系。SciER的发布填补了现有数据集在全文本标注方面的空白,提供了106篇手动标注的科学出版物,包含超过24,000个实体和12,000个关系。这一数据集的推出,极大地推动了科学信息提取(SciIE)领域的发展,特别是在科学知识图谱构建、数据搜索和学术问答等下游应用中。
当前挑战
SciER数据集在构建过程中面临多项挑战。首先,科学文本的高度复杂性和专业性使得数据标注成本高昂,且依赖于专家标注者,导致高质量标注数据的稀缺。其次,科学文本中不断涌现的新术语和概念使得实体和关系的提取更加复杂,与一般领域信息提取相比,科学信息提取面临更严重的时态和概念偏移问题。此外,现有数据集多限于特定部分的标注,如摘要或特定段落,而SciER则致力于全文本的标注,这增加了标注的难度和工作量。最后,SciER引入了细粒度的关系标签集,以捕捉实体间复杂的交互,这对模型的训练和评估提出了更高的要求。
常用场景
经典使用场景
SciER数据集在科学文献信息提取领域中被广泛应用于实体和关系的提取任务。其经典使用场景包括从科学文档中识别和提取与数据集、方法和任务相关的实体及其关系。通过提供细粒度的标签集,SciER能够捕捉到科学文献中复杂的实体交互,从而支持更精确的关系提取。此外,SciER还提供了分布外测试集,以评估模型在处理新发布文献时的鲁棒性。
解决学术问题
SciER数据集解决了科学信息提取(SciIE)领域中常见的学术研究问题,如科学命名实体识别(SciNER)和科学关系提取(SciRE)。由于科学文本的高复杂性和标注成本,现有数据集通常仅限于特定部分的标注,导致多样化的实体提及和关系丢失。SciER通过全文本的手动标注,提供了丰富的实体和关系信息,促进了创新模型的开发,进一步推动了SciIE领域的发展。
衍生相关工作
SciER数据集的发布催生了一系列相关的经典工作,特别是在科学信息提取和自然语言处理领域。例如,基于SciER数据集的研究工作提出了新的模型和方法,用于改进实体和关系的提取性能。此外,SciER还激发了对分布外测试集的研究,探索模型在处理新领域文献时的表现。这些衍生工作不仅提升了SciIE的研究水平,也为实际应用提供了技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

stanford_cars

该数据集是一个包含多个汽车品牌和型号的图片数据集,每个图片样本都标记有相应的汽车品牌和型号信息。数据集适用于图像识别和分类任务,特别是汽车品牌和型号的识别。

huggingface 收录

日食计算器

此日食计算器能够查询公元前3000至后3000年范围内的日食信息,生成每次日食的覆盖区、中心区范围数据,展示日食带的地图;并可根据用户在地图上点击的坐标在线计算该地日食各阶段时间、食分等观测信息。

国家天文科学数据中心 收录

DIOR

“DIOR” 是用于光学遥感图像中对象检测的大规模基准数据集,该数据集由23,463图像和带有水平边界框注释的192,518对象实例组成。

OpenDataLab 收录

中网充绿能充电数据

基于智能充电桩接入平台系统实时反馈的充电桩状态、充电时长、充电量以及用户注册登记的车辆信息等数据,实现目标区域内充电桩的监测和统计,提供空余充电数量、使用率、电价、电位实时状态等信息智能服务,帮助用户更有效地利用停车资源,同时为充电行为进行长效化安全管理及火灾提前预判分析及预警。

上海数据交易所交易层 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录