SciER
收藏arXiv2024-10-28 更新2024-10-30 收录
下载链接:
https://github.com/edzq/SciER
下载链接
链接失效反馈资源简介:
SciER是一个用于科学文档中实体和关系提取的数据集,由天普大学创建。该数据集包含106篇手动标注的全文科学出版物,涵盖超过24,000个实体和12,000个关系。数据集内容来自Papers with Code网站,涉及人工智能领域的自然语言处理、机器学习、计算机视觉等主题。创建过程中,数据集采用了细粒度的关系标签集,以捕捉实体在全文中的复杂交互。SciER数据集主要用于评估和开发科学信息提取模型,旨在解决科学文献中实体和关系的精确提取问题。
SciER is a dataset for entity and relation extraction from scientific documents, created by Temple University. It contains 106 manually annotated full-text scientific publications, covering over 24,000 entities and 12,000 relations. The dataset content is sourced from the Papers with Code website, involving topics such as natural language processing, machine learning and computer vision in the field of artificial intelligence. During its creation, a fine-grained relation label set was adopted to capture the complex interactions of entities throughout the full text. The SciER dataset is mainly used for evaluating and developing scientific information extraction models, aiming to solve the problem of accurate extraction of entities and relations in scientific literature.
提供机构:
天普大学
创建时间:
2024-10-28
原始信息汇总
SciER 数据集概述
数据集内容
- 实体标注:包含科学文档中的实体标注。
- 关系标注:包含科学文档中的关系标注。
实体类型
- Dataset
- Method
- Task
数据格式
LLM 文件夹
- 文件格式:每行是一个句子,包含以下结构: json { "doc_id": "文档ID", "sentence": "句子文本", "ner": [["实体字符串", "实体类型"]], "rel": [["主体实体", "关系类型", "客体实体"]], "rel_plus": [["主体实体:实体类型", "关系类型", "客体实体:实体类型"]] }
PLM 文件夹
- 文件格式:用于训练监督模型,包含以下结构: json { "doc_key": "文档ID", "sentences": [["句子中的词"]], "ner": [[边界位置, 实体类型]], "relations": [[主体实体边界, 客体实体边界, 关系类型]] }
AI搜集汇总
数据集介绍

构建方式
SciER数据集的构建基于106篇经过人工标注的全文科学出版物,涵盖了与数据集、方法和任务相关的实体及其关系。这些出版物来自Papers with Code网站,涵盖了人工智能领域的多个子领域,如自然语言处理、机器学习和计算机视觉。数据集包含了超过24,000个实体和12,000个关系,通过精细的标注过程捕捉了全文中的复杂交互。此外,数据集还提供了一个分布外的测试集,以评估模型在面对新发布文献时的鲁棒性。
特点
SciER数据集的主要特点在于其全面性和精细性。首先,它涵盖了全文科学出版物,而非仅限于摘要或特定段落,从而捕捉了更多上下文中的实体提及和关系。其次,数据集引入了细粒度的关系标签集,用于描述数据集、方法和任务之间的交互,如TRAINED-WITH和EVALUATED-WITH等。此外,SciER还提供了分布外的测试集,以更真实地评估模型的泛化能力。
使用方法
SciER数据集可用于评估和开发科学信息提取模型,特别是命名实体识别(NER)和关系提取(RE)任务。研究者可以使用该数据集来训练和验证模型,以识别和分类科学文献中的实体及其关系。数据集支持单独的NER和RE任务,也支持端到端的实体和关系提取(ERE)任务。通过使用SciER,研究者可以开发出更精确和鲁棒的科学信息提取模型,从而推动科学文献挖掘领域的发展。
背景与挑战
背景概述
SciER数据集由Temple University和University of Illinois Chicago的研究团队于2024年发布,专注于从科学文献中提取实体及其关系。该数据集的核心研究问题是如何从复杂的科学文本中准确提取与数据集、方法和任务相关的实体及其关系。SciER的发布填补了现有数据集在全文本标注方面的空白,提供了106篇手动标注的科学出版物,包含超过24,000个实体和12,000个关系。这一数据集的推出,极大地推动了科学信息提取(SciIE)领域的发展,特别是在科学知识图谱构建、数据搜索和学术问答等下游应用中。
当前挑战
SciER数据集在构建过程中面临多项挑战。首先,科学文本的高度复杂性和专业性使得数据标注成本高昂,且依赖于专家标注者,导致高质量标注数据的稀缺。其次,科学文本中不断涌现的新术语和概念使得实体和关系的提取更加复杂,与一般领域信息提取相比,科学信息提取面临更严重的时态和概念偏移问题。此外,现有数据集多限于特定部分的标注,如摘要或特定段落,而SciER则致力于全文本的标注,这增加了标注的难度和工作量。最后,SciER引入了细粒度的关系标签集,以捕捉实体间复杂的交互,这对模型的训练和评估提出了更高的要求。
常用场景
经典使用场景
SciER数据集在科学文献信息提取领域中被广泛应用于实体和关系的提取任务。其经典使用场景包括从科学文档中识别和提取与数据集、方法和任务相关的实体及其关系。通过提供细粒度的标签集,SciER能够捕捉到科学文献中复杂的实体交互,从而支持更精确的关系提取。此外,SciER还提供了分布外测试集,以评估模型在处理新发布文献时的鲁棒性。
解决学术问题
SciER数据集解决了科学信息提取(SciIE)领域中常见的学术研究问题,如科学命名实体识别(SciNER)和科学关系提取(SciRE)。由于科学文本的高复杂性和标注成本,现有数据集通常仅限于特定部分的标注,导致多样化的实体提及和关系丢失。SciER通过全文本的手动标注,提供了丰富的实体和关系信息,促进了创新模型的开发,进一步推动了SciIE领域的发展。
衍生相关工作
SciER数据集的发布催生了一系列相关的经典工作,特别是在科学信息提取和自然语言处理领域。例如,基于SciER数据集的研究工作提出了新的模型和方法,用于改进实体和关系的提取性能。此外,SciER还激发了对分布外测试集的研究,探索模型在处理新领域文献时的表现。这些衍生工作不仅提升了SciIE的研究水平,也为实际应用提供了技术支持。
以上内容由AI搜集并总结生成



