five

Basvoju/SemEval2018Task7

收藏
Hugging Face2023-02-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Basvoju/SemEval2018Task7
下载链接
链接失效反馈
官方服务:
资源简介:
SemEval2018Task7是一个描述科学论文中语义关系抽取和分类的数据集。该挑战专注于领域特定的语义关系,并包含三个不同的子任务。这些子任务旨在比较和量化不同预处理步骤对关系分类结果的影响。我们期望该任务对从领域语料库中提取专门知识的研究人员具有广泛的相关性,例如但不限于科学或生物医学信息提取。该任务吸引了总共32名参与者,提交了158份不同场景的解决方案。三个子任务分别是:1.1 清洁数据上的关系分类;1.2 噪声数据上的关系分类;2. 提取和分类场景的评估。关系类型包括USAGE、RESULT、MODEL、PART_WHOLE、TOPIC、COMPARISION。

SemEval-2018 Task 7 is a dataset focused on semantic relation extraction and classification in scientific papers. This challenge centers on domain-specific semantic relations and comprises three distinct subtasks, which aim to compare and quantify the impacts of different preprocessing steps on the outcomes of relation classification. We anticipate that this task holds broad relevance for researchers engaged in extracting domain-specific expertise from corpora, such as but not limited to scientific or biomedical information extraction. In total, this task attracted 32 participants who submitted 158 solutions across diverse scenarios. The three subtasks are as follows: 1.1 Relation classification on clean data; 1.2 Relation classification on noisy data; 2. Evaluation of extraction and classification scenarios. The relation types include USAGE, RESULT, MODEL, PART_WHOLE, TOPIC, and COMPARISION.
提供机构:
Basvoju
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称: SemEval2018Task7
  • 数据集描述: 描述科学论文中的语义关系提取和分类
  • 数据集大小: 1K<n<10K
  • 语言: 英语
  • 任务类别: 文本分类
  • 任务ID: entity-linking-classification

数据集详细信息

数据集概要

SemEval2018Task7 是一个专注于科学论文中特定领域语义关系提取和分类的数据集。该挑战包括三个不同的子任务,旨在比较和量化不同预处理步骤对关系分类结果的影响。该任务吸引了32名参与者,共有158个不同场景的提交。

支持的任务和排行榜

  • 任务: 科学论文中的关系提取和分类
  • 排行榜: 链接

数据集结构

数据实例

  • 子任务1.1: 关系分类在干净数据上

    • 训练数据中,语义关系是手动标注的。
    • 测试数据中,只提供实体标注和未标注的关系实例。
    • 任务是预测科学出版物中实体之间的语义关系。
  • 子任务1.2: 关系分类在噪声数据上

    • 实体出现自动标注在训练和测试数据中。
    • 任务是预测实体之间的语义关系。
  • 子任务2: 提取和分类场景的度量

    • 关系提取的评估
    • 关系分类的评估

数据字段

  • 子任务1_1:

    • id: 实例ID,字符串类型。
    • title: 标题,字符串类型。
    • abstract: 摘要,字符串类型。
    • entities: 实体ID列表,字符串类型。
    • relation: 关系列表,分类标签列表。
  • 子任务1_2:

    • id: 实例ID,字符串类型。
    • title: 标题,字符串类型。
    • abstract: 摘要,字符串类型。
    • entities: 实体ID列表,字符串类型。
    • relation: 关系列表,分类标签列表。

数据分割

子任务 类型 训练 测试
子任务1_1 文本 2807 3326
关系 1228 1248
子任务1_2 文本 1196 1193
关系 335 355

数据集创建

来源数据

初始数据收集和标准化

更多信息需要

源语言生产者

更多信息需要

注释

注释过程

更多信息需要

注释者

更多信息需要

个人和敏感信息

更多信息需要

使用数据集的考虑

数据集的社会影响

更多信息需要

偏见的讨论

更多信息需要

其他已知限制

更多信息需要

附加信息

数据集管理员

更多信息需要

许可信息

更多信息需要

引用信息

@inproceedings{gabor-etal-2018-semeval, title = "{S}em{E}val-2018 Task 7: Semantic Relation Extraction and Classification in Scientific Papers", author = {G{a}bor, Kata and Buscaldi, Davide and Schumann, Anne-Kathrin and QasemiZadeh, Behrang and Zargayouna, Ha{"i}fa and Charnois, Thierry}, booktitle = "Proceedings of the 12th International Workshop on Semantic Evaluation", month = jun, year = "2018", address = "New Orleans, Louisiana", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/S18-1111", doi = "10.18653/v1/S18-1111", pages = "679--688", abstract = "This paper describes the first task on semantic relation extraction and classification in scientific paper abstracts at SemEval 2018. The challenge focuses on domain-specific semantic relations and includes three different subtasks. The subtasks were designed so as to compare and quantify the effect of different pre-processing steps on the relation classification results. We expect the task to be relevant for a broad range of researchers working on extracting specialized knowledge from domain corpora, for example but not limited to scientific or bio-medical information extraction. The task attracted a total of 32 participants, with 158 submissions across different scenarios.", }

贡献者

感谢 @basvoju 添加此数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
在科学文献信息抽取领域,SemEval2018Task7数据集的构建体现了严谨的学术规范。该数据集源自科学论文摘要,通过专家标注的方式,对文本中的实体及其语义关系进行了系统化标注。其构建过程围绕三项精心设计的子任务展开:子任务1.1基于清洗数据,训练集包含人工标注的实体与关系,测试集则仅提供实体标注以考察关系分类能力;子任务1.2采用自动标注的噪声数据,旨在评估实体识别误差对关系分类的影响;子任务2则专注于关系抽取与分类的综合评估指标。整个数据集涵盖了USAGE、RESULT、MODEL-FEATURE等六类核心语义关系,为领域知识的结构化抽取提供了高质量的基准资源。
特点
该数据集在科学文本关系抽取领域展现出鲜明的特色。其核心在于设计了多层次的评估场景,通过对比清洗数据与噪声数据下的模型表现,能够量化不同预处理步骤对最终分类效果的影响。数据集聚焦于科学论文摘要这一专业领域,定义了六种具有高度领域相关性的语义关系类型,如MODEL-FEATURE、PART_WHOLE等,这为模型理解学术文本中的复杂逻辑关联提供了精确的语义框架。数据实例结构完整,每篇摘要均包含标题、正文、实体边界及关系标签,且关系标注中考虑了方向性,为模型训练提供了丰富的结构化信息。
使用方法
该数据集主要用于推动科学文献语义关系自动抽取技术的研究。研究者可通过HuggingFace平台便捷加载数据集,其已适配标准的文本分类任务接口。典型的使用流程包括:首先,利用提供的训练集数据,构建能够识别实体对并预测其预定义关系类别的模型;其次,在对应的测试集上评估模型在关系分类任务上的性能。对于子任务1.1,模型需利用给定的实体信息推断关系;对于子任务1.2,则需在自动标注可能引入噪声的实体基础上完成关系分类。该数据集常作为基准,用于比较不同神经网络架构或特征表示方法在专业领域关系抽取任务上的有效性。
背景与挑战
背景概述
在自然语言处理领域,科学文献中的语义关系抽取与分类是知识发现与信息提取的核心任务之一。SemEval2018Task7数据集由Kata Gábor、Davide Buscaldi等研究人员于2018年构建,作为国际语义评估研讨会(SemEval)的官方任务,旨在推动学术文本中结构化知识的自动化提取。该数据集聚焦于科学论文摘要,涵盖六种语义关系类型,如USAGE、RESULT、MODEL-FEATURE等,通过三个子任务系统评估不同预处理步骤对关系分类的影响。其构建不仅促进了领域特定语义理解模型的研发,还为生物医学等专业领域的信息提取提供了重要基准,吸引了全球32支团队参与,显著提升了学术文本挖掘的技术前沿。
当前挑战
该数据集致力于解决科学文献中语义关系抽取与分类的复杂性问题,其核心挑战在于处理学术文本中高度专业化的语言表达与隐含逻辑关联。具体而言,模型需准确识别实体间的细微语义差别,例如区分“MODEL-FEATURE”与“PART_WHOLE”等抽象关系,同时应对长距离依赖与上下文歧义。在构建过程中,挑战主要源于标注的一致性保障:专家需在大量学术摘要中手动标注实体与关系,确保跨文本的语义标准统一;此外,子任务设计需平衡“清洁数据”与“噪声数据”的对比实验,以量化实体自动标注对分类性能的影响,这要求精细的语料处理与质量控制。
常用场景
经典使用场景
在自然语言处理领域,SemEval2018Task7数据集为语义关系抽取与分类任务提供了经典的应用场景。该数据集聚焦于科学论文摘要中的实体间语义关系识别,涵盖了USAGE、RESULT、MODEL-FEATURE等六种特定领域关系类型。研究者通常利用其精心标注的实体与关系数据,构建端到端的关系分类模型,以探索科学文本中结构化知识的自动化抽取机制。通过对比清洁数据与噪声数据两种子任务设置,该数据集能够系统评估不同预处理策略对模型性能的影响,为领域自适应研究提供了标准化实验环境。
实际应用
在实际应用层面,该数据集支撑的语义关系抽取技术已渗透到多个知识密集型领域。学术搜索引擎可借助该技术自动构建论文间的概念关联网络,提升文献检索的语义精度。在生物医学领域,系统能够从海量文献中提取药物与靶点、疾病与基因之间的相互作用关系,加速知识图谱的构建。科技情报分析机构则可利用该技术实时追踪特定技术主题的发展脉络与成果关联,为科研决策提供数据驱动的洞察支持。
衍生相关工作
围绕该数据集衍生的经典工作显著推动了关系抽取技术的发展。众多参赛团队在SemEval2018竞赛中提出的混合神经网络架构,如结合注意力机制与图卷积网络的方法,已成为后续研究的基准模型。基于该数据集构建的跨任务迁移学习框架,验证了科学领域关系知识向生物医学文本迁移的有效性。此外,针对其标注特性提出的远程监督数据增强策略,以及面向噪声数据的对抗训练方法,均在相关学术文献中形成了持续性的技术演进脉络。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作