five

SemEvalWorkshop/sem_eval_2010_task_8

收藏
Hugging Face2024-08-08 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/SemEvalWorkshop/sem_eval_2010_task_8
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - en paperswithcode_id: semeval-2010-task-8 pretty_name: SemEval-2010 Task 8 dataset_info: features: - name: sentence dtype: string - name: relation dtype: class_label: names: '0': Cause-Effect(e1,e2) '1': Cause-Effect(e2,e1) '2': Component-Whole(e1,e2) '3': Component-Whole(e2,e1) '4': Content-Container(e1,e2) '5': Content-Container(e2,e1) '6': Entity-Destination(e1,e2) '7': Entity-Destination(e2,e1) '8': Entity-Origin(e1,e2) '9': Entity-Origin(e2,e1) '10': Instrument-Agency(e1,e2) '11': Instrument-Agency(e2,e1) '12': Member-Collection(e1,e2) '13': Member-Collection(e2,e1) '14': Message-Topic(e1,e2) '15': Message-Topic(e2,e1) '16': Product-Producer(e1,e2) '17': Product-Producer(e2,e1) '18': Other splits: - name: train num_bytes: 1054348 num_examples: 8000 - name: test num_bytes: 357071 num_examples: 2717 download_size: 903779 dataset_size: 1411419 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* train-eval-index: - config: default task: text-classification task_id: multi_class_classification splits: train_split: train eval_split: test col_mapping: sentence: text relation: target metrics: - type: accuracy name: Accuracy - type: f1 name: F1 macro args: average: macro - type: f1 name: F1 micro args: average: micro - type: f1 name: F1 weighted args: average: weighted - type: precision name: Precision macro args: average: macro - type: precision name: Precision micro args: average: micro - type: precision name: Precision weighted args: average: weighted - type: recall name: Recall macro args: average: macro - type: recall name: Recall micro args: average: micro - type: recall name: Recall weighted args: average: weighted --- # Dataset Card for "sem_eval_2010_task_8" ## Table of Contents - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards) - [Languages](#languages) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Dataset Creation](#dataset-creation) - [Curation Rationale](#curation-rationale) - [Source Data](#source-data) - [Annotations](#annotations) - [Personal and Sensitive Information](#personal-and-sensitive-information) - [Considerations for Using the Data](#considerations-for-using-the-data) - [Social Impact of Dataset](#social-impact-of-dataset) - [Discussion of Biases](#discussion-of-biases) - [Other Known Limitations](#other-known-limitations) - [Additional Information](#additional-information) - [Dataset Curators](#dataset-curators) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) - [Contributions](#contributions) ## Dataset Description - **Homepage:** [https://semeval2.fbk.eu/semeval2.php?location=tasks&taskid=11](https://semeval2.fbk.eu/semeval2.php?location=tasks&taskid=11) - **Repository:** [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) - **Paper:** [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) - **Point of Contact:** [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) - **Size of downloaded dataset files:** 1.96 MB - **Size of the generated dataset:** 1.42 MB - **Total amount of disk used:** 3.38 MB ### Dataset Summary The SemEval-2010 Task 8 focuses on Multi-way classification of semantic relations between pairs of nominals. The task was designed to compare different approaches to semantic relation classification and to provide a standard testbed for future research. ### Supported Tasks and Leaderboards [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ### Languages [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ## Dataset Structure ### Data Instances #### default - **Size of downloaded dataset files:** 1.96 MB - **Size of the generated dataset:** 1.42 MB - **Total amount of disk used:** 3.38 MB An example of 'train' looks as follows. ``` { "relation": 3, "sentence": "The system as described above has its greatest application in an arrayed <e1>configuration</e1> of antenna <e2>elements</e2>." } ``` ### Data Fields The data fields are the same among all splits. #### default - `sentence`: a `string` feature. - `relation`: a classification label, with possible values including `Cause-Effect(e1,e2)` (0), `Cause-Effect(e2,e1)` (1), `Component-Whole(e1,e2)` (2), `Component-Whole(e2,e1)` (3), `Content-Container(e1,e2)` (4). ### Data Splits | name |train|test| |-------|----:|---:| |default| 8000|2717| ## Dataset Creation ### Curation Rationale [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ### Source Data #### Initial Data Collection and Normalization [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) #### Who are the source language producers? [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ### Annotations #### Annotation process [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) #### Who are the annotators? [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ### Personal and Sensitive Information [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ## Considerations for Using the Data ### Social Impact of Dataset [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ### Discussion of Biases [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ### Other Known Limitations [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ## Additional Information ### Dataset Curators [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ### Licensing Information [More Information Needed](https://github.com/huggingface/datasets/blob/master/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards) ### Citation Information ``` @inproceedings{hendrickx-etal-2010-semeval, title = "{S}em{E}val-2010 Task 8: Multi-Way Classification of Semantic Relations between Pairs of Nominals", author = "Hendrickx, Iris and Kim, Su Nam and Kozareva, Zornitsa and Nakov, Preslav and {'O} S{'e}aghdha, Diarmuid and Pad{'o}, Sebastian and Pennacchiotti, Marco and Romano, Lorenza and Szpakowicz, Stan", booktitle = "Proceedings of the 5th International Workshop on Semantic Evaluation", month = jul, year = "2010", address = "Uppsala, Sweden", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/S10-1006", pages = "33--38", } ``` ### Contributions Thanks to [@JoelNiklaus](https://github.com/JoelNiklaus) for adding this dataset.
提供机构:
SemEvalWorkshop
原始信息汇总

数据集概述

数据集信息

数据集名称

  • 名称: SemEval-2010 Task 8
  • ID: semeval-2010-task-8

数据集特征

  • 特征:
    • sentence: 字符串类型,表示句子。
    • relation: 分类标签,包含以下类别:
      • Cause-Effect(e1,e2)
      • Cause-Effect(e2,e1)
      • Component-Whole(e1,e2)
      • Component-Whole(e2,e1)
      • Content-Container(e1,e2)
      • Content-Container(e2,e1)
      • Entity-Destination(e1,e2)
      • Entity-Destination(e2,e1)
      • Entity-Origin(e1,e2)
      • Entity-Origin(e2,e1)
      • Instrument-Agency(e1,e2)
      • Instrument-Agency(e2,e1)
      • Member-Collection(e1,e2)
      • Member-Collection(e2,e1)
      • Message-Topic(e1,e2)
      • Message-Topic(e2,e1)
      • Product-Producer(e1,e2)
      • Product-Producer(e2,e1)
      • Other

数据集分割

  • 分割:
    • train: 包含8000个样本,占用1054352字节。
    • test: 包含2717个样本,占用357075字节。

数据集大小

  • 下载大小: 1964087字节
  • 数据集大小: 1411427字节

训练与评估指标

任务配置

  • 配置: default
  • 任务: 文本分类
  • 任务ID: 多类分类

数据分割

  • 训练分割: train
  • 评估分割: test

列映射

  • sentence: 映射为 text
  • relation: 映射为 target

评估指标

  • 准确率: Accuracy
  • F1分数:
    • 宏平均: F1 macro
    • 微平均: F1 micro
    • 加权平均: F1 weighted
  • 精确率:
    • 宏平均: Precision macro
    • 微平均: Precision micro
    • 加权平均: Precision weighted
  • 召回率:
    • 宏平均: Recall macro
    • 微平均: Recall micro
    • 加权平均: Recall weighted
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,语义关系分类是理解文本深层含义的关键环节。SemEval-2010 Task 8数据集的构建源于国际语义评测任务,旨在为名词对之间的语义关系多分类提供标准测试平台。该数据集通过精心设计的标注流程,收集了包含标注实体e1和e2的英文句子,并由专家按照预定义的九种语义关系类别进行人工标注,同时考虑了关系的方向性,最终形成了包含8000条训练样本和2717条测试样本的高质量语料库。
特点
该数据集的核心特点在于其细致的关系分类体系,涵盖了因果、组成、内容容器、实体目的地、实体起源、工具机构、成员集合、消息主题以及产品生产者等九种语义关系,且每种关系均区分方向性,从而构成了18个具体类别。数据实例以句子形式呈现,其中关键名词被显式标记为<e1>和<e2>,为模型提供了清晰的实体边界信息。这种结构化的设计使得数据集成为评估关系抽取与分类模型性能的经典基准,其规模适中、标注一致性强,在学术界被广泛引用。
使用方法
使用该数据集时,研究者通常将其应用于多类文本分类任务,以评估语义关系识别模型的效能。数据集已预先划分为训练集和测试集,用户可直接加载并进行模型训练与验证。在建模过程中,句子文本作为输入特征,关系标签作为预测目标;评估指标涵盖准确率、宏平均与微平均的F1分数、精确率及召回率,确保对模型性能进行全面衡量。该数据集兼容Hugging Face生态系统,能够便捷地集成到现代自然语言处理流程中,推动语义理解技术的进步。
背景与挑战
背景概述
在自然语言处理领域,语义关系分类是理解文本深层含义的核心任务之一。SemEval-2010 Task 8数据集于2010年由国际语义评测研讨会推出,主要研究人员包括Iris Hendrickx、Su Nam Kim等学者,旨在解决名词对之间多类别语义关系的自动识别问题。该数据集聚焦于九种定向语义关系,如因果、整体-部分等,并包含一个“其他”类别,为关系分类模型提供了标准化的评估基准。其创建推动了语义解析、信息抽取等研究方向的发展,成为后续研究广泛引用的重要资源。
当前挑战
该数据集致力于解决名词对语义关系分类中的复杂挑战,包括关系类别的精细区分、方向性语义的捕捉以及长距离依赖关系的建模。在构建过程中,标注者面临语义模糊性带来的歧义问题,例如同一对名词可能对应多种潜在关系,需依赖上下文进行精确判定。此外,确保九种关系类别在数据分布上的平衡性,以及维持标注一致性和高质量,亦是数据集构建中的关键难题。
常用场景
经典使用场景
在自然语言处理领域,语义关系分类是理解文本深层含义的核心任务之一。SemEval-2010 Task 8数据集作为该领域的基准资源,其经典使用场景在于评估和比较不同机器学习模型在名词对之间多类语义关系识别上的性能。研究者通常利用该数据集训练分类器,以自动判别句子中标注的两个名词实体所属的语义类别,如因果关系、整体部分关系等,从而推动语义分析技术的进步。
实际应用
在实际应用中,SemEval-2010 Task 8数据集支撑了信息抽取、知识图谱构建以及智能问答系统等关键场景。例如,在医疗文献分析中,系统可借助该数据集训练的模型识别疾病与症状间的因果关系;在商业情报挖掘里,能够自动提取产品与生产者之间的关联,从而辅助决策支持,提升自动化信息处理的精度与效率。
衍生相关工作
围绕该数据集,衍生了一系列经典研究工作,包括基于卷积神经网络和循环神经网络的端到端关系分类模型。这些工作不仅提升了关系分类的准确率,还推动了注意力机制和图神经网络在语义关系建模中的应用。此外,该数据集常被用作预训练语言模型微调的基准,促进了BERT、RoBERTa等模型在关系抽取任务上的性能优化与比较研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作