Basvoju/SemEval2018Task7
收藏数据集概述
数据集基本信息
- 数据集名称: SemEval2018Task7
- 数据集描述: 描述科学论文中的语义关系提取和分类
- 数据集大小: 1K<n<10K
- 语言: 英语
- 任务类别: 文本分类
- 任务ID: entity-linking-classification
数据集详细信息
数据集概要
SemEval2018Task7 是一个专注于科学论文中特定领域语义关系提取和分类的数据集。该挑战包括三个不同的子任务,旨在比较和量化不同预处理步骤对关系分类结果的影响。该任务吸引了32名参与者,共有158个不同场景的提交。
支持的任务和排行榜
- 任务: 科学论文中的关系提取和分类
- 排行榜: 链接
数据集结构
数据实例
-
子任务1.1: 关系分类在干净数据上
- 训练数据中,语义关系是手动标注的。
- 测试数据中,只提供实体标注和未标注的关系实例。
- 任务是预测科学出版物中实体之间的语义关系。
-
子任务1.2: 关系分类在噪声数据上
- 实体出现自动标注在训练和测试数据中。
- 任务是预测实体之间的语义关系。
-
子任务2: 提取和分类场景的度量
- 关系提取的评估
- 关系分类的评估
数据字段
-
子任务1_1:
id: 实例ID,字符串类型。title: 标题,字符串类型。abstract: 摘要,字符串类型。entities: 实体ID列表,字符串类型。relation: 关系列表,分类标签列表。
-
子任务1_2:
id: 实例ID,字符串类型。title: 标题,字符串类型。abstract: 摘要,字符串类型。entities: 实体ID列表,字符串类型。relation: 关系列表,分类标签列表。
数据分割
| 子任务 | 类型 | 训练 | 测试 |
|---|---|---|---|
| 子任务1_1 | 文本 | 2807 | 3326 |
| 关系 | 1228 | 1248 | |
| 子任务1_2 | 文本 | 1196 | 1193 |
| 关系 | 335 | 355 |
数据集创建
来源数据
初始数据收集和标准化
源语言生产者
注释
注释过程
注释者
个人和敏感信息
使用数据集的考虑
数据集的社会影响
偏见的讨论
其他已知限制
附加信息
数据集管理员
许可信息
引用信息
@inproceedings{gabor-etal-2018-semeval, title = "{S}em{E}val-2018 Task 7: Semantic Relation Extraction and Classification in Scientific Papers", author = {G{a}bor, Kata and Buscaldi, Davide and Schumann, Anne-Kathrin and QasemiZadeh, Behrang and Zargayouna, Ha{"i}fa and Charnois, Thierry}, booktitle = "Proceedings of the 12th International Workshop on Semantic Evaluation", month = jun, year = "2018", address = "New Orleans, Louisiana", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/S18-1111", doi = "10.18653/v1/S18-1111", pages = "679--688", abstract = "This paper describes the first task on semantic relation extraction and classification in scientific paper abstracts at SemEval 2018. The challenge focuses on domain-specific semantic relations and includes three different subtasks. The subtasks were designed so as to compare and quantify the effect of different pre-processing steps on the relation classification results. We expect the task to be relevant for a broad range of researchers working on extracting specialized knowledge from domain corpora, for example but not limited to scientific or bio-medical information extraction. The task attracted a total of 32 participants, with 158 submissions across different scenarios.", }
贡献者
感谢 @basvoju 添加此数据集。




