DFKI-SLT/science_ie
收藏Hugging Face2024-05-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DFKI-SLT/science_ie
下载链接
链接失效反馈官方服务:
资源简介:
ScienceIE数据集是为SemEval任务设计的,旨在从科学文档中提取关键短语及其之间的关系。数据集来源于ScienceDirect的开放获取出版物,包含500段来自计算机科学、材料科学和物理学领域的期刊文章。数据集分为训练、开发和测试三部分,分别包含350、50和100个文档。数据集包含三个子任务:关键短语识别、关键短语分类和关键短语关系提取。数据集的默认配置将原始文件转换为字典格式,便于使用。
提供机构:
DFKI-SLT
原始信息汇总
数据集概述
数据集基本信息
- 名称: ScienceIE
- 语言: 英语
- 许可证: 其他
- 多语言性: 单语
- 大小: 1K<n<10K
- 任务类型:
- 令牌分类
- 文本分类
- 任务ID:
- 命名实体识别
- 多类分类
- 描述: ScienceIE是一个用于SemEval任务的数据集,旨在从科学文档中提取关键短语及其之间的关系。
数据集结构
数据字段
-
science_ie:
id: 文档实例ID,字符串类型。text: 文档文本,字符串类型。keyphrases: 关键短语列表,列表类型,包含字典。id: 关键短语实例ID,字符串类型。start: 关键短语起始字符偏移,整数类型。end: 关键短语结束字符偏移,整数类型。type: 关键短语类型,分类标签。type_: 关键短语类型,字符串类型。
relations: 关系列表,列表类型,包含字典。arg1: 第一个关键短语实例ID,字符串类型。arg2: 第二个关键短语实例ID,字符串类型。relation: 关系标签,分类标签。relation_: 关系标签,字符串类型。
-
subtask_a:
id: 句子实例ID,字符串类型。tokens: 令牌列表,列表类型,字符串元素。tags: 标签列表,列表类型,分类标签元素。
-
subtask_b:
id: 句子实例ID,字符串类型。tokens: 令牌列表,列表类型,字符串元素。tags: 标签列表,列表类型,分类标签元素。
-
subtask_c:
id: 句子实例ID,字符串类型。tokens: 令牌列表,列表类型,字符串元素。tags: 标签序列,列表类型,包含分类标签的列表元素。
-
ner:
id: 句子实例ID,字符串类型。tokens: 令牌列表,列表类型,字符串元素。tags: 命名实体识别标签列表,列表类型,分类标签元素。
-
re:
id: 句子实例ID,字符串类型。tokens: 令牌列表,列表类型,字符串元素。arg1_start: 关系arg1提及的起始令牌索引,整数类型。arg1_end: 关系arg1提及的结束令牌索引,整数类型。arg1_type: 关系arg1提及的关键短语类型,字符串类型。arg2_start: 关系arg2提及的起始令牌索引,整数类型。arg2_end: 关系arg2提及的结束令牌索引,整数类型。arg2_type: 关系arg2提及的关键短语类型,字符串类型。relation: 关系标签,分类标签。
数据分割
| 配置名称 | 训练 | 验证 | 测试 |
|---|---|---|---|
| science_ie | 350 | 50 | 100 |
| subtask_a | 2388 | 400 | 838 |
| subtask_b | 2388 | 400 | 838 |
| subtask_c | 2388 | 400 | 838 |
| ner | 2388 | 400 | 838 |
| re | 24558 | 4838 | 6618 |
数据集创建
注释过程
- 注释者: 专家生成
- 语言创建者: 发现
个人和敏感信息
- 信息: 未提供具体信息
使用数据集的考虑
社会影响
- 影响: 未提供具体信息
偏见讨论
- 偏见: 未提供具体信息
其他已知限制
- 限制: 未提供具体信息
附加信息
数据集管理员
- 管理员: 未提供具体信息
许可信息
- 许可证: 其他
引用信息
- 引用: 未提供完整引用信息
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



