five

DFKI-SLT/science_ie

收藏
Hugging Face2024-05-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DFKI-SLT/science_ie
下载链接
链接失效反馈
官方服务:
资源简介:
ScienceIE数据集是为SemEval任务设计的,旨在从科学文档中提取关键短语及其之间的关系。数据集来源于ScienceDirect的开放获取出版物,包含500段来自计算机科学、材料科学和物理学领域的期刊文章。数据集分为训练、开发和测试三部分,分别包含350、50和100个文档。数据集包含三个子任务:关键短语识别、关键短语分类和关键短语关系提取。数据集的默认配置将原始文件转换为字典格式,便于使用。
提供机构:
DFKI-SLT
原始信息汇总

数据集概述

数据集基本信息

  • 名称: ScienceIE
  • 语言: 英语
  • 许可证: 其他
  • 多语言性: 单语
  • 大小: 1K<n<10K
  • 任务类型:
    • 令牌分类
    • 文本分类
  • 任务ID:
    • 命名实体识别
    • 多类分类
  • 描述: ScienceIE是一个用于SemEval任务的数据集,旨在从科学文档中提取关键短语及其之间的关系。

数据集结构

数据字段

  • science_ie:

    • id: 文档实例ID,字符串类型。
    • text: 文档文本,字符串类型。
    • keyphrases: 关键短语列表,列表类型,包含字典。
      • id: 关键短语实例ID,字符串类型。
      • start: 关键短语起始字符偏移,整数类型。
      • end: 关键短语结束字符偏移,整数类型。
      • type: 关键短语类型,分类标签。
      • type_: 关键短语类型,字符串类型。
    • relations: 关系列表,列表类型,包含字典。
      • arg1: 第一个关键短语实例ID,字符串类型。
      • arg2: 第二个关键短语实例ID,字符串类型。
      • relation: 关系标签,分类标签。
      • relation_: 关系标签,字符串类型。
  • subtask_a:

    • id: 句子实例ID,字符串类型。
    • tokens: 令牌列表,列表类型,字符串元素。
    • tags: 标签列表,列表类型,分类标签元素。
  • subtask_b:

    • id: 句子实例ID,字符串类型。
    • tokens: 令牌列表,列表类型,字符串元素。
    • tags: 标签列表,列表类型,分类标签元素。
  • subtask_c:

    • id: 句子实例ID,字符串类型。
    • tokens: 令牌列表,列表类型,字符串元素。
    • tags: 标签序列,列表类型,包含分类标签的列表元素。
  • ner:

    • id: 句子实例ID,字符串类型。
    • tokens: 令牌列表,列表类型,字符串元素。
    • tags: 命名实体识别标签列表,列表类型,分类标签元素。
  • re:

    • id: 句子实例ID,字符串类型。
    • tokens: 令牌列表,列表类型,字符串元素。
    • arg1_start: 关系arg1提及的起始令牌索引,整数类型。
    • arg1_end: 关系arg1提及的结束令牌索引,整数类型。
    • arg1_type: 关系arg1提及的关键短语类型,字符串类型。
    • arg2_start: 关系arg2提及的起始令牌索引,整数类型。
    • arg2_end: 关系arg2提及的结束令牌索引,整数类型。
    • arg2_type: 关系arg2提及的关键短语类型,字符串类型。
    • relation: 关系标签,分类标签。

数据分割

配置名称 训练 验证 测试
science_ie 350 50 100
subtask_a 2388 400 838
subtask_b 2388 400 838
subtask_c 2388 400 838
ner 2388 400 838
re 24558 4838 6618

数据集创建

注释过程

  • 注释者: 专家生成
  • 语言创建者: 发现

个人和敏感信息

  • 信息: 未提供具体信息

使用数据集的考虑

社会影响

  • 影响: 未提供具体信息

偏见讨论

  • 偏见: 未提供具体信息

其他已知限制

  • 限制: 未提供具体信息

附加信息

数据集管理员

  • 管理员: 未提供具体信息

许可信息

  • 许可证: 其他

引用信息

  • 引用: 未提供完整引用信息
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作