five

disi-unibo-nlp/SciLay

收藏
Hugging Face2024-05-20 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/disi-unibo-nlp/SciLay
下载链接
链接失效反馈
官方服务:
资源简介:
SciLay数据集包含43,790个实例,每个实例代表生物医学领域的一篇科学文章。每个实例包括简化的plain_text、技术性的technical_text和完整的full_text,以及相关的元数据如DOI、PMCID、期刊、主题和关键词。数据集旨在支持开发能够有效简化复杂科学语言同时保留关键信息的文本摘要模型。数据集涵盖了15种不同的期刊来源,如Nature Communications、Animals等,并提供了不同配置的数据分割。

SciLay数据集包含43,790个实例,每个实例代表生物医学领域的一篇科学文章。每个实例包括简化的plain_text、技术性的technical_text和完整的full_text,以及相关的元数据如DOI、PMCID、期刊、主题和关键词。数据集旨在支持开发能够有效简化复杂科学语言同时保留关键信息的文本摘要模型。数据集涵盖了15种不同的期刊来源,如Nature Communications、Animals等,并提供了不同配置的数据分割。
提供机构:
disi-unibo-nlp
原始信息汇总

数据集概述

数据集配置

  • 配置A

    • 特征:
      • doi: 字符串
      • pmcid: 字符串
      • plain_text: 字符串
      • technical_text: 字符串
      • full_text: 字符串
      • journal: 字符串
      • topics: 字符串序列
      • keywords: 字符串序列
    • 数据分割:
      • 训练: 3909个样本, 128936951字节
      • 验证: 489个样本, 15912431字节
      • 测试: 489个样本, 16235251字节
    • 下载大小: 83830061字节
    • 数据集大小: 161084633字节
  • 配置B

    • 特征: 同配置A
    • 数据分割:
      • 训练: 1617个样本, 57956055字节
      • 验证: 202个样本, 6860452字节
      • 测试: 203个样本, 7422716字节
    • 下载大小: 37654668字节
    • 数据集大小: 72239223字节
  • 配置C

    • 特征: 同配置A
    • 数据分割:
      • 训练: 6782个样本, 242721690字节
      • 验证: 848个样本, 30735056字节
      • 测试: 848个样本, 31018214字节
    • 下载大小: 158704561字节
    • 数据集大小: 304474960字节
  • 配置CB

    • 特征: 同配置A
    • 数据分割:
      • 训练: 867个样本, 43533134字节
      • 验证: 108个样本, 5664682字节
      • 测试: 109个样本, 5455500字节
    • 下载大小: 27189215字节
    • 数据集大小: 54653316字节
  • 配置I

    • 特征: 同配置A
    • 数据分割:
      • 训练: 1181个样本, 37682107字节
      • 验证: 148个样本, 4967810字节
      • 测试: 148个样本, 4945533字节
    • 下载大小: 24754627字节
    • 数据集大小: 47595450字节
  • 配置MBIO

    • 特征: 同配置A
    • 数据分割:
      • 训练: 607个样本, 30528726字节
      • 验证: 76个样本, 3905117字节
      • 测试: 76个样本, 3830514字节
    • 下载大小: 18844836字节
    • 数据集大小: 38264357字节
  • 配置NC

    • 特征: 同配置A
    • 数据分割:
      • 训练: 5549个样本, 286453072字节
      • 验证: 694个样本, 35652636字节
      • 测试: 694个样本, 35869803字节
    • 下载大小: 174664205字节
    • 数据集大小: 357975511字节
  • 配置OTHER

    • 特征: 同配置A
    • 数据分割:
      • 训练: 2008个样本, 89884204字节
      • 验证: 251个样本, 11198113字节
      • 测试: 251个样本, 11665218字节
    • 下载大小: 56488155字节
    • 数据集大小: 112747535字节
  • 配置PLB

    • 特征: 同配置A
    • 数据分割:
      • 训练: 896个样本, 54106804字节
      • 验证: 112个样本, 6575630字节
      • 测试: 113个样本, 6563666字节
    • 下载大小: 33228217字节
    • 数据集大小: 67246100字节
  • 配置PLCB

    • 特征: 同配置A
    • 数据分割:
      • 训练: 2589个样本, 149165851字节
      • 验证: 324个样本, 18844485字节
      • 测试: 324个样本, 18926571字节
    • 下载大小: 90880208字节
    • 数据集大小: 186936907字节
  • 配置PLGEN

    • 特征: 同配置A
    • 数据分割:
      • 训练: 3087个样本, 176933946字节
      • 验证: 386个样本, 21857559字节
      • 测试: 386个样本, 21226953字节
    • 下载大小: 108531011字节
    • 数据集大小: 220018458字节
  • 配置PLNTD

    • 特征: 同配置A
    • 数据分割:
      • 训练: 2289个样本, 90159685字节
      • 验证: 286个样本, 11227802字节
      • 测试: 287个样本, 11587156字节
    • 下载大小: 57806998字节
    • 数据集大小: 112974643字节
  • 配置PLPAT

    • 特征: 同配置A
    • 数据分割:
      • 训练: 2920个样本, 167781149字节
      • 验证: 365个样本, 20760947字节
      • 测试: 365个样本, 21113922字节
    • 下载大小: 102858284字节
    • 数据集大小: 209656018字节
  • 配置SD

    • 特征: 同配置A
    • 数据分割:
      • 训练: 725个样本, 23671697字节
      • 验证: 91个样本, 3033467字节
      • 测试: 91个样本, 2972947字节
    • 下载大小: 15082066字节
    • 数据集大小: 29678111字节
  • 配置all

    • 特征: 同配置A
    • 数据分割:
      • 训练: 35026个样本, 1579515071字节
      • 验证: 4380个样本, 197196187字节
      • 测试: 4384个样本, 198833964字节
    • 下载大小: 990169794字节
    • 数据集大小: 1975545222字节

数据集特征

  • doi: 字符串,数字对象标识符,非所有实例都有。
  • pmcid: 字符串,PubMed Central标识符,非所有实例都有。
  • plain_text: 字符串,文章的简明英语摘要。
  • technical_text: 字符串,文章的摘要。
  • full_text: 字符串,完整的文章文本。
  • journal: 字符串,发表文章的期刊名称。
  • topics: 字符串序列,文章分类的类型,非所有实例都有。
  • keywords: 字符串序列,文章的关键词,非所有实例都有。

数据分割

配置 训练样本 验证样本 测试样本
all 35026 4380 4384
NC 5549 694 694
A 3909 489 489
PLGEN 3087 386 386
PLPAT 2920 365 365
PLCB 2589 324 324
PLNTD 2289 286 287
B 1617 202 203
I 1181 148 148
PLB 896 112 113
CB 867 108 109
SD 725 91 91
MBIO 607 76 76
C 6782 848 848
OTHER 2008 251 251

以上信息概述了SciLay数据集的配置、特征和数据分割情况。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作