disi-unibo-nlp/SciLay
收藏Hugging Face2024-05-20 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/disi-unibo-nlp/SciLay
下载链接
链接失效反馈官方服务:
资源简介:
SciLay数据集包含43,790个实例,每个实例代表生物医学领域的一篇科学文章。每个实例包括简化的plain_text、技术性的technical_text和完整的full_text,以及相关的元数据如DOI、PMCID、期刊、主题和关键词。数据集旨在支持开发能够有效简化复杂科学语言同时保留关键信息的文本摘要模型。数据集涵盖了15种不同的期刊来源,如Nature Communications、Animals等,并提供了不同配置的数据分割。
SciLay数据集包含43,790个实例,每个实例代表生物医学领域的一篇科学文章。每个实例包括简化的plain_text、技术性的technical_text和完整的full_text,以及相关的元数据如DOI、PMCID、期刊、主题和关键词。数据集旨在支持开发能够有效简化复杂科学语言同时保留关键信息的文本摘要模型。数据集涵盖了15种不同的期刊来源,如Nature Communications、Animals等,并提供了不同配置的数据分割。
提供机构:
disi-unibo-nlp
原始信息汇总
数据集概述
数据集配置
-
配置A
- 特征:
- doi: 字符串
- pmcid: 字符串
- plain_text: 字符串
- technical_text: 字符串
- full_text: 字符串
- journal: 字符串
- topics: 字符串序列
- keywords: 字符串序列
- 数据分割:
- 训练: 3909个样本, 128936951字节
- 验证: 489个样本, 15912431字节
- 测试: 489个样本, 16235251字节
- 下载大小: 83830061字节
- 数据集大小: 161084633字节
- 特征:
-
配置B
- 特征: 同配置A
- 数据分割:
- 训练: 1617个样本, 57956055字节
- 验证: 202个样本, 6860452字节
- 测试: 203个样本, 7422716字节
- 下载大小: 37654668字节
- 数据集大小: 72239223字节
-
配置C
- 特征: 同配置A
- 数据分割:
- 训练: 6782个样本, 242721690字节
- 验证: 848个样本, 30735056字节
- 测试: 848个样本, 31018214字节
- 下载大小: 158704561字节
- 数据集大小: 304474960字节
-
配置CB
- 特征: 同配置A
- 数据分割:
- 训练: 867个样本, 43533134字节
- 验证: 108个样本, 5664682字节
- 测试: 109个样本, 5455500字节
- 下载大小: 27189215字节
- 数据集大小: 54653316字节
-
配置I
- 特征: 同配置A
- 数据分割:
- 训练: 1181个样本, 37682107字节
- 验证: 148个样本, 4967810字节
- 测试: 148个样本, 4945533字节
- 下载大小: 24754627字节
- 数据集大小: 47595450字节
-
配置MBIO
- 特征: 同配置A
- 数据分割:
- 训练: 607个样本, 30528726字节
- 验证: 76个样本, 3905117字节
- 测试: 76个样本, 3830514字节
- 下载大小: 18844836字节
- 数据集大小: 38264357字节
-
配置NC
- 特征: 同配置A
- 数据分割:
- 训练: 5549个样本, 286453072字节
- 验证: 694个样本, 35652636字节
- 测试: 694个样本, 35869803字节
- 下载大小: 174664205字节
- 数据集大小: 357975511字节
-
配置OTHER
- 特征: 同配置A
- 数据分割:
- 训练: 2008个样本, 89884204字节
- 验证: 251个样本, 11198113字节
- 测试: 251个样本, 11665218字节
- 下载大小: 56488155字节
- 数据集大小: 112747535字节
-
配置PLB
- 特征: 同配置A
- 数据分割:
- 训练: 896个样本, 54106804字节
- 验证: 112个样本, 6575630字节
- 测试: 113个样本, 6563666字节
- 下载大小: 33228217字节
- 数据集大小: 67246100字节
-
配置PLCB
- 特征: 同配置A
- 数据分割:
- 训练: 2589个样本, 149165851字节
- 验证: 324个样本, 18844485字节
- 测试: 324个样本, 18926571字节
- 下载大小: 90880208字节
- 数据集大小: 186936907字节
-
配置PLGEN
- 特征: 同配置A
- 数据分割:
- 训练: 3087个样本, 176933946字节
- 验证: 386个样本, 21857559字节
- 测试: 386个样本, 21226953字节
- 下载大小: 108531011字节
- 数据集大小: 220018458字节
-
配置PLNTD
- 特征: 同配置A
- 数据分割:
- 训练: 2289个样本, 90159685字节
- 验证: 286个样本, 11227802字节
- 测试: 287个样本, 11587156字节
- 下载大小: 57806998字节
- 数据集大小: 112974643字节
-
配置PLPAT
- 特征: 同配置A
- 数据分割:
- 训练: 2920个样本, 167781149字节
- 验证: 365个样本, 20760947字节
- 测试: 365个样本, 21113922字节
- 下载大小: 102858284字节
- 数据集大小: 209656018字节
-
配置SD
- 特征: 同配置A
- 数据分割:
- 训练: 725个样本, 23671697字节
- 验证: 91个样本, 3033467字节
- 测试: 91个样本, 2972947字节
- 下载大小: 15082066字节
- 数据集大小: 29678111字节
-
配置all
- 特征: 同配置A
- 数据分割:
- 训练: 35026个样本, 1579515071字节
- 验证: 4380个样本, 197196187字节
- 测试: 4384个样本, 198833964字节
- 下载大小: 990169794字节
- 数据集大小: 1975545222字节
数据集特征
- doi: 字符串,数字对象标识符,非所有实例都有。
- pmcid: 字符串,PubMed Central标识符,非所有实例都有。
- plain_text: 字符串,文章的简明英语摘要。
- technical_text: 字符串,文章的摘要。
- full_text: 字符串,完整的文章文本。
- journal: 字符串,发表文章的期刊名称。
- topics: 字符串序列,文章分类的类型,非所有实例都有。
- keywords: 字符串序列,文章的关键词,非所有实例都有。
数据分割
| 配置 | 训练样本 | 验证样本 | 测试样本 |
|---|---|---|---|
| all | 35026 | 4380 | 4384 |
| NC | 5549 | 694 | 694 |
| A | 3909 | 489 | 489 |
| PLGEN | 3087 | 386 | 386 |
| PLPAT | 2920 | 365 | 365 |
| PLCB | 2589 | 324 | 324 |
| PLNTD | 2289 | 286 | 287 |
| B | 1617 | 202 | 203 |
| I | 1181 | 148 | 148 |
| PLB | 896 | 112 | 113 |
| CB | 867 | 108 | 109 |
| SD | 725 | 91 | 91 |
| MBIO | 607 | 76 | 76 |
| C | 6782 | 848 | 848 |
| OTHER | 2008 | 251 | 251 |
以上信息概述了SciLay数据集的配置、特征和数据分割情况。



