five

用于结构功能识别的大规模数据集|科学文本分析数据集|自然语言处理数据集

收藏
arXiv2025-05-20 更新2025-05-22 收录
科学文本分析
自然语言处理
下载链接:
https://github.com/tongbao96/code-for-SFR-AS
下载链接
链接失效反馈
资源简介:
该数据集由南京理工大学信息管理系的研究人员创建,旨在通过自动识别科学论文中的结构功能,以提升科学论文的摘要质量。数据集由从arXiv和PubMed收集的原始文章组成,这些文章的章节标题被标准化为IMRaD格式,以便进行结构功能识别。通过训练一个分类器来自动识别章节中的关键结构组件,如背景、方法、结果、讨论等。最后,使用Longformer模型来捕捉丰富的上下文信息,生成科学论文的摘要。
提供机构:
南京理工大学信息管理系
创建时间:
2025-05-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于arXiv和PubMed平台上的科学论文,通过标准化章节标题并按照IMRaD格式(引言、方法、结果、讨论)进行分类。首先,收集原始论文全文,提取章节标题和内容;其次,通过NLM映射文件将多样化的章节标题统一归类为四大功能类别(背景、方法、结果、结论);最后,筛选包含完整四类章节的论文,确保每章节内容不超过1500词,摘要长度控制在50-300词,形成最终数据集。
特点
数据集涵盖生物医学(PubMed)和多学科(arXiv)领域的科学论文,具有以下特点:1)结构标准化,章节标题统一映射至IMRaD框架,消除学科间表述差异;2)信息密度高,聚焦章节首尾部分的关键内容以优化分类效果;3)规模庞大,包含30,000篇论文的章节标注数据,平均章节长度覆盖短文本(如方法章节约400词)与长文本(如结果章节达1425词);4)任务适配性强,同时支持结构功能识别与生成式摘要两阶段任务。
使用方法
数据集的使用分为两个阶段:1)结构功能识别阶段,采用SciBERT等预训练模型对章节文本进行编码,通过Softmax分类器预测其功能类别(背景/方法/结果/结论);2)摘要生成阶段,将标注后的章节内容与标签输入Longformer等长文本模型,通过自注意力机制捕捉跨章节上下文关系,生成结构化摘要。针对模型输入长度限制,可采用分治策略对章节单独生成摘要后拼接,或直接处理全文。评估时需结合ROUGE指标(衡量词汇重叠)与GEMCR(衡量结构覆盖度)。
背景与挑战
背景概述
该数据集由南京理工大学信息管理系的Tong Bao、Heng Zhang和Chengzhi Zhang等人构建,旨在解决科学论文摘要生成中的结构化信息利用不足问题。科学论文通常遵循IMRaD(引言、方法、结果和讨论)结构,但现有摘要生成方法往往忽视这种结构化信息,导致生成的摘要不够全面和平衡。该数据集的构建通过标准化科学论文的章节标题,并训练分类器自动识别章节功能(如背景、方法、结果和结论),为生成更全面的摘要提供了基础。该研究对科学文献管理和信息检索领域具有重要影响,尤其是在处理长文档和跨学科科学论文时。
当前挑战
该数据集面临的主要挑战包括:1) 科学论文的结构灵活性,不同学科和作者的章节标题差异较大,难以通过简单的关键词映射或规则方法准确识别章节功能;2) 科学论文的长度通常较长,超过3000字,这增加了计算复杂性和生成长距离依赖关系的难度;3) 生成的摘要需要全面覆盖多个章节的内容,通常超过200字,有时甚至达到400字,这对生成模型的性能提出了更高要求。在构建过程中,研究人员还需要处理章节标题的多样性和标准化问题,以及如何有效利用章节的开头和结尾部分(这些部分通常包含更高密度的信息)来提高分类性能。
常用场景
经典使用场景
该数据集在科学文献摘要生成领域具有重要应用价值,尤其针对结构复杂的学术论文。通过标准化章节标题并构建大规模结构功能识别数据集,研究者能够训练分类器自动识别论文中的关键结构组件(如背景、方法、结果、结论)。这种结构化信息的提取为后续生成更全面、平衡的摘要提供了坚实基础。数据集的应用场景主要集中在处理长文档的科学论文,这些论文通常遵循IMRaD结构,但章节标题存在较大灵活性。
实际应用
在实际应用中,该数据集支持开发自动化文献综述工具,帮助研究人员快速把握论文核心内容。特别是在生物医学和计算机科学领域,数据集可用于构建智能文献阅读辅助系统,自动提取论文的关键方法和结果部分。此外,数据集还可应用于学术搜索引擎的摘要生成模块,为用户提供更结构化的论文概览,显著提升文献检索效率。
衍生相关工作
基于该数据集衍生的经典工作包括:1)结合Longformer的长文本处理能力开发的层次化摘要生成框架;2)利用结构信息改进的BERTSUM变体SciBERTSUM;3)BigBird-Pegasus在长文档摘要任务中的创新应用。这些工作不仅推动了科学论文摘要生成技术的发展,还为处理其他结构化文档(如专利、技术报告)提供了方法论参考。数据集还催生了多篇探讨结构信息对摘要质量影响的对比研究。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

全球1km分辨率大气二氧化碳浓度数据集(2003-2023)

持续增加的人为CO₂排放导致了全球变暖和气候变化,进而引发了全球范围的重大环境、经济和健康损失,基于卫星遥感数据准确连续地监测大气CO₂变化对于理解全球碳循环、评估碳源和碳汇的分布以及制定有效的减排政策至关重要。大气CO2柱浓度(XCO2)指从地表到大气顶层干燥空气柱中CO2的平均体积比,是用来表征大气中CO2分子含量的物理量。当前已公开发表的全球无缝XCO2产品存在无法同时提供长时间跨度和高时空分辨率的问题,限制了其更为广泛的科学应用。本数据集基于来自SCIAMACHY、GOSAT 和 OCO-2 三颗卫星/传感器的XCO2观测数据进行二次研发,以卫星XCO2观测数据为训练标签,与 CO₂ 排放、吸收和传输相关的多源因素为解释变量,利用整合了U-Net网络和ConvLSTM网络的深度学习算法构建预测模型,生成了国际首套2003-2023年全球时空连续1公里分辨率逐日XCO2数据集。经全球27个TCCON地面观测站点的验证,结果表明该产品具有较好的精度(决定系数R2为0.989,均方根误差RMSE为1.021ppm)。本数据集为深化对全球碳循环的理解、评估减排政策以及应对气候变化挑战提供了重要的基础数据。

国家青藏高原科学数据中心 收录