five

S2ORC|学术研究数据集|文本挖掘数据集

收藏
arXiv2020-07-07 更新2024-06-21 收录
学术研究
文本挖掘
下载链接:
https://github.com/allenai/s2orc/
下载链接
链接失效反馈
资源简介:
S2ORC是由艾伦人工智能研究所创建的大规模学术论文数据集,包含8110万篇英语学术论文,覆盖多个学科领域。数据集不仅包含丰富的元数据和论文摘要,还包括810万篇开放获取论文的结构化全文。S2ORC通过整合数百个学术出版商和数字档案的数据,创建了迄今为止最大的公开可用机器可读学术文本集合。该数据集特别适合用于学术文本的文本挖掘研究和开发工具,旨在解决学术文献分析和信息检索中的问题。
提供机构:
艾伦人工智能研究所
创建时间:
2019-11-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
S2ORC数据集的构建基于Semantic Scholar文献语料库,通过整合来自数百个学术出版商和数字档案的数据,形成了一个统一的资源。该数据集包括81.1M篇英语学术论文的丰富元数据、摘要、已解析的参考文献,以及8.1M篇开放获取论文的结构化全文。全文文本通过自动检测的内联引用、图表和表格提及进行注释,每个提及都链接到相应的论文对象。构建过程中,首先处理PDF和LATEX源以提取元数据、清理全文、内联引用和参考文献,然后选择每个论文集群的最佳元数据和全文解析,过滤掉元数据或内容不足的论文集群,最后解析语料库中论文集群之间的参考文献链接。
特点
S2ORC数据集的特点在于其规模庞大且内容丰富,涵盖了多个学术领域。它不仅提供了论文的元数据和摘要,还包含了8.1M篇开放获取论文的结构化全文,这些全文文本经过精细处理,保留了段落、章节标题、内联引用提及以及图表和表格的引用。此外,数据集还提供了1.5M篇来自arXiv的LATEX源解析,进一步增强了数据集的结构化信息。S2ORC的多样性和全面性使其成为文本挖掘和自然语言处理任务的理想资源。
使用方法
S2ORC数据集可用于多种自然语言处理和分析任务,包括但不限于内联和文档级别的引用推荐、引用意图分类、引用情感识别、关键短语提取和基于引用上下文的论文摘要生成。此外,数据集的结构化全文和引用链接使其非常适合进行跨论文的论述分析和文献计量分析。研究者可以通过访问数据集的GitHub页面获取详细的使用指南和数据访问权限,利用这些丰富的资源进行学术文本的深入研究和模型训练。
背景与挑战
背景概述
S2ORC(Semantic Scholar Open Research Corpus)是由Allen Institute for Artificial Intelligence和University of Washington的研究人员于2020年创建的一个大规模学术论文语料库。该语料库包含了8110万篇英语学术论文,涵盖了多个学术领域。S2ORC不仅提供了丰富的元数据和论文摘要,还为810万篇开放获取的论文提供了结构化的全文内容,包括引文、图表和表格的标注。S2ORC的构建旨在促进学术文本的文本挖掘工具和任务的研究与发展,对自然语言处理(NLP)和学术文献分析领域产生了深远影响。
当前挑战
S2ORC在构建过程中面临了多个挑战。首先,如何从数百个学术出版商和数字档案中聚合论文,并确保数据的一致性和质量是一个复杂的问题。其次,识别和处理开放获取的出版物,以及对全文进行结构化标注,需要高效的算法和工具支持。此外,S2ORC还需要解决引文和参考文献的自动检测与链接问题,以确保数据的准确性和完整性。这些挑战不仅涉及到技术层面的创新,还需要对学术出版生态系统有深入的理解和协调。
常用场景
经典使用场景
S2ORC数据集的经典使用场景主要集中在学术文本的挖掘和自然语言处理(NLP)任务上。由于其包含了81.1M篇学术论文的丰富元数据、摘要、引文和8.1M篇开放获取论文的全文,S2ORC特别适用于引文分析、科学计量学、信息检索和网络分析等领域的研究。此外,数据集中的全文文本经过自动检测的引文、图表和表格的标注,使得其非常适合用于开发和评估文本挖掘工具和任务。
实际应用
S2ORC数据集在实际应用中展现了其广泛的应用潜力。例如,它可以用于构建和评估引文推荐系统,帮助研究人员快速找到相关文献。此外,S2ORC的全文标注特性使其成为开发自动摘要、实体提取、文本分类和话语分析等NLP任务的理想数据集。在科学计量学领域,S2ORC可以用于分析学术趋势和研究影响力,支持政策制定和资源分配。通过这些应用,S2ORC不仅提升了学术研究的效率,还推动了相关技术的发展。
衍生相关工作
S2ORC数据集的发布催生了一系列相关研究工作。例如,基于S2ORC的全文文本,研究人员开发了SCIBERT模型,该模型在多个科学NLP任务上表现优异。此外,S2ORC还被用于构建CORD-19数据集,该数据集在COVID-19疫情期间成为了文本挖掘的重要资源。这些衍生工作不仅展示了S2ORC在学术文本处理中的强大能力,还推动了NLP技术在科学研究中的应用和发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。

www.ngac.org.cn 收录

CMAB

CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。

arXiv 收录