five

S2ORC|学术研究数据集|文本挖掘数据集

收藏
arXiv2020-07-07 更新2024-06-21 收录
学术研究
文本挖掘
下载链接:
https://github.com/allenai/s2orc/
下载链接
链接失效反馈
资源简介:
S2ORC是由艾伦人工智能研究所创建的大规模学术论文数据集,包含8110万篇英语学术论文,覆盖多个学科领域。数据集不仅包含丰富的元数据和论文摘要,还包括810万篇开放获取论文的结构化全文。S2ORC通过整合数百个学术出版商和数字档案的数据,创建了迄今为止最大的公开可用机器可读学术文本集合。该数据集特别适合用于学术文本的文本挖掘研究和开发工具,旨在解决学术文献分析和信息检索中的问题。
提供机构:
艾伦人工智能研究所
创建时间:
2019-11-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
S2ORC数据集的构建基于Semantic Scholar文献语料库,通过整合来自数百个学术出版商和数字档案的数据,形成了一个统一的资源。该数据集包括81.1M篇英语学术论文的丰富元数据、摘要、已解析的参考文献,以及8.1M篇开放获取论文的结构化全文。全文文本通过自动检测的内联引用、图表和表格提及进行注释,每个提及都链接到相应的论文对象。构建过程中,首先处理PDF和LATEX源以提取元数据、清理全文、内联引用和参考文献,然后选择每个论文集群的最佳元数据和全文解析,过滤掉元数据或内容不足的论文集群,最后解析语料库中论文集群之间的参考文献链接。
特点
S2ORC数据集的特点在于其规模庞大且内容丰富,涵盖了多个学术领域。它不仅提供了论文的元数据和摘要,还包含了8.1M篇开放获取论文的结构化全文,这些全文文本经过精细处理,保留了段落、章节标题、内联引用提及以及图表和表格的引用。此外,数据集还提供了1.5M篇来自arXiv的LATEX源解析,进一步增强了数据集的结构化信息。S2ORC的多样性和全面性使其成为文本挖掘和自然语言处理任务的理想资源。
使用方法
S2ORC数据集可用于多种自然语言处理和分析任务,包括但不限于内联和文档级别的引用推荐、引用意图分类、引用情感识别、关键短语提取和基于引用上下文的论文摘要生成。此外,数据集的结构化全文和引用链接使其非常适合进行跨论文的论述分析和文献计量分析。研究者可以通过访问数据集的GitHub页面获取详细的使用指南和数据访问权限,利用这些丰富的资源进行学术文本的深入研究和模型训练。
背景与挑战
背景概述
S2ORC(Semantic Scholar Open Research Corpus)是由Allen Institute for Artificial Intelligence和University of Washington的研究人员于2020年创建的一个大规模学术论文语料库。该语料库包含了8110万篇英语学术论文,涵盖了多个学术领域。S2ORC不仅提供了丰富的元数据和论文摘要,还为810万篇开放获取的论文提供了结构化的全文内容,包括引文、图表和表格的标注。S2ORC的构建旨在促进学术文本的文本挖掘工具和任务的研究与发展,对自然语言处理(NLP)和学术文献分析领域产生了深远影响。
当前挑战
S2ORC在构建过程中面临了多个挑战。首先,如何从数百个学术出版商和数字档案中聚合论文,并确保数据的一致性和质量是一个复杂的问题。其次,识别和处理开放获取的出版物,以及对全文进行结构化标注,需要高效的算法和工具支持。此外,S2ORC还需要解决引文和参考文献的自动检测与链接问题,以确保数据的准确性和完整性。这些挑战不仅涉及到技术层面的创新,还需要对学术出版生态系统有深入的理解和协调。
常用场景
经典使用场景
S2ORC数据集的经典使用场景主要集中在学术文本的挖掘和自然语言处理(NLP)任务上。由于其包含了81.1M篇学术论文的丰富元数据、摘要、引文和8.1M篇开放获取论文的全文,S2ORC特别适用于引文分析、科学计量学、信息检索和网络分析等领域的研究。此外,数据集中的全文文本经过自动检测的引文、图表和表格的标注,使得其非常适合用于开发和评估文本挖掘工具和任务。
实际应用
S2ORC数据集在实际应用中展现了其广泛的应用潜力。例如,它可以用于构建和评估引文推荐系统,帮助研究人员快速找到相关文献。此外,S2ORC的全文标注特性使其成为开发自动摘要、实体提取、文本分类和话语分析等NLP任务的理想数据集。在科学计量学领域,S2ORC可以用于分析学术趋势和研究影响力,支持政策制定和资源分配。通过这些应用,S2ORC不仅提升了学术研究的效率,还推动了相关技术的发展。
衍生相关工作
S2ORC数据集的发布催生了一系列相关研究工作。例如,基于S2ORC的全文文本,研究人员开发了SCIBERT模型,该模型在多个科学NLP任务上表现优异。此外,S2ORC还被用于构建CORD-19数据集,该数据集在COVID-19疫情期间成为了文本挖掘的重要资源。这些衍生工作不仅展示了S2ORC在学术文本处理中的强大能力,还推动了NLP技术在科学研究中的应用和发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录