five

S2ORC|学术研究数据集|文本挖掘数据集

收藏
arXiv2020-07-07 更新2024-06-21 收录
学术研究
文本挖掘
下载链接:
https://github.com/allenai/s2orc/
下载链接
链接失效反馈
资源简介:
S2ORC是由艾伦人工智能研究所创建的大规模学术论文数据集,包含8110万篇英语学术论文,覆盖多个学科领域。数据集不仅包含丰富的元数据和论文摘要,还包括810万篇开放获取论文的结构化全文。S2ORC通过整合数百个学术出版商和数字档案的数据,创建了迄今为止最大的公开可用机器可读学术文本集合。该数据集特别适合用于学术文本的文本挖掘研究和开发工具,旨在解决学术文献分析和信息检索中的问题。
提供机构:
艾伦人工智能研究所
创建时间:
2019-11-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
S2ORC数据集的构建基于Semantic Scholar文献语料库,通过整合来自数百个学术出版商和数字档案的数据,形成了一个统一的资源。该数据集包括81.1M篇英语学术论文的丰富元数据、摘要、已解析的参考文献,以及8.1M篇开放获取论文的结构化全文。全文文本通过自动检测的内联引用、图表和表格提及进行注释,每个提及都链接到相应的论文对象。构建过程中,首先处理PDF和LATEX源以提取元数据、清理全文、内联引用和参考文献,然后选择每个论文集群的最佳元数据和全文解析,过滤掉元数据或内容不足的论文集群,最后解析语料库中论文集群之间的参考文献链接。
特点
S2ORC数据集的特点在于其规模庞大且内容丰富,涵盖了多个学术领域。它不仅提供了论文的元数据和摘要,还包含了8.1M篇开放获取论文的结构化全文,这些全文文本经过精细处理,保留了段落、章节标题、内联引用提及以及图表和表格的引用。此外,数据集还提供了1.5M篇来自arXiv的LATEX源解析,进一步增强了数据集的结构化信息。S2ORC的多样性和全面性使其成为文本挖掘和自然语言处理任务的理想资源。
使用方法
S2ORC数据集可用于多种自然语言处理和分析任务,包括但不限于内联和文档级别的引用推荐、引用意图分类、引用情感识别、关键短语提取和基于引用上下文的论文摘要生成。此外,数据集的结构化全文和引用链接使其非常适合进行跨论文的论述分析和文献计量分析。研究者可以通过访问数据集的GitHub页面获取详细的使用指南和数据访问权限,利用这些丰富的资源进行学术文本的深入研究和模型训练。
背景与挑战
背景概述
S2ORC(Semantic Scholar Open Research Corpus)是由Allen Institute for Artificial Intelligence和University of Washington的研究人员于2020年创建的一个大规模学术论文语料库。该语料库包含了8110万篇英语学术论文,涵盖了多个学术领域。S2ORC不仅提供了丰富的元数据和论文摘要,还为810万篇开放获取的论文提供了结构化的全文内容,包括引文、图表和表格的标注。S2ORC的构建旨在促进学术文本的文本挖掘工具和任务的研究与发展,对自然语言处理(NLP)和学术文献分析领域产生了深远影响。
当前挑战
S2ORC在构建过程中面临了多个挑战。首先,如何从数百个学术出版商和数字档案中聚合论文,并确保数据的一致性和质量是一个复杂的问题。其次,识别和处理开放获取的出版物,以及对全文进行结构化标注,需要高效的算法和工具支持。此外,S2ORC还需要解决引文和参考文献的自动检测与链接问题,以确保数据的准确性和完整性。这些挑战不仅涉及到技术层面的创新,还需要对学术出版生态系统有深入的理解和协调。
常用场景
经典使用场景
S2ORC数据集的经典使用场景主要集中在学术文本的挖掘和自然语言处理(NLP)任务上。由于其包含了81.1M篇学术论文的丰富元数据、摘要、引文和8.1M篇开放获取论文的全文,S2ORC特别适用于引文分析、科学计量学、信息检索和网络分析等领域的研究。此外,数据集中的全文文本经过自动检测的引文、图表和表格的标注,使得其非常适合用于开发和评估文本挖掘工具和任务。
实际应用
S2ORC数据集在实际应用中展现了其广泛的应用潜力。例如,它可以用于构建和评估引文推荐系统,帮助研究人员快速找到相关文献。此外,S2ORC的全文标注特性使其成为开发自动摘要、实体提取、文本分类和话语分析等NLP任务的理想数据集。在科学计量学领域,S2ORC可以用于分析学术趋势和研究影响力,支持政策制定和资源分配。通过这些应用,S2ORC不仅提升了学术研究的效率,还推动了相关技术的发展。
衍生相关工作
S2ORC数据集的发布催生了一系列相关研究工作。例如,基于S2ORC的全文文本,研究人员开发了SCIBERT模型,该模型在多个科学NLP任务上表现优异。此外,S2ORC还被用于构建CORD-19数据集,该数据集在COVID-19疫情期间成为了文本挖掘的重要资源。这些衍生工作不仅展示了S2ORC在学术文本处理中的强大能力,还推动了NLP技术在科学研究中的应用和发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

The MaizeGDB

The MaizeGDB(Maize Genetics and Genomics Database)是一个专门为玉米(Zea mays)基因组学研究提供数据和工具的在线资源。该数据库包含了玉米的基因组序列、基因注释、遗传图谱、突变体信息、表达数据、以及与玉米相关的文献和研究工具。MaizeGDB旨在支持玉米遗传学和基因组学的研究,为科学家提供了一个集成的平台来访问和分析玉米的遗传和基因组数据。

www.maizegdb.org 收录

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录

MNIST

The MNIST database (Modified National Institute of Standards and Technology database) is a large collection of handwritten digits. It has a training set of 60,000 examples, and a test set of 10,000 examples. It is a subset of a larger NIST Special Database 3 (digits written by employees of the United States Census Bureau) and Special Database 1 (digits written by high school students) which contain monochrome images of handwritten digits. The digits have been size-normalized and centered in a fixed-size image. The original black and white (bilevel) images from NIST were size normalized to fit in a 20x20 pixel box while preserving their aspect ratio. The resulting images contain grey levels as a result of the anti-aliasing technique used by the normalization algorithm. the images were centered in a 28x28 image by computing the center of mass of the pixels, and translating the image so as to position this point at the center of the 28x28 field.

Papers with Code 收录

MoPho-Det

用于从监控视角检测手机使用行为的数据集。包含22,879张图像和39,534个标注,其中头部标注29,279个,手机标注10,255个,扩展分类任务标注4,079个。数据集经过清洗和校正,具有高质量的头部标注,适用于精确检测用户手机行为和支持基于距离的难样本挖掘。

github 收录