five

Semantic Scholar Open Research Corpus|学术研究数据集|文献数据数据集

收藏
api.semanticscholar.org2024-10-31 收录
学术研究
文献数据
下载链接:
https://api.semanticscholar.org/corpus/
下载链接
链接失效反馈
资源简介:
该数据集包含超过1.7亿篇学术论文的元数据和引用信息,涵盖了计算机科学、生物学、物理学等多个领域。数据集内容包括论文标题、作者、摘要、关键词、引用和被引用信息等。
提供机构:
api.semanticscholar.org
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建Semantic Scholar Open Research Corpus时,研究者们精心筛选了来自全球各大出版商和学术会议的科学文献,涵盖了计算机科学、生物医学、物理学等多个领域。通过自动化工具和人工审核相结合的方式,确保了数据的高质量和广泛性。数据集不仅包括了文献的元数据,如标题、作者和摘要,还包含了全文内容和引用关系,为深入的语义分析提供了丰富的素材。
特点
Semantic Scholar Open Research Corpus的显著特点在于其规模庞大且内容多样,包含了数百万篇学术论文,覆盖了多个学科领域。此外,数据集的结构化设计使得用户可以轻松地进行跨学科的比较和分析。其独特的引用网络数据不仅有助于理解文献间的关联性,还为研究者提供了新的研究视角。
使用方法
使用Semantic Scholar Open Research Corpus时,研究者可以通过API接口或直接下载数据集进行本地分析。数据集支持多种查询方式,包括按关键词、作者、出版年份等进行筛选。此外,数据集的引用网络数据可以用于构建知识图谱,帮助研究者发现文献间的潜在联系。对于机器学习研究者,该数据集提供了丰富的文本数据,可用于训练和验证自然语言处理模型。
背景与挑战
背景概述
在知识爆炸的时代,学术研究的数量呈指数级增长,使得研究人员在海量文献中寻找相关信息变得愈发困难。Semantic Scholar Open Research Corpus(SSORC)应运而生,由艾伦人工智能研究所(Allen Institute for AI)于2018年推出。该数据集包含了超过1.14亿篇学术论文的全文、引用信息和元数据,旨在通过自然语言处理和机器学习技术,提升学术搜索的效率和准确性。SSORC的推出,不仅为学术界提供了一个强大的研究工具,也为人工智能领域的发展提供了丰富的数据资源,极大地推动了跨学科研究的进展。
当前挑战
尽管SSORC在学术搜索和研究领域展现了巨大的潜力,但其构建过程中也面临诸多挑战。首先,数据集的规模庞大,如何高效地存储和处理这些数据成为一个技术难题。其次,学术论文的语言多样性和专业性使得文本解析和语义理解变得复杂,需要开发高度精确的自然语言处理模型。此外,数据集的更新频率高,确保实时性和数据一致性也是一大挑战。最后,如何保护作者的知识产权和隐私,同时提供开放的访问权限,是SSORC在伦理和法律层面需要解决的重要问题。
发展历史
创建时间与更新
Semantic Scholar Open Research Corpus(SSORC)由艾伦人工智能研究所(Allen Institute for AI)于2018年首次发布,旨在为学术界提供一个大规模、高质量的开放研究语料库。该数据集自发布以来,持续进行更新,以反映学术研究的最新进展。
重要里程碑
SSORC的一个重要里程碑是其在2019年发布的1.5亿篇论文的版本,这一版本极大地扩展了数据集的规模,并引入了更多的元数据和引用信息。此外,2020年,SSORC与Microsoft Academic Graph(MAG)进行了整合,进一步增强了其数据质量和覆盖范围。这一整合不仅提升了数据集的学术价值,还为跨领域的研究提供了更丰富的资源。
当前发展情况
当前,Semantic Scholar Open Research Corpus已成为全球学术研究的重要资源之一。它不仅支持自然语言处理和机器学习领域的研究,还为跨学科的科学发现提供了基础数据。SSORC的持续更新和扩展,使其在学术搜索引擎、知识图谱构建和智能推荐系统等领域发挥了关键作用。通过不断引入新的技术和方法,SSORC正在推动学术研究的边界,并为未来的科学探索提供了强有力的支持。
发展历程
  • Semantic Scholar Open Research Corpus首次发布,包含超过1亿篇学术论文的全文数据。
    2018年
  • 数据集进行了首次大规模更新,增加了超过2000万篇新论文,并优化了数据结构和检索功能。
    2019年
  • Semantic Scholar Open Research Corpus首次应用于自然语言处理领域的研究,特别是在学术文献的自动摘要和关键词提取方面取得了显著成果。
    2020年
  • 数据集的开放API接口正式上线,使得更多研究者和开发者能够便捷地访问和利用该数据集进行学术研究和技术开发。
    2021年
  • Semantic Scholar Open Research Corpus被广泛应用于多个跨学科研究项目,包括人工智能、生物医学和环境科学等领域,进一步推动了学术研究的进展。
    2022年
常用场景
经典使用场景
在自然语言处理领域,Semantic Scholar Open Research Corpus(SSORC)数据集被广泛用于学术文本的语义分析和知识图谱构建。该数据集包含了数百万篇学术论文的元数据、摘要和引用信息,为研究人员提供了丰富的文本资源。通过SSORC,研究者可以进行文本挖掘、主题建模和跨学科知识发现,从而揭示学术研究中的潜在关联和趋势。
解决学术问题
SSORC数据集解决了学术研究中信息过载和知识孤岛的问题。通过整合和分析大规模的学术文献,该数据集帮助研究人员快速定位相关研究,识别新兴领域,并促进跨学科合作。此外,SSORC还支持自动摘要生成、文献推荐系统和学术影响力评估等研究,为学术界提供了强大的数据支持。
衍生相关工作
基于SSORC数据集,许多经典工作得以展开。例如,研究者利用该数据集开发了基于深度学习的学术文本分类模型,显著提升了文献检索的准确性。此外,SSORC还启发了关于学术网络分析和知识图谱构建的研究,推动了自然语言处理和信息检索领域的发展。这些衍生工作不仅丰富了学术研究的工具箱,也为未来的研究方向提供了新的思路。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Med-MAT

Med-MAT是一个包含106个开源医学数据集的视觉问答(VQA)数据集,旨在推动医学多模态大语言模型(MLLMs)的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式,展示了组合泛化(CG)是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务(MAT)分类的子集的问答对,以及部分数据集的图像下载链接。

huggingface 收录

MUStARD++

MUStARD++是一个多模态讽刺检测数据集,由萨里大学创建,旨在通过语言、语音和视觉线索全面捕捉讽刺现象。数据集包含1202个视频样本,来源于多个流行电视节目,通过手动标注确保高质量的讽刺标签。创建过程中,研究者们通过多轮标注和验证确保数据的准确性和多样性。该数据集主要应用于自动讽刺检测,帮助机器理解并识别讽刺语境,解决讽刺识别中的多模态挑战。

arXiv 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录