Enhanced-DARPA-SCORE-claims-dataset|社会科学研究数据集|学术评价数据集
收藏github2023-05-26 更新2024-05-31 收录
下载链接:
https://github.com/prachicodes/Enhanced-DARPA-SCORE-claims-dataset
下载链接
链接失效反馈资源简介:
DARPA SCORE数据集包含约3000篇2009年至2018年间发表在约60种社会和行为科学期刊上的实证论文中的声明。增强版数据集通过网络挖掘技术增加了一个新列,包括从eigenfactor.org抓取的独特期刊名称的特征值、H指数和总引用次数。
The DARPA SCORE dataset comprises approximately 3,000 claims extracted from empirical papers published between 2009 and 2018 across about 60 journals in the social and behavioral sciences. An enhanced version of the dataset includes an additional column, obtained through web mining techniques, which features the Eigenfactor score, H-index, and total citations for unique journal names scraped from eigenfactor.org.
创建时间:
2020-08-17
原始信息汇总
数据集概述
数据集名称
Enhanced-DARPA-SCORE-claims-dataset
数据集目标
增强Darpa Claims数据集,通过添加新列利用网络挖掘技术。
数据集内容
包含约3,000篇发表于2009至2018年间社会和行为科学领域约60种期刊的实证论文中的声明。
增强原因
社会-行为科学领域对已发表研究的可重复性及其预测可能性有广泛兴趣。大型复制和预测市场项目显示,可重复性可能低于预期,专家调查和预测市场在预测可重复发现方面可能有效。DARPA的SCORE项目旨在开发和部署自动化工具,为不同社会-行为科学研究结果和声明分配“信心分数”。
新增特征
- Eigen值 - 从eigenfactor.org抓取的唯一期刊名称的值。
- H指数和总引用次数。
AI搜集汇总
数据集介绍

构建方式
Enhanced-DARPA-SCORE-claims-dataset的构建基于DARPA SCORE数据集,该数据集包含了2009年至2018年间发表在约60种社会科学和行为科学期刊上的3000篇实证论文中的声明。为了增强这一数据集,研究团队采用了网络挖掘技术,新增了从eigenfactor.org抓取的期刊特征值(Eigen Value)以及H指数和总引用次数等指标。这些新增数据旨在为研究结果的置信度评分提供更丰富的背景信息。
特点
该数据集的特点在于其新增的期刊特征值、H指数和总引用次数等指标,这些指标为评估社会科学和行为科学研究结果的可重复性提供了量化依据。通过结合这些新增特征,研究者能够更全面地分析论文的影响力及其在学术界的重要性,从而为预测研究结果的可重复性提供数据支持。
使用方法
使用Enhanced-DARPA-SCORE-claims-dataset时,研究者可以通过分析新增的期刊特征值、H指数和总引用次数等指标,评估特定研究结果的可重复性。该数据集适用于社会科学和行为科学领域的元分析、可重复性研究以及预测模型的构建。通过结合这些新增特征,研究者能够更深入地理解研究结果的可信度及其在学术界的传播效果。
背景与挑战
背景概述
Enhanced-DARPA-SCORE-claims-dataset是基于DARPA SCORE数据集的一个增强版本,旨在通过引入新的数据特征来提升对社会科学和行为科学领域研究结果的可重复性预测能力。该数据集最初由DARPA(美国国防高级研究计划局)创建,涵盖了2009年至2018年间发表在约60种期刊上的3000篇实证论文中的声明。DARPA SCORE项目的核心目标是通过自动化工具为社会科学研究结果分配‘置信度评分’,以评估其可重复性。这一数据集在心理学和经济学等子领域的大规模复制和预测市场项目中得到了广泛应用,揭示了研究结果的可重复性可能低于预期的现象。
当前挑战
Enhanced-DARPA-SCORE-claims-dataset的构建面临多重挑战。首先,社会科学和行为科学领域的可重复性问题本身具有高度复杂性,涉及多种变量和潜在的偏差,如何准确预测研究结果的可重复性仍是一个未完全解决的难题。其次,在数据增强过程中,如何从外部来源(如eigenfactor.org)高效且准确地提取期刊的Eigen Value、H指数和总引用次数等特征,需要克服数据爬取和整合的技术障碍。此外,确保新增特征与原始数据的兼容性,以及避免引入噪声或偏差,也是构建过程中需要解决的关键问题。
常用场景
经典使用场景
Enhanced-DARPA-SCORE-claims-dataset在社会科学和行为科学领域的研究中,主要用于评估和预测研究结果的可重复性。该数据集通过整合来自约3000篇实证论文的声明,为研究人员提供了一个丰富的资源库,用以分析不同期刊和论文的影响力及其研究声明的可信度。
实际应用
在实际应用中,Enhanced-DARPA-SCORE-claims-dataset被广泛用于学术期刊的评估、研究资助的决策支持以及科研政策的制定。通过分析数据集中的指标,研究机构和资助机构能够识别出高影响力的研究,优化资源配置,提高科研投资的回报率。
衍生相关工作
基于Enhanced-DARPA-SCORE-claims-dataset,许多相关研究得以展开,包括开发自动化工具来评估研究声明的可信度、构建预测模型以识别高可重复性的研究结果,以及探索不同学科领域内研究结果的可重复性差异。这些工作不仅丰富了社会科学研究方法,也为跨学科研究提供了新的视角和工具。
以上内容由AI搜集并总结生成



