Data Citation Corpus Data File (v1.1)
收藏github2024-05-22 更新2024-05-31 收录
下载链接:
https://github.com/rdmpage/data-citation-corpus
下载链接
链接失效反馈官方服务:
资源简介:
一个可信赖的中央聚合所有数据引用的数据集,用于加深我们对数据使用的理解并推进有意义的数据度量。
A reliable central repository that aggregates all data references, designed to enhance our understanding of data usage and advance meaningful data metrics.
创建时间:
2024-02-21
原始信息汇总
数据集概述
名称: DataCite Citation Corpus
描述: 该数据集是一个可信的中央聚合所有数据引用的集合,旨在加深我们对数据使用情况的理解并推进有意义的数据度量。
数据获取方式: 数据可通过请求获取。
版本信息: 存在一个简化版本(v1.1),可在Zenodo上获取。
数据集标识符: 10.5281/zenodo.11216814
数据内容
数据源
- 来源: DataCite 和 Chan Zuckerberg Initiative (CSI)
数据存储库
| 存储库 | id | 引用次数 |
|---|---|---|
| GenBank | 00363b65-f3ef-4fa9-8255-23ab269f4930 | 3755354 |
| PDB | 87646104-e5ef-494b-b2f3-a46c9572e003 | 1729783 |
| SNP | 6087b2e9-ecbf-4898-8047-5f484f1bce2f | 890431 |
| RefSeq | 1edec4bf-cfee-4296-8893-d1b0ca528f92 | 259548 |
出版商
| 名称 | 引用次数 | publisherId |
|---|---|---|
| 2136164 | e566bc45-b8bc-430c-ab2c-9c224e1c6f21 | |
| 1029617 | ec75ceb1-215c-4376-aa1c-4b39d15dc069 | |
| 938870 | 9ead11e4-bd7d-4c91-aff0-cb962676520a | |
| 768385 | bf7ba43c-7a3e-43e3-a9c2-6ed5b6fb6303 | |
| 704427 | 08d58a61-189f-4316-892b-908a1832603d | |
| 635059 | babceab8-4440-4c65-ad12-24784190dbae | |
| 315654 | 602471f4-3d02-45f7-9d59-661471761299 | |
| 312135 | af7d8efb-1a44-4a02-9d5b-29ceb6878117 | |
| 277952 | ||
| 276263 | 37fa820b-d158-43b4-8f67-e0c2f7364d35 | |
| 199813 | 55506166-9f8d-4685-967d-c71c7af956b7 | |
| 171526 | 21c1aa14-7ac4-4ccb-8fdc-8f7e3ab047a9 | |
| 147908 | 2189510e-6e8f-410c-bf2a-a92319d51b0e | |
| 114627 | faca9ac2-2c88-4277-acdd-0a1177c10094 | |
| 98882 | deba021e-5d63-48af-82b5-673c6507a03e | |
| 97239 | dba2ef73-893b-4c93-9123-ea3429d6c983 | |
| 92100 | cfd487dd-9342-49ec-b93a-a044da079368 | |
| 90016 | bd7beb5b-5e4d-4c9f-b99d-944bc8cd5bf3 | |
| Pensoft | 80907 | 9d72fbd4-0a14-4ee8-bac5-75ec06ababf7 |
| 80376 | c6e65534-0e8c-495f-99ed-04ee78761d3c | |
| 60503 | d2c56596-551e-4f1e-81e6-d7bafe1670f8 |
特定数据集详细信息
- Protein Data Bank (PDB): 包含1,729,783次引用,其中177,220个不同的PDB标识符被引用。
数据处理
-
数据提取: 使用
to_sql.php脚本解析JSON数据并输出SQL语句,以便构建简单的SQL数据库来探索数据。 -
数据验证: 通过比较数据集中的PDB标识符与实际PDB标识符,发现约71%的PDB引用是正确的,其余约29%可能存在错误。
注意事项
- 引用错误: 部分引用存在错误,例如将样本代码误认为访问号,或将图表标题误认为PDB记录。
- 搜索问题: 某些标识符在文章中实际存在,但简单的搜索可能无法找到。
搜集汇总
数据集介绍

构建方式
Data Citation Corpus Data File (v1.1) 数据集的构建基于DataCite和Make Data Count的合作项目,该项目由Wellcome Trust资助。数据集包含了5,256,114条数据引用记录,以JSON和CSV格式存储,其中JSON文件被视为记录版本。数据集的构建过程涉及从DataCite和Chan Zuckerberg Initiative (CSI)等多个来源提取数据,并通过SQL和CouchDB等技术进行数据整合和存储。
特点
该数据集的主要特点在于其全面性和多样性。它涵盖了多个数据存储库和出版商的引用数据,包括GenBank、PDB、SNP和RefSeq等知名数据库。此外,数据集还包含了详细的引用记录,如引用次数、数据存储库的UUID、出版商的UUID等信息,为研究数据引用模式和数据使用提供了丰富的资源。
使用方法
使用该数据集时,用户可以通过请求访问原始数据文件,或直接从Zenodo下载简化版本(v1.1)。数据集提供了SQL和CouchDB两种存储和查询方式,用户可以根据需求选择合适的数据库技术进行数据分析。此外,数据集还提供了详细的文档和示例代码,帮助用户快速上手并进行深入的数据挖掘和分析。
背景与挑战
背景概述
数据引用语料库数据文件(v1.1)是由DataCite和Make Data Count合作创建的,旨在通过收集和分析数据引用来推进数据使用和数据指标的理解。该数据集的核心研究问题是如何有效管理和利用数据引用信息,以支持科学研究和数据共享。自2024年首次发布以来,该数据集已成为数据引用领域的重要资源,为研究人员提供了关于数据引用模式和趋势的深入洞察。
当前挑战
数据引用语料库在构建过程中面临多项挑战。首先,数据来源的多样性和复杂性使得数据整合和标准化成为一个难题。其次,数据引用记录中的错误和不一致性,如PDB标识符的错误匹配,影响了数据集的准确性和可靠性。此外,数据引用的自动化提取和验证技术仍需进一步发展和完善,以提高数据处理效率和质量。
常用场景
经典使用场景
数据引用语料库(Data Citation Corpus)最经典的使用场景在于学术研究中对数据引用行为的分析。通过该数据集,研究者可以深入探讨数据引用的模式、频率及其对学术出版的影响。例如,研究者可以分析不同学科领域中数据引用的差异,评估数据引用对学术影响力的贡献,以及探索数据引用在科学交流中的作用。
解决学术问题
数据引用语料库解决了学术研究中关于数据引用行为的多个关键问题。首先,它提供了全面的数据引用记录,帮助研究者理解数据在学术出版中的角色和价值。其次,通过分析数据引用模式,研究者可以识别出数据引用中的潜在问题,如错误引用或不充分引用,从而推动数据引用实践的改进。此外,该数据集还为研究数据引用对学术评价体系的影响提供了实证基础。
衍生相关工作
数据引用语料库的发布催生了多项相关研究工作。例如,研究者利用该数据集开发了新的数据引用分析工具,以自动化方式识别和纠正数据引用中的错误。此外,基于该数据集的研究还推动了数据引用标准的制定和完善,促进了数据引用实践的规范化。这些衍生工作不仅提升了数据引用的质量和效率,还为学术出版和科研管理提供了新的视角和方法。
以上内容由遇见数据集搜集并总结生成



