Data Citation Corpus Data File (v1.1)

github2024-05-22 更新2024-05-31 收录

下载链接：

https://github.com/rdmpage/data-citation-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

一个可信赖的中央聚合所有数据引用的数据集，用于加深我们对数据使用的理解并推进有意义的数据度量。

A reliable central repository that aggregates all data references, designed to enhance our understanding of data usage and advance meaningful data metrics.

创建时间：

2024-02-21

原始信息汇总

数据集概述

名称： DataCite Citation Corpus

描述： 该数据集是一个可信的中央聚合所有数据引用的集合，旨在加深我们对数据使用情况的理解并推进有意义的数据度量。

数据获取方式： 数据可通过请求获取。

版本信息： 存在一个简化版本（v1.1），可在Zenodo上获取。

数据集标识符： 10.5281/zenodo.11216814

数据内容

数据源

来源： DataCite 和 Chan Zuckerberg Initiative (CSI)

数据存储库

存储库	id	引用次数
GenBank	00363b65-f3ef-4fa9-8255-23ab269f4930	3755354
PDB	87646104-e5ef-494b-b2f3-a46c9572e003	1729783
SNP	6087b2e9-ecbf-4898-8047-5f484f1bce2f	890431
RefSeq	1edec4bf-cfee-4296-8893-d1b0ca528f92	259548

出版商

名称	引用次数	publisherId
	2136164	e566bc45-b8bc-430c-ab2c-9c224e1c6f21
	1029617	ec75ceb1-215c-4376-aa1c-4b39d15dc069
	938870	9ead11e4-bd7d-4c91-aff0-cb962676520a
	768385	bf7ba43c-7a3e-43e3-a9c2-6ed5b6fb6303
	704427	08d58a61-189f-4316-892b-908a1832603d
	635059	babceab8-4440-4c65-ad12-24784190dbae
	315654	602471f4-3d02-45f7-9d59-661471761299
	312135	af7d8efb-1a44-4a02-9d5b-29ceb6878117
	277952
	276263	37fa820b-d158-43b4-8f67-e0c2f7364d35
	199813	55506166-9f8d-4685-967d-c71c7af956b7
	171526	21c1aa14-7ac4-4ccb-8fdc-8f7e3ab047a9
	147908	2189510e-6e8f-410c-bf2a-a92319d51b0e
	114627	faca9ac2-2c88-4277-acdd-0a1177c10094
	98882	deba021e-5d63-48af-82b5-673c6507a03e
	97239	dba2ef73-893b-4c93-9123-ea3429d6c983
	92100	cfd487dd-9342-49ec-b93a-a044da079368
	90016	bd7beb5b-5e4d-4c9f-b99d-944bc8cd5bf3
Pensoft	80907	9d72fbd4-0a14-4ee8-bac5-75ec06ababf7
	80376	c6e65534-0e8c-495f-99ed-04ee78761d3c
	60503	d2c56596-551e-4f1e-81e6-d7bafe1670f8

特定数据集详细信息

Protein Data Bank (PDB)： 包含1,729,783次引用，其中177,220个不同的PDB标识符被引用。

数据处理

数据提取： 使用to_sql.php脚本解析JSON数据并输出SQL语句，以便构建简单的SQL数据库来探索数据。
数据验证： 通过比较数据集中的PDB标识符与实际PDB标识符，发现约71%的PDB引用是正确的，其余约29%可能存在错误。

注意事项

引用错误： 部分引用存在错误，例如将样本代码误认为访问号，或将图表标题误认为PDB记录。
搜索问题： 某些标识符在文章中实际存在，但简单的搜索可能无法找到。

搜集汇总

数据集介绍

构建方式

Data Citation Corpus Data File (v1.1) 数据集的构建基于DataCite和Make Data Count的合作项目，该项目由Wellcome Trust资助。数据集包含了5,256,114条数据引用记录，以JSON和CSV格式存储，其中JSON文件被视为记录版本。数据集的构建过程涉及从DataCite和Chan Zuckerberg Initiative (CSI)等多个来源提取数据，并通过SQL和CouchDB等技术进行数据整合和存储。

特点

该数据集的主要特点在于其全面性和多样性。它涵盖了多个数据存储库和出版商的引用数据，包括GenBank、PDB、SNP和RefSeq等知名数据库。此外，数据集还包含了详细的引用记录，如引用次数、数据存储库的UUID、出版商的UUID等信息，为研究数据引用模式和数据使用提供了丰富的资源。

使用方法

使用该数据集时，用户可以通过请求访问原始数据文件，或直接从Zenodo下载简化版本（v1.1）。数据集提供了SQL和CouchDB两种存储和查询方式，用户可以根据需求选择合适的数据库技术进行数据分析。此外，数据集还提供了详细的文档和示例代码，帮助用户快速上手并进行深入的数据挖掘和分析。

背景与挑战

背景概述

数据引用语料库数据文件（v1.1）是由DataCite和Make Data Count合作创建的，旨在通过收集和分析数据引用来推进数据使用和数据指标的理解。该数据集的核心研究问题是如何有效管理和利用数据引用信息，以支持科学研究和数据共享。自2024年首次发布以来，该数据集已成为数据引用领域的重要资源，为研究人员提供了关于数据引用模式和趋势的深入洞察。

当前挑战

数据引用语料库在构建过程中面临多项挑战。首先，数据来源的多样性和复杂性使得数据整合和标准化成为一个难题。其次，数据引用记录中的错误和不一致性，如PDB标识符的错误匹配，影响了数据集的准确性和可靠性。此外，数据引用的自动化提取和验证技术仍需进一步发展和完善，以提高数据处理效率和质量。

常用场景

经典使用场景

数据引用语料库（Data Citation Corpus）最经典的使用场景在于学术研究中对数据引用行为的分析。通过该数据集，研究者可以深入探讨数据引用的模式、频率及其对学术出版的影响。例如，研究者可以分析不同学科领域中数据引用的差异，评估数据引用对学术影响力的贡献，以及探索数据引用在科学交流中的作用。

解决学术问题

数据引用语料库解决了学术研究中关于数据引用行为的多个关键问题。首先，它提供了全面的数据引用记录，帮助研究者理解数据在学术出版中的角色和价值。其次，通过分析数据引用模式，研究者可以识别出数据引用中的潜在问题，如错误引用或不充分引用，从而推动数据引用实践的改进。此外，该数据集还为研究数据引用对学术评价体系的影响提供了实证基础。

衍生相关工作

数据引用语料库的发布催生了多项相关研究工作。例如，研究者利用该数据集开发了新的数据引用分析工具，以自动化方式识别和纠正数据引用中的错误。此外，基于该数据集的研究还推动了数据引用标准的制定和完善，促进了数据引用实践的规范化。这些衍生工作不仅提升了数据引用的质量和效率，还为学术出版和科研管理提供了新的视角和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集