1-Billion-Citation-Dataset
收藏github2023-11-28 更新2024-05-31 收录
下载链接:
https://github.com/BeelGroup/1-Billion-Citation-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于生成带标签的XML引用字符串的数据集,用于引用解析。数据集包含约15亿条引用记录,涵盖约1500种引用风格。
This is a dataset designed for generating labeled XML citation strings, utilized in citation parsing. The dataset encompasses approximately 1.5 billion citation records, covering around 1,500 citation styles.
创建时间:
2018-07-12
原始信息汇总
数据集概述
数据集名称
CitationDataset
数据集描述
该数据集通过处理来自CrossRef的JSON文件,使用citeproc-js库生成约1500种CSL风格的引用字符串,并最终输出为带有标签的XML引用格式的CSV文件。
数据集输入
- 输入文件为来自CrossRef的JSON文件,应放置在
/dataset-creation/inputFiles/目录下。 - 提供了一个下载随机CrossRef条目的脚本
crossrefDownload.py,位于/dataset-creation/crossref/。
引用风格
- 数据集包含1568种CSL引用风格,位于
dataset-creation/csl目录下。 - 这些风格来源于citation-style-language/styles。
数据集创建
- 通过运行
node generateCSVcitationdataset.js tags [input_filename]在/dataset-creation/目录下生成CSV引用文件。 - 输出文件保存在
/dataset-creation/outputFiles/目录下,命名为output_[input_filename].csv。 - 可选脚本
createCitations.sh用于处理大量输入文件。
数据集输出
- 输出CSV文件包含以下列:doi, articleType, citationStyle, citationStringAnnotated。
articleType和citationStyle使用索引文件,位于/dataset-creation/indexes/。citationStringAnnotated为带注释的XML引用。
许可证
MIT License
主要作者和贡献者
- Mark Grennan
- Joeran Beel
- Martin Schibel
- Andrew Collins
- Dominika Tkaczyk
搜集汇总
数据集介绍

构建方式
1-Billion-Citation-Dataset的构建过程基于CrossRef提供的JSON文件,通过将这些文件转换为citeproc JSON格式,并利用citeproc JS库生成约1500种CSL(Citation Style Language)风格的引用字符串。最终,数据集以带有标记的XML引用形式存储在CSV文件中。构建过程中,使用了Node.js环境,并依赖citeproc-js-node等库进行数据处理。输入文件通过脚本从CrossRef下载,并经过一系列处理步骤生成最终的引用数据集。
特点
该数据集的特点在于其庞大的规模和多样性,涵盖了超过10亿条引用记录,并支持1500多种CSL引用风格。每条记录包含DOI、文章类型、引用风格以及带有注释的XML引用字符串。数据集的结构化输出使得用户能够灵活地选择和使用不同的引用格式,适用于学术研究、文献管理等多种场景。此外,数据集还提供了详细的索引文件和错误日志,便于用户进行数据分析和问题排查。
使用方法
使用1-Billion-Citation-Dataset时,用户需在Linux终端环境下安装Node.js及相关依赖库。通过运行提供的脚本,用户可以将CrossRef的JSON文件转换为CSV格式的引用数据集。脚本支持批量处理,用户可通过指定输入文件或使用自动化脚本处理多个文件。生成的CSV文件包含详细的引用信息,用户可根据需求进一步处理或分析。数据集的使用方法灵活,适用于需要大规模引用数据的研究项目或工具开发。
背景与挑战
背景概述
1-Billion-Citation-Dataset 是由哈佛大学 Dataverse 平台发布的一个大规模引文数据集,旨在为学术研究提供丰富的引文数据资源。该数据集由 Mark Grennan、Joeran Beel 等研究人员主导开发,主要依托 CrossRef 提供的 JSON 文件,通过 citeproc JS 库将其转换为符合约 1500 种 CSL 引文风格的标注 XML 引文。该数据集的创建时间为 2017 年,其核心研究问题在于如何高效地处理大规模引文数据,并为学术文献的引用分析、引文风格转换等研究提供支持。该数据集在学术出版、文献计量学等领域具有重要影响力,为研究人员提供了标准化的引文数据处理工具和资源。
当前挑战
1-Billion-Citation-Dataset 在构建过程中面临多重挑战。首先,数据规模庞大,压缩文件达 27.5 GB,解压后高达 500 GB,这对数据存储、处理速度和计算资源提出了极高要求。其次,引文风格的多样性增加了数据转换的复杂性,尽管数据集支持 1500 多种 CSL 引文风格,但部分风格因兼容性问题被排除,需通过日志记录错误信息。此外,数据来源的多样性和格式不一致性也对数据清洗和标准化提出了挑战。在应用层面,如何高效利用该数据集进行引文分析、风格转换以及跨领域研究,仍需进一步探索和优化。
常用场景
经典使用场景
1-Billion-Citation-Dataset 数据集在学术文献引用分析领域具有广泛的应用。研究者可以利用该数据集生成符合不同引用风格的引用字符串,支持超过1500种引用格式。这一功能使得该数据集在文献管理、学术出版以及引用格式标准化研究中具有重要价值。通过将CrossRef的JSON文件转换为citeproc JSON格式,研究者可以轻松生成符合特定期刊或会议要求的引用格式,极大地简化了文献引用的流程。
实际应用
1-Billion-Citation-Dataset 数据集在实际应用中具有广泛的潜力。学术出版机构可以利用该数据集自动生成符合不同期刊要求的引用格式,提高出版效率。图书馆和文献数据库可以通过该数据集优化文献管理系统的引用功能,提升用户体验。此外,该数据集还可以用于开发智能引用工具,帮助研究者快速生成符合要求的引用格式,减少学术写作中的技术障碍。
衍生相关工作
基于1-Billion-Citation-Dataset 数据集,许多相关研究工作得以展开。例如,研究者开发了基于该数据集的自动化引用生成工具,支持多种引用风格的快速转换。此外,该数据集还被用于引用网络分析研究,帮助研究者揭示学术文献之间的引用关系。一些研究还利用该数据集进行引用格式的优化和改进,提出了新的引用格式标准。这些衍生工作进一步拓展了该数据集的应用范围,推动了学术引用研究的深入发展。
以上内容由遇见数据集搜集并总结生成



