GIANT-The-1-Billion-Annotated-Synthetic-Bibliographic-Reference-String-Dataset

github2023-11-28 更新2024-05-31 收录

下载链接：

https://github.com/BeelGroup/GIANT-The-1-Billion-Annotated-Synthetic-Bibliographic-Reference-String-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1亿条标注的合成书目引用字符串，用于引用解析。数据集通过从CrossRef获取JSON文件，转换为citeproc JSON，并使用citeproc JS库生成约1500种CSL风格的引用字符串，最终输出为带标签的XML引用字符串CSV文件。

This dataset comprises 100 million annotated synthetic bibliographic citation strings, designed for citation parsing. The dataset was generated by acquiring JSON files from CrossRef, converting them into citeproc JSON, and utilizing the citeproc JS library to produce approximately 1,500 citation strings in various CSL styles. The final output is a labeled XML citation string CSV file.

创建时间：

2018-07-12

原始信息汇总

数据集概述

数据集名称

CitationDataset

数据集描述

该数据集通过处理来自CrossRef的JSON文件，使用citeproc-js库转换为citeproc JSON格式，并生成约1500种CSL风格的引用字符串。最终输出为带有标签的XML引用，存储在CSV文件中。

数据集输入

输入文件为来自CrossRef的JSON文件。
输入文件应放置在/dataset-creation/inputFiles/目录下。

引用风格

数据集包含1568种CSL引用风格，位于dataset-creation/csl目录下。
引用风格来源于https://github.com/citation-style-language/styles。

数据集创建

运行命令node generateCSVcitationdataset.js tags [input_filename]在/dataset-creation/目录下创建数据集。
输出文件将保存至/dataset-creation/outputFiles/，命名为output_[input_filename].csv。

数据集输出

输出CSV文件包含以下列：
- doi
- articleType
- citationStyle
- citationStringAnnotated
输出文件示例位于outputFiles/output_sampleCrossref.csv。

许可证

MIT License

主要作者和贡献者

Mark Grennan
Joeran Beel
Martin Schibel
Andrew Collins
Dominika Tkaczyk

搜集汇总

数据集介绍

构建方式

该数据集的构建过程始于从CrossRef平台获取的JSON文件，这些文件随后被转换为citeproc JSON格式。利用citeproc JS库，数据集生成了约1500种不同引用风格的引用字符串。这些引用风格来源于Citation Style Language (CSL)项目，最终输出为带有标签的XML引用字符串，并存储在CSV文件中。整个过程涉及多个步骤，包括数据下载、格式转换、引用字符串生成及错误记录。

特点

GIANT数据集以其庞大的规模和多样性著称，包含了超过10亿条合成的书目引用字符串，覆盖了广泛的文献类型和引用风格。每条引用字符串均经过详细注释，确保了数据的高质量和可用性。此外，数据集支持多种引用格式，为研究者提供了丰富的实验材料。其结构化的输出格式便于进一步的数据分析和处理。

使用方法

使用该数据集时，用户需首先配置相应的环境，包括安装Node.js和必要的Node模块。通过运行提供的脚本，用户可以将CrossRef的JSON文件转换为CSV格式的引用数据集。数据集支持批量处理，适用于大规模数据集的生成。输出文件包含详细的引用信息，便于用户进行引用分析和研究。此外，数据集的使用文档详细，便于用户快速上手和实现定制化需求。

背景与挑战

背景概述

GIANT-The-1-Billion-Annotated-Synthetic-Bibliographic-Reference-String-Dataset是由都柏林圣三一学院的研究团队于近年开发的一个大规模文献引用字符串数据集。该数据集的核心研究问题在于如何自动化生成符合多种引用风格的文献引用字符串，以支持学术文献的自动化处理与分析。通过利用CrossRef的元数据，并结合超过1500种CSL引用风格，该数据集为自然语言处理、信息检索和学术出版等领域提供了丰富的训练和测试资源。其影响力主要体现在为学术文献的自动化引用生成和解析提供了标准化工具，推动了相关领域的技术进步。

当前挑战

该数据集在构建过程中面临的主要挑战包括：首先，如何高效处理来自CrossRef的海量元数据，确保数据的完整性和一致性；其次，如何在生成引用字符串时兼容多种引用风格，避免因风格差异导致的格式错误；最后，如何在生成过程中处理潜在的引用错误或不完整信息，确保输出数据的准确性。此外，数据集的规模庞大，存储和处理这些数据对计算资源和存储空间提出了极高的要求，进一步增加了构建的复杂性。

常用场景

经典使用场景

GIANT数据集在学术文献引用格式标准化研究中扮演了重要角色。该数据集通过整合来自CrossRef的JSON文件，并利用citeproc JS库生成超过1500种CSL风格的引用字符串，为研究者提供了一个丰富的引用格式实验平台。这一过程不仅涵盖了从数据转换到格式生成的全流程，还通过XML标记的CSV文件输出，为引用格式的自动化处理提供了标准化解决方案。

实际应用

在实际应用中，GIANT数据集被广泛应用于学术出版、文献管理和自动化引用生成系统。通过该数据集，出版商可以快速生成符合不同期刊要求的引用格式，图书馆和文献数据库可以优化文献检索和引用管理流程。此外，该数据集还为开发引用格式转换工具和自动化引用生成软件提供了宝贵的数据支持，推动了学术出版行业的数字化转型。

衍生相关工作

基于GIANT数据集，研究者们开发了多种引用格式转换工具和自动化引用生成系统。例如，利用该数据集生成的引用字符串，研究者可以进一步开发智能引用格式识别工具，帮助用户快速生成符合特定期刊要求的引用格式。此外，该数据集还催生了一系列关于引用格式标准化和自动化处理的研究论文，为学术引用领域的研究提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集