ACL anthology corpus

github2023-10-12 更新2024-05-31 收录

下载链接：

https://github.com/shauryr/ACL-anthology-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集提供了ACL文集的全文和元数据，包括pdf文件和grobid从pdf中提取的详细信息。数据集包含80,013篇ACL文章/海报，提供了pdf、全文、引用和其他详细信息，支持计算语言学领域的开放科学研究。

This dataset provides the full text and metadata of the ACL Anthology, including PDF files and detailed information extracted from PDFs by GROBID. The dataset contains 80,013 ACL articles/posters, offering PDFs, full texts, citations, and other detailed information, supporting open scientific research in the field of computational linguistics.

创建时间：

2022-09-03

原始信息汇总

数据集概述

数据集名称

名称: ACL Anthology Corpus with Full Text
别名: ACL OCL Corpus

数据集内容

类型: 包含80,013篇计算语言学领域的文章和海报的完整文本及元数据。
文件类型:
1. 所有PDF文件，总大小约45G。
2. 所有包含摘要的bib文件，总大小约172M。
3. 所有PDF的GROBID提取结果，包括全文和参考文献，总大小约3.6G。
4. 包含提取的元数据和全文的数据框，总大小约489M。

数据集特点

与现有资源对比:
- 提供PDF文件、全文、参考文献等详细信息，而ACL Anthology仅提供摘要。
- 相比ACL Anthology Network，本数据集包含更多文章（80k vs 23k）且更新至2022年。

数据集更新

更新状态: 数据集已迁移至Huggingface，提供最新版本下载。

数据集元数据

元数据结构:

列名	描述
acl_id	唯一ACL标识符
abstract	GROBID提取的摘要
full_text	GROBID提取的全文
corpus_paper_id	Semantic Scholar ID
pdf_hash	PDF文件的sha1哈希值
numcitedby	来自S2的引用次数
url	出版物链接
publisher	-
address	会议地址
year	-
month	-
booktitle	-
author	作者列表
title	论文标题
pages	-
doi	-
number	-
volume	-
journal	-
editor	-
isbn	-

数据集使用

使用许可: 本数据集遵循CC BY-NC 4.0许可协议。
引用信息: json @Misc{acl_anthology_corpus, author = {Shaurya Rohatgi}, title = {ACL Anthology Corpus with Full Text}, howpublished = {Github}, year = {2022}, url = {https://github.com/shauryr/ACL-anthology-corpus} }

搜集汇总

数据集介绍

构建方式

ACL Anthology Corpus的构建基于ACL Anthology的完整文献集合，涵盖了截至2022年9月的80,013篇文献。该数据集不仅提供了PDF文件，还通过GROBID工具从PDF中提取了全文、参考文献等详细信息。相较于ACL Anthology仅提供摘要的传统方式，该数据集进一步丰富了文献的元数据，包括作者、标题、出版年份等关键信息。此外，数据集还整合了Semantic Scholar的引用数据，增强了文献的引用网络分析能力。

特点

ACL Anthology Corpus的显著特点在于其全面性和多样性。数据集不仅包含了大量的PDF文件，还通过GROBID提取了全文和参考文献，提供了丰富的元数据信息。这些元数据包括文献的唯一标识符、摘要、全文、引用次数等，为研究者提供了多维度的分析视角。此外，数据集与Semantic Scholar的API兼容，便于进一步扩展和获取更多文献信息。该数据集还支持文本生成任务，通过微调的distilgpt2模型，能够生成与ACL文献相关的文本内容。

使用方法

ACL Anthology Corpus的使用方法灵活多样。用户可以通过Huggingface平台下载最新版本的数据集，并利用提供的Parquet文件进行数据分析。数据集中的元数据信息可以直接用于文献计量分析、引用网络构建等研究。此外，数据集还支持与Semantic Scholar API的集成，便于获取更多文献信息。对于文本生成任务，用户可以使用预训练的distilgpt2模型进行文本生成实验。数据集的丰富元数据和多样化应用场景，使其成为计算语言学和自然语言处理领域的重要资源。

背景与挑战

背景概述

ACL Anthology Corpus 是由计算语言学领域的学者和研究人员共同构建的一个大规模文献数据集，旨在为自然语言处理（NLP）和计算语言学领域的研究提供全面的文献资源。该数据集由Shaurya Rohatgi等人于2022年发布，涵盖了超过80,000篇来自ACL Anthology的论文全文及其元数据。与传统的ACL Anthology仅提供摘要不同，该数据集通过GROBID工具从PDF文件中提取了全文、参考文献等详细信息，极大地扩展了数据的可用性。该数据集的发布不仅为文本挖掘、文献计量学等研究提供了丰富的素材，还推动了开放科学在计算语言学领域的进一步发展。

当前挑战

ACL Anthology Corpus 在构建和应用过程中面临多重挑战。首先，从PDF文件中提取全文和元数据的准确性是一个关键问题，尤其是面对复杂的排版和格式时，GROBID等工具可能无法完全准确地解析所有内容。其次，数据集的更新和维护需要持续的努力，以确保其与最新的研究成果同步。此外，如何有效地整合来自不同来源的元数据（如Semantic Scholar的引用数据）也是一个技术难题。最后，尽管数据集提供了丰富的文献资源，但其规模庞大也带来了存储和计算资源的挑战，尤其是在进行大规模文本分析时，如何高效处理这些数据仍需进一步优化。

常用场景

经典使用场景

ACL Anthology Corpus 作为计算语言学领域的重要资源，广泛应用于自然语言处理（NLP）研究中的文本挖掘、语言模型训练以及学术文献分析。该数据集不仅包含了大量的学术论文全文，还提供了丰富的元数据，使得研究者能够深入分析论文的引用关系、作者合作网络以及领域内的研究趋势。通过GROBID工具提取的全文和参考文献信息，进一步增强了其在文本分析和知识图谱构建中的应用价值。

解决学术问题

ACL Anthology Corpus 解决了计算语言学研究中数据获取和处理的难题。传统上，研究者只能通过摘要或有限的元数据进行研究，而该数据集提供了完整的论文全文和引用信息，使得研究者能够更全面地分析学术文献的内容和结构。此外，该数据集还支持语义学者（Semantic Scholar）API的集成，进一步扩展了其在学术引用网络分析和跨领域研究中的应用。

衍生相关工作

ACL Anthology Corpus 衍生了许多经典的研究工作，例如基于该数据集的语言模型微调和文本生成任务。研究者利用该数据集训练了DistilGPT-2模型，并展示了其在学术文本生成中的潜力。此外，该数据集还被用于构建学术引用网络、分析领域内的研究热点以及开发自动化的文献分析工具，推动了计算语言学领域的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集