five

ACL OCL Corpus

收藏
arXiv2023-10-24 更新2024-06-21 收录
下载链接:
https://huggingface.co/datasets/WINGNUS/ACL-OCL
下载链接
链接失效反馈
官方服务:
资源简介:
ACL OCL Corpus是由新加坡国立大学计算机学院创建的一个学术语料库,源自ACL Anthology,旨在支持计算语言学领域的开放科学研究。该数据集整合并增强了之前的ACL Anthology版本,提供了元数据、PDF文件、引用图和附加的结构化全文,包含章节、图表和链接到大型知识资源(如Semantic Scholar)。ACL OCL涵盖了七个十年,包含73,000篇论文和210,000个图表。数据集通过监督神经模型检测论文主题,展示了计算语言学中的趋势,如对“句法:标记、分块和解析”的兴趣减退和对“自然语言生成”的兴趣复苏。该数据集适用于多模态研究,如图表标题生成,并通过链接大型科学知识图谱来丰富外部信息,如从Semantic Scholar获取的引用数据和与其他平台(如arXiv)的链接。

The ACL OCL Corpus is an academic corpus developed by the School of Computing, National University of Singapore, sourced from the ACL Anthology, and purpose-built to support open scientific research in computational linguistics. This dataset integrates and enhances prior versions of the ACL Anthology, offering metadata, PDF files, citation graphs, and additional structured full texts comprising sections, figures, and links to large-scale knowledge resources such as Semantic Scholar. Spanning seven decades, the ACL OCL Corpus encompasses 73,000 papers and 210,000 figures. Leveraging supervised neural models to identify paper topics, the dataset uncovers trends in computational linguistics, including the declining interest in "syntax: tagging, chunking, and parsing" and the resurgent interest in Natural Language Generation. This dataset is applicable to multimodal research scenarios such as figure caption generation, and enriches external information by linking to large-scale scientific knowledge graphs, encompassing citation data obtained from Semantic Scholar and connections to other platforms like arXiv.
提供机构:
新加坡国立大学计算机学院
创建时间:
2023-05-24
搜集汇总
数据集介绍
main_image_url
构建方式
ACL OCL Corpus 是一个学术语料库,它从 ACL 文集中提取而来,旨在促进计算语言学领域的开放科学研究。该语料库通过爬取 ACL 文集的 PDF 文件和元数据,并使用 GROBID 工具进行全文提取,构建了包含 73,285 篇论文的语料库。此外,ACL OCL 还与大型科学知识图谱进行链接,丰富了语料库的外部信息,并提取了 210K 张图表。为了提高全文质量,ACL OCL 使用了 S2ORC-JSON 格式,并添加了自动检测的字段,如语言和主题。
特点
ACL OCL Corpus 的特点包括:1) 包含结构化的全文,便于进行更深入的文字分析;2) 与外部知识图谱链接,丰富了语料库的外部信息;3) 提取了 210K 张图表,为多模态研究提供了数据支持;4) 提供了客观的主题分类信息,有助于科学论文的检索。此外,ACL OCL 还具有广泛的适用性,可以用于各种下游任务,如主题分析、术语检测、文档摘要、知识图谱构建等。
使用方法
ACL OCL Corpus 的使用方法如下:1) 数据获取:用户可以通过爬虫从 ACL 文集网站获取 PDF 文件和元数据;2) 全文提取:使用 GROBID 工具对 PDF 文件进行全文提取;3) 知识图谱链接:利用 Semantic Scholar 的 API 将 OCL 文档与 S2AG 知识图谱中的对应文档进行链接;4) 数据格式:ACL OCL Corpus 提供了 CSV 格式和 Apache Parquet 格式的数据,方便用户进行下游任务的处理和分析。用户可以使用 Python 的 pandas 库读取和分析语料库文件。
背景与挑战
背景概述
ACL OCL Corpus 是一个学术语料库,旨在推动计算语言学的开放科学。该数据集由 ACL 文集构建而来,整合并增强了之前版本的数据,提供了元数据、PDF 文件、引文图以及额外的结构化全文,包括章节、图表和链接到大型知识资源(例如 Semantic Scholar)的链接。ACL OCL 跨越了七十年,包含 73K 篇论文,以及 210K 个图表。该数据集为观察计算语言学的趋势提供了支持,例如通过监督神经网络模型检测论文主题,发现对 "语法:标注、分块和解析" 的兴趣正在减弱,而 "自然语言生成" 正在兴起。ACL OCL 数据集可从 Hugging Face 数据集存储库获取。
当前挑战
ACL OCL Corpus 在构建过程中面临着一些挑战。首先,由于 ACL 文集只提供 PDF 文件,因此需要使用先进的 PDF2text 工具(如 GROBID)从 PDF 文件中提取全文。其次,由于预算限制,只能考虑开源工具,尽管承认一些付费的 PDF2text 服务可能会产生更高质量的全文。此外,ACL OCL 语料库是一个未标记的资源,缺乏特定任务所需的标签。最后,ACL OCL 语料库仅包含同行评审和开放获取的计算语言学论文,因此它不是像 S2ORC 那样的综合语料库,因为它不包括 ACL 文集之外的任何其他来源。为了解决这些挑战,ACL OCL 语料库计划每年更新以保持其时效性,并探索如何将 arXiv 上的计算语言学论文纳入其中。此外,研究人员还建议使用大型语言模型 (LLMs) 来生成高质量的大规模银标签,并采用人机协作注释策略来处理复杂的自然语言处理任务。
常用场景
经典使用场景
ACL OCL数据集是计算语言学领域的重要学术资源,它整合并增强了之前版本的ACL Anthology,为开放科学研究提供了丰富的元数据、PDF文件、引文图和额外的结构化全文。数据集覆盖了七十年,包含73K篇论文,以及210K个引文关系。该数据集的经典使用场景之一是观察计算语言学领域的趋势,通过监督神经网络模型检测论文主题,我们可以发现“句法:标记、分块和解析”的兴趣正在下降,而“自然语言生成”的兴趣正在复苏。此外,ACL OCL还支持对文档级信息提取任务的发展,例如基于文档级别的术语检测、共指消解、科学大语言模型的预训练或通用LLM的微调。
解决学术问题
ACL OCL数据集解决了计算语言学领域缺乏全面、标准化数据资源的问题。它提供了高质量的结构化全文,这有助于更丰富的文本分析,并促进了文档级信息提取任务的发展。此外,ACL OCL还与大规模科学知识图谱链接,丰富了数据集的外部信息,为多模态研究提供了支持。
衍生相关工作
ACL OCL数据集的衍生相关工作包括:1) 基于ACL OCL的数据集构建了自然语言处理领域的主题分类模型,该模型可以用于预测论文主题,并支持相关任务的开发。2) 基于ACL OCL的数据集进行了主题趋势分析,揭示了计算语言学领域的研究热点和趋势。3) 基于ACL OCL的数据集进行了文档级信息提取任务的开发,例如基于文档级别的术语检测、共指消解等。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作