five

ACL ARC

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/ACL_ARC
下载链接
链接失效反馈
官方服务:
资源简介:
ACL Anthology Reference Corpus (ACL ARC) 是 ACL Anthology 中 10,920 篇学术论文的集合。清理 ACL ARC 以删除:看起来不是完整论文、论文碎片、外语论文(例如法语)或纯垃圾的文件。标题(标题和作者信息;不是抽象的)。页脚(“参考”行和实际参考)。一些坏字符(虚假字符)。一些页码(即出现在一行上的单个数字,没有附加任何其他内容)。英文论文中的重要外语(例如法语)内容。清理后的语料库有 10,628 个文档。

The ACL Anthology Reference Corpus (ACL ARC) is a collection of 10,920 academic papers sourced from the ACL Anthology. During the curation process, files identified as incomplete papers, paper fragments, non-English papers (e.g., French), or pure spam were removed. Additionally, headers (consisting of title and author information, excluding abstracts), footers (including the "References" line and actual reference lists), corrupted characters, certain page numbers (i.e., single digits appearing on a single line without any accompanying content), and significant non-English content (e.g., French) within English papers were eliminated. The curated corpus ultimately contains 10,628 documents.
提供机构:
OpenDataLab
创建时间:
2022-08-19
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
ACL ARC(ACL Anthology Reference Corpus)是一个从ACL Anthology中提取的学术论文语料库,包含10,628篇经过清理的英文论文,去除了不完整内容、外语部分和冗余信息。该数据集适用于文本预训练、语句分类和引文意图分类等自然语言处理任务,由多所大学于2014年发布,主要用于支持学术研究和引文分析。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作