yifeihu/ACL-23-Paper-OCR-Markdown
收藏Hugging Face2024-06-08 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/yifeihu/ACL-23-Paper-OCR-Markdown
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含2150篇来自2023年计算语言学协会(ACL)的论文,分为长论文(912篇)、短论文(185篇)、系统演示(59篇)、学生研究研讨会(35篇)、行业轨道(77篇)、教程摘要(7篇)和发现(902篇)。数据集由[@hu_yifei](https://x.com/hu_yifei)作为Open Research Assistant项目的一部分处理和编译。论文使用Marker进行OCR处理,并提供了Marker的商业使用许可和限制的链接。
提供机构:
yifeihu
原始信息汇总
ACL 2023 Paper in Markdown after OCR
数据集概述
- 任务类别: 摘要生成、文本生成
- 语言: 英语
- 标签: OCR
- 数据集名称: acl_23_paper_- 数据规模: 1K<n<10K
数据内容
该数据集包含2150篇来自Association for Computational Linguistics (ACL) 2023的论文,具体分类如下:
- 长论文: 912篇
- 短论文: 185篇
- 系统演示: 59篇
- 学生研究工作坊: 35篇
- 行业跟踪: 77篇
- 教程摘要: 7篇
- 研究成果: 902篇
OCR处理
这些论文通过Marker工具进行处理,该工具由@VikParuchuri开发。对于商业用途,请参阅Marker的许可和限制了解更多详情。



