five

yifeihu/ACL-23-Paper-OCR-Markdown

收藏
Hugging Face2024-06-08 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/yifeihu/ACL-23-Paper-OCR-Markdown
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含2150篇来自2023年计算语言学协会(ACL)的论文,分为长论文(912篇)、短论文(185篇)、系统演示(59篇)、学生研究研讨会(35篇)、行业轨道(77篇)、教程摘要(7篇)和发现(902篇)。数据集由[@hu_yifei](https://x.com/hu_yifei)作为Open Research Assistant项目的一部分处理和编译。论文使用Marker进行OCR处理,并提供了Marker的商业使用许可和限制的链接。
提供机构:
yifeihu
原始信息汇总

ACL 2023 Paper in Markdown after OCR

数据集概述

  • 任务类别: 摘要生成、文本生成
  • 语言: 英语
  • 标签: OCR
  • 数据集名称: acl_23_paper_- 数据规模: 1K<n<10K

数据内容

该数据集包含2150篇来自Association for Computational Linguistics (ACL) 2023的论文,具体分类如下:

  • 长论文: 912篇
  • 短论文: 185篇
  • 系统演示: 59篇
  • 学生研究工作坊: 35篇
  • 行业跟踪: 77篇
  • 教程摘要: 7篇
  • 研究成果: 902篇

OCR处理

这些论文通过Marker工具进行处理,该工具由@VikParuchuri开发。对于商业用途,请参阅Marker的许可和限制了解更多详情。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作