five

yifeihu/TF-ID-arxiv-papers

收藏
Hugging Face2024-07-11 更新2024-07-13 收录
下载链接:
https://hf-mirror.com/datasets/yifeihu/TF-ID-arxiv-papers
下载链接
链接失效反馈
官方服务:
资源简介:
TF-ID arXiv论文数据集是一个用于微调TF-ID模型的数据集。它包含约4,600张学术论文页面的图像,这些图像中的表格和图形以COCO格式标注了边界框。论文主要选自Hugging Face Daily Papers,涵盖AI/ML/DL相关主题。该数据集可用于复现所有TF-ID模型,所有边界框均由Yifei Hu手动标注。

The TF-ID arXiv papers dataset is a dataset for finetuning TF-ID models. It contains about 4,600 images of academic paper pages with bounding boxes of tables and figures in COCO format. The papers are selected from Hugging Face Daily Papers, covering mostly AI/ML/DL related topics. This dataset can be used to reproduce all TF-ID models, and all bounding boxes were annotated manually by Yifei Hu.
提供机构:
yifeihu
原始信息汇总

TF-ID arXiv papers dataset

概述

  • 用途: 用于微调TF-ID模型。
  • 内容: 包含约4,600张图像(学术论文页面),图像中包含表格和图形的边界框,格式为COCO格式
  • 来源: 论文选自Hugging Face Daily Papers,主要涵盖AI/ML/DL相关主题。
  • 用途: 可用于复现所有TF-ID模型。
  • 标注: 所有边界框均由Yifei Hu手动标注。

变体

  • 图像文件: 解压arxiv_paper_images.zip以获取所有用于训练和测试的图像。
  • 标注文件: 包含annotations_with_caption.jsonannotations_no_caption.json两种标注文件。

引用

  • 如果使用该数据集,请引用以下项目:

    @misc{TF-ID, author = {Yifei Hu}, title = {TF-ID: Table/Figure IDentifier for academic papers}, year = {2024}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/ai8hyf/TF-ID}}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作