TF-ID-arxiv-papers

Hugging Face2024-07-12 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers

下载链接

链接失效反馈

官方服务：

资源简介：

TF-ID arXiv papers dataset是一个用于微调TF-ID模型的数据集，包含约4,600张学术论文页面的图像，这些图像带有表格和图形的边界框，格式为COCO。这些论文主要来自Hugging Face Daily Papers，涵盖AI/ML/DL相关主题。所有边界框均由Yifei Hu手动标注。数据集可用于复现所有TF-ID模型。

创建时间：

2024-07-11

原始信息汇总

TF-ID arXiv papers dataset

用途：用于微调 TF-ID 模型。
内容：包含约 4,600 张图片（学术论文页面），图片中包含表格和图形的边界框，格式为 COCO 格式。
来源：论文选自 Hugging Face Daily Papers，主要涵盖 AI/ML/DL 相关主题。
使用：可用于复现所有 TF-ID 模型。
标注：所有边界框均由 Yifei Hu 手动标注。

变体

解压 arxiv_paper_images.zip 以获取所有用于训练和测试的图片。示例如下，展示了 annotations_with_caption.json 和 annotations_no_caption.json 之间的差异： image/png

引用

如发现 TF-ID 有用，请按以下格式引用该项目：

@misc{TF-ID, author = {Yifei Hu}, title = {TF-ID: Table/Figure IDentifier for academic papers}, year = {2024}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/ai8hyf/TF-ID}}, }

搜集汇总

数据集介绍

构建方式

TF-ID-arxiv-papers数据集的构建基于从Hugging Face Daily Papers中精选的学术论文页面，涵盖了人工智能、机器学习和深度学习等领域的主题。数据集包含约4,600张图像，每张图像均为学术论文的页面，并以COCO格式标注了表格和图像的边界框。所有边界框均由Yifei Hu手动标注，确保了标注的准确性和一致性。数据集的构建旨在为TF-ID模型的微调提供高质量的图像和标注数据。

特点

TF-ID-arxiv-papers数据集的特点在于其专注于学术论文中的表格和图像识别任务，提供了丰富的图像数据和精确的边界框标注。数据集中的图像来源于AI/ML/DL领域的前沿论文，确保了数据的前沿性和多样性。此外，数据集提供了两种标注格式：包含标题的标注和不包含标题的标注，便于用户根据需求选择适合的标注方式。这种设计使得数据集在学术研究和模型开发中具有较高的实用价值。

使用方法

使用TF-ID-arxiv-papers数据集时，用户首先需要解压`arxiv_paper_images.zip`文件以获取所有训练和测试图像。随后，用户可以根据需求选择使用`annotations_with_caption.json`或`annotations_no_caption.json`中的标注数据进行模型训练。该数据集特别适用于微调TF-ID模型，用户可以通过该数据集复现所有TF-ID模型。此外，数据集的使用方法在项目的GitHub仓库中有详细说明，用户可参考相关文档进行进一步的操作和实验。

背景与挑战

背景概述

TF-ID-arxiv-papers数据集由Yifei Hu于2024年创建，旨在为学术论文中的表格和图像识别提供支持。该数据集包含约4,600张学术论文页面的图像，涵盖了人工智能、机器学习和深度学习等领域的主题。这些图像以COCO格式标注了表格和图像的边界框，所有标注均由Yifei Hu手动完成。该数据集的主要用途是微调TF-ID模型，以提升学术论文中表格和图像的自动识别能力。通过该数据集，研究人员可以复现TF-ID模型，进一步推动学术文献处理技术的发展。

当前挑战

TF-ID-arxiv-papers数据集面临的主要挑战包括两个方面。首先，学术论文中的表格和图像具有多样化的布局和样式，这增加了自动识别的难度，尤其是在处理复杂排版或跨页内容时。其次，数据集的构建过程中，手动标注表格和图像的边界框需要耗费大量时间和精力，且标注的准确性直接影响模型的性能。此外，数据集覆盖的领域虽然集中在AI/ML/DL，但其通用性仍需验证，以扩展到更广泛的学术领域。这些挑战为相关研究提供了重要的改进方向。

常用场景

经典使用场景

TF-ID-arxiv-papers数据集主要用于微调TF-ID模型，以识别学术论文中的表格和图像。该数据集包含了约4,600张学术论文页面的图像，这些图像以COCO格式标注了表格和图像的边界框。通过该数据集，研究人员可以训练模型自动检测和分类论文中的视觉元素，从而提升学术文献的自动化处理能力。

实际应用

在实际应用中，TF-ID-arxiv-papers数据集可以用于构建自动化文献处理系统，帮助研究人员快速提取论文中的关键视觉信息。例如，学术搜索引擎可以利用该数据集训练模型，自动提取论文中的表格和图像，从而提升文献检索的效率和准确性。此外，该数据集还可用于开发学术写作辅助工具，帮助作者在撰写论文时自动插入和格式化表格与图像。

衍生相关工作

基于TF-ID-arxiv-papers数据集，许多相关研究工作得以展开。例如，研究人员开发了多种基于深度学习的表格和图像检测模型，进一步提升了检测精度和效率。此外，该数据集还催生了一系列学术文献自动化处理工具，如自动文献摘要生成系统和学术图表提取工具，极大地推动了学术研究的信息化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集