five

TF-ID-arxiv-papers

收藏
Hugging Face2024-07-12 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/yifeihu/TF-ID-arxiv-papers
下载链接
链接失效反馈
官方服务:
资源简介:
TF-ID arXiv papers dataset是一个用于微调TF-ID模型的数据集,包含约4,600张学术论文页面的图像,这些图像带有表格和图形的边界框,格式为COCO。这些论文主要来自Hugging Face Daily Papers,涵盖AI/ML/DL相关主题。所有边界框均由Yifei Hu手动标注。数据集可用于复现所有TF-ID模型。
创建时间:
2024-07-11
原始信息汇总

TF-ID arXiv papers dataset

  • 用途:用于微调 TF-ID 模型。
  • 内容:包含约 4,600 张图片(学术论文页面),图片中包含表格和图形的边界框,格式为 COCO 格式
  • 来源:论文选自 Hugging Face Daily Papers,主要涵盖 AI/ML/DL 相关主题。
  • 使用:可用于复现所有 TF-ID 模型。
  • 标注:所有边界框均由 Yifei Hu 手动标注。

变体

解压 arxiv_paper_images.zip 以获取所有用于训练和测试的图片。示例如下,展示了 annotations_with_caption.jsonannotations_no_caption.json 之间的差异: image/png

引用

如发现 TF-ID 有用,请按以下格式引用该项目:

@misc{TF-ID, author = {Yifei Hu}, title = {TF-ID: Table/Figure IDentifier for academic papers}, year = {2024}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/ai8hyf/TF-ID}}, }

搜集汇总
数据集介绍
main_image_url
构建方式
TF-ID-arxiv-papers数据集的构建基于从Hugging Face Daily Papers中精选的学术论文页面,涵盖了人工智能、机器学习和深度学习等领域的主题。数据集包含约4,600张图像,每张图像均为学术论文的页面,并以COCO格式标注了表格和图像的边界框。所有边界框均由Yifei Hu手动标注,确保了标注的准确性和一致性。数据集的构建旨在为TF-ID模型的微调提供高质量的图像和标注数据。
特点
TF-ID-arxiv-papers数据集的特点在于其专注于学术论文中的表格和图像识别任务,提供了丰富的图像数据和精确的边界框标注。数据集中的图像来源于AI/ML/DL领域的前沿论文,确保了数据的前沿性和多样性。此外,数据集提供了两种标注格式:包含标题的标注和不包含标题的标注,便于用户根据需求选择适合的标注方式。这种设计使得数据集在学术研究和模型开发中具有较高的实用价值。
使用方法
使用TF-ID-arxiv-papers数据集时,用户首先需要解压`arxiv_paper_images.zip`文件以获取所有训练和测试图像。随后,用户可以根据需求选择使用`annotations_with_caption.json`或`annotations_no_caption.json`中的标注数据进行模型训练。该数据集特别适用于微调TF-ID模型,用户可以通过该数据集复现所有TF-ID模型。此外,数据集的使用方法在项目的GitHub仓库中有详细说明,用户可参考相关文档进行进一步的操作和实验。
背景与挑战
背景概述
TF-ID-arxiv-papers数据集由Yifei Hu于2024年创建,旨在为学术论文中的表格和图像识别提供支持。该数据集包含约4,600张学术论文页面的图像,涵盖了人工智能、机器学习和深度学习等领域的主题。这些图像以COCO格式标注了表格和图像的边界框,所有标注均由Yifei Hu手动完成。该数据集的主要用途是微调TF-ID模型,以提升学术论文中表格和图像的自动识别能力。通过该数据集,研究人员可以复现TF-ID模型,进一步推动学术文献处理技术的发展。
当前挑战
TF-ID-arxiv-papers数据集面临的主要挑战包括两个方面。首先,学术论文中的表格和图像具有多样化的布局和样式,这增加了自动识别的难度,尤其是在处理复杂排版或跨页内容时。其次,数据集的构建过程中,手动标注表格和图像的边界框需要耗费大量时间和精力,且标注的准确性直接影响模型的性能。此外,数据集覆盖的领域虽然集中在AI/ML/DL,但其通用性仍需验证,以扩展到更广泛的学术领域。这些挑战为相关研究提供了重要的改进方向。
常用场景
经典使用场景
TF-ID-arxiv-papers数据集主要用于微调TF-ID模型,以识别学术论文中的表格和图像。该数据集包含了约4,600张学术论文页面的图像,这些图像以COCO格式标注了表格和图像的边界框。通过该数据集,研究人员可以训练模型自动检测和分类论文中的视觉元素,从而提升学术文献的自动化处理能力。
实际应用
在实际应用中,TF-ID-arxiv-papers数据集可以用于构建自动化文献处理系统,帮助研究人员快速提取论文中的关键视觉信息。例如,学术搜索引擎可以利用该数据集训练模型,自动提取论文中的表格和图像,从而提升文献检索的效率和准确性。此外,该数据集还可用于开发学术写作辅助工具,帮助作者在撰写论文时自动插入和格式化表格与图像。
衍生相关工作
基于TF-ID-arxiv-papers数据集,许多相关研究工作得以展开。例如,研究人员开发了多种基于深度学习的表格和图像检测模型,进一步提升了检测精度和效率。此外,该数据集还催生了一系列学术文献自动化处理工具,如自动文献摘要生成系统和学术图表提取工具,极大地推动了学术研究的信息化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作