Voxel51/CVPR_2024_Papers
收藏Hugging Face2024-06-12 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/Voxel51/CVPR_2024_Papers
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含2379个样本的FiftyOne数据集,涵盖了CVPR 2024会议接受的论文的第一页图像、摘要及其他元数据。数据集包括论文的标题、作者列表、摘要、arXiv链接、项目页面链接、主要类别、所有类别及关键词等信息。数据集的创建过程包括从CVPR 2024网站抓取接受的论文、使用DuckDuckGo搜索arXiv上的论文摘要链接、使用arXiv.py提取摘要和类别、使用pdf2image保存论文第一页的图像,以及使用GPT-4o从摘要中提取关键词。
This is a FiftyOne dataset with 2379 samples. The dataset consists of images of the first page of accepted papers to CVPR 2024, plus their abstracts and other metadata. The dataset was curated by Harpreet Sahota, Hacker-in-Residence at Voxel51, and is available under the CC-BY-ND-4.0 license. The dataset can be used to analyze research trends at CVPR 2024. It includes fields such as title, authors_list, abstract, arxiv_link, other_link, category_name, all_categories, and keywords extracted using GPT-4o. The dataset was created by scraping the CVPR 2024 website, searching for abstracts on arXiv, and using various tools to extract and process the data.
提供机构:
Voxel51
原始信息汇总
数据集概述
基本信息
- 数据集名称: cvpr2024_papers
- 样本数量: 2379
- 语言: 英语
- 许可证: CC-BY-ND-4.0
数据集描述
该数据集包含CVPR 2024会议接受的论文的相关信息,包括论文的第一页图像、标题、作者列表、摘要、arXiv链接、项目页面链接、根据arXiv分类的主要类别和所有类别、以及使用GPT-4o提取的关键词。
数据集结构
数据集包含以下字段:
- image: 论文第一页的图像
- title: 论文标题
- authors_list: 作者列表
- abstract: 论文摘要
- arxiv_link: 论文在arXiv上的链接
- other_link: 项目页面链接(如果有)
- category_name: 根据arXiv分类的主要类别
- all_categories: 根据arXiv分类的所有类别
- keywords: 使用GPT-4o提取的关键词
数据集创建
数据集的创建过程包括:
- 从CVPR 2024网站抓取接受的论文
- 使用DuckDuckGo搜索论文在arXiv上的摘要链接
- 使用arXiv.py(arXiv API的Python封装)提取摘要、类别并下载PDF
- 使用pdf2image保存论文第一页的图像
- 使用GPT-4o从摘要中提取关键词
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含CVPR 2024会议接受的2379篇论文的第一页图像及其元数据,如标题、作者、摘要和关键词等,适用于研究计算机视觉和模式识别领域的最新趋势。数据集通过自动化流程从arXiv和CVPR网站收集并处理,提供了丰富的论文相关信息。
以上内容由遇见数据集搜集并总结生成



