MMInstruction/ArxivCap

Name: MMInstruction/ArxivCap
Creator: MMInstruction
Published: 2024-10-03 03:17:00
License: 暂无描述

Hugging Face2024-10-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/MMInstruction/ArxivCap

下载链接

链接失效反馈

官方服务：

资源简介：

ArxivCap数据集是一个多模态数据集，包含从学术论文中提取的图像和对应的文本描述。数据集的主要内容包括640万张图像和390万条描述，总计1.93亿个单词，涵盖了57万篇学术论文的标题和摘要。数据集的构建过程参考了相关论文，并且提供了详细的数据加载方法和数据结构描述。数据集的使用遵循CC BY-NC-SA 4.0许可协议。

提供机构：

MMInstruction

原始信息汇总

数据集概述

数据集名称

名称: ArxivCap
许可证: CC BY-4.0

数据集内容

任务类别: image-to-text
语言: 英语
大小类别: 1M<n<10M
标签: arxiv, multi-modal

数据集结构

数据加载: 使用load_dataset函数加载，支持Python和Linux命令行快速下载。
数据字段:
- src: 字符串，包含arXiv源文件名和文件夹名。
- arxiv_id: 字符串，arXiv论文ID。
- title: 字符串，论文标题。
- abstract: 字符串，论文摘要。
- meta:
  - meta_from_kaggle:
    - journey: 字符串，期刊信息。
    - license: 字符串，许可证信息。
    - categories: 字符串，arXiv分类标签。
  - meta_from_s2:
    - citationCount: 整数，引用次数。
    - influentialCitationCount: 整数，影响力引用次数。
    - publicationTypes: 列表[字符串]，出版类型。
- caption_images:
  - caption: 字符串，主图注释。
  - cil_pairs:
    - sub_caption: 字符串，子图注释。
    - image_file: 字符串，图像文件名。
    - image: PIL.Image.Image，图像对象。
    - image_ocr: 列表[字符串]，图像OCR结果。

数据集总结

数据量: 包含6.4百万图像和3.9百万图注，总计193百万字，来自57万篇学术论文。
数据来源: 论文截止至2023年6月。

数据集许可证

许可证: CC BY-4.0

引用信息

@misc{li2024multimodal, title={Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models}, author={Lei Li and Yuqi Wang and Runxin Xu and Peiyi Wang and Xiachong Feng and Lingpeng Kong and Qi Liu}, year={2024}, eprint={2403.00231}, archivePrefix={arXiv}, primaryClass={cs.CV} }

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集