five

MMInstruction/ArxivCap

收藏
Hugging Face2024-10-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MMInstruction/ArxivCap
下载链接
链接失效反馈
官方服务:
资源简介:
ArxivCap数据集是一个多模态数据集,包含从学术论文中提取的图像和对应的文本描述。数据集的主要内容包括640万张图像和390万条描述,总计1.93亿个单词,涵盖了57万篇学术论文的标题和摘要。数据集的构建过程参考了相关论文,并且提供了详细的数据加载方法和数据结构描述。数据集的使用遵循CC BY-NC-SA 4.0许可协议。
提供机构:
MMInstruction
原始信息汇总

数据集概述

数据集名称

  • 名称: ArxivCap
  • 许可证: CC BY-4.0

数据集内容

  • 任务类别: image-to-text
  • 语言: 英语
  • 大小类别: 1M<n<10M
  • 标签: arxiv, multi-modal

数据集结构

  • 数据加载: 使用load_dataset函数加载,支持Python和Linux命令行快速下载。
  • 数据字段:
    • src: 字符串,包含arXiv源文件名和文件夹名。
    • arxiv_id: 字符串,arXiv论文ID。
    • title: 字符串,论文标题。
    • abstract: 字符串,论文摘要。
    • meta:
      • meta_from_kaggle:
        • journey: 字符串,期刊信息。
        • license: 字符串,许可证信息。
        • categories: 字符串,arXiv分类标签。
      • meta_from_s2:
        • citationCount: 整数,引用次数。
        • influentialCitationCount: 整数,影响力引用次数。
        • publicationTypes: 列表[字符串],出版类型。
    • caption_images:
      • caption: 字符串,主图注释。
      • cil_pairs:
        • sub_caption: 字符串,子图注释。
        • image_file: 字符串,图像文件名。
        • image: PIL.Image.Image,图像对象。
        • image_ocr: 列表[字符串],图像OCR结果。

数据集总结

  • 数据量: 包含6.4百万图像和3.9百万图注,总计193百万字,来自57万篇学术论文。
  • 数据来源: 论文截止至2023年6月。

数据集许可证

  • 许可证: CC BY-4.0

引用信息

@misc{li2024multimodal, title={Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models}, author={Lei Li and Yuqi Wang and Runxin Xu and Peiyi Wang and Xiachong Feng and Lingpeng Kong and Qi Liu}, year={2024}, eprint={2403.00231}, archivePrefix={arXiv}, primaryClass={cs.CV} }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作