five

m-a-p/PIN-14M

收藏
Hugging Face2025-09-22 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/m-a-p/PIN-14M
下载链接
链接失效反馈
官方服务:
资源简介:
PIN-14M数据集是一个包含14M样本的多模态文档数据集,涵盖了8个子集,如PIN-PMC、DocLayNet、Linux-CN等。每个样本包含文本内容、内容图像和整体图像,并以JSONL格式存储。数据集主要用于多模态文档处理,支持中英文语言。

PIN-14M数据集是一个包含14M样本的多模态文档数据集,涵盖了8个子集,如PIN-PMC、DocLayNet、Linux-CN等。每个样本包含文本内容、内容图像和整体图像,并以JSONL格式存储。数据集主要用于多模态文档处理,支持中英文语言。
提供机构:
m-a-p
原始信息汇总

PIN-14M 数据集概述

数据集简介

PIN-14M 是 "PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents" 的一个迷你版本,包含 1400 万个样本,采用 PIN 格式。

数据集统计

数据集包含多个子集,每个子集的文档数量、图片数量和存储空间如下:

子集 文档数量 (#) 总体图片数量 (#) 内容图片数量 (#) 文档大小 (GB) 总体图片大小 (GB) 内容图片大小 (GB)
pg19 2,612,285 2,608,029 0 12.3 1,418.1 0.0
OBELICS 5,795,198 5,770,432 5,840,658 13.0 3,141.4 3,305.3
mmc4-core-ff 5,351,628 5,277,983 9,014,579 33.7 3,232.0 5,605.0
chinese-markdown 168,323 167,989 106,768 1.3 773.2 15.0
leetcode 2,360 2,360 0 0.016 1.3 0.0
linux-cn 9,564 9,564 38,960 0.082 11.9 1.8
DocLayNet 68,757 69,375 90,259 0.18 25.9 1.6
PIN-PMC 99,157 1,074,799 454,482 2.8 724.2 29.5
总计 14,107,272 14,980,531 15,545,706 63.4 9,328.0 8,958.3

存储空间统计可能存在误差,仅供参考。

数据结构

子集

数据集包含 8 个子集,包括 PIN-PMC、DocLayNet、Linux-CN、chinese-markdown、OBELICS、MMC4、leetcode 和 PG19。

文件夹结构

数据集的文件夹结构如下:

  • content_image 文件夹:包含 markdown 文件中提到的所有内容图片。
  • overall_image 文件夹:包含每个样本的总体图片。
  • JSONL 文件:包含文本内容及相关数据细节。

示例子集结构:

example_dataset/ │ ├── content_image/ ├── overall_image/ └── example_dataset.jsonl

JSON Lines 格式

每个数据条目包含以下字段:

  • id:唯一标识符。
  • meta:元数据,包括语言、文档来源、文档ID、页面ID、下载日期等。
  • quality_signals:质量指标。
  • content_image:内容图片列表。
  • overall_image:总体图片路径。
  • md:markdown 内容。
  • license:许可证信息。

示例

数据集提供了多个子集的示例,包括 DocLynet、OBELICS、chinese-markdown、leetcode 和 linux-cn 等。每个示例展示了 JSONL 文件的结构和内容。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作