m-a-p/PIN-14M
收藏Hugging Face2025-09-22 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/m-a-p/PIN-14M
下载链接
链接失效反馈官方服务:
资源简介:
PIN-14M数据集是一个包含14M样本的多模态文档数据集,涵盖了8个子集,如PIN-PMC、DocLayNet、Linux-CN等。每个样本包含文本内容、内容图像和整体图像,并以JSONL格式存储。数据集主要用于多模态文档处理,支持中英文语言。
PIN-14M数据集是一个包含14M样本的多模态文档数据集,涵盖了8个子集,如PIN-PMC、DocLayNet、Linux-CN等。每个样本包含文本内容、内容图像和整体图像,并以JSONL格式存储。数据集主要用于多模态文档处理,支持中英文语言。
提供机构:
m-a-p
原始信息汇总
PIN-14M 数据集概述
数据集简介
PIN-14M 是 "PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents" 的一个迷你版本,包含 1400 万个样本,采用 PIN 格式。
数据集统计
数据集包含多个子集,每个子集的文档数量、图片数量和存储空间如下:
| 子集 | 文档数量 (#) | 总体图片数量 (#) | 内容图片数量 (#) | 文档大小 (GB) | 总体图片大小 (GB) | 内容图片大小 (GB) |
|---|---|---|---|---|---|---|
| pg19 | 2,612,285 | 2,608,029 | 0 | 12.3 | 1,418.1 | 0.0 |
| OBELICS | 5,795,198 | 5,770,432 | 5,840,658 | 13.0 | 3,141.4 | 3,305.3 |
| mmc4-core-ff | 5,351,628 | 5,277,983 | 9,014,579 | 33.7 | 3,232.0 | 5,605.0 |
| chinese-markdown | 168,323 | 167,989 | 106,768 | 1.3 | 773.2 | 15.0 |
| leetcode | 2,360 | 2,360 | 0 | 0.016 | 1.3 | 0.0 |
| linux-cn | 9,564 | 9,564 | 38,960 | 0.082 | 11.9 | 1.8 |
| DocLayNet | 68,757 | 69,375 | 90,259 | 0.18 | 25.9 | 1.6 |
| PIN-PMC | 99,157 | 1,074,799 | 454,482 | 2.8 | 724.2 | 29.5 |
| 总计 | 14,107,272 | 14,980,531 | 15,545,706 | 63.4 | 9,328.0 | 8,958.3 |
存储空间统计可能存在误差,仅供参考。
数据结构
子集
数据集包含 8 个子集,包括 PIN-PMC、DocLayNet、Linux-CN、chinese-markdown、OBELICS、MMC4、leetcode 和 PG19。
文件夹结构
数据集的文件夹结构如下:
content_image文件夹:包含 markdown 文件中提到的所有内容图片。overall_image文件夹:包含每个样本的总体图片。JSONL文件:包含文本内容及相关数据细节。
示例子集结构:
example_dataset/ │ ├── content_image/ ├── overall_image/ └── example_dataset.jsonl
JSON Lines 格式
每个数据条目包含以下字段:
- id:唯一标识符。
- meta:元数据,包括语言、文档来源、文档ID、页面ID、下载日期等。
- quality_signals:质量指标。
- content_image:内容图片列表。
- overall_image:总体图片路径。
- md:markdown 内容。
- license:许可证信息。
示例
数据集提供了多个子集的示例,包括 DocLynet、OBELICS、chinese-markdown、leetcode 和 linux-cn 等。每个示例展示了 JSONL 文件的结构和内容。



