PIN-14M
收藏OpenCSG2024-07-19 更新2026-01-19 收录
下载链接:
https://opencsg.com/datasets/AIWizards/PIN-14M?tab=summary
下载链接
链接失效反馈官方服务:
资源简介:
PIN-14M是一个多模态文档数据集,包含1400万个样本,格式为PIN。它由8个子集构成,包括PIN-PMC、DocLayNet、Linux-CN、chinese-markdown、OBELICS、MMC4、LeetCode和PG19。数据集中的每个样本都包含唯一的ID、元数据(如语言、来源数据集等)、质量信号、内容图片列表、Markdown内容以及整体图像路径。数据集遵循Apache 2.0许可证,对于来自第三方的数据,则需遵守其各自的许可证。
提供机构:
AIWizards
创建时间:
2024-07-19



