five

PIN-14M

收藏
OpenCSG2024-07-19 更新2026-01-19 收录
下载链接:
https://opencsg.com/datasets/AIWizards/PIN-14M?tab=summary
下载链接
链接失效反馈
官方服务:
资源简介:
PIN-14M是一个多模态文档数据集,包含1400万个样本,格式为PIN。它由8个子集构成,包括PIN-PMC、DocLayNet、Linux-CN、chinese-markdown、OBELICS、MMC4、LeetCode和PG19。数据集中的每个样本都包含唯一的ID、元数据(如语言、来源数据集等)、质量信号、内容图片列表、Markdown内容以及整体图像路径。数据集遵循Apache 2.0许可证,对于来自第三方的数据,则需遵守其各自的许可证。
提供机构:
AIWizards
创建时间:
2024-07-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作