five

MPB

收藏
OpenDataLab2024-06-20 更新2024-06-22 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/MPB
下载链接
链接失效反馈
官方服务:
资源简介:
MPB(Miner-PDF-Benchmark) 是一套面向大模型数据场景的端到端 PDF 文档理解能力评测集,在文件粒度上保障人类可读性,提供 PDF 分类标签。总数据量为 350个 PDF 文件、8410页 PDF,包含书籍、教材、学术文献、PPT 转 PDF、试卷等 11 类数据集,可为大模型数据开发者和工具开发者提供 PDF 文档理解能力评测参考。注意:PDF-benchmark 数据集仅可用于非商业研究用途。

MPB (Miner-PDF-Benchmark) is an end-to-end benchmark for evaluating PDF document understanding capabilities tailored for Large Language Model data scenarios. It guarantees human readability at the file level and provides PDF classification labels. The total dataset consists of 350 PDF files and 8410 PDF pages, covering 11 categories including books, textbooks, academic literature, PPT-converted PDFs, exam papers, and more. It can serve as a reference for PDF document understanding capability evaluation for both Large Language Model data developers and tool developers. Note: The PDF-benchmark dataset is only permitted for non-commercial research use.
提供机构:
OpenDataLab
创建时间:
2024-06-20
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作