five

OCRFlux-bench-single

收藏
魔搭社区2025-12-10 更新2025-07-05 收录
下载链接:
https://modelscope.cn/datasets/ChatDOC/OCRFlux-bench-single
下载链接
链接失效反馈
官方服务:
资源简介:
# OCRFlux-bench-single OCRFlux-bench-single is a benchmark of 2000 PDF pages and their ground-truth Markdowns sampled from our private document datasets, which are labeled manually with multi-round checking. This dataset can be used to measure the performance of OCR systems in single-page parsing. Quick links: - 🤗 [Model](https://huggingface.co/ChatDOC/OCRFlux-3B) - 🛠️ [Code](https://github.com/chatdoc-com/OCRFlux) ## Data Mix ## Table 1: Pages breakdown by language | Language | Pages | |--------|-------------| | English | 1000 | | Chinese | 1000 | | **Total** | **2000** | ## Data Format Each row in the dataset corresponds to a single page and its ground-truth Markdown. Since in our private dataset, all titles and headings of documents are annotated without their heading levels. So in the Markdown, all titles and headings are labeled with H1 level with '# '. To better represent tables with rowspan or colspan cells, we use HTML format to represent tables instead of the raw Markdown table format in the Markdown strings. Notice that we do not distinguish cells in the table header and table body, which means there are no other tags except `<tr>` and `<td>` in the HTML table. ### Features: ```python { 'pdf_name': string, # Name of the PDF document 'language': string, # Language of the PDF document, zh or en 'markdown': string, # Ground-truth Markdown } ``` ## License This dataset is licensed under Apache-2.0.

# OCRFlux-bench-single OCRFlux-bench-single 是一款基准数据集,包含从我们的私有文档数据集中采样得到的2000页PDF文档及其对应的真实标注Markdown文件,所有标注均经过多轮人工审核校验。 该数据集可用于评估单页文档解析场景下光学字符识别(Optical Character Recognition, OCR)系统的性能。 快速链接: - 🤗 [模型](https://huggingface.co/ChatDOC/OCRFlux-3B) - 🛠️ [代码](https://github.com/chatdoc-com/OCRFlux) ## 数据构成 ## 表1:按语言划分的页面分布 | 语言 | 页面数量 | |--------|-------------| | 英语 | 1000 | | 中文 | 1000 | | **总计** | **2000** | ## 数据格式 数据集中的每一行对应单页PDF文档及其对应的真实标注Markdown文件。 由于在我们的私有数据集内,所有文档的标题与各级标题均未标注其所属层级,因此在生成的Markdown文件中,所有标题与各级标题均使用H1级别的标记,即添加“# ”前缀。 为了更准确地呈现包含跨行或跨列单元格的表格,我们在Markdown字符串中采用HTML格式来表示表格,而非原生Markdown表格语法。请注意,我们未对表格表头与表格体单元格进行区分,即HTML表格中仅包含`<tr>`与`<td>`标签,无其他额外标签。 ### 字段说明 python { 'pdf_name': 字符串类型, # PDF文档的名称 'language': 字符串类型, # PDF文档的语言,取值为zh(中文)或en(英文) 'markdown': 字符串类型, # 真实标注的Markdown内容 } ## 许可证 本数据集采用Apache-2.0开源许可证进行授权。
提供机构:
maas
创建时间:
2025-07-01
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作