CharXiv-en

Hugging Face2025-06-24 更新2025-06-25 收录

下载链接：

https://huggingface.co/datasets/jinaai/CharXiv-en

下载链接

链接失效反馈

官方服务：

资源简介：

CharXiv数据集是一个从原始CharXiv数据集随机抽取的1000行子集。它包含了查询字符串、图像、图像文件名和图像的OCR文本描述。该数据集是为了在ViDoRe基准中使用而重新格式化字段名的。所有数据仅供研究和教育用途。

The CharXiv dataset is a 1000-row random subset extracted from the original CharXiv dataset. It contains query strings, images, image filenames, and OCR text descriptions of the images. The field names of this dataset have been reformatted for use in the ViDoRe benchmark. All data is for research and educational purposes only.

创建时间：

2025-06-10

原始信息汇总

CharXiv-en 数据集概述

数据集基本信息

来源：基于 CharXiv 数据集的测试集重构
用途：专为 ViDoRe 基准测试设计
样本量：1000 条随机抽样数据（完整数据集见 jinaai/CharXiv）

数据特征

字段结构：
- query：字符串类型
- image：图像类型
- image_filename：字符串类型（图像文件名）
- text_description：字符串类型（通过 EasyOCR 提取的图像 OCR 文本）

技术规格

数据分割：仅包含测试集（test）
- 数据量：75,611,550 字节
- 样本数：1,000 条
下载大小：69,123,218 字节
数据集总大小：75,611,550 字节

版权声明

所有数据权利归原始文档作者所有
仅限研究与教育用途
侵权投诉联系：support-data (at) jina.ai

搜集汇总

数据集介绍

构建方式

在科学文献处理领域，CharXiv-en数据集的构建体现了多模态数据整合的前沿方法。该数据集源自Princeton-NLP的原始CharXiv数据集，通过系统性地重构测试集字段命名以适配ViDoRe评测基准。构建过程中采用分层随机抽样技术，从原始数据集中提取1000条样本作为代表性子集，每一条目均包含图像文件、对应文件名以及经过EasyOCR引擎提取的文本描述，确保视觉与文本信息的精确对齐。

使用方法

背景与挑战

背景概述

CharXiv-en数据集源于Princeton NLP团队开发的CharXiv项目，旨在为文档图像分析与文本识别研究提供高质量基准数据。作为ViDoRe评测基准的重要组成部分，该数据集通过整合视觉文档与机器可读文本，推动了多模态文档理解领域的发展。原始数据经过Jina AI团队重新格式化处理，形成包含1000个样本的测试子集，每项数据均包含查询图像、OCR提取文本及文件元信息，为评估文档信息提取算法的鲁棒性提供了标准化测试平台。

当前挑战

该数据集面临的核心挑战在于文档图像与文本的对齐质量问题，由于原始文档的版式多样性和OCR识别误差，导致跨模态表征学习存在语义鸿沟。构建过程中需克服技术挑战包括：复杂文档布局导致的文本定位偏差、低分辨率图像中的字符识别困难，以及数学符号等专业内容对通用OCR系统的适应性要求。这些因素使得构建高精度文档多模态数据集需要综合计算机视觉与自然语言处理的前沿技术。

常用场景

经典使用场景

在文档分析与计算机视觉交叉领域，CharXiv-en数据集为研究者提供了丰富的图文对照样本，其经典使用场景聚焦于多模态学习模型的训练与评估。该数据集通过整合图像文件与对应的OCR文本描述，为视觉-语言联合表征研究构建了标准化的测试平台，尤其在学术图表理解任务中展现出独特价值。

解决学术问题

该数据集有效解决了跨模态对齐中的关键技术难题，为学术文献中的图表语义理解提供了基准数据。通过提供精确的图文对应关系，研究者能够深入探索视觉元素与文本描述之间的复杂映射，推动了文档图像分析、信息抽取等领域的方法创新，显著提升了机器对科学图表的结构化理解能力。

实际应用

在实际应用层面，CharXiv-en数据集支撑了学术文献数字化系统的开发，其多模态特性被广泛应用于智能文献检索系统。出版机构利用该数据集训练模型自动生成图表摘要，教育科技公司则基于此开发交互式学习工具，帮助学生更高效地理解复杂学术图表中的关键信息。

数据集最近研究