student-enrollment

Hugging Face2025-06-24 更新2025-06-25 收录

下载链接：

https://huggingface.co/datasets/jinaai/student-enrollment

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个由Kaggle的Delaware Student Enrollment数据集创建而来的子集，包含至多1000个随机行。数据集包含查询、图像、图像文件名和文本描述等字段。文本描述是从图像中提取的OCR文本。该数据集仅用于研究和教育目的。

创建时间：

2025-06-10

原始信息汇总

数据集概述

基本信息

数据集名称: Student Enrollment Document Retrieval
来源: 基于Kaggle的Delaware Student Enrollment数据集创建
数据集大小: 967,668,630字节
下载大小: 894,939,404字节
测试集样本数: 1,000

数据集结构

特征列:
- query: 字符串类型
- image: 图像类型
- image_filename: 字符串类型
- text_description: 字符串类型（通过EasyOCR从图像中提取的OCR文本）

数据来源与处理

图表生成: 使用模板渲染
文本提取: 使用EasyOCR进行OCR文本提取
子样本说明: 本数据集为完整数据集的随机子样本，最多包含1,000行。完整数据集可访问此处。

免责声明

用途限制: 仅限研究和教育用途
版权问题: 如涉及知识产权或版权问题，请联系"support-data (at) jina.ai"
隐私声明: 不故意收集或处理个人、敏感或私人信息。如发现此类内容，请通知以便采取适当措施。

版权信息

版权归属: 保留给文档的原始作者

搜集汇总

数据集介绍

构建方式

该数据集源自Kaggle平台上的Delaware学生注册原始数据，通过模板化方法对图表进行渲染并生成查询语句。构建过程中采用随机抽样的方式，从完整数据集中提取最多1000行样本构成子集。图像中的文本信息通过EasyOCR技术进行光学字符识别，并存储在text_description字段中，确保了数据提取的准确性与完整性。

特点

数据集以多模态形式呈现，包含查询语句、图像文件、图像文件名及OCR提取的文本描述等结构化特征。测试集规模达1000个样本，数据总量接近1GB，具有充分的代表性。图像与文本的对应关系为研究文档检索任务提供了理想的实验素材，其合成性质保证了数据使用的合规性。

使用方法

该数据集适用于文档检索领域的模型训练与评估，研究者可通过query-image-text的对应关系构建跨模态检索系统。使用时应引用原始Kaggle数据集来源，并遵守数据免责声明中的版权条款。对于潜在的个人隐私或版权问题，建议通过指定邮箱与数据维护方取得联系。

背景与挑战

背景概述

student-enrollment数据集源于Kaggle平台上的Delaware Student Enrollment原始数据，经过Jina AI团队加工构建而成。该数据集聚焦于教育文档检索领域，通过模板生成查询语句并渲染图表图像，同时利用EasyOCR技术从图像中提取OCR文本信息。作为教育数据分析的重要资源，其构建体现了多模态数据处理的前沿方法，为研究教育文档的结构化检索提供了基准测试平台。数据集最初由Kaggle用户noeyislearning发布，后经Jina AI进行专业化处理，形成了包含查询语句、图像文件及文本描述的标准化测试集。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，教育文档的多模态特性（包含结构化表格、非结构化文本和可视化图表）对跨模态检索算法提出了严峻考验，要求模型同时具备图像理解和文本解析能力；在构建过程层面，原始数据中的手写体识别、图表信息提取以及跨模态对齐都存在显著技术难度，特别是采用EasyOCR进行文本提取时，面对教育文档特有的复杂版式和高噪声环境，保持OCR识别准确率成为关键瓶颈。此外，数据匿名化处理与版权合规要求也为数据集的合法使用设立了严格标准。

常用场景

经典使用场景

在教育数据挖掘领域，student-enrollment数据集通过融合视觉图表与文本描述，为研究者提供了多模态分析的实验平台。其核心价值在于将学生注册数据的统计图表与结构化查询相结合，使得研究人员能够探索视觉信息与文本检索之间的关联性，这种设计特别适用于教育政策效果可视化分析与跨模态检索任务。

衍生相关工作

基于该数据集的特征架构，已有研究团队开发了教育图表问答系统，实现了从统计图表到自然语言查询的端到端处理。后续工作进一步扩展了多模态嵌入技术在教育数据分析中的应用，衍生出基于注意力机制的图表语义解析模型，这些成果显著推进了教育技术智能化的发展进程。

数据集最近研究