SEA-Vision

github2026-05-18 更新2026-05-20 收录

下载链接：

https://github.com/Shopee-MUG/SEA-Vision

下载链接

链接失效反馈

官方服务：

资源简介：

SEA-Vision是一个多语言基准测试，用于东南亚地区的全面文档和场景文本理解，包含两个互补的子基准：SEA-DocBench（端到端文档解析，包括文本块、显示公式、表格和阅读顺序）和TEC-VQA（基于自然场景和文档图像的以文本为中心的视觉问答）。该数据集覆盖11种东南亚语言（EN / ZH / VI / TH / FIL / MS / ID / LO / KM / MY / PT），旨在评估多语言视觉文档理解能力。

创建时间：

2026-05-18

原始信息汇总

SEA-Vision 数据集概述

SEA-Vision 是一个针对东南亚地区多语言文档与场景文本理解的综合基准数据集，涵盖11种语言：英语、中文、越南语、泰语、菲律宾语、马来语、印尼语、老挝语、高棉语、缅甸语和葡萄牙语。

该基准包含两个子基准：

子基准	任务	说明
SEA-DocBench	端到端文档解析（文本块、显示公式、表格、阅读顺序）	提供约14 GB图像数据（15,234张图像）及评估框架
TEC-VQA	面向自然场景和文档图像的文本中心视觉问答	提供约1.9 GB图像数据及QA问题集

数据分布

实际数据集托管于 Hugging Face：xingranzhao/SEA-Vision

数据文件	所属子基准	获取方式
SEA-DocBench-images.tar.gz (≈14 GB)	SEA-DocBench	使用 `huggingface-cli download` 命令下载
ground_truth JSON	SEA-DocBench	尚未发布，需用户自行准备
all_qa_data.jsonl (QA pairs)	TEC-VQA	随 Git 仓库附带，无需单独下载
images_11langs.tar.gz (≈1.9 GB)	TEC-VQA	使用 `huggingface-cli download` 命令下载

资源结构

仓库目录布局如下：

SEA-DocBench/：文档解析基准，包含评估框架、参考推理脚本和配置文件
TEC-VQA/：文本中心VQA基准，包含推理和准确率评估脚本
SEA-DocBench-images.tar.gz：发布的图像归档文件

使用流程

SEA-DocBench（文档解析）：
- 将数据放置在 SEA-DocBench/data/ 目录下
- 运行参考推理脚本（默认使用 ByteDance/Dolphin-1.5 模型）
- 使用 pdf_validation.py 进行评估，输出各项指标
TEC-VQA（视觉问答）：
- 将数据放置在 TEC-VQA/data/ 目录下
- 使用 vLLM、API（OpenAI/Gemini）或特定模型脚本进行推理
- 使用 acc.py 计算准确率

环境要求

Python ≥ 3.10
需安装 PyTorch/CUDA（版本需匹配驱动）
支持 vLLM、OpenAI API、Google Generative AI 等推理方式

许可与引用

SEA-DocBench 基于 Apache License 2.0 发布
TEC-VQA 许可将在正式开源时确定，目前仅限学术研究使用
引用论文：Yue 等人在 CVPR 2026 发表的 "SEA-Vision: A Multilingual Benchmark for Comprehensive Document and Scene Text Understanding in Southeast Asia"

联系信息

可通过仓库提交 Issue 或 Pull Request，或联系仓库维护者。

搜集汇总

数据集介绍

构建方式

SEA-Vision基准测试套件由两个互补的子基准构成：SEA-DocBench专注于端到端文档解析任务，涵盖文本块、显示公式、表格及阅读顺序等元素的提取；TEC-VQA则聚焦于自然场景与文档图像中的文本中心视觉问答。数据通过Hugging Face平台分发，其中SEA-DocBench包含约14GB的15,234张图像及其对应标注，TEC-VQA则提供约1.9GB的十一语图像与问答对数据。用户需自行下载图像压缩包与标注文件，并按各子基准的README说明放置于指定目录。

特点

该基准套件覆盖英文、中文、越南语、泰语、菲律宾语、马来语、印尼语、老挝语、高棉语、缅甸语及葡萄牙语共十一种东南亚语言，场景文本与文档图像的多样性极为丰富。SEA-DocBench采用精细化的解析评估指标，包括编辑距离、TEDS及CDM_plain等，能够全面衡量模型在文档结构还原方面的能力。TEC-VQA则通过文本中心问答的形式，深入考察模型对图像中文字内容的理解与推理水平，二者共同构建了一个多维度、跨语种的视觉文本理解评测体系。

使用方法

使用前需搭建Python 3.10以上环境，并分别安装SEA-DocBench与TEC-VQA的依赖包。对于SEA-DocBench，用户应将标注JSON与图像文件放入SEA-DocBench/data目录，然后运行Dolphin模型的推理脚本生成预测结果，最后通过pdf_validation.py实现端到端评估。TEC-VQA方面，需将问答对JSONL与图像放置于TEC-VQA/data，并利用vLLM、API或专用脚本执行推理，最终调用acc.py计算准确率。完整的下载命令与数据schema详见各子基准的独立README。

背景与挑战

背景概述

SEA-Vision数据集由彭飞越、赵兴然等研究人员于2026年发布，作为CVPR会议的收录成果，旨在填补东南亚地区多语言视觉文档理解领域的评估空白。该数据集聚焦于11种东南亚语言（包括英文、中文、越南语、泰语等），通过整合SEA-DocBench与TEC-VQA两大互补性子基准，分别应对端到端文档解析与自然场景及文档图像中的文本中心视觉问答任务。其核心研究问题在于构建一个能够全面衡量多语言视觉文档理解能力的标准化基准，从而推动跨语言场景文本理解技术的发展，对东南亚地区的文档处理与智能问答应用具有显著影响力。

当前挑战

SEA-Vision面临的核心领域挑战在于，东南亚语言的多样性及其复杂文字系统（如泰文、老挝文的连字特性）对传统文档解析模型构成巨大障碍，需要模型同时掌握多种书写体系与排版规则。此外，该基准涵盖的11种语言中部分资源稀缺，导致训练数据匮乏，模型泛化能力受限。在构建过程中，研究者遭遇了数据收集与标注的困难，如SEA-DocBench的真实标注数据尚未完全公开，且图像数据规模庞大（约14GB），对存储与处理效率提出高要求；同时，TEC-VQA的QA对需针对多语言场景精心设计，以确保评估的公平性与代表性，这些挑战共同凸显了多语言视觉理解评估的复杂性。

常用场景

经典使用场景

SEA-Vision作为面向东南亚多语言场景文本理解的多模态基准测试集，其经典使用场景集中在评估和推动视觉语言模型对复杂文档与自然场景中文字的端到端解析能力。研究者可利用SEA-DocBench子基准，针对包含文本块、行内公式、表格及阅读顺序的文档图像进行结构化解析，而TEC-VQA子基准则聚焦于以文本为中心的视觉问答任务，涵盖自然场景与文档图像中的多语言文本查询。这两个互补子基准共同构成了对模型在11种东南亚语言（如越南语、泰语、菲律宾语等）中细粒度视觉文本理解能力的全面检验框架。

解决学术问题

该数据集系统性地解决了多语言场景文本理解研究中长期缺乏覆盖东南亚语言的标准化评估基准这一关键学术空白。它有效攻克了现有基准集中于英语与中文、忽略低资源语言文本形态多样性的问题，为多模态模型在复杂排版、多方向文本、混合字体及文化特定符号下的泛化性能提供了量化标尺。SEA-Vision的意义在于不仅促进了跨语言文档智能处理的公平对比，更推动了兼顾语言多样性与场景多样性的鲁棒视觉语言模型的设计范式，尤其在提升东南亚地区数字化文档与街景文字自动理解水平方面具有深远学术影响。

衍生相关工作

SEA-Vision的发布催生了一系列衍生研究工作，其中最引人注目的是其配套的Dolphin模型参考推理管线，该管线基于ByteDance开源的Dolphin-1.5视觉语言模型，为后续研究者提供了可复现的基线方法。此外，该基准的评估框架源自OmniDocBench，并在此基础上扩展了多语言场景适配，启发了后续针对低资源语言文档解析的元学习与少样本优化工作。围绕TEC-VQA，研究者已开始探索结合大语言模型推理链的视觉问答策略，并衍生出针对东南亚地方语种（如老挝语、高棉语）的专用OCR增强模块，进一步推动了面向特定文化圈的多模态学术生态构建。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集