VLSP 2025MLQA-TSR

Name: VLSP 2025MLQA-TSR
Creator: 越南信息科技大学, 胡志明市, 越南, 日本先进科学技术研究所, 石川县, 日本, 越南国立大学, 胡志明市, 越南
Published: 2025-10-23 17:24:43
License: 暂无描述

arXiv2025-10-23 更新2025-11-05 收录

下载链接：

https://github.com/sonlam1102/VLSP2025-MLQA-TSR

下载链接

链接失效反馈

官方服务：

资源简介：

VLSP 2025MLQA-TSR 是一个关于越南交通标志法规的多模态法律问答数据集，旨在推动多模态法律文本处理的研究，并为构建和评估多模态法律领域的智能系统提供基准数据集。该数据集包含两个子任务：多模态法律检索和多模态法律问答。数据集由两个部分组成：法律检索和法律问答。法律检索子任务的目标是根据问题检索相关法律文档，而法律问答子任务的目标是根据问题和相关文档预测正确答案。该数据集由三个部分组成：训练集、公开测试集和私有测试集。此外，还提供了包含交通标志法规和道路交通秩序与安全法的法律数据库。

提供机构：

越南信息科技大学, 胡志明市, 越南, 日本先进科学技术研究所, 石川县, 日本, 越南国立大学, 胡志明市, 越南

创建时间：

2025-10-23

搜集汇总

数据集介绍

构建方式

在交通法规多模态理解研究领域，数据集的构建需兼顾视觉与文本信息的协同标注。VLSP 2025MLQA-TSR数据集通过四阶段流程系统构建：首先利用Selenium工具从网络爬取越南交通标志图像并人工过滤无关内容；随后由8名标注人员依据《交通标志与信号国家技术规范》和《道路交通安全法》撰写问题并关联法律条文，同时生成多选题或判断题的答案选项；继而通过交叉校验确保标注一致性，最终经严格验证剔除不符合语法规范或语义矛盾的样本，形成包含训练集、公开测试集与私有测试集的完整数据资源。

特点

该数据集显著特点在于其多模态法律问答的专门化设计。核心特征包括融合文本问题与交通标志图像的二元输入结构，要求模型同时解析视觉符号与法律文本的深层关联；数据分布上，训练集与公开测试集保持6:3的多选题与判断题比例，而私有测试集采用5:5的均衡设计以评估模型泛化能力；法律数据库涵盖313篇含图像表格的《交通标志规范》与89篇纯文本《道路交通安全法》，平均每问题关联2.31篇条文，且私有测试集问题长度与关联条文数量显著提升，有效增强了任务的挑战性与现实适用性。

使用方法

针对该数据集的双子任务特性，研究者需采用差异化处理流程。多模态法律检索任务需将问题文本与交通标志图像编码为统一向量，通过CLIP等跨模态模型计算与法律条文嵌入的相似度，并利用Qdrant等向量数据库实现Top-K检索；问答任务则依赖Vintern、Qwen2.5-VL等视觉语言模型，通过零样本提示或思维链推理机制，结合检索到的法律条文生成最终答案。评估体系分别采用侧重召回率的F2分数与准确率指标，确保系统在复杂法律场景下的实用性与可靠性。

背景与挑战

背景概述

随着多模态人工智能技术的迅猛发展，处理融合文本与视觉信息的复杂任务成为自然语言处理领域的前沿课题。VLSP 2025MLQA-TSR数据集由日本北陆先端科学技术大学院大学与越南胡志明市信息技术大学等机构联合研发，于2025年正式发布。该数据集聚焦越南交通标志法规的多模态法律问答，旨在通过结合交通标志图像与法律条文文本，构建能够理解多模态法律信息的智能系统。其核心研究在于突破传统纯文本法律处理的局限，推动低资源语言场景下的多模态法律分析技术发展，为越南智慧交通与法律科技领域提供了重要的基准数据支撑。

当前挑战

该数据集致力于解决多模态法律问答领域的双重挑战：在领域问题层面，系统需克服法律文本高度专业化与多模态信息融合的复杂性，准确解析交通标志视觉语义与法律条款的关联性；在构建过程中，面临原始图像质量不均、法律条文跨模态对齐困难等难题。具体表现为需通过人工标注与交叉验证确保问答对的法律准确性，同时应对越南语法律术语的特殊性与多模态数据异构性带来的标注一致性挑战，这些因素共同构成了数据集构建与应用的核心难点。

常用场景

经典使用场景

在智能交通系统研究领域，VLSP 2025MLQA-TSR数据集为多模态法律问答任务提供了标准评估基准。该数据集通过结合交通标志图像与法律条文文本，构建了包含530个训练样本和246个测试样本的完整语料库。研究团队通常利用该数据集训练模型同时理解视觉信号与法律条文语义，实现从多模态输入到精确法律答案的端到端推理过程。

衍生相关工作

基于该数据集的技术范式，研究社区衍生出多项创新工作。LifeIsTough团队开发的视觉语义检索系统通过CLIP模型实现法律条文与交通标志的跨模态匹配，Berry团队则利用Llama4模型构建了高效的多轮法律问答框架。这些工作共同推动了多模态法律理解技术的发展，为后续研究提供了包括图神经网络法律检索、动态注意力机制在内的多种技术路线参考。

数据集最近研究