VLQA
收藏arXiv2025-09-30 收录
下载链接:
https://shailaja183.github.io/vlqa/
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为VLQA,专为视觉-语言问答任务设计,该任务需要联合推理图像和文本对。每个数据点包含一张图片、一段阅读材料、一个问题以及相应的答案。数据集还包括丰富的标注和分类,涵盖图像类型、问题类型、所需的推理能力以及对外部知识的需求等方面。为确保数据质量,该数据集采用了多级别的手动验证流程。规模上,该数据集包含9267个独特的图像-文本-问答条目,其任务定位于视觉-语言问题解答。
This dataset is named VLQA, which is specifically designed for the vision-language question answering (VQA) task that requires joint reasoning over image-text pairs. Each data instance comprises an image, a reading passage, a question, and its corresponding answer. The dataset also includes rich annotations and classifications covering aspects such as image type, question type, required reasoning capabilities, and the demand for external knowledge. To ensure data quality, a multi-level manual verification process is adopted for this dataset. In terms of scale, this dataset contains 9267 unique image-text-question-answer entries, with its task focused on vision-language question answering.
提供机构:
Authors of the paper
搜集汇总
数据集介绍

构建方式
在法律自然语言处理领域,低资源语言(如越南语)的标注语料匮乏始终是制约研究进展的瓶颈。为填补这一空白,VLQA数据集应运而生,其构建过程严谨而系统。首先,研究团队从越南法律体系中搜集了涵盖27个领域的2162份法律文件,经过预处理、去重与纠错后,构建了一个包含59,636条法律条文的庞大体例库。随后,从公开的法律咨询论坛中采集了约43万条由普通公民提出的真实法律问题,利用正则表达式提取问题-答案-法条三元组,并过滤掉引用失效法条或格式混乱的样本。最后,由五名资深法学学生作为标注员、一名资深法律专家作为评审,对三元组进行双重独立验证与修正,确保答案的准确性、法条的时效性与表述的流畅性,最终得到3,129个高质量样本,并按7:1:2的比例划分为训练集、验证集与测试集。
使用方法
VLQA数据集的设计天然支持两个紧密关联的任务:法律条文检索与法律问答。在检索任务中,研究者可将问题作为查询,从59,636条法条构成的语料库中召回相关条文,采用BM25、稠密检索(如BGE-m3)或两阶段精排(如微调mBERT)等策略,核心评估指标包括Recall@k与F2@k。在问答任务中,模型需基于检索到的候选法条生成答案,可采用抽取式方法(如PhoBERT)从法条中定位答案片段,或采用生成式方法(如BARTpho、GPT-4o)生成自由文本回答。评估时综合使用ROUGE、BERTScore等自动指标与法律专家的人工评审,以全面衡量答案的词汇重叠度、语义相似性与事实准确性。数据集已公开,便于复现与进一步研究。
背景与挑战
背景概述
随着大规模语言模型在自然语言处理领域的突破性进展,法律文本的智能化处理迎来了前所未有的发展机遇,然而法律体系的深度领域特异性与跨语言差异性,使得面向低资源语言的司法自然语言处理研究仍面临严峻挑战。越南语作为典型的低资源语言,在法律问答领域长期缺乏大规模、高质量且经专家验证的标注数据,严重制约了相关技术的进步。为填补这一空白,由日本北陆先端科学技术大学院大学、越南河内国立大学工程技术大学及法律大学等机构的研究人员于2018年共同创建了VLQA数据集。该数据集聚焦于真实世界中公民提出的法律咨询问题,旨在构建首个全面、大规模且高质量的越南语法律问答基准,涵盖约3,129个专家标注的问题与近60,000条法律条文,为法律信息检索与问答系统的评估提供了坚实的数据基础。
当前挑战
VLQA数据集所应对的核心挑战在于法律领域自然语言处理中低资源语言的资源匮乏问题,具体体现为标注语料稀缺、法律条文结构复杂以及推理需求多样。在构建过程中,研究者面临多重困难:首先,需从约43万条原始法律咨询帖中筛选出真实且可用的问答对,并利用正则表达式从非结构化文本中精准提取法律条文引用;其次,法律条文的时效性要求严格,需剔除已被废止的条款,如案例中因法令更新导致赔偿金额从1,490,000越南盾调整为1,800,000越南盾;此外,专家标注环节需协调五名高年级法学学生与一名资深法律专家进行双重验证,确保答案的准确性与法律依据的完整性,最终仅保留3,129个高质量三元组,体现了数据构建的精细与严苛。
常用场景
经典使用场景
在法律自然语言处理领域,VLQA数据集被广泛用于评估和提升越南语法律问答系统的性能。该数据集包含超过3000个由真实公民提出的法律问题,每个问题均经法律专家标注了相关的法条和长格式答案,覆盖了越南法律体系中的27个领域。研究者常将其作为基准,测试从传统稀疏检索模型(如BM25)到现代密集检索模型(如BGE-m3)以及生成式大语言模型(如GPT-4o、Qwen2.5)在法律信息检索和问答任务上的表现。VLQA的独特之处在于其问题来源于公众法律咨询平台,反映了普通民众的真实法律关切,从而为构建实用且可扩展的法律问答系统提供了坚实的实验平台。
解决学术问题
VLQA数据集解决了低资源语言(如越南语)法律自然语言处理中标注数据稀缺的关键问题。此前,法律问答研究多集中于英语或中文等高资源语言,且数据集规模有限或仅覆盖狭窄领域(如税法或民事权利)。VLQA通过提供大规模、专家验证的语料,填补了越南语法律信息检索和长格式问答研究的空白。它使学术界能够系统性地评估模型在真实场景下的法律推理能力,尤其是揭示了大语言模型在生成流畅回答时可能包含事实错误或幻觉现象的局限性。该数据集的发布推动了跨语言法律AI研究,强调了领域适配和严谨评估的重要性。
实际应用
在实际应用中,VLQA数据集促进了越南语法律辅助工具的发展,旨在缩小公众与复杂法律体系之间的鸿沟。基于该数据集训练的模型可被集成到在线法律咨询平台中,帮助公民快速获取关于税收、劳动、婚姻等日常事务的初步法律见解,减少对昂贵专业咨询的依赖。此外,法律从业者也可利用这些系统进行高效的法规检索,提升案件分析效率。VLQA的长期愿景是支持开发可靠、可信赖的端到端法律问答系统,使法律知识更平等地服务于社会各阶层,特别是在司法资源有限的地区发挥重要作用。
数据集最近研究
最新研究方向
在法律自然语言处理领域,低资源语言的法律问答系统正成为前沿研究焦点。VLQA数据集作为首个大规模、专家标注的越南语法律问答资源,填补了该语言在法定条文检索与长篇幅法律问答任务上的数据空白。该数据集收录了超过3000个由公民提出的真实法律问题,并附有近6万条法律条文作为知识库,由法律专业人士进行严格验证与修正。当前研究趋势聚焦于利用大型语言模型(如GPT-4o、Qwen2.5)进行零样本或少样本推理,但实验揭示,尽管这些模型能生成流畅的回应,却常出现事实性错误或幻觉现象,尤其在逻辑推理与多条文整合任务上表现欠佳。这一发现凸显了法律AI系统在可解释性与可靠性上的迫切需求,也推动了检索增强生成(RAG)与领域微调等方法的深入探索。VLQA的发布不仅为越南法律智能化提供了基准平台,更对全球低资源语言的法律文本处理研究具有重要启示意义。
相关研究论文
- 1VLQA: The First Comprehensive, Large, and High-Quality Vietnamese Dataset for Legal Question Answering日本先进科学技术研究院、越南河内工业大学、越南河内国立大学法学院、日本国立情报学研究所、越南河内国立工业大学 · 2025年
以上内容由遇见数据集搜集并总结生成



