crosslingual
收藏数据集概述
数据集名称
VNLAWQC, VNSynLawQC: A Vietnamese Legal Retrieval Dataset
许可
AGPL-3.0
任务分类
- 特征提取 (Feature-Extraction)
支持语言
- 越南语 (vi)
- 英语 (en)
标签
- 检索 (Retrieval)
- 法律 (Law)
数据集简介
VNLAWQC 数据集来源于越南法律图书馆 (VLL),包含涉及法律领域多个方面的文章。每篇文章提供由一个或多个法律文件支持的答案,并包含指向相应文件的超链接。
VNSynLawQC 数据集基于 VNLAWQC 中的法律文件使用 Llama-3-70B 进行增强。
数据集组成
数据集由查询和正例对组成,英文对使用 VinAI Translate 模型生成。
相关论文
Improving Vietnamese-English Cross-Lingual Retrieval for Legal and General Domains
引用信息
@inproceedings{ author={Toan Ngoc Nguyen, Nam Le Hai, Nguyen Doan Hieu, Dai An Nguyen, Linh Ngo Van, Thien Huu Nguyen, Sang Dinh }, title={Improving Vietnamese-English Cross-Lingual Retrieval for Legal and General Domains}, booktitle={The 2025 Annual Conference of the Nations of the Americas Chapter of the ACL}, year={2025}, url={https://openreview.net/forum?id=ScS9Z70CYn} copyright = {Creative Commons Attribution 4.0 International} }




