crosslingual

Hugging Face2025-02-15 更新2025-02-16 收录

下载链接：

https://huggingface.co/datasets/bkai-foundation-models/crosslingual

下载链接

链接失效反馈

官方服务：

资源简介：

VNLAWQC和VNSynLawQC是一个越南法律检索数据集，来源于越南法律图书馆。该数据集包含涉及法律领域多个方面的文章，每篇文章都提供了一个或多个法律文件支持的答案。VNSynLawQC是基于VNLAWQC的法律文件使用Llama-3-70B模型进行增强的版本。数据集由查询和正例对组成，并提供了英文对照。

创建时间：

2025-02-08

原始信息汇总

数据集概述

数据集名称

VNLAWQC, VNSynLawQC: A Vietnamese Legal Retrieval Dataset

许可

AGPL-3.0

任务分类

特征提取 (Feature-Extraction)

支持语言

越南语 (vi)
英语 (en)

数据集简介

VNLAWQC 数据集来源于越南法律图书馆 (VLL)，包含涉及法律领域多个方面的文章。每篇文章提供由一个或多个法律文件支持的答案，并包含指向相应文件的超链接。

VNSynLawQC 数据集基于 VNLAWQC 中的法律文件使用 Llama-3-70B 进行增强。

数据集组成

数据集由查询和正例对组成，英文对使用 VinAI Translate 模型生成。

引用信息

@inproceedings{ author={Toan Ngoc Nguyen, Nam Le Hai, Nguyen Doan Hieu, Dai An Nguyen, Linh Ngo Van, Thien Huu Nguyen, Sang Dinh }, title={Improving Vietnamese-English Cross-Lingual Retrieval for Legal and General Domains}, booktitle={The 2025 Annual Conference of the Nations of the Americas Chapter of the ACL}, year={2025}, url={https://openreview.net/forum?id=ScS9Z70CYn} copyright = {Creative Commons Attribution 4.0 International} }

搜集汇总

数据集介绍

构建方式

本数据集VNLAWQC, VNSynLawQC的构建，是以越南法律图书馆（VLL）中的文章为蓝本，这些文章涵盖了法律领域的多个方面。每篇文章都提供了一个或多个法律文件的答案，并附有指向相应文件的超链接。在此基础上，VNSynLawQC通过Llama-3-70B模型对法律文件进行了增强。

特点

该数据集的特色在于，它包含查询和正例对，并使用VinAI Translate模型生成了英文对照。这不仅为越南语和英语之间的交叉语言检索提供了资源，而且对于法律和一般领域的检索研究具有重要价值。

使用方法

使用本数据集时，研究者可以依据其提供的查询和正例对，进行法律信息检索的性能评估和模型训练。数据集的英文对照版本使得跨语言检索成为可能，有利于促进不同语言背景下的法律信息共享与交流。

背景与挑战

背景概述

在全球化的大背景下，跨语言信息检索成为自然语言处理领域中的一个重要课题。VNLAWQC和VNSynLawQC数据集，创建于2025年，由越南法律图书馆（VLL）提供原始资料，并由Toan Ngoc Nguyen等研究人员团队进行整理与构建。该数据集的核心研究问题是提高越南语与英语之间的跨语言检索能力，特别是在法律领域中的应用。该数据集的构建不仅丰富了法律文本处理的资源库，也为跨语言检索领域提供了新的研究方向，对促进相关技术的发展具有重要意义。

当前挑战

该数据集面临的挑战主要体现在两个方面：一是领域问题上的挑战，如何在法律这种专业性极强的文本中进行有效且准确的跨语言信息检索；二是构建过程中的挑战，包括如何处理和匹配两种语言之间的语义差异，以及如何确保翻译的准确性和检索结果的相关性。这些挑战要求研究者在算法设计、数据标注和模型评估等方面进行深入探索。

常用场景

经典使用场景

在跨语言检索领域，crosslingual数据集被广泛用于训练和评估模型在法律文本检索方面的性能。该数据集包含越南语查询及其对应的英语正例对，使得研究者能够构建和测试能够跨越南语和英语两种语言的检索系统，为法律专业人士提供跨语言的信息检索服务。

衍生相关工作

基于crosslingual数据集，研究者已经开展了一系列相关工作，包括但不限于改进跨语言检索模型、探索新的检索算法以及评估不同翻译模型对检索性能的影响。这些工作不仅推动了法律文本检索技术的发展，也为跨语言自然语言处理领域提供了新的研究方向和实验数据。

数据集最近研究