WangchanX-Legal-ThaiCCC-RAG

Name: WangchanX-Legal-ThaiCCC-RAG
Creator: VISTEC-depa AI Research Institute of Thailand
Published: 2024-09-17 17:50:31
License: 暂无描述

Hugging Face2024-09-17 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/airesearch/WangchanX-Legal-ThaiCCC-RAG

下载链接

链接失效反馈

官方服务：

资源简介：

WangchanX-Legal-ThaiCCC-RAG数据集包含法律相关的文本数据，主要用于文本生成任务。数据集的特征包括问题、正向上下文、负向上下文、正向答案和负向答案。正向和负向上下文都包含元数据和文本信息。数据集分为训练集和测试集，分别包含8211和3743个样本。数据集的语言为泰语，适用于法律领域的文本生成任务。

提供机构：

VISTEC-depa AI Research Institute of Thailand

创建时间：

2024-09-17

原始信息汇总

WangchanX-Legal-ThaiCCC-RAG 数据集概述

数据集信息

特征

question: 问题，数据类型为字符串。
positive_contexts: 正向上下文，包含以下子特征：
- metadata: 元数据，包含以下子特征：
  - law_code: 法律代码，数据类型为字符串。
  - section: 章节，数据类型为字符串。
- text: 文本，数据类型为字符串。
hard_negative_contexts: 硬负向上下文，包含以下子特征：
- metadata: 元数据，包含以下子特征：
  - law_code: 法律代码，数据类型为字符串。
  - section: 章节，数据类型为字符串。
- text: 文本，数据类型为字符串。
positive_answer: 正向答案，数据类型为字符串。
hard_negative_answer: 硬负向答案，数据类型为字符串。

数据集分割

train: 训练集，包含8211个样本，大小为85944102字节。
test: 测试集，包含3743个样本，大小为10806936字节。

数据集大小

下载大小: 19920922字节
数据集总大小: 96751038字节

配置

config_name: default
- data_files:
  - train: 路径为 data/train-*
  - test: 路径为 data/test-*

许可证

license: MIT

任务类别

text-generation

语言

th (泰语)

数据集规模

1K<n<10K

搜集汇总

数据集介绍

构建方式

WangchanX-Legal-ThaiCCL-RAG数据集的构建过程结合了自动化生成与专家审核的双重机制。首先，基于Gemini 1.5 Pro模型从泰国民法和商法等相关法律条文中生成法律问题，随后通过BGE-M3模型识别与问题相关的法律条文。专家团队对生成的条文和问题进行筛选与审核，确保其法律准确性和相关性。最终，使用Meta-Llama-3-70B模型生成答案，并由专家进行二次审核，确保答案的精确性。测试集则由法律专家直接创建，确保其适用于实际法律场景。

特点

该数据集聚焦于泰国的公司法和商法领域，涵盖了35部主要法律条文，包括《民商法典》《证券交易法》等。数据集包含训练集和测试集，训练集采用多标签形式，每个问题对应多个相关条文，而测试集则为单标签形式。此外，数据集还提供了硬负样本（hard negative contexts），用于增强模型的区分能力。所有数据均经过法律专家的严格审核，确保了数据的权威性和实用性。

使用方法

WangchanX-Legal-ThaiCCL-RAG数据集适用于开发基于检索增强生成（RAG）的泰语法律问答系统。用户可通过加载训练集和测试集，利用提供的法律问题、相关条文及答案进行模型训练与评估。训练集的多标签形式有助于模型学习复杂法律条文的关联性，而测试集的单标签形式则可用于验证模型的精确性。硬负样本的引入可进一步提升模型对无关条文的识别能力。数据集的使用需遵循MIT许可协议。

背景与挑战

背景概述

WangchanX-Legal-ThaiCCL-RAG数据集旨在支持泰语法律问答系统的开发，特别是基于检索增强生成（RAG）技术的应用。该数据集由多个泰国法律领域的专家团队创建，涵盖了35部主要法律法规，包括《民商法典》、《证券交易法》和《石油所得税法》等。数据集的构建过程结合了自动化生成与人工审核，确保了问题与答案的准确性和法律相关性。该数据集的推出为泰语法律文本的自然语言处理研究提供了重要的资源，推动了法律领域智能化应用的发展。

当前挑战

WangchanX-Legal-ThaiCCL-RAG数据集在构建和应用中面临多重挑战。首先，法律文本的复杂性和专业性要求问题与答案的生成必须高度准确，这对自动化模型的语义理解和生成能力提出了极高要求。其次，数据集的构建依赖于专家审核，以确保法律问题的相关性和答案的准确性，这一过程耗时且成本高昂。此外，泰语作为低资源语言，其法律文本的多样性和复杂性进一步增加了数据处理的难度。最后，如何在多标签分类和单标签分类之间实现平衡，以优化模型在训练和测试集上的表现，也是该数据集面临的重要技术挑战。

常用场景

经典使用场景

WangchanX-Legal-ThaiCCL-RAG数据集在泰语法律问答系统的开发中扮演了关键角色。该数据集通过提供训练和测试集，支持基于检索增强生成（RAG）的模型在法律领域的应用。其经典使用场景包括法律文本的自动问答、法律条款的检索与解释，以及法律知识的自动化生成。通过结合泰国的公司法与商法，该数据集为法律专业人士和研究人员提供了高效的工具，帮助他们快速获取和理解复杂的法律条文。

解决学术问题

该数据集解决了法律文本处理中的多个学术研究问题，特别是在泰语法律领域的自然语言处理挑战。通过提供高质量的法律问答对和上下文信息，数据集支持了法律文本的语义理解、信息检索和生成任务的研究。此外，数据集中的专家审核确保了数据的准确性和可靠性，为法律领域的机器学习和自然语言处理研究提供了坚实的基础。

衍生相关工作

基于WangchanX-Legal-ThaiCCL-RAG数据集，许多相关研究工作得以展开。例如，研究人员利用该数据集开发了基于深度学习的法律文本分类模型，提升了法律文本的检索效率。此外，该数据集还催生了多个法律问答系统的原型，这些系统在泰国的法律实践中得到了初步应用。这些衍生工作不仅推动了法律领域的技术进步，也为泰语自然语言处理研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集