LawFactsQA-TW
收藏arXiv2024-10-15 更新2024-10-17 收录
下载链接:
http://arxiv.org/abs/2410.11450v1
下载链接
链接失效反馈官方服务:
资源简介:
LawFactsQA-TW是一个专注于台湾法律和法规的跨语言法定文章检索数据集。该数据集由国立中兴大学创建,包含5000篇法定文章、92个手动标注的问答对和173个合成生成的问答对。数据集内容涵盖台湾的民事、刑事和行政法规,旨在提高非母语人士对法律信息的访问。数据集的创建过程包括人工标注和合成数据生成,应用领域主要集中在跨语言法律信息检索,旨在解决非母语人士在法律信息获取上的障碍。
LawFactsQA-TW is a cross-lingual legal article retrieval dataset focused on Taiwanese laws and regulations. Developed by National Chung Hsing University, it contains 5,000 legal articles, 92 manually annotated question-answer pairs, and 173 synthetically generated question-answer pairs. Covering Taiwanese civil, criminal, and administrative legal domains, the dataset aims to improve access to legal information for non-native speakers. Its development process integrates manual annotation and synthetic data generation, with its primary application domain being cross-lingual legal information retrieval, intended to resolve the access barriers faced by non-native speakers when accessing legal information.
提供机构:
国立中兴大学
创建时间:
2024-10-15
搜集汇总
数据集介绍

构建方式
LawFactsQA-TW数据集的构建过程融合了人工标注和合成生成两种方法。首先,通过收集来自法律机构网站的常见问题解答(FAQ),对没有参考来源文章的查询进行人工标注,共生成92个实例。其次,利用自动化管道生成QA数据集,该管道使用gpt-4-turbo模型进行问题生成和相关法律文章的识别。此过程分为两个阶段:第一阶段收集法律法规的搜索排名,并基于这些排名生成问题;第二阶段通过关联相关法律文档和答案来增强生成问题的质量,最终形成包含问题、答案、相关法律部分(正样本)和负样本的数据集。
特点
LawFactsQA-TW数据集的显著特点在于其双语查询和全面的法律覆盖。每个实例包含一个英语查询及其对应的中文版本,以及相关的法律条文和标准答案。该数据集涵盖了台湾所有的民事、刑事和行政法律,旨在提升非母语人士对法律信息的访问。此外,数据集结合了人工标注和合成生成的数据,确保了数据的多样性和广泛性,为跨语言法律信息检索提供了丰富的资源。
使用方法
LawFactsQA-TW数据集可用于多种法律信息检索和问答系统的开发与评估。研究者可以利用该数据集训练和测试跨语言的法律检索模型,通过比较不同检索方法(如稀疏检索、密集检索和LLM增强检索)的性能,优化检索效率和准确性。此外,该数据集还可用于评估生成式大型语言模型(LLM)在法律问答任务中的表现,通过参考基于的评估和LLM自身的评估方法,全面衡量模型的生成质量和相关性。
背景与挑战
背景概述
LawFactsQA-TW数据集由台湾国立中兴大学的Yen-Hsiang Wang、Feng-Dian Su、Tzu-Yu Yeh和Yao-Chung Fan等研究人员创建,旨在解决跨语言法律信息检索的挑战。该数据集包含了台湾民事、刑事和行政法律的英文口语化法律查询及其对应的中文版本和相关法规,旨在提升非母语人士,特别是外国人在台湾的法律信息获取便利性。该数据集的构建不仅填补了跨语言法律检索领域的空白,还为开发包容性法律信息检索系统提供了宝贵的资源。
当前挑战
LawFactsQA-TW数据集面临的挑战主要包括:1) 跨语言法律信息检索的准确性和效率问题,特别是在处理口语化查询时;2) 数据集构建过程中,如何确保人工标注和合成生成数据的准确性和一致性;3) 如何利用大型语言模型(LLM)来优化查询重写和扩展,以提高检索性能。此外,数据集的评估和验证需要法律专家的参与,以确保其专业性和可靠性。
常用场景
经典使用场景
LawFactsQA-TW数据集的经典使用场景主要集中在跨语言法定条款检索任务中。该数据集通过提供英语和中文的法律查询及其对应的法定条款,旨在提升非母语使用者在法律信息检索中的体验。例如,外国人在台湾可能需要查询关于配偶工作许可的法律条款,系统能够通过英语查询检索到相应的中文法定条款,从而实现跨语言的法律信息检索。
解决学术问题
LawFactsQA-TW数据集解决了在多语言环境下法律信息检索的常见学术问题。它通过提供双语查询和对应的法定条款,帮助研究者开发和评估跨语言检索模型,特别是在翻译错误和跨语言检索性能提升方面。该数据集的引入为法律信息检索系统的包容性和准确性提供了重要的研究资源。
衍生相关工作
基于LawFactsQA-TW数据集,研究者们开发了多种基于大型语言模型(LLM)的检索方法,如生成增强检索(Generation-Augmented Retrieval)和跨语言检索(Cross-lingual Retrieval)。这些方法通过利用LLM生成潜在答案和法定条款内容,显著提升了检索的准确性和效率,为后续的法律信息检索研究提供了新的方向和基准。
以上内容由遇见数据集搜集并总结生成



