STARD

github2024-05-03 更新2024-05-31 收录

下载链接：

https://github.com/oneal2000/STARD

下载链接

链接失效反馈

官方服务：

资源简介：

STARD是一个基于真实法律咨询的法规检索数据集，专门用于处理普通公众的法律查询。该数据集包含1543个查询和55348个候选法规条文，旨在通过评估不同的检索基线，提高法律系统的可访问性和有效性。

STARD is a regulation retrieval dataset based on real legal consultations, specifically designed to handle legal inquiries from the general public. The dataset comprises 1543 queries and 55348 candidate regulation provisions, aiming to enhance the accessibility and effectiveness of legal systems by evaluating different retrieval baselines.

创建时间：

2024-03-17

原始信息汇总

数据集概述

数据集名称

STARD: A Statute Retrieval Dataset for Layperson Queries

数据集特点

针对普通公众的法律咨询问题构建。
不同于专业法律查询数据集，STARD捕捉了非专业查询的复杂性和多样性。
通过评估多种检索基线，包括传统方法和GPT-4等先进技术，揭示现有检索方法的不足。
作为检索增强生成（RAG）数据集，显著提升大型语言模型在法律任务上的表现。

数据集结构

目录概览

数据集根目录：/STARD/data
包含1,543个查询和55,348个候选法律条文。

数据文件和结构

查询文件：data/queries.json
- 示例结构：包含查询ID、问题、相关法规、匹配ID和匹配名称。
语料库文件：data/corpus.jsonl
- 示例结构：包含文章ID、名称和内容。

数据收集方法

数据来源于中国国家级法律、法规和司法解释。
法律团队手动从官方政府来源筛选并下载最新版本。
文档按最小可搜索单位（法律条文）划分。

评估

使用多种检索算法进行测试，包括BM25、查询似然和密集检索器。
数据集分为train和dev两个子集。
相关评估文件位于data/example。

数据集安装

环境要求：jieba, numpy, pandas, torch, tqdm, transformers。
特殊工具安装：Dense需单独安装，详见Dense repository。

数据集用途

用于开发更易访问和有效的法律系统。
支持法律任务中的检索增强生成（RAG）技术。

搜集汇总

数据集介绍

构建方式

STARD数据集的构建基于真实世界的法律咨询问题，这些问题由普通公众提出。与现有的主要关注专业法律查询的数据集不同，STARD数据集捕捉了非专业人士查询的复杂性和多样性。数据集的语料库包括中国国家层面的法律、法规和司法解释，由法律团队从官方政府来源手动筛选和下载最新版本。每个文档被细分为最小的可搜索单位，即条文，以便进行详细的法律研究和应用。

使用方法

使用STARD数据集时，用户首先需要安装必要的软件包，并设置适当的环境。数据集的查询和相关法规条文存储在JSON文件中，用户可以通过加载这些文件来访问数据。数据集还提供了训练和开发集的划分，以及用于评估检索算法的标准化流程。用户可以通过运行提供的脚本（如BM25和Query Likelihood的测试脚本）来评估不同的检索算法。对于密集检索，用户需要使用Dense工具包，并根据本地设置调整脚本路径。

背景与挑战

背景概述

STARD（STAtute Retrieval Dataset）数据集源自真实世界的法律咨询问题，由普通公众提出。与现有的主要针对专业法律查询的法规检索数据集不同，STARD专注于非专业人士的查询，捕捉了其复杂性和多样性。该数据集由一支法律团队精心策划，从中国官方政府来源手动下载并整理了最新的国家级别法律、法规和司法解释。STARD的创建旨在通过评估多种检索基线，包括传统方法和使用GPT-4等先进技术的方法，揭示现有检索方法在处理非专业查询时的不足。此外，STARD作为检索增强生成（RAG）数据集，显著提升了大型语言模型在法律任务中的表现，表明其在开发更易用和高效的法律系统中的关键作用。

当前挑战

STARD数据集面临的挑战主要集中在两个方面。首先，非专业人士的法律查询通常表达不规范，语义模糊，这使得从大规模法规库中准确检索相关条文变得极为复杂。其次，构建过程中，数据集的收集和整理需要高度的法律专业知识，以确保法规的准确性和时效性。此外，评估检索算法的性能时，如何有效区分相关与非相关条文，以及如何处理大规模数据集中的噪声和冗余，也是当前研究的重点和难点。

常用场景

经典使用场景

STARD数据集在法律领域的经典应用场景主要体现在非专业人士的法律查询任务中。通过该数据集，研究者能够构建和评估针对普通公众的法律检索系统，这些系统能够处理复杂且多样化的非专业查询，从而提升法律检索的准确性和效率。

解决学术问题

STARD数据集解决了现有法律检索数据集主要面向专业法律查询的局限性问题，填补了非专业人士法律查询数据的空白。其通过提供真实世界的普通公众查询数据，推动了法律检索技术的发展，特别是在提高检索系统对非专业查询的理解和响应能力方面具有重要意义。

实际应用

在实际应用中，STARD数据集可用于开发面向公众的法律咨询平台，帮助普通用户快速找到与其问题相关的法律法规。此外，该数据集还可用于法律教育领域，通过模拟真实查询场景，提升法律学生的实践能力。

数据集最近研究