LegalEval-Q

Name: LegalEval-Q
Creator: 澳门城市大学, 中国科学院深圳先进技术研究院
Published: 2025-05-31 01:30:18
License: 暂无描述

arXiv2025-05-31 更新2025-06-03 收录

下载链接：

https://github.com/lyxx3rd/LegalEval-Q

下载链接

链接失效反馈

官方服务：

资源简介：

LegalEval-Q数据集由澳门城市大学和中国科学院深圳先进技术研究院的研究人员创建，旨在评估大型语言模型生成的法律文本的质量。数据集包含10000个法律问题，涵盖了刑法、民法和一般法律等领域。数据集的创建过程包括数据生成、模型结构和训练三个主要步骤。数据集的访问地址是https://github.com/lyxx3rd/LegalEval-Q。该数据集主要用于解决当前评估基准主要关注事实准确性而忽视语言质量方面的问题，如清晰度、连贯性和术语。该数据集可用于研究和开发高质量的文本质量评估方法，特别是在法律领域。

The LegalEval-Q dataset was developed by researchers from City University of Macau and the Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences, aiming to assess the quality of legal texts generated by large language models (LLMs). It contains 10,000 legal questions spanning criminal law, civil law and general law domains. The dataset construction process includes three core stages: data generation, model architecture design and model training. The official access link of the dataset is https://github.com/lyxx3rd/LegalEval-Q. This dataset addresses a key limitation of current evaluation benchmarks, which primarily focus on factual accuracy while neglecting important linguistic quality aspects such as clarity, coherence and appropriate terminology usage. It can be utilized for research and development of high-quality text quality evaluation methods, especially in the legal domain.

提供机构：

澳门城市大学, 中国科学院深圳先进技术研究院

创建时间：

2025-05-31

原始信息汇总

数据集概述

资源需求

Python版本: 3.12.9
磁盘占用: 约17G
显存占用: 约18G

环境配置

bash pip install -r requirements.txt

模型下载

模型列表

Qwen_7B_Review_Tuned_model: https://www.modelscope.cn/l424102993/LLM_TQ_Tuned_model.git
Regression_model_base: https://www.modelscope.cn/iic/nlp_bert_backbone_base_std.git
Regression_model_regression: https://www.modelscope.cn/l424102993/LLM_TQ_Regression_model.git

下载方式

Git下载

bash cd data/models git clone https://www.modelscope.cn/l424102993/LLM_TQ_Tuned_model.git git clone https://www.modelscope.cn/iic/nlp_bert_backbone_base_std git clone https://www.modelscope.cn/l424102993/LLM_TQ_Regression_model.git

魔塔SDK下载

python from modelscope import snapshot_download model_dir = snapshot_download(l424102993/LLM_TQ_Tuned_model, cache_dir = "./data/models/") model_dir = snapshot_download(iic/nlp_bert_backbone_base_std, cache_dir = "./data/models/") model_dir = snapshot_download(l424102993/LLM_TQ_Regression_model, cache_dir = "./data/models")

使用方式

1. 修改配置文件

修改文件: ./configs/config.ymal
修改内容: 模型目录和指定cuda号

2. 启动评分requests服务

直接启动

bash bash serve.py

手动启动

启动文件: ./src/evaluator_request.py
注意事项: 可能需要修改config.yaml的读取路径和模型路径

3. 添加API keys

文件: Evaluate_example.ipynb
操作: 添加Qwen的API Keys或修改相关代码

4. 模型测试

使用文件: Evaluate_example.ipynb
功能: 单个模型单次评分测试

批量评估

使用文件: /notebooks/Evaluate_batch.ipynb
- 功能: 调用api接口或本地模型进行多个模型的评分测试
使用文件: /notebooks/Generated_Result_Visualization_Analysis.ipynb
- 功能: 可视化查看并对比分析结果

搜集汇总

数据集介绍

构建方式

LegalEval-Q数据集的构建采用了多阶段系统化流程，首先整合了来自中国刑事法律、民法典及一般法规等领域的10,000个法律问题，源数据涵盖DISC-Law-SFTPair、Criminal-Law-Dataset等专业法律语料库。通过构建五元组数据结构（查询-回答-评论-结论-评分），采用AI辅助生成与法律专家双重校验机制，确保每个数据点都经过领域相关性、一致性和公平性的严格审查。评分模型融合了层次化特征提取和门控融合机制，通过CLS表征的多层聚合实现细粒度文本质量校准。

特点

该数据集首创了法律文本质量的多维评估体系，突破传统仅关注事实准确性的局限，系统量化清晰度、连贯性和术语准确性等语言学指标。其显著特征体现在：1）构建了覆盖26M至685B参数规模的49个LLM的横向对比框架；2）采用动态生成的评估机制，所有测试回答均实时生成；3）创新性开发调整变异系数（AdjScore）指标，同步衡量模型性能与稳定性。数据分布呈现明显的双峰特征，高端模型组标准差小于3分，展现出色的评估稳定性。

使用方法

使用该数据集时，研究者可通过标准化协议评估法律LLM的文本生成质量。具体流程包括：1）将目标模型接入评估框架，自动生成对法律查询的响应；2）系统根据五维评论框架（内容质量、结构组织、语言表达等）生成定性分析；3）回归模型综合原始回答、评论和结论输出0-100%的标准化评分。对于工业部署，建议结合API成本参数进行帕累托前沿分析，其中Qwen3系列在14B参数区间展现出最佳的性价比。数据集配套提供完整的评分分布图和模型稳定性指标，支持细粒度的性能诊断。

背景与挑战

背景概述

LegalEval-Q是由澳门城市大学和中国科学院深圳先进技术研究院的研究团队于2025年提出的新型法律文本质量评估基准。该数据集针对大型语言模型在法律领域应用中存在的文本质量评估缺失问题，首次构建了涵盖清晰度、连贯性和术语准确性等多维度的量化评估体系。研究团队通过整合中国刑法、民法典等专业法律语料，开发了基于回归分析的评估模型，系统分析了49个不同架构的LLM在法律文本生成质量上的表现。该工作不仅填补了法律领域缺乏标准化文本质量评估工具的空白，更为法律科技领域的模型选型提供了实证依据，其提出的参数规模与文本质量非线性关系等发现对法律AI的发展具有重要指导意义。

当前挑战

LegalEval-Q面临的挑战主要体现在两个维度：在领域问题层面，法律文本特有的严谨性要求与生成式模型的创造性之间存在根本矛盾，如何平衡专业术语准确性与语言自然度构成核心挑战；在构建过程中，法律条文的动态更新特性导致数据时效性维护困难，同时专家标注成本高昂且标准统一性难以保障。技术层面，现有评估指标对法律文本的细粒度质量特征（如条款引用规范性）捕捉不足，而模型参数量超过14B后出现的性能饱和现象也暴露出当前训练数据质量的天花板问题。此外，跨法系评估的普适性缺失以及法律推理能力与文本质量评估的耦合问题，均为该领域的持续发展带来挑战。

常用场景

经典使用场景

在法学研究与自然语言处理的交叉领域，LegalEval-Q数据集通过构建多维评估模型，为法律文本质量评估提供了标准化工具。该数据集最典型的应用场景在于系统评估大语言模型生成法律文本的清晰度、连贯性与术语准确性，尤其适用于比较不同参数规模与架构的模型在专业领域的表达能力。其精心设计的法律问题集覆盖刑法、民法典等子领域，能够全面检验模型在法律语境下的文本生成质量。

实际应用

在法律科技实践中，LegalEval-Q可作为律所和司法机关筛选AI助手的评估标准。其发布的模型排名与帕累托分析显示Qwen3系列具有最优性价比，可直接指导企业采购决策。数据集支持对API部署场景下的成本-质量权衡分析，例如验证了128k长上下文版本虽降低1.58分质量但提升稳定性，这为平衡法律文档处理需求与经济成本提供了数据支撑。

衍生相关工作

该数据集推动了法律AI评估体系的创新研究，其多维评估框架被扩展应用于医疗、金融等专业领域。基于其发现的参数效率规律，后续研究开发了混合专家架构的法律专用模型。数据集构建的调整CV指标（AdjScore）启发了新一代评估标准JudgeLM-X的研发，而其中注释-结论-评分的三级评估流程已成为领域内模型微调的黄金标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集