LexGenius

Hugging Face2025-12-05 更新2025-12-06 收录

下载链接：

https://huggingface.co/datasets/QwenQKing/LexGenius

下载链接

链接失效反馈

官方服务：

资源简介：

LexGenius是一个专家级的中文法律通用智能基准测试套件，旨在解决大型语言模型（LLMs）在法律领域应用中的核心挑战——缺乏专业、系统且可信赖的法律智能评估框架。该基准测试通过严格的数据集构建、真实法律问题设计以及人机协作验证，显著提升了法律智能评估的客观性、区分性和可靠性。LexGenius采用七种法律维度、十一个任务和二十种能力的三级结构，为多样化的LLMs提供了系统化的能力评估和跨模型比较分析框架。

创建时间：

2025-11-26

原始信息汇总

LexGenius 数据集概述

数据集基本信息

数据集名称: LexGenius
托管平台: Hugging Face
数据集地址: https://huggingface.co/datasets/QwenQKing/LexGenius
主要语言: 中文 (zh)
许可证: CC-BY-4.0
任务类别: 问答 (question-answering)
标签: 基准测试 (benchmark), 法律 (legal), 法学 (law), 大语言模型 (llm), 法律通用智能 (legal-general-intelligence), 评估 (evaluation)

数据集简介

LexGenius 是一个针对中文法律场景设计的专家级基准测试套件，旨在解决大语言模型在法律领域应用中的一个基本挑战——缺乏专业、系统且可信的法律智能评估框架。该数据集通过严格的数据集构建、现实法律问题设计以及人机协同验证，显著提升了法律智能评估的客观性、区分度和可靠性。

核心框架与结构

LexGenius 集成了七维法律结构、十一项任务和二十种能力的三级结构，提供了一个结构化的法律智能评估框架，支持对不同大语言模型进行系统性能力评估和跨模型比较分析。

评估维度与任务

7个核心法律维度: 用于评估法律智能。
11项法律任务: 用于展示模型与人类专家之间的性能差距。
20种法律智能能力: 用于对模型进行平均排名和平均得分排名。

引用信息

如果本工作对您的研究有帮助，请引用： bibtex @misc{liu2025lexgeniusbenchmark, title={LexGenius: An Expert-Level Benchmark for Large Language Models in Chinese Legal General Intelligence}, author={Wenjin Liu and Haoran Luo and Xin Feng and Xiang Ji and Lijuan Zhou and Rui Mao and Jiapu Wang and Shirui Pan and Erik Cambria}, year={2025}, eprint={2512.04578}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2512.04578} }

搜集汇总

数据集介绍

构建方式

在中文法律智能评估领域，构建专业且可靠的基准数据集面临诸多挑战。LexGenius通过严谨的构建流程应对这一需求，其数据集源自真实的法律文书、案例与法规，确保了内容的专业性与时效性。构建过程采用了人机协同的验证机制，由法律专家与大型语言模型共同参与数据标注与质量审核，有效提升了问题的复杂性与答案的规范性。该框架最终整合了七个法律维度、十一项具体任务与二十种核心能力，形成了一个层次分明、覆盖全面的结构化评估体系。

特点

LexGenius数据集的核心特征在于其专家级的评估定位与系统化的能力解构。该基准专门针对中文法律场景设计，其问题设计深度模拟了真实的法律实务与推理过程，对模型的理解、应用与规范性输出提出了极高要求。数据集涵盖了从法律条文解释、案例推理到文书撰写等多种任务类型，具有高度的多样性与挑战性。通过引入人类专家表现作为参照基线，该数据集能够清晰揭示当前大型语言模型在法律通用智能方面与专业水准之间的显著差距，为模型能力的客观判别与比较提供了可靠依据。

使用方法

对于致力于提升法律领域性能的研究者与开发者而言，LexGenius提供了一套即用型的评估解决方案。用户可直接通过HuggingFace平台加载该数据集，无需自行搭建复杂的评估系统。使用方法主要围绕基准测试展开，研究者可以将其作为标准测试集，用于评估不同模型在各项中文法律任务上的表现，并依据七个核心维度的得分进行系统性能力分析。该数据集支持跨模型的性能对比，其结果能够为模型后续的针对性优化、能力短板诊断以及在法律场景下的安全部署提供关键的数据洞察与方向指引。

背景与挑战

背景概述

随着大语言模型在专业领域的深入应用，法律智能的评估长期缺乏系统化、可信赖的基准。LexGenius应运而生，由Wenjin Liu等研究人员于2025年提出，旨在构建一个面向中文法律场景的专家级评测体系。该数据集聚焦于评估模型在法律理解、推理与规范应用等方面的综合能力，通过整合七维法律框架、十一项具体任务与二十种核心能力，为法律通用智能的研究提供了结构化、可量化的评估标准。其诞生标志着法律人工智能评估从分散化走向系统化，对推动模型在法律领域的专业化发展具有深远影响。

当前挑战

LexGenius致力于解决法律智能评估中的核心挑战：如何系统、客观地衡量大语言模型在复杂法律场景下的专业能力。构建过程中面临多重困难，包括法律知识的专业性与动态性要求数据标注必须由领域专家完成，以确保问题的准确性与权威性；同时，法律问题的多样性与情境依赖性要求任务设计需覆盖从基础理解到高阶推理的完整谱系，并模拟真实司法流程。此外，评估框架需具备足够的区分度与可靠性，以有效辨识不同模型在细微法律逻辑上的性能差异，这对数据集的规模、质量与结构设计提出了极高要求。

常用场景

经典使用场景

在中文法律智能研究领域，LexGenius数据集作为专家级基准测试套件，其经典使用场景在于系统评估大型语言模型在复杂法律情境下的综合能力。该数据集通过涵盖七个法律维度、十一项具体任务和二十种能力层级，为研究者提供了一个结构化的评估框架，用于衡量模型对法律条文的理解深度、逻辑推理的严谨性以及规范应用的准确性。这种多维度的测评方式，使得模型在法律知识检索、案例分析和判决预测等核心任务上的表现得以量化比较，为法律人工智能的发展奠定了坚实的评估基础。

实际应用

在实际应用层面，LexGenius数据集为法律科技产品的开发和优化提供了关键指引。法律咨询自动化系统、智能合同审查工具以及司法辅助决策平台均可利用该基准来检验其核心模型的专业性能。通过评估模型在具体法律任务上的表现，开发者能够识别模型短板，有针对性地进行优化，从而提升法律智能应用在真实场景中的准确性、可靠性和实用性，最终推动人工智能技术在法律服务行业的深度融合与落地。

衍生相关工作

围绕LexGenius数据集，已衍生出一系列聚焦于中文法律智能评估的经典研究工作。这些工作不仅深入分析了不同架构大型语言模型在法律维度上的能力差异，还探索了针对法律领域特点的模型微调与优化策略。相关研究进一步扩展了基准测试的边界，例如探讨模型在跨法域推理、时效性法律知识更新等方面的表现，为构建更全面、动态的法律智能评估体系提供了持续的研究动力和理论支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集