ID_Legal_Bench

Hugging Face2025-09-11 更新2025-09-12 收录

下载链接：

https://huggingface.co/datasets/Azzindani/ID_Legal_Bench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了原始问题与答案、生成的问题与答案、总体分数、问题语义相似度、答案语义相似度、引用保留度、法律术语使用度、推荐内容、版本号、行索引、时间戳和原始索引等字段。数据集分为全量、高质量、中等偏上质量和训练集等不同分片，其中只有全量分片和训练集包含数据示例。数据集的总下载大小约为973KB，总数据大小约为3.58MB。

创建时间：

2025-09-09

原始信息汇总

ID_Legal_Bench 数据集概述

数据集基本信息

数据集名称：ID_Legal_Bench
下载大小：1,065,361 字节
数据集大小：599,212 字节

数据特征

数据集包含以下字段：

original_question（字符串）：原始问题
original_answer（字符串）：原始答案
generated_question（字符串）：生成的问题
generated_answer（字符串）：生成的答案
overall_score（浮点数）：总体评分
semantic_similarity_q（浮点数）：问题语义相似度
semantic_similarity_a（浮点数）：答案语义相似度
citation_preservation（浮点数）：引用保留度
legal_terminology（浮点数）：法律术语使用评分
recommendation（字符串）：推荐建议
variant_number（整数）：变体编号
row_index（整数）：行索引
timestamp（字符串）：时间戳
original_index（整数）：原始索引
chunk_number（整数）：块编号

数据划分

数据集包含四个划分：

full划分
- 样本数量：27
- 数据大小：298,431 字节
high_quality划分
- 样本数量：0
- 数据大小：0 字节
medium_plus划分
- 样本数量：0
- 数据大小：0 字节
train划分
- 样本数量：16
- 数据大小：300,781 字节

配置信息

默认配置：default
数据文件路径：
- full划分：data/full-*
- high_quality划分：data/high_quality-*
- medium_plus划分：data/medium_plus-*
- train划分：data/train-*

搜集汇总

数据集介绍

构建方式

在法律智能评估领域，ID_Legal_Bench数据集通过系统化流程构建，其基础来源于原始法律问题与答案对，并利用生成模型创建变体问题。每个样本均经过多维度人工或自动化标注，涵盖语义相似性、法律术语准确性和引证保留等关键指标，同时整合了时间戳和索引元数据以确保数据可追溯性。

使用方法

研究者可依据不同拆分版本（如完整集或训练集）开展实验，通过分析各评分维度评估模型在法律问答任务中的性能。推荐结合生成问题与原始答案的对比指标，深入探究法律术语处理、语义一致性等关键能力，同时利用元数据字段进行样本溯源与分层分析。

背景与挑战

背景概述

ID_Legal_Bench数据集聚焦于法律领域自然语言处理的研究需求，由专业机构在近年构建，旨在评估法律问答系统的生成质量与可靠性。该数据集通过整合原始法律问题与生成式回答，并引入多维评分体系，为法律人工智能模型提供了标准化测试基准，显著推动了法律文本分析与智能辅助决策系统的发展。

当前挑战

该数据集核心挑战在于解决法律领域问答的精确性与语义一致性难题，需确保生成内容符合法律术语规范与引用准确性。构建过程中面临标注复杂性高、专家验证成本大以及多维度评分标准统一等困难，同时需平衡生成问题的多样性与法律逻辑的严谨性。

常用场景

经典使用场景

在法律人工智能领域，ID_Legal_Bench数据集被广泛用于评估法律问答系统的生成质量与可靠性。该数据集通过对比原始法律问题与生成问题、原始答案与生成答案的多维度评分，为研究者提供了标准化测试基准，尤其在检验模型对法律术语准确性、语义一致性和引证规范性的表现方面具有重要价值。

解决学术问题

该数据集有效解决了法律自然语言处理中生成内容可信度与专业性的量化评估难题。通过引入语义相似性、术语准确性和引证保留等多维度指标，为学术研究提供了可复现的评估框架，显著提升了法律文本生成任务的科学性与可比性，对推动法律AI的标准化发展具有深远影响。

实际应用

在实际应用中，ID_Legal_Bench可服务于智能法律咨询平台、合同分析工具和司法辅助系统的开发与优化。通过该数据集的评估，企业能够筛选出具备高可靠性的法律文本生成模型，降低错误法律建议的风险，提升自动化法律服务的合规性与实用性。

数据集最近研究