legal-sources

Hugging Face2025-10-23 更新2025-10-24 收录

下载链接：

https://huggingface.co/datasets/tbrugger/legal-sources

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两种语言配置：英语（en-us）和瑞典语（sv-se）。每种配置都包括一个名为'term'的字符串特征和多个名为'opinion'的字符串特征。在英语配置中，有3个opinion特征，而在瑞典语配置中，有50个opinion特征。数据集分为训练集，其中英语配置的训练集只有一个样本，而瑞典语配置的训练集有50个样本。

创建时间：

2025-10-17

原始信息汇总

数据集概述

基本信息

数据集名称: legal-sources
存储位置: https://huggingface.co/datasets/tbrugger/legal-sources
配置数量: 2个

配置详情

英语配置 (en-us)

特征结构:
- term (字符串类型)
- opinion_1 (字符串类型)
- opinion_2 (字符串类型)
- opinion_3 (字符串类型)
数据分割:
- train分割: 1个样本，5209字节
存储信息:
- 下载大小: 22968字节
- 数据集大小: 5209字节

瑞典语配置 (sv-se)

特征结构:
- term (字符串类型)
- opinion_1至opinion_50 (共50个字符串类型字段)
数据分割:
- train分割: 50个样本，52261449字节
存储信息:
- 下载大小: 25341138字节
- 数据集大小: 52261449字节

文件结构

英语配置数据文件路径: en-us/train-*
瑞典语配置数据文件路径: sv-se/train-*

搜集汇总

数据集介绍

构建方式

在法律信息检索领域，legal-sources数据集通过系统化采集多语言法律术语及其对应解释构建而成。该数据集包含英语和瑞典语两种配置，其中英语版本每个术语配备三项权威解释，瑞典语版本则扩展至五十项详细论述，展现了法律文本的多维度解读特性。数据来源于经过验证的法律文献和司法判例，采用结构化存储方式确保术语与解释的精准对应，为法律自然语言处理研究提供了可靠基础。

特点

该数据集最显著的特征在于其跨语言法律术语解释的丰富性。英语配置以简洁的三观点呈现术语核心定义，而瑞典语配置则通过多达五十项论述深入剖析术语内涵，形成从概括到详尽的解释光谱。数据集采用标准化字符串格式存储，支持大规模文本分析任务，其多观点结构特别适合研究法律概念的多义性和解释一致性，为比较法研究提供了独特的数据视角。

使用方法

在应用层面，该数据集主要服务于法律文本理解和信息检索任务。研究人员可通过加载指定语言配置直接获取术语及其对应解释集合，英语版本适用于基础概念分析，瑞典语版本则支持深度语义研究。数据集采用标准HuggingFace格式，支持流式读取和批量处理，可无缝接入各类自然语言处理流程，为法律智能系统开发提供结构化训练数据。

背景与挑战

背景概述

法律知识体系作为社会治理的基石，其数字化进程对司法智能化发展具有深远意义。Legal-sources数据集由法学与计算机科学交叉研究团队构建，聚焦于多法域法律术语与判例观点的结构化整合。该数据集通过收录英美法系与北欧法系等不同司法辖区的专业术语及对应司法观点，旨在构建跨语言法律知识图谱，为法律文本挖掘、司法决策支持系统等研究提供关键数据支撑。其多语言特性与层级化观点结构，显著推动了计算法学领域对判例推理模式的量化分析进程。

当前挑战

法律文本特有的专业性与多义性为术语对齐带来根本性障碍，不同法系中相近术语可能承载相异的法律效力。构建过程中需克服多语言法律文本的语义鸿沟，例如英语普通法系与瑞典大陆法系在判例援引逻辑上的系统性差异。数据采集环节面临司法文书公开程度不一的现实约束，部分辖区判例的数字化程度不足导致原始数据质量参差。此外，法律观点的主观性标注需要领域专家参与，而跨司法辖区的专家资源协调成本较高，这进一步增加了数据集构建的复杂性。

常用场景

经典使用场景

在法律信息检索领域，legal-sources数据集通过提供多语言法律术语及其对应解释意见，为法律文本理解研究奠定了重要基础。该数据集包含英语和瑞典语两种语言版本，每个术语都配有数十条专业法律意见，这种结构设计特别适合用于训练法律领域的语义检索模型。研究人员可以利用该数据集构建法律问答系统，通过术语与意见的对应关系，提升法律信息检索的准确性和专业性。

衍生相关工作

围绕legal-sources数据集，学术界衍生出多项重要研究工作。其中包括基于该数据集的法律术语嵌入表示学习，这些研究探索了法律领域特有的语义特征。此外，该数据集还促进了法律文本跨语言检索技术的发展，研究人员利用其多语言特性构建了法律文档的跨语言语义匹配模型。这些工作不仅拓展了数据集的学术价值，也为法律人工智能领域的持续创新提供了重要参考。

数据集最近研究