LegalViz

Hugging Face2025-04-29 更新2025-04-30 收录

下载链接：

https://huggingface.co/datasets/mizuumi1/LegalViz

下载链接

链接失效反馈

官方服务：

资源简介：

LegalViz是一个基于EUR-LEX的欧盟官方法律文件的法律关系可视化任务的新型数据集。数据集包含了_train.jsonl, valid.jsonl, test.jsonl_三个注释文件，每个文件中包含了独一无二的注释条目，条目中包含了案例名称、案例编号、文档URL、发表年份、Graphviz代码以可视化法律关系、欧盟官方语言以及来自EUR-LEX的法律文本。

LegalViz is a novel dataset for the legal relation visualization task based on EU official legal documents sourced from EUR-Lex. The dataset includes three annotated files: train.jsonl, valid.jsonl, and test.jsonl. Each file contains unique annotation entries, which cover case name, case number, document URL, publication year, Graphviz code for visualizing legal relations, official EU languages, and legal texts extracted from EUR-Lex.

创建时间：

2025-04-16

原始信息汇总

LegalViz数据集概述

数据集简介

LegalViz是一个基于EUR-LEX中欧盟官方法律文本的法律关系可视化任务数据集。

数据集许可

许可证：CC BY-SA 4.0
使用要求：
- 衍生作品需引用论文
- 基于Web的项目需引用论文并包含GitHub页面链接

下载信息

下载地址：https://github.com/mizuumi/LegalViz

数据文件

legalviz_train.jsonl
legalviz_valid.jsonl
legalviz_test.jsonl

数据条目

ID：唯一标识符
case_name：案例名称
case_number：EUR-LEX中的案例ID
document_url：原始文档URL
year：案例发布年份
graphviz：DOT语言Graphviz代码
language：判决案例使用的欧盟官方语言
legal_text：EUR-LEX中的法律文本

引用格式

bibtex @inproceedings{onami-etal-2025-legalviz, title = "{L}egal{V}iz: Legal Text Visualization by Text To Diagram Generation", author = "Onami, Eri and Miyanishi, Taiki and Maeda, Koki and Kurita, Shuhei", editor = "Chiruzzo, Luis and Ritter, Alan and Wang, Lu", booktitle = "Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers)", month = apr, year = "2025", address = "Albuquerque, New Mexico", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2025.naacl-long.339/", pages = "6657--6676", ISBN = "979-8-89176-189-6" }

搜集汇总

数据集介绍

构建方式

LegalViz数据集基于EUR-LEX平台收录的欧盟官方法律文书构建，通过专业标注将法律文本转化为可视化图表。研究团队从EUR-LEX提取法律案例文本，包括案例名称、编号、发布年份等元数据，并采用Graphviz的DOT语言对法律实体关系进行标准化标注，形成训练集、验证集和测试集的完整架构。标注过程严格遵循学术规范，确保数据质量与一致性。

特点

该数据集创新性地将法律文本与图表表示相结合，涵盖多种欧盟官方语言的法律案例。每个样本包含原始法律文本及其对应的Graphviz图表代码，完整保留了案例的时序特征和法律关系网络。数据集特别注重法律实体关系的可视化表达，为法律文本分析提供了独特的跨模态研究视角。

使用方法

使用者可通过HuggingFace平台或GitHub仓库获取数据集，包含JSONL格式的训练、验证和测试集文件。数据字段涵盖案例元数据、原始文本及Graphviz代码，支持法律文本可视化任务的端到端建模。研究人员可利用该数据集开发文本到图表的生成模型，或进行法律关系提取等下游任务，引用时需遵循CC BY-SA 4.0许可协议。

背景与挑战

背景概述

LegalViz数据集由Eri Onami等研究人员于2025年提出，旨在解决法律文本可视化领域的核心问题。该数据集基于欧盟官方法律文档库EUR-LEX构建，专注于将复杂的法律文本关系转化为图形化表示。作为NAACL2025会议收录的研究成果，其创新性地采用Graphviz代码形式标注法律实体关系，为法律文本分析、知识图谱构建等领域提供了重要资源。数据集涵盖多语言欧盟法律案例，通过标准化的DOT语言编码，推动了法律智能与自然语言处理交叉领域的发展。

当前挑战

该数据集面临双重挑战：在领域问题层面，法律文本固有的复杂逻辑结构和专业术语使得关系提取与可视化映射极具难度，需要平衡语义准确性与图形表达简洁性；在构建过程中，多语言法律文本的归一化处理、跨案例关系模式的统一标注标准制定，以及Graphviz代码的自动化生成验证，均为关键技术瓶颈。此外，欧盟法律体系的动态更新特性，也要求数据集具备持续扩展的架构设计。

常用场景

经典使用场景

在法律文本分析领域，LegalViz数据集为研究者提供了一个独特的工具，用于将复杂的法律文本转化为可视化的关系图。通过将法律条文中的关系以图形方式呈现，研究者能够更直观地理解法律条文之间的逻辑结构和关联。这一数据集特别适用于法律信息检索、法律知识图谱构建等任务，为法律文本的可视化研究提供了重要支持。

实际应用

在实际应用中，LegalViz数据集可被用于开发法律智能助手，帮助法律从业者快速理解复杂的法律条文。此外，该数据集还可用于法律教育，通过可视化手段帮助学生更直观地掌握法律知识。在法律信息检索系统中，基于该数据集的技术能够提升检索结果的准确性和可解释性。

衍生相关工作

基于LegalViz数据集，研究者们已经开展了多项经典工作，包括法律文本自动摘要生成、法律问答系统开发以及法律知识图谱构建。这些工作不仅扩展了数据集的应用范围，还为法律智能领域的发展提供了新的思路和方法。其中，基于Graphviz的法律关系可视化技术已成为该领域的代表性成果。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集