LaCour!|法律NLP数据集|人权法数据集

github2023-12-13 更新2024-05-31 收录

法律NLP

人权法

下载链接：

https://github.com/trusthlt/lacour-corpus

下载链接

链接失效反馈

资源简介：

LaCour!是欧洲人权法院文本口头论据的第一个语料库，包含154个完整听证会（210万字符，超过267小时视频素材），涵盖英语、法语及其他法庭语言，每个听证会均与相应的最终判决文件关联。除了从视频转录并部分手动校正的文本外，还提供句子级时间戳和手动标注的角色及语言标签。此外，还展示了LaCour!在一系列初步实验中探索问题与异议意见之间互动的用途。除了在法律NLP中的应用，希望法律学生或其他感兴趣的团体也能将LaCour!作为学习资源，该数据集在https://huggingface.co/datasets/TrustHLT/LaCour上自由提供多种格式。

LaCour! is the first corpus of oral arguments from the European Court of Human Rights, comprising 154 complete hearings (2.1 million characters, over 267 hours of video material), covering English, French, and other courtroom languages. Each hearing is associated with its corresponding final judgment document. In addition to the text transcribed from video and partially manually corrected, sentence-level timestamps and manually annotated roles and language tags are provided. Furthermore, LaCour! demonstrates its utility in a series of preliminary experiments exploring the interaction between questions and dissenting opinions. Beyond its application in legal NLP, it is hoped that law students or other interested groups can use LaCour! as a learning resource. The dataset is freely available in various formats at https://huggingface.co/datasets/TrustHLT/LaCour.

创建时间：

2023-12-08

原始信息汇总

数据集概述

数据集名称

LaCour! Corpus

数据集内容

LaCour! Corpus 包含154个欧洲人权法院听证会的完整文本记录，总计2.1百万字符，来自超过267小时的视频资料，涵盖英语、法语及其他法院语言。

数据集结构

子集：transcripts
- 包含154个听证会的文本记录。
- 提供两种格式：.xml 和 .txt。
- 两种格式均包含以下信息：
  - webcast_id
  - Role
  - Name
  - Begin
  - End
  - Language
  - text
子集：documents
- 包含与听证会相关的所有文档信息，这些文档来自HUDOC数据库，通过应用号与听证会关联。
- 每个文档实例包含以下信息：
  - id
  - webcast_id
  - hearing_date
  - hearing_title
  - hearing_type
  - appno
  - case_id
  - case_name
  - case_url
  - type
  - typedescription
  - document_date
  - collection
  - importance
  - court
  - issue
  - represented_by
  - respondent
  - articles
  - strasbourg_caselaw
  - external_sources
  - conclusion
  - separate_opinion
  - judges
  - ecli

数据集用途

用于研究欧洲人权法院中的论证，特别是听证会中的问题与异议意见之间的相互作用。
作为法律自然语言处理的研究资源。
作为法律学生或其他感兴趣方的学习资源。

数据集访问

数据集可在以下链接免费访问：Huggingface Dataset

联系人

Lena Held
- 邮箱：lena.held@tu-darmstadt.de

AI搜集汇总

数据集介绍

构建方式

LaCour! 数据集的构建基于欧洲人权法院（ECHR）的154场庭审视频，涵盖了超过267小时的视频素材，总计210万词。这些视频素材被转录为文本，并经过部分人工校正，以确保准确性。数据集提供了句子级别的时间戳、角色标签和语言标签，并通过webcast_id与最终的判决文档进行关联。此外，数据集还包含了从HUDOC数据库中提取的相关文档元数据，进一步丰富了数据的上下文信息。

使用方法

LaCour! 数据集的使用方法灵活多样。用户可以通过提供的Python脚本加载XML或TXT格式的庭审记录，并将其转换为Pandas DataFrame以便进一步分析。文档元数据则以JSON格式提供，用户可以通过Pandas或标准JSON库进行加载。此外，数据集还提供了与庭审中提出的问题和异议意见相关的实验数据，用户可以通过GitHub上的相关仓库获取这些数据。

背景与挑战

背景概述

LaCour! 数据集由 Lena Held 和 Ivan Habernal 于 2023 年创建，旨在填补欧洲人权法院（ECHR）口头听证会转录与结构化数据的空白。该数据集包含 154 场听证会的完整转录文本，涵盖英语、法语等多种语言，总计 2.1 百万个词汇，并链接至相应的最终判决文件。作为首个针对 ECHR 口头辩论的语料库，LaCour! 不仅为法律自然语言处理（NLP）研究提供了宝贵资源，还为法律学者、学生及研究人员提供了深入分析法庭辩论与判决关系的工具。其发布标志着法律文本分析与司法决策研究的重要进展。

当前挑战

LaCour! 数据集在构建过程中面临多重挑战。首先，ECHR 听证会的多语言性质要求转录与标注工作具备高度的语言多样性处理能力，尤其是在非英语语料的手动校正与角色标注方面。其次，由于听证会视频的时长与复杂性，确保时间戳与文本的精确对齐成为技术难点。此外，数据集需与 HUDOC 数据库中的判决文件进行精确匹配，这对数据链接的准确性与一致性提出了更高要求。这些挑战不仅体现在数据构建的技术层面，也反映了在法律文本分析领域中，多模态数据整合与标注的复杂性。

常用场景

经典使用场景

LaCour! 数据集为欧洲人权法院（ECHR）的口头听证会提供了首个文本化语料库，涵盖了154场听证会的完整记录，总计2.1百万个词汇。该数据集的核心应用场景在于支持法律自然语言处理（Legal NLP）研究，特别是通过分析听证会中的辩论内容，揭示法官如何形成最终判决。研究人员可以利用该数据集探讨辩论中的关键论点如何影响判决结果，以及不同法官在听证会中的提问模式与最终意见之间的关系。

解决学术问题

LaCour! 数据集填补了欧洲人权法院口头听证会文本化记录的空白，解决了长期以来无法通过听证会内容进行深入法律研究的难题。通过提供详细的文本记录、时间戳、发言人角色和语言标签，该数据集使研究人员能够分析听证会中的辩论动态，探讨法官提问与最终判决之间的关联，以及不同语言背景下的辩论策略。这一数据集为法律语言学、司法决策分析和多语言法律文本处理等领域提供了宝贵的研究资源。

实际应用

LaCour! 数据集的实际应用场景广泛，不仅限于学术研究。法律从业者可以利用该数据集进行案例研究，分析听证会中的辩论策略及其对判决的影响。法学院学生则可以通过该数据集学习欧洲人权法院的司法程序，了解不同法律体系下的辩论风格。此外，该数据集还可用于开发法律文本分析工具，如自动生成听证会摘要或识别关键论点，从而提升法律研究的效率和深度。

数据集最近研究

最新研究方向

LaCour! 数据集作为欧洲人权法院（ECHR）口头辩论的首个文本语料库，为法律自然语言处理（Legal NLP）领域提供了前所未有的研究资源。该数据集包含154场听证会的转录文本，涵盖了多种语言，并与最终判决文件相关联。近年来，研究者们利用LaCour! 数据集探索了口头辩论与最终判决之间的关联性，特别是法官提问与异议意见之间的关系。这一研究方向不仅有助于揭示法律决策过程中的关键因素，还为法律教育提供了丰富的学习材料。此外，LaCour! 数据集的多语言特性也为跨语言法律文本分析提供了新的可能性，推动了法律信息检索、文本分类和语义分析等领域的创新研究。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CosyVoice 2

CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集，旨在通过大规模多语言数据集训练，实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率，并结合预训练的大型语言模型作为骨干，支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域，旨在解决高延迟和低自然度的问题，提供接近人类水平的语音合成质量。

arXiv 收录

DALY

DALY数据集包含了全球疾病负担研究（Global Burden of Disease Study）中的伤残调整生命年（Disability-Adjusted Life Years, DALYs）数据。该数据集提供了不同国家和地区在不同年份的DALYs指标，用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集，包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面，平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建，扩展至包含ID #6,857,737的图像，增加了超过180万张新图像，总大小约为8TB。图像以原始格式提供，分为1000个子目录，使用图像ID的模1000进行分桶，以避免文件系统性能问题。

hugging_face 收录

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

中亚主要国家的原油资源的储量、产量、消费量及其占世界比重（1985-2016）

中亚五国中，石油资源主要分布在哈萨克斯坦、乌兹别克斯坦、土库曼斯坦三个国家。根据BP世界能源统计年鉴，经整理、抽取、计算和汇总后，形成中亚主要国家（哈萨克斯坦、乌兹别克斯坦、土库曼斯坦）原油资源的储量、产量、消费量及其占世界比重的统计表。主要指标包括：（1）储量，1991-2016年，单位：百万吨（2）产量，1985-2016年，单位：百万吨（3）储产比，1991-2016年，单位：百万吨（4）消费量，1985-2016年，单位：百万吨（5）产消差额，1985-2016年，单位：百万吨此外，以上数据均包括中亚地区的哈萨克斯坦、乌兹别克斯坦、土库曼斯坦、三国汇总以及世界总量的情况。

地球大数据科学工程收录