LaCour!

github2023-12-13 更新2024-05-31 收录

下载链接：

https://github.com/trusthlt/lacour-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

LaCour!是欧洲人权法院文本口头论据的第一个语料库，包含154个完整听证会（210万字符，超过267小时视频素材），涵盖英语、法语及其他法庭语言，每个听证会均与相应的最终判决文件关联。除了从视频转录并部分手动校正的文本外，还提供句子级时间戳和手动标注的角色及语言标签。此外，还展示了LaCour!在一系列初步实验中探索问题与异议意见之间互动的用途。除了在法律NLP中的应用，希望法律学生或其他感兴趣的团体也能将LaCour!作为学习资源，该数据集在https://huggingface.co/datasets/TrustHLT/LaCour上自由提供多种格式。

LaCour! is the first corpus of oral arguments from the European Court of Human Rights, comprising 154 complete hearings (2.1 million characters, over 267 hours of video material), covering English, French, and other courtroom languages. Each hearing is associated with its corresponding final judgment document. In addition to the text transcribed from video and partially manually corrected, sentence-level timestamps and manually annotated roles and language tags are provided. Furthermore, LaCour! demonstrates its utility in a series of preliminary experiments exploring the interaction between questions and dissenting opinions. Beyond its application in legal NLP, it is hoped that law students or other interested groups can use LaCour! as a learning resource. The dataset is freely available in various formats at https://huggingface.co/datasets/TrustHLT/LaCour.

创建时间：

2023-12-08

原始信息汇总

数据集概述

数据集名称

LaCour! Corpus

数据集内容

LaCour! Corpus 包含154个欧洲人权法院听证会的完整文本记录，总计2.1百万字符，来自超过267小时的视频资料，涵盖英语、法语及其他法院语言。

数据集结构

子集：transcripts
- 包含154个听证会的文本记录。
- 提供两种格式：.xml 和 .txt。
- 两种格式均包含以下信息：
  - webcast_id
  - Role
  - Name
  - Begin
  - End
  - Language
  - text
子集：documents
- 包含与听证会相关的所有文档信息，这些文档来自HUDOC数据库，通过应用号与听证会关联。
- 每个文档实例包含以下信息：
  - id
  - webcast_id
  - hearing_date
  - hearing_title
  - hearing_type
  - appno
  - case_id
  - case_name
  - case_url
  - type
  - typedescription
  - document_date
  - collection
  - importance
  - court
  - issue
  - represented_by
  - respondent
  - articles
  - strasbourg_caselaw
  - external_sources
  - conclusion
  - separate_opinion
  - judges
  - ecli

数据集用途

用于研究欧洲人权法院中的论证，特别是听证会中的问题与异议意见之间的相互作用。
作为法律自然语言处理的研究资源。
作为法律学生或其他感兴趣方的学习资源。

数据集访问

数据集可在以下链接免费访问：Huggingface Dataset

联系人

Lena Held
- 邮箱：lena.held@tu-darmstadt.de

搜集汇总

数据集介绍

构建方式

LaCour! 数据集的构建基于欧洲人权法院（ECHR）的154场庭审视频，涵盖了超过267小时的视频素材，总计210万词。这些视频素材被转录为文本，并经过部分人工校正，以确保准确性。数据集提供了句子级别的时间戳、角色标签和语言标签，并通过webcast_id与最终的判决文档进行关联。此外，数据集还包含了从HUDOC数据库中提取的相关文档元数据，进一步丰富了数据的上下文信息。

使用方法

LaCour! 数据集的使用方法灵活多样。用户可以通过提供的Python脚本加载XML或TXT格式的庭审记录，并将其转换为Pandas DataFrame以便进一步分析。文档元数据则以JSON格式提供，用户可以通过Pandas或标准JSON库进行加载。此外，数据集还提供了与庭审中提出的问题和异议意见相关的实验数据，用户可以通过GitHub上的相关仓库获取这些数据。

背景与挑战

背景概述

LaCour! 数据集由 Lena Held 和 Ivan Habernal 于 2023 年创建，旨在填补欧洲人权法院（ECHR）口头听证会转录与结构化数据的空白。该数据集包含 154 场听证会的完整转录文本，涵盖英语、法语等多种语言，总计 2.1 百万个词汇，并链接至相应的最终判决文件。作为首个针对 ECHR 口头辩论的语料库，LaCour! 不仅为法律自然语言处理（NLP）研究提供了宝贵资源，还为法律学者、学生及研究人员提供了深入分析法庭辩论与判决关系的工具。其发布标志着法律文本分析与司法决策研究的重要进展。

当前挑战

LaCour! 数据集在构建过程中面临多重挑战。首先，ECHR 听证会的多语言性质要求转录与标注工作具备高度的语言多样性处理能力，尤其是在非英语语料的手动校正与角色标注方面。其次，由于听证会视频的时长与复杂性，确保时间戳与文本的精确对齐成为技术难点。此外，数据集需与 HUDOC 数据库中的判决文件进行精确匹配，这对数据链接的准确性与一致性提出了更高要求。这些挑战不仅体现在数据构建的技术层面，也反映了在法律文本分析领域中，多模态数据整合与标注的复杂性。

常用场景

经典使用场景

LaCour! 数据集为欧洲人权法院（ECHR）的口头听证会提供了首个文本化语料库，涵盖了154场听证会的完整记录，总计2.1百万个词汇。该数据集的核心应用场景在于支持法律自然语言处理（Legal NLP）研究，特别是通过分析听证会中的辩论内容，揭示法官如何形成最终判决。研究人员可以利用该数据集探讨辩论中的关键论点如何影响判决结果，以及不同法官在听证会中的提问模式与最终意见之间的关系。

解决学术问题

LaCour! 数据集填补了欧洲人权法院口头听证会文本化记录的空白，解决了长期以来无法通过听证会内容进行深入法律研究的难题。通过提供详细的文本记录、时间戳、发言人角色和语言标签，该数据集使研究人员能够分析听证会中的辩论动态，探讨法官提问与最终判决之间的关联，以及不同语言背景下的辩论策略。这一数据集为法律语言学、司法决策分析和多语言法律文本处理等领域提供了宝贵的研究资源。

实际应用

LaCour! 数据集的实际应用场景广泛，不仅限于学术研究。法律从业者可以利用该数据集进行案例研究，分析听证会中的辩论策略及其对判决的影响。法学院学生则可以通过该数据集学习欧洲人权法院的司法程序，了解不同法律体系下的辩论风格。此外，该数据集还可用于开发法律文本分析工具，如自动生成听证会摘要或识别关键论点，从而提升法律研究的效率和深度。

数据集最近研究