TrustHLT/LaCour

Name: TrustHLT/LaCour
Creator: TrustHLT
Published: 2023-12-18 23:25:40
License: 暂无描述

Hugging Face2023-12-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/TrustHLT/LaCour

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自欧洲人权法院官方庭审的转录记录，涵盖了2012年至2022年间的154个庭审视频，原始语言为多种语言（无翻译）。通过手动标注语言标签和使用pyannote和whisper-large-v2进行自动音频处理，最终数据集包含4000个发言片段和88920行文本。数据集分为两个子集：转录文本和文档元数据。转录文本还提供了.txt和.xml格式的版本。数据集的主要语言为英语和法语，还包括俄语、西班牙语、克罗地亚语、意大利语、葡萄牙语、土耳其语、波兰语、立陶宛语、德语、乌克兰语、匈牙利语、荷兰语、阿尔巴尼亚语、罗马尼亚语和塞尔维亚语。文档元数据为英语。

This dataset contains transcribed records of official court hearings from the European Court of Human Rights. It encompasses 154 hearing videos spanning the period from 2012 to 2022, with original content in multiple languages without accompanying translations. Language tags were manually annotated, and automatic audio processing was conducted using pyannote and whisper-large-v2. The finalized dataset consists of 4,000 speech segments and 88,920 lines of text. The dataset is divided into two subsets: transcribed text and document metadata. The transcribed text is available in both .txt and .xml formats. The primary languages of the dataset are English and French, with additional languages including Russian, Spanish, Croatian, Italian, Portuguese, Turkish, Polish, Lithuanian, German, Ukrainian, Hungarian, Dutch, Albanian, Romanian, and Serbian. All document metadata is provided in English.

提供机构：

TrustHLT

原始信息汇总

数据集描述

数据集概述

该数据集包含从欧洲人权法院官方听证会中转录的法庭听证会记录。这些听证会是从2012年至2022年选择的154个网络直播视频，以原始语言呈现（无翻译）。通过手动标注语言标签和使用pyannote和whisper-large-v2自动处理提取的音频，最终数据集包含4000个发言轮次和88920条独立行。数据集包含两个子集，即转录文本和元数据及链接文档。转录文本还额外提供.txt或.xml格式。

语言

转录文本中最大的部分是英语和法语。较小的部分还包含以下语言：俄语、西班牙语、克罗地亚语、意大利语、葡萄牙语、土耳其语、波兰语、立陶宛语、德语、乌克兰语、匈牙利语、荷兰语、阿尔巴尼亚语、罗马尼亚语、塞尔维亚语。收集的元数据是英语。

数据集结构

数据实例

每个转录文本实例代表一个完整的转录段，类似于对话中的一个轮次。

json { id: 0, webcast_id: 1021112_29112017, segment_id: 0, speaker_name: UNK, speaker_role: Announcer, data: { begin: [12.479999542236328], end: [13.359999656677246], language: [fr], text: [La Cour!] } }

每个文档实例代表与听证会相关的hudoc中的一个文档及其元数据。实际文档可以通过case_id在hudoc中找到。注意：hearing_type表示听证会的类型，type表示文档的类型。如果听证会是“大法庭听证会”，“CHAMBER”文档指的是不同的听证会。

json { id: 16, webcast_id: 1232311_02102012, hearing_title: Michaud v. France (nos. 12323/11), hearing_date: 2012-10-02 00:00:00, hearing_type: Chamber hearing, application_number: [12323/11], case_id: 001-115377, case_name: CASE OF MICHAUD v. FRANCE, case_url: https://hudoc.echr.coe.int/eng?i=001-115377, ecli: ECLI:CE:ECHR:2012:1206JUD001232311, type: CHAMBER, document_date: 2012-12-06 00:00:00, importance: 1, articles: [8, 8-1, 8-2, 34, 35], respondent_government: [FRA], issue: Decision of the National Bar Council of 12 July 2007 “adopting regulations on internal procedures for implementing the obligation to combat money laundering and terrorist financing, and an internal supervisory mechanism to guarantee compliance with those procedures” ; Article 21-1 of the Law of 31 December 1971 ; Law no. 2004-130 of 11 February 2004 ; Monetary and Financial Code, strasbourg_caselaw: André and Other v. France, no 18603/03, 24 July 2008;Bosphorus Hava Yollari Turizm ve Ticaret Anonim Sirketi v. Ireland [GC], no 45036/98, ECHR 2005-VI;[...], external_sources: Directive 91/308/EEC, 10 June 1991;Article 6 of the Treaty on European Union;Charter of Fundamental Rights of the European Union;Articles 169, 170, 173, 175, 177, 184 and 189 of the Treaty establishing the European Community;Recommendations 12 and 16 of the financial action task force (“FATF”) on money laundering;Council of Europe Convention on Laundering, Search, Seizure and Confiscation of the Proceeds from Crime and on the Financing of Terrorism (16 May 2005), conclusion: Remainder inadmissible;No violation of Article 8 - Right to respect for private and family life (Article 8-1 - Respect for correspondence;Respect for private life), separate_opinion: True }

数据字段

transcripts:

id: 标识符
webcast_id: 听证会的标识符
segment_id: 当前听证会中当前发言段的标识符
speaker_name: 发言者的名字（申请者、政府或第三方未提供）
speaker_role: 发言者代表的角色/方（Announcer表示公告，Judge表示法官，JudgeP表示法官主席，Applicant表示申请者代表，Government表示应答政府代表，ThirdParty表示第三方介入者代表）
data: 以下字段的序列
- begin: 行开始的

搜集汇总

数据集介绍

构建方式

在司法语言学与法律人工智能的交叉领域，数据资源的构建尤为关键。LaCour数据集的构建源于对欧洲人权法院公开庭审视频的系统性处理。研究团队选取了2012年至2022年间的154场庭审网络直播，首先通过pyannote工具进行说话人分离，随后利用whisper-large-v2模型进行多语言语音识别，自动生成原始转录文本。在此基础上，针对英语和法语中法官及审判长的发言部分，由具备高语言能力的研究助理进行了人工校对与修正，同时对所有语段的语言标签进行了人工识别与确认。与转录文本关联的法律文档元数据则从ECHR的HUDOC数据库中提取并整合，形成了结构化的文档信息子集。

使用方法

该数据集为法律自然语言处理领域的多项研究任务提供了实践基础。使用者可通过Hugging Face的datasets库，分别加载‘transcripts’与‘documents’两个配置，便捷地获取庭审转录文本及其对应的结构化元数据。转录数据中的发言者角色、时间序列及语言标签支持对话分析、论辩挖掘及多语言语音识别模型评估等研究。关联的文档数据，如涉案条款、结论摘要及先例引用，可用于训练法律文本分类、信息抽取或判决预测模型。研究者亦可结合两者，探索口头辩论与最终判决文书之间的关联性，推动司法人工智能在理解复杂法律推理过程方面的发展。

背景与挑战

背景概述

LaCour!数据集由TrustHLT研究团队于2024年构建并发布，旨在为法律自然语言处理领域提供欧洲人权法院庭审听证会的转录文本与关联文档。该数据集收录了2012年至2022年间154场公开庭审的原始语言录音，通过pyannote和whisper-large-v2等先进工具进行自动语音识别与说话人分离，并辅以人工语言标注与部分文本校正，最终形成包含近四万条发言记录的多语言语料库。其核心研究问题聚焦于法律论证分析、多语言司法对话理解以及庭审结构建模，为计算法学与司法人工智能研究提供了珍贵的实证基础，显著推动了法律文本挖掘与论辩计算等交叉学科的发展。

当前挑战

该数据集致力于解决法律领域内多语言庭审论证自动分析的挑战，其核心问题在于如何从非结构化的口语对话中提取法律论据、识别参与者角色并关联相关判例文书。构建过程中的挑战主要体现在多语言语音识别的准确性，尤其是小语种如阿尔巴尼亚语、立陶宛语等的转录质量；说话人角色与姓名的精确标注，涉及法官、申请人、政府代表等多方参与者的复杂交互；以及庭审录音与HUDOC数据库中文档的精准对齐，需确保元数据字段如案件编号、法律条款引用的一致性。此外，公开庭审材料中可能存在的敏感信息处理亦构成数据伦理层面的挑战。

常用场景

经典使用场景

在计算法学与法律自然语言处理领域，LaCour数据集为研究者提供了欧洲人权法院庭审辩论的真实语料。该数据集收录了多语言庭审录音的转录文本与关联法律文档，其经典应用场景聚焦于法律论证分析与对话系统构建。研究者可基于该数据集深入探究庭审中法官、申请人及政府代表间的论辩结构，从而揭示法律推理的微观机制与话语特征。

解决学术问题

该数据集有效解决了法律人工智能领域若干关键学术问题，包括跨语言法律文本理解、庭审对话的自动摘要与论证挖掘。通过提供结构化标注的说话人角色与时间戳信息，它支持对法律程序性话语的时序分析与角色互动建模。其多语言特性为比较法研究提供了实证基础，而关联的判决文档则使研究者能够追溯庭审辩论与最终裁决之间的逻辑关联，深化对司法决策过程的理解。

实际应用

在实际应用层面，LaCour数据集能够赋能智能法律辅助系统的开发，例如为律师或法学研究者提供庭审论点的快速检索与比对工具。其转录文本可用于训练法律领域的自动语音识别系统，提升法庭记录效率。同时，该数据集可作为法律教育模拟平台的数据基础，帮助学生理解欧洲人权法院的庭审流程与跨国法律论证模式。

数据集最近研究