Genocide Transcript Corpus (GTC)

github2023-06-21 更新2024-05-31 收录

下载链接：

https://github.com/MiriamSchirmer/genocide-transcript-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Genocide Transcript Corpus (GTC) 提供了来自三个不同种族灭绝法庭的记录数据：柬埔寨法院特别法庭（ECCC）、卢旺达国际刑事法庭（ICTR）和前南斯拉夫国际刑事法庭（ICTY）。该数据集不仅包含法庭和记录注释的元数据，还包括可能包含创伤性证人经历的文本段落的注释。

Genocide Transcript Corpus (GTC) provides transcript data from three distinct international genocide tribunals: the Extraordinary Chambers in the Courts of Cambodia (ECCC), the International Criminal Tribunal for Rwanda (ICTR), and the International Criminal Tribunal for the Former Yugoslavia (ICTY). This dataset includes not only metadata for court records and their annotations, but also annotations for text passages that may contain traumatic witness experiences.

创建时间：

2022-01-16

原始信息汇总

数据集概述

数据集名称

Genocide Transcript Corpus (GTC)

版本信息

GTC Version 2 - June 2023
GTC Version 1 - June 2022

数据来源

Extraordinary Chambers in the Courts of Cambodia (ECCC)
International Criminal Tribunal for Rwanda (ICTR)
International Criminal Tribunal for the Former Yugoslavia (ICTY)

数据内容

GTC Version 2
- 包含52,845个文本段落，涉及90份转录文件。
- 包含以下变量：
  - Case 信息：法庭、案件编号、被告
  - Transcript 信息：文档ID、原始转录文件链接、日期
  - Witness 信息：证人姓名或化名、每份转录的证人数量
  - Text 信息：说话者（如证人、律师QA）、文本、创伤标签
  - Annotation 信息：注释ID、起始ID、文档ID
GTC Version 1
- 数据被分为每段250字的文本块。
- 包含以下变量：
  - paragraph：来自种族灭绝法庭转录的文本段落（每段250字）
  - label：暴力相关内容标签
  - tribunal：转录数据来源的具体法庭
  - witness：证人姓名或化名
  - document：文档编号/ID
  - case：案件编号/ID
  - date：审判日期

数据集用途

用于分析种族灭绝法庭中的证人经历，特别是涉及创伤和暴力的描述。

数据集特点

包含可能与创伤相关的证人经历的文本段落注释。
提供详细的法庭和证人信息，以及文本和注释的详细信息。

搜集汇总

数据集介绍

构建方式

Genocide Transcript Corpus (GTC) 数据集通过整合来自柬埔寨特别法庭（ECCC）、卢旺达国际刑事法庭（ICTR）和前南斯拉夫国际刑事法庭（ICTY）的庭审记录构建而成。数据集的构建过程包括对文本段落的划分和标注，特别是针对涉及潜在创伤性经历的证词部分。每个文本段落被划分为250词的片段，并去除了数字和标点符号。此外，数据集还包含了详细的元数据，如案件信息、证人信息以及创伤相关内容的标注。

特点

GTC 数据集的特点在于其广泛的覆盖范围和细致的标注体系。数据集包含了52,845个文本段落，涵盖了90份庭审记录，每段文本均标注了案件信息、证人信息、发言者角色以及创伤相关内容的标签。特别是创伤标签的引入，使得研究者能够识别和分析涉及暴力或创伤经历的证词。此外，数据集还提供了每个文本段落的起始点和文档ID，便于按时间顺序排列和分析。

使用方法

GTC 数据集的使用方法主要围绕其丰富的标注信息和结构化数据展开。研究者可以通过数据集中的元数据，如案件编号、证人姓名和发言者角色，进行多维度的分析。创伤标签的使用使得研究者能够专注于涉及暴力或创伤经历的证词，进行情感分析或心理影响研究。此外，数据集提供了每个文本段落的URL链接，方便用户查阅原始庭审记录。通过结合自然语言处理技术，研究者可以进一步挖掘数据中的潜在模式和法律意义。

背景与挑战

背景概述

Genocide Transcript Corpus (GTC) 数据集由 Miriam Schirmer 等研究人员于2022年首次发布，并于2023年更新至第二版。该数据集汇集了来自柬埔寨特别法庭（ECCC）、卢旺达国际刑事法庭（ICTR）和前南斯拉夫国际刑事法庭（ICTY）的庭审记录文本，旨在通过自然语言处理技术揭示大屠杀法庭中的创伤性内容。GTC 的核心研究问题聚焦于如何从法律文本中识别和分类与创伤相关的证词，为法律、心理学和人工智能交叉领域的研究提供了重要数据支持。该数据集不仅为研究者提供了丰富的元数据，还通过标注创伤相关内容，推动了法律文本分析与情感计算的结合，对国际刑事司法和人工智能领域产生了深远影响。

当前挑战

GTC 数据集在构建和应用过程中面临多重挑战。首先，从法律文本中识别创伤性内容具有高度复杂性，证词中的语言表达多样且情感信息隐晦，这对自然语言处理模型的精确性提出了极高要求。其次，数据集的构建涉及大量人工标注工作，如何确保标注的一致性和准确性成为关键问题。此外，由于庭审记录涉及敏感信息，如何在保护隐私的前提下公开数据也是一个重要挑战。最后，跨语言和跨文化的法律文本分析进一步增加了数据处理的难度，尤其是在不同司法体系下，语言表达和叙事结构的差异可能导致模型泛化能力不足。这些挑战不仅影响数据集的构建质量，也对其在相关领域的应用提出了更高的技术要求。

常用场景

经典使用场景

Genocide Transcript Corpus (GTC) 数据集在法学和计算社会科学领域具有重要应用，尤其是在研究种族灭绝法庭的审判过程中。该数据集通过提供来自柬埔寨特别法庭、卢旺达国际刑事法庭和前南斯拉夫国际刑事法庭的审判记录，为研究者提供了丰富的文本数据。这些数据不仅包括法庭程序的基本信息，还特别标注了涉及创伤性经历的证词，使得研究者能够深入分析证人在法庭上的陈述及其心理影响。

解决学术问题

GTC 数据集解决了法学和计算社会科学中的多个关键问题。首先，它为研究者提供了大规模、结构化的种族灭绝审判记录，使得对法庭程序、证人证词及其心理影响的分析成为可能。其次，通过标注创伤性内容，该数据集为研究创伤后应激障碍（PTSD）等心理问题提供了宝贵的数据支持。此外，GTC 还为自然语言处理（NLP）技术在法学领域的应用提供了新的研究方向，如自动识别创伤性内容、证人情感分析等。

衍生相关工作

GTC 数据集已经催生了多项重要的研究工作。例如，Miriam Schirmer 等人在 2023 年发表的论文《Uncovering Trauma in Genocide Tribunals: An NLP Approach Using the Genocide Transcript Corpus》利用该数据集开发了一种基于自然语言处理的方法，用于自动识别法庭记录中的创伤性内容。此外，该数据集还被用于研究证人在法庭上的情感表达、法庭程序的语言特征等。这些研究不仅推动了法学和计算社会科学的交叉研究，还为未来的国际刑事审判提供了新的分析工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集