Supreme Court Dialogs Corpus v1.01

github2024-01-13 更新2024-05-31 收录

下载链接：

https://github.com/esashika/supreme_court_corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含美国最高法院口头辩论的对话集合，包含51,498个话语，构成50,389个对话交换，涉及204个案件，11位法官和311名其他参与者。元数据包括案件结果、法官投票、对话发生部分和性别标注等。

This dataset comprises a collection of dialogues from oral arguments in the U.S. Supreme Court, encompassing 51,498 utterances that form 50,389 conversational exchanges. It spans 204 cases, involving 11 justices and 311 other participants. The metadata includes case outcomes, justices' votes, the segments of the dialogues, and gender annotations, among other details.

创建时间：

2023-09-24

原始信息汇总

Supreme Court Dialogs Corpus v1.01 数据集概述

数据集内容

对话数量: 包含51,498个话语，构成50,389个对话交换。
案件数量: 来自204个案件。
参与者: 涉及11位法官和311位其他参与者（律师或法庭之友）。

元数据信息

案件结果
法官投票
对话发生部分
性别标注

数据集结构

CASE_ID: 案件唯一标识。
UTTERANCE_ID: 话语唯一标识。
AFTER_PREVIOUS: 标识是否与前一话语属于同一对话，值为{TRUE, FALSE}。
SPEAKER: 发言者姓名。
IS_JUSTICE: 标识发言者是否为法官，值为{JUSTICE, NOT JUSTICE}。
JUSTICE_VOTE: 法官投票结果，值为{PETITIONER, RESPONDENT, NA}。
PRESENTATION_SIDE: 发言支持方，值为{PETITIONER, RESPONDENT}。
UTTERANCE: 发言内容。

搜集汇总

数据集介绍

构建方式

Supreme Court Dialogs Corpus v1.01数据集构建于美国最高法院口头辩论的对话记录，涵盖了204个案件的51,498条话语和50,389次对话交流。数据来源包括最高法院官方网站的口头辩论记录，以及Spaeth最高法院数据库中提取的案件结果和法官投票信息。每条话语均标注了唯一的案件和话语ID，并详细记录了发言者身份、法官投票倾向、对话发生的具体段落以及性别注释等元数据。

特点

该数据集的特点在于其丰富的内容和详尽的元数据标注。它不仅包含了大量的对话文本，还提供了案件结果、法官投票、发言者身份及其性别等关键信息。这些元数据为研究者提供了多维度的分析视角，使得该数据集在法律文本分析、对话系统研究以及性别与司法决策关系等领域具有广泛的应用价值。

使用方法

使用Supreme Court Dialogs Corpus v1.01时，研究者可以通过案件ID和话语ID快速定位特定对话，并利用元数据字段进行多维度的数据筛选和分析。例如，可以基于法官投票倾向分析其语言风格，或通过性别注释探讨性别在司法对话中的影响。数据集的结构化设计使得其易于集成到自然语言处理模型中，为法律文本的自动分析和理解提供了坚实的基础。

背景与挑战

背景概述

Supreme Court Dialogs Corpus v1.01数据集由Rhedson Esashika于2012年9月发布，旨在为研究美国最高法院口头辩论提供详尽的对话数据。该数据集涵盖了204个案件的51,498条话语，涉及11位法官和311名其他参与者（律师或法庭之友）。数据集不仅记录了对话内容，还包含了案件结果、法官投票、对话发生的具体部分以及性别注释等元数据。这些数据来源于Spaeth最高法院数据库，为法律文本分析、司法决策模式研究以及自然语言处理领域提供了宝贵的资源。该数据集的发布极大地推动了法律信息学与计算法学的发展，为相关研究提供了坚实的基础。

当前挑战

Supreme Court Dialogs Corpus v1.01数据集在构建与应用过程中面临多重挑战。首先，法律文本的复杂性与专业性使得对话内容的预处理与分析变得尤为困难，尤其是在处理法官与律师之间的互动时，需要精确识别法律术语与语境。其次，数据集中包含的元数据（如案件结果与法官投票）的准确性与完整性对研究结果的可靠性至关重要，但获取与验证这些数据的过程耗时且复杂。此外，对话的结构化处理与标注也面临技术挑战，尤其是在区分不同对话部分（如支持原告与被告的部分）时，需要高度的精确性与一致性。这些挑战不仅影响了数据集的构建效率，也对后续研究的深度与广度提出了更高的要求。

常用场景

经典使用场景

Supreme Court Dialogs Corpus v1.01数据集广泛应用于法律文本分析和自然语言处理领域。研究者利用该数据集中的对话内容，深入探讨最高法院庭审中的语言模式、辩论策略以及法官与律师之间的互动。通过分析51,498条话语和50,389次对话交换，研究者能够揭示法律辩论中的关键语言特征，为法律文本的自动处理提供数据支持。

实际应用

在实际应用中，Supreme Court Dialogs Corpus v1.01数据集被用于开发法律文本处理工具和系统。例如，基于该数据集训练的模型可以自动识别庭审对话中的关键论点、预测案件结果或分析法官的投票倾向。这些工具在法律研究、司法辅助决策和法律教育中具有广泛的应用前景，能够提高法律文本处理的效率和准确性。

衍生相关工作

该数据集衍生了许多经典的研究工作，特别是在法律文本分析和自然语言处理领域。例如，基于该数据集的研究提出了新的法律文本分类方法、庭审对话的情感分析模型以及法官决策预测算法。这些工作不仅推动了法律文本分析技术的发展，还为其他领域的对话分析提供了重要的参考和借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集