five

ai-law-society-lab/oral-args-data-and-results

收藏
Hugging Face2026-04-01 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/ai-law-society-lab/oral-args-data-and-results
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - en pretty_name: Oral Arguments Arena license: cc-by-4.0 task_categories: - text-classification - text-generation tags: - legal - oral-arguments - scotus - moot-court - human-annotations - arxiv:2603.04718 size_categories: - 100K<n<1M --- # Oral Arguments Arena Data repository for [**AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments**](https://arxiv.org/abs/2603.04718) (Zhang, Nadeem, Zheng, Stammbach, Henderson, 2026). Refer to the paper for background on the evaluation framework, experimental design, and findings. ## Repository Structure ``` oral-args-arena-annotations/ ├── transcript_data/ # SCOTUS oral argument transcripts and case briefs ├── automated_metrics/ # LLM classifier outputs (SQLite databases) └── human_annotations/ # Human evaluation data and analysis ``` Each subdirectory contains its own README with detailed documentation. ### `transcript_data/` 2,488 cleaned SCOTUS oral argument transcripts (1991–2025) sourced from the [Oyez API](https://www.oyez.org/), along with corresponding case briefs. Includes notebooks for transcript cleaning and SQLite database creation. See [`transcript_data/README.md`](transcript_data/README.md). ### `automated_metrics/` SQLite databases containing LLM classifier annotations of generated judicial remarks across distributional metrics, adversarial/decorum metrics, issue coverage, and logical fallacy detection. All `.db` files are tracked via Git LFS. ### `human_annotations/` Human evaluation data from 7 annotators across three annotation tasks: distributional metric classification (T1), side-by-side model comparisons (T2), and arena-style pairwise preference voting. Includes inter-rater agreement analysis. See [`human_annotations/README.md`](human_annotations/README.md). ## Setup All `.db` files are tracked with [Git LFS](https://git-lfs.com/). ```bash git lfs install ``` ## Citation ```bibtex @article{zhang2026aiassisted, title={AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments}, author={Zhang, Kylie and Nadeem, Nimra and Zheng, Lucia and Stammbach, Dominik and Henderson, Peter}, journal={arXiv preprint arXiv:2603.04718}, year={2026} } ```
提供机构:
ai-law-society-lab
搜集汇总
数据集介绍
main_image_url
构建方式
在司法人工智能研究领域,Oral Arguments Arena 数据集通过系统化的流程构建而成。其核心数据来源于 Oyez API,涵盖了1991年至2025年间美国最高法院的2488份经过清洗的口头辩论转录文本及对应的案件摘要。构建过程中采用了专门的文本清洗流程,并整合至SQLite数据库,确保了原始法律语料的规范性与可访问性。此外,数据集还包含了基于大型语言模型的自动化标注以及由七位标注者完成的人工评估数据,形成了多维度、多来源的注释体系,为模拟法庭辩论中的法官特定提问提供了扎实的数据基础。
特点
该数据集呈现出鲜明的专业性与多层次结构。其内容聚焦于法律领域的口头辩论场景,不仅提供了大量真实的最高法院庭审转录,还附有结构化的案件摘要,构成了丰富的上下文信息。数据集的特点在于融合了自动化度量与人工标注:自动化部分通过LLM分类器对生成的司法言论进行了分布度量、对抗性、议题覆盖及逻辑谬误检测等多维度评估;人工部分则包含了分布度量分类、模型并排比较以及竞技场式成对偏好投票三种标注任务,并附有评分者间一致性分析,确保了评估结果的可靠性与深度。
使用方法
对于旨在研究司法人工智能或模拟法庭的应用者而言,该数据集提供了清晰的使用路径。数据集按功能分为转录数据、自动化度量和人工注释三个子目录,每个目录均有详细的README文档说明具体内容与格式。研究者可首先利用转录数据训练或评估针对口头辩论场景的文本生成与分类模型;进而借助自动化度量数据库进行模型输出的快速、规模化评估;最后,可参考高质量的人类标注数据对模型表现进行细粒度的人工验证与对比分析。数据文件主要通过Git LFS管理,需预先配置相应环境。相关研究背景与实验设计请参阅引用的学术论文。
背景与挑战
背景概述
在司法教育与人工智能交叉领域,模拟法庭辩论作为法律专业能力培养的核心环节,长期面临真实场景数据稀缺的瓶颈。Oral Arguments Arena数据集由Kylie Zhang、Nimra Nadeem等学者于2026年构建,依托美国联邦最高法院1991年至2025年间2488份经清洗的口头辩论转录文本与案件摘要,旨在探究人工智能辅助模拟法庭中法官特异性提问的生成与评估机制。该数据集通过结构化标注框架,为法律自然语言处理研究提供了首个大规模、多维度的人工智能生成内容评估基准,推动了司法场景下对话系统与论证质量分析的技术演进。
当前挑战
该数据集致力于解决司法场景中人工智能生成内容的可信度与专业性评估问题,其核心挑战在于如何构建能够准确反映法官提问风格、逻辑严谨性及程序合规性的多维评价体系。在数据构建过程中,研究者需克服法律文本特有的术语复杂性、辩论语境的多义性以及标注任务对领域专业知识的高依赖度。同时,协调自动化指标与人工标注的一致性,并确保大规模法律语料清洗与结构化过程中的信息完整性,亦是数据集构建面临的关键技术障碍。
常用场景
经典使用场景
在法学教育与司法模拟领域,该数据集为模拟法庭竞赛提供了核心素材。研究者利用其收录的美国最高法院口头辩论转录文本与案件摘要,构建高度逼真的模拟法庭环境,使参与者能够深入体验法官提问、律师应答等关键环节。通过分析历史辩论中的语言模式与论证策略,该数据集助力培养法律专业学生的辩证思维与临场反应能力,成为法学教育中不可或缺的实践工具。
实际应用
在法律科技与司法辅助领域,该数据集的实际应用体现在智能法律咨询与庭审准备系统中。开发人员可基于其训练的语言模型,模拟法官在具体案件中的潜在提问,帮助律师提前准备辩论策略。同时,该系统可用于公众法律教育,通过交互式模拟提升公民对司法程序的理解。这些应用不仅提高了法律服务的效率,也增强了司法过程的可及性与透明度。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在法律文本生成与评估框架的创新上。例如,基于其构建的司法提问生成模型,推动了针对法律领域特定风格的对话系统研究。此外,研究者利用其标注数据开发了多项评估指标,如逻辑谬误检测与议题覆盖分析,这些指标已被广泛采纳于衡量法律人工智能系统的性能,促进了该领域评估标准的规范化与精细化发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作