scotus-sim/scotus-paul_d_clement-audio
收藏Hugging Face2026-04-19 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/scotus-sim/scotus-paul_d_clement-audio
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-nc-4.0
tags:
- audio
- oyez
- supreme-court
- speech
size_categories:
- 1K<n<10K
---
# SCOTUS-sim audio: paul_d_clement
Per-utterance audio clips from Oyez oral-argument mp3s, sliced at
the `start_time` / `stop_time` timestamps stored in the companion
`scotus-sim/scotus-paul_d_clement-training` dataset.
## Alignment
`clip_NNNNN.wav` in the tarball corresponds **exactly** to
`audio_segments.jsonl[NNNNN]` in the training companion dataset.
In `metadata.jsonl` each row carries the same 0-padded index in `idx`.
This supersedes the v1 tarball, which had systematic audio↔segment
index misalignment (Apr 2026).
## Stats
- clips: **2818**
- total duration: **5.32 hours**
- unique cases: **122**
## Files
- `paul_d_clement.tar.gz` — all clips; members named `paul_d_clement_NNNNN.wav`, 24 kHz mono PCM 16-bit.
- `metadata.jsonl` — one row per clip with `text`, `speaker`, `duration`, `case_id`, `audio_url`, `idx`.
## License
Audio is derived from Oyez.org (CC-BY-NC 4.0). Derivative TTS training
artifacts inherit the NC term.
license: CC-BY-NC-4.0
tags:
- 音频(audio)
- Oyez
- 最高法院(Supreme Court)
- 语音(speech)
size_categories:
- 1000 < 样本数 < 10000
# SCOTUS模拟音频数据集:paul_d_clement
本数据集包含取自Oyez网站口头辩论MP3文件的逐句音频片段,片段切分依据配套数据集`scotus-sim/scotus-paul_d_clement-training`中存储的`start_time`与`stop_time`时间戳完成。
## 对齐规则
压缩包内的`clip_NNNNN.wav`与配套训练数据集内的`audio_segments.jsonl[NNNNN]`完全一一对应。在`metadata.jsonl`文件中,每一行的`idx`字段均为补零后的相同索引值。本版本取代了2026年4月发布的v1压缩包,后者存在音频与片段索引系统性错位的问题。
## 统计信息
- 音频片段总数:**2818**
- 总时长:**5.32小时**
- 独特案件数量:**122**
## 文件说明
- `paul_d_clement.tar.gz`:包含全部音频片段,文件命名格式为`paul_d_clement_NNNNN.wav`,采用24 kHz单声道脉冲编码调制(PCM)16位编码格式。
- `metadata.jsonl`:每个音频片段对应一行数据,包含`text`(文本)、`speaker`(发言者)、`duration`(时长)、`case_id`(案件ID)、`audio_url`(音频链接)与`idx`(索引)字段。
## 许可证条款
本数据集音频源自Oyez.org,遵循CC-BY-NC 4.0许可协议。衍生的文本转语音(Text-to-Speech, TTS)训练素材需继承NC(非商业使用)条款。
提供机构:
scotus-sim



