projecte-aina/parlament_parla
收藏Hugging Face2024-09-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/parlament_parla
下载链接
链接失效反馈官方服务:
资源简介:
ParlamentParla数据集是一个加泰罗尼亚语(Catalan)的语音语料库,主要用于自动语音识别(ASR)、文本生成和说话人识别等任务。数据集来源于加泰罗尼亚议会(Parlament de Catalunya)的全体会议录音,时间跨度为2007年7月11日至2018年7月17日。数据集包含211小时的清晰语音和400小时的其他质量语音,每个语音片段都标注了说话人及其性别。数据集的创建目的是为了促进加泰罗尼亚语这一低资源语言的语言模型发展。
The ParlamentParla dataset is a Catalan speech corpus primarily used for tasks such as automatic speech recognition (ASR), text generation, and speaker recognition. It is sourced from plenary session recordings of the Parliament of Catalunya, spanning from July 11, 2007 to July 17, 2018. The dataset contains 211 hours of high-quality clear speech and 400 hours of speech of other quality levels, with each speech segment annotated with the corresponding speaker and their gender. The purpose of creating this dataset is to promote the development of language models for Catalan, a low-resource language.
提供机构:
projecte-aina
原始信息汇总
数据集概述
数据集名称
- 名称: ParlamentParla
- 别名: 无
数据集基本信息
- 语言: 加泰罗尼亚语 (
ca-ES) - 许可证: 知识共享署名 4.0 国际 (cc-by-4.0)
- 多语言性: 单语
- 大小: 100K<n<1M
- 来源: 原始数据
任务类别
- 自动语音识别 (ASR)
- 文本生成 (Language Modeling)
- 说话人识别 (Speaker Identification)
数据集结构
- 数据实例: 包含音频文件路径、音频数据、说话人ID、句子内容、性别和持续时间。
- 数据字段:
path: 音频文件路径audio: 音频数据及其采样率speaker_id: 说话人IDsentence: 句子内容gender: 说话人性别duration: 语音持续时间
- 数据分割: 分为训练集、验证集和测试集。
数据集创建
- 创建理由: 为了促进加泰罗尼亚语这种低资源语言的语言模型发展。
- 源数据: 从加泰罗尼亚议会全体会议录音中提取的音频片段。
- 注释: 数据集未注释。
- 个人信息和敏感信息: 初始内容公开可用,议会成员的身份已匿名化。
使用数据注意事项
- 社会影响: 希望该语料库能促进加泰罗尼亚语语言模型的发展。
- 偏见讨论: 数据集存在性别偏见,但由于说话人按性别标记,可以创建平衡的子语料库。
- 其他已知限制: 文本语料库属于加泰罗尼亚政治领域。
附加信息
- 数据集管理者: 巴塞罗那超级计算中心文本挖掘单元 (bsc-temu@bsc.es)
- 许可证信息: 知识共享署名 4.0 国际
- 引用信息: 请参阅提供的引用信息。
- 贡献者: 感谢 @albertvillanova 添加此数据集。



