Baybars/parla_text_corpus
收藏Hugging Face2022-10-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Baybars/parla_text_corpus
下载链接
链接失效反馈官方服务:
资源简介:
ParlaTextCorpus是一个加泰罗尼亚语的口语文本语料库,来源于三个不同的资源:OpenSubtitles, Tv3Parla和Festcat。该数据集经过清理和整理,适用于序列建模和语言建模任务。
提供机构:
Baybars
原始信息汇总
数据集概述
基本信息
- 名称: ParlaTextCorpus
- 语言: 加泰罗尼亚语(ca)
- 许可证: CC-BY-4.0
- 多语言性: 单语种
- 大小: 10万至100万条记录
数据来源
- 来源: 从三个源数据集衍生和清理而来,包括OpenSubtitles、Tv3Parla和Festcat。
创建者信息
- 标注创建者: 无标注
- 语言创建者: 多位
任务与应用
- 任务类别: 序列建模
- 具体任务: 语言建模
标签
- 标签: robust-speech-event



