CAiRE/ASCEND
收藏Hugging Face2024-07-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CAiRE/ASCEND
下载链接
链接失效反馈官方服务:
资源简介:
ASCEND(A Spontaneous Chinese-English Dataset)是一个高质量的自发多轮对话中英文代码切换语料库,收集于香港。该数据集包含10.62小时的自发语音,总计约12.3K条话语。语料库分为训练集、验证集和测试集,比例为8:1:1,并在每个集合中保持性别比例的平衡。
ASCEND (A Spontaneous Chinese-English Dataset) is a high-quality spontaneous multi-turn conversational Chinese-English code-switching corpus collected in Hong Kong. It contains 10.62 hours of spontaneous speech and a total of approximately 12.3K utterances. The corpus is split into training, validation and test sets with a ratio of 8:1:1, and the gender distribution is balanced across each subset.
提供机构:
CAiRE
原始信息汇总
数据集概述
数据集描述
数据集总结
ASCEND(A Spontaneous Chinese-English Dataset)是一个高质量的自发多轮对话中文-英文代码转换语料库,收集于香港。该数据集包含10.62小时的自发语音,总计约12.3K条语音。数据集被分为训练集、验证集和测试集,比例为8:1:1,同时在每个集合中保持性别比例平衡。
支持的任务
- 代码转换
语言
- 中文
- 英文
数据集结构
数据分割
- 训练集:9,869条语音
- 验证集:1,130条语音
- 测试集:1,315条语音
数据实例
每个数据点包括音频文件路径、加载的音频数组及其转录文本。其他字段包括数据点ID、持续时间、语言、说话者ID、会话ID和主题。
附加信息
许可信息
- 创意共享署名-相同方式共享4.0国际许可(CC-BY-SA 4.0)
引用信息
@inproceedings{lovenia2022ascend, title={ASCEND: A Spontaneous Chinese-English Dataset for Code-switching in Multi-turn Conversation}, author={Lovenia, Holy and Cahyawijaya, Samuel and Winata, Genta Indra and Xu, Peng and Yan, Xu and Liu, Zihan and Frieske, Rita and Yu, Tiezheng and Dai, Wenliang and Barezi, Elham J and others}, booktitle={Proceedings of the 13th Language Resources and Evaluation Conference (LREC)}, year={2022} }



