five

CAiRE/ASCEND

收藏
Hugging Face2024-07-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CAiRE/ASCEND
下载链接
链接失效反馈
官方服务:
资源简介:
ASCEND(A Spontaneous Chinese-English Dataset)是一个高质量的自发多轮对话中英文代码切换语料库,收集于香港。该数据集包含10.62小时的自发语音,总计约12.3K条话语。语料库分为训练集、验证集和测试集,比例为8:1:1,并在每个集合中保持性别比例的平衡。

ASCEND (A Spontaneous Chinese-English Dataset) is a high-quality spontaneous multi-turn conversational Chinese-English code-switching corpus collected in Hong Kong. It contains 10.62 hours of spontaneous speech and a total of approximately 12.3K utterances. The corpus is split into training, validation and test sets with a ratio of 8:1:1, and the gender distribution is balanced across each subset.
提供机构:
CAiRE
原始信息汇总

数据集概述

数据集描述

数据集总结

ASCEND(A Spontaneous Chinese-English Dataset)是一个高质量的自发多轮对话中文-英文代码转换语料库,收集于香港。该数据集包含10.62小时的自发语音,总计约12.3K条语音。数据集被分为训练集、验证集和测试集,比例为8:1:1,同时在每个集合中保持性别比例平衡。

支持的任务

  • 代码转换

语言

  • 中文
  • 英文

数据集结构

数据分割

  • 训练集:9,869条语音
  • 验证集:1,130条语音
  • 测试集:1,315条语音

数据实例

每个数据点包括音频文件路径、加载的音频数组及其转录文本。其他字段包括数据点ID、持续时间、语言、说话者ID、会话ID和主题。

附加信息

许可信息

  • 创意共享署名-相同方式共享4.0国际许可(CC-BY-SA 4.0)

引用信息

@inproceedings{lovenia2022ascend, title={ASCEND: A Spontaneous Chinese-English Dataset for Code-switching in Multi-turn Conversation}, author={Lovenia, Holy and Cahyawijaya, Samuel and Winata, Genta Indra and Xu, Peng and Yan, Xu and Liu, Zihan and Frieske, Rita and Yu, Tiezheng and Dai, Wenliang and Barezi, Elham J and others}, booktitle={Proceedings of the 13th Language Resources and Evaluation Conference (LREC)}, year={2022} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作