CAiRE/ASCEND

Name: CAiRE/ASCEND
Creator: CAiRE
Published: 2024-07-16 08:56:04
License: 暂无描述

Hugging Face2024-07-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/CAiRE/ASCEND

下载链接

链接失效反馈

官方服务：

资源简介：

ASCEND（A Spontaneous Chinese-English Dataset）是一个高质量的自发多轮对话中英文代码切换语料库，收集于香港。该数据集包含10.62小时的自发语音，总计约12.3K条话语。语料库分为训练集、验证集和测试集，比例为8:1:1，并在每个集合中保持性别比例的平衡。

ASCEND (A Spontaneous Chinese-English Dataset) is a high-quality spontaneous multi-turn conversational Chinese-English code-switching corpus collected in Hong Kong. It contains 10.62 hours of spontaneous speech and a total of approximately 12.3K utterances. The corpus is split into training, validation and test sets with a ratio of 8:1:1, and the gender distribution is balanced across each subset.

提供机构：

CAiRE

原始信息汇总

数据集概述

数据集描述

数据集总结

ASCEND（A Spontaneous Chinese-English Dataset）是一个高质量的自发多轮对话中文-英文代码转换语料库，收集于香港。该数据集包含10.62小时的自发语音，总计约12.3K条语音。数据集被分为训练集、验证集和测试集，比例为8:1:1，同时在每个集合中保持性别比例平衡。

支持的任务

代码转换

语言

中文
英文

数据集结构

数据分割

训练集：9,869条语音
验证集：1,130条语音
测试集：1,315条语音

数据实例

每个数据点包括音频文件路径、加载的音频数组及其转录文本。其他字段包括数据点ID、持续时间、语言、说话者ID、会话ID和主题。

附加信息

许可信息

创意共享署名-相同方式共享4.0国际许可（CC-BY-SA 4.0）

引用信息

@inproceedings{lovenia2022ascend, title={ASCEND: A Spontaneous Chinese-English Dataset for Code-switching in Multi-turn Conversation}, author={Lovenia, Holy and Cahyawijaya, Samuel and Winata, Genta Indra and Xu, Peng and Yan, Xu and Liu, Zihan and Frieske, Rita and Yu, Tiezheng and Dai, Wenliang and Barezi, Elham J and others}, booktitle={Proceedings of the 13th Language Resources and Evaluation Conference (LREC)}, year={2022} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集