Multi-stream Spontaneous Conversation Training Datasets_Chinese

MagicHub开源社区2024-12-17 更新2024-12-21 收录

下载链接：

https://magichub.com/datasets/multi-stream-spontaneous-conversation-training-datasets_chinese/

下载链接

链接失效反馈

官方服务：

资源简介：

The Multi-stream conversation dataset developed by MagicData captures each speaker's audio track and labels each speaker separately, thereby preserving the natural occurrences of interruptions, interactions, and other dynamics in conversation. By isolating each speaker's audio, we can provide clearer and more accurate training data, enabling models to more effectively understand and respond to natural conversational exchanges. To facilitate broader understanding and accessibility, we have released a 10-hour sample as part of our open-source initiative: "Multi-stream Spontaneous Conversation Training Datasets_Chinese".

由MagicData研发的多流会话数据集（Multi-stream conversation dataset）可采集每位发言者的独立音频轨道，并为其单独标注，从而完整保留会话中自然发生的插话、交互及其他动态互动过程。通过分离每位发言者的音频信号，我们能够提供更为清晰精准的训练数据，使模型可以更高效地理解并响应自然会话交互。为促进更广泛的认知与应用落地，我们作为开源项目的一部分，发布了时长10小时的样本集，其名称为"多流自发会话训练数据集_中文（Multi-stream Spontaneous Conversation Training Datasets_Chinese）"。

创建时间：

2024-12-17

5,000+

优质数据集

54 个

任务类型

进入经典数据集