five

COIG-Kun-Aug-Audio

收藏
Hugging Face2025-04-16 更新2025-04-17 收录
下载链接:
https://huggingface.co/datasets/EastBrook/COIG-Kun-Aug-Audio
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是由COIG-Kun种子问题出发,通过Qwen2.5-72B-Instruct-GPTQ-Int4模型生成的问题和答案组成的,每个答案都与其之前的问题和答案保持上下文相关性。此外,问题还被制作成了音频文件。

This dataset is built upon the COIG-Kun seed questions, and consists of question-answer pairs generated by the Qwen2.5-72B-Instruct-GPTQ-Int4 model. Each answer maintains contextual coherence with its preceding questions and corresponding answers. Additionally, the questions have been converted into audio files.
创建时间:
2025-04-14
搜集汇总
数据集介绍
main_image_url
构建方式
在中文开放指令生成领域,COIG-Kun-Aug-Audio数据集采用多阶段增强方法构建。以COIG-Kun原始语料为种子问题,依托Qwen2.5-72B-Instruct大模型进行多轮次问题扩展生成,确保语义连贯性。答案生成阶段采用历史感知机制,将前序对话作为上下文输入,使每个回答与对话流保持逻辑关联。音频数据通过cosyvoice文本转语音系统合成,最终形成包含文本对话与对应语音的三段式压缩包。
特点
该数据集最显著的特征在于实现多模态数据对齐,每条数据包含逻辑连贯的指令对话文本及对应合成语音。问题扩展策略使语料覆盖更广泛的语义空间,而历史敏感的答案生成机制保障了多轮对话的上下文一致性。音频数据采用模块化存储设计,支持按需下载部分语料进行研究,为语音合成、对话系统等任务提供高质量训练素材。
使用方法
研究者可通过解压audio_part1-3.tar.gz获取完整语音库,或选择性下载部分压缩包满足特定需求。文本数据以sharegpt.json格式存储,包含完整的对话历史链条。使用时应关注音频文件与文本指令的对应关系,建议优先加载文本数据建立对话索引,再按需调用语音数据进行多模态实验。该架构特别适合开展语音-文本联合建模、对话状态跟踪等研究。
背景与挑战
背景概述
COIG-Kun-Aug-Audio数据集是近年来自然语言处理与语音合成交叉领域的重要研究成果,由研究团队基于COIG-Kun数据集扩展构建而成。该数据集于2023年发布,核心目标在于探索多轮对话生成与语音合成的协同优化问题。研究团队采用先进的Qwen2.5-72B-Instruct大语言模型进行上下文感知的问题生成与回答,并创新性地引入cosyvoice语音合成系统实现文本到语音的转换。这种多模态数据构建方法为对话系统的连贯性保持和语音交互自然度提升提供了重要研究基础,对智能客服、虚拟助手等应用场景具有显著推动作用。
当前挑战
该数据集构建面临双重技术挑战:在领域问题层面,多轮对话的语义连贯性维护要求模型具备长上下文理解能力,而语音合成环节需要解决文本韵律与情感一致性的匹配问题。在构建过程层面,大规模对话数据的迭代生成涉及计算资源优化与质量控制的平衡,音频文件的存储与同步处理也带来工程实现复杂度。此外,跨模态数据对齐需要精确的时间标注和特征提取,这对数据清洗和标注流程提出了更高要求。
常用场景
经典使用场景
在语音合成与自然语言处理交叉领域,COIG-Kun-Aug-Audio数据集通过生成多轮对话的文本-音频配对数据,为语音合成模型训练提供了丰富的素材。该数据集特别适用于训练端到端的语音合成系统,能够模拟真实对话场景中语音的连贯性和上下文依赖性。研究者可利用其多轮对话特性,探索语音合成中对话历史的建模方法。
解决学术问题
该数据集有效解决了语音合成领域缺乏高质量多轮对话数据的问题。通过基于大语言模型生成的连贯对话文本,配合专业语音合成系统生成的音频,为研究对话式语音合成的上下文保持、情感一致性等关键问题提供了基准数据。其层次化的数据构造方式,为探索语音合成中的长期依赖建模提供了新的研究视角。
衍生相关工作
基于该数据集的特点,已衍生出多个语音合成领域的重要研究方向。包括基于对话历史的语音风格迁移、多轮对话中的语音情感一致性保持、以及端到端的对话式语音合成系统构建等。这些工作充分利用了数据集的多轮对话特性,推动了对话式语音合成技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作