CoTA

github2025-03-06 更新2025-03-06 收录

下载链接：

https://github.com/xzf-thu/Audio-Reasoner

下载链接

链接失效反馈

官方服务：

资源简介：

CoTA是一个包含120万推理丰富样本的高质量数据集，使用结构化的链式思维技术构建，用于多模态理解和推理。

CoTA is a high-quality dataset comprising 1.2 million rich reasoning samples, built with structured chain-of-thought techniques and designed for multimodal understanding and reasoning.

创建时间：

2025-03-04

原始信息汇总

Audio-Reasoner 数据集概述

数据集简介

实现了名为Audio-Reasoner的大型音频语言模型的推理缩放功能，支持深度思考和结构化链式思维（COT）推理，用于多模态理解和推理。
构建了CoTA数据集，包含1.2M个推理丰富的样本，采用结构化COT技术。

数据集特点

CoTA数据集提供了跨领域的高质量字幕和问答对，用于结构化推理和增强预训练。
预训练模型和数据集涵盖了各种类型的音频，包括声音、音乐和语音，并在多个基准测试中取得了最先进的结果。

模型性能

在MMAU-mini基准测试中提高了25.42%。
在AIR-Bench-Chat基准测试中提高了14.57%。

数据集获取

Audio-Reasoner-7B模型检查点已发布在HuggingFace上。
CoTA数据集将在HuggingFace上发布（计划于2025.03）。

使用说明

提供了模型的安装和快速开始指南。
支持通过ms-swift和本地测试进行推理。

常见问题

Audio-Reasoner能够理解声音、音乐和语音等不同类型的音频，并进行计划、字幕、推理和总结四个部分的深入思考。
transformers库的版本对模型性能有显著影响，建议使用版本transformers==4.49.1。

联系方式

如有任何问题，可通过zhifei001@e.ntu.edu.sg联系。

引用

若模型和数据集对您的研究有帮助，请引用相关论文。

搜集汇总

数据集介绍

构建方式

为实现深度推理和推理规模在音频任务中的运用，研究团队构建了CoTA数据集。该数据集通过结构化的链式思维（COT）技术，汇聚了120万份推理丰富的样本，旨在提升Audio-Reasoner模型在多模态理解和推理方面的性能。

特点

CoTA数据集具备以下特点：样本涵盖不同领域的音频，包括声音、音乐和言语；样本质量高，适用于结构化推理和增强预训练；结合预训练模型，在多个基准测试中取得了领先成果。

使用方法

用户可通过HuggingFace平台获取Audio-Reasoner模型和CoTA数据集。具体使用方法包括：首先克隆仓库，安装必要的依赖包；然后根据提供的示例，加载模型，输入音频路径和问题提示，即可生成推理结果。

背景与挑战

背景概述

CoTA数据集是在音频语言模型的深入研究与推理能力提升的背景下创建的。该数据集由Zhifei Xie等研究人员于2025年构建，旨在通过结构化的链式思维（COT）技术，为Audio-Reasoner模型提供高质量的数据支持。CoTA数据集包含了1.2M个推理丰富的样本，使得Audio-Reasoner在MMAU-mini和AIR-Bench-Chat基准测试中取得了领先的结果。该数据集的构建，对提升音频语言模型在多模态理解和推理方面的性能具有重要的研究价值，并对相关领域产生了显著影响。

当前挑战

在构建CoTA数据集的过程中，研究人员面临了多个挑战。首先，需要确保数据集中的音频样本覆盖各种类型，包括声音、音乐和语音，并且能够与文本信息有效结合，以支持复杂的推理任务。其次，数据集的构建过程中涉及到大量的样本标注和质量控制，这对于保持数据集的高质量标准是一个挑战。此外，Audio-Reasoner模型的训练和推理过程中，如何有效利用CoTA数据集进行深度推理和推理规模扩展，也是一项技术上的挑战。

常用场景

经典使用场景

CoTA数据集，作为Audio-Reasoner模型的基础，其经典使用场景在于支持音频语言模型进行深入推理与结构化链式思维（COT）。该数据集通过提供丰富的推理样本，使得模型能够在音频理解任务中进行深度推理和推理规模扩展，进而实现多模态理解和推理。

实际应用

在实际应用场景中，CoTA数据集使得Audio-Reasoner模型能够理解和推理各种类型的音频，包括声音、音乐和语音。这一能力可以广泛应用于语音识别、音乐分析和情感识别等领域，为智能交互和音频内容理解提供了强大的支持。

衍生相关工作

CoTA数据集的构建不仅推动了Audio-Reasoner模型的发展，还衍生了相关的经典工作，如音频推理模型的进一步优化、多模态任务的处理方法研究以及结构化思维在语言模型中的应用策略探究。这些工作进一步扩展了CoTA数据集的应用范围和影响力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集