five

CoTA|逻辑推理数据集|机器学习数据集

收藏
github2025-03-06 更新2025-03-06 收录
逻辑推理
机器学习
下载链接:
https://github.com/xzf-thu/Audio-Reasoner
下载链接
链接失效反馈
资源简介:
CoTA是一个包含120万推理丰富样本的高质量数据集,使用结构化的链式思维技术构建,用于多模态理解和推理。
创建时间:
2025-03-04
原始信息汇总

Audio-Reasoner 数据集概述

数据集简介

  • 实现了名为Audio-Reasoner的大型音频语言模型的推理缩放功能,支持深度思考和结构化链式思维(COT)推理,用于多模态理解和推理。
  • 构建了CoTA数据集,包含1.2M个推理丰富的样本,采用结构化COT技术。

数据集特点

  • CoTA数据集提供了跨领域的高质量字幕和问答对,用于结构化推理和增强预训练。
  • 预训练模型和数据集涵盖了各种类型的音频,包括声音、音乐和语音,并在多个基准测试中取得了最先进的结果。

模型性能

  • 在MMAU-mini基准测试中提高了25.42%。
  • 在AIR-Bench-Chat基准测试中提高了14.57%。

数据集获取

  • Audio-Reasoner-7B模型检查点已发布在HuggingFace上。
  • CoTA数据集将在HuggingFace上发布(计划于2025.03)。

使用说明

  • 提供了模型的安装和快速开始指南。
  • 支持通过ms-swift和本地测试进行推理。

常见问题

  • Audio-Reasoner能够理解声音、音乐和语音等不同类型的音频,并进行计划、字幕、推理和总结四个部分的深入思考。
  • transformers库的版本对模型性能有显著影响,建议使用版本transformers==4.49.1

联系方式

  • 如有任何问题,可通过zhifei001@e.ntu.edu.sg联系。

引用

  • 若模型和数据集对您的研究有帮助,请引用相关论文。
AI搜集汇总
数据集介绍
main_image_url
构建方式
为实现深度推理和推理规模在音频任务中的运用,研究团队构建了CoTA数据集。该数据集通过结构化的链式思维(COT)技术,汇聚了120万份推理丰富的样本,旨在提升Audio-Reasoner模型在多模态理解和推理方面的性能。
特点
CoTA数据集具备以下特点:样本涵盖不同领域的音频,包括声音、音乐和言语;样本质量高,适用于结构化推理和增强预训练;结合预训练模型,在多个基准测试中取得了领先成果。
使用方法
用户可通过HuggingFace平台获取Audio-Reasoner模型和CoTA数据集。具体使用方法包括:首先克隆仓库,安装必要的依赖包;然后根据提供的示例,加载模型,输入音频路径和问题提示,即可生成推理结果。
背景与挑战
背景概述
CoTA数据集是在音频语言模型的深入研究与推理能力提升的背景下创建的。该数据集由Zhifei Xie等研究人员于2025年构建,旨在通过结构化的链式思维(COT)技术,为Audio-Reasoner模型提供高质量的数据支持。CoTA数据集包含了1.2M个推理丰富的样本,使得Audio-Reasoner在MMAU-mini和AIR-Bench-Chat基准测试中取得了领先的结果。该数据集的构建,对提升音频语言模型在多模态理解和推理方面的性能具有重要的研究价值,并对相关领域产生了显著影响。
当前挑战
在构建CoTA数据集的过程中,研究人员面临了多个挑战。首先,需要确保数据集中的音频样本覆盖各种类型,包括声音、音乐和语音,并且能够与文本信息有效结合,以支持复杂的推理任务。其次,数据集的构建过程中涉及到大量的样本标注和质量控制,这对于保持数据集的高质量标准是一个挑战。此外,Audio-Reasoner模型的训练和推理过程中,如何有效利用CoTA数据集进行深度推理和推理规模扩展,也是一项技术上的挑战。
常用场景
经典使用场景
CoTA数据集,作为Audio-Reasoner模型的基础,其经典使用场景在于支持音频语言模型进行深入推理与结构化链式思维(COT)。该数据集通过提供丰富的推理样本,使得模型能够在音频理解任务中进行深度推理和推理规模扩展,进而实现多模态理解和推理。
实际应用
在实际应用场景中,CoTA数据集使得Audio-Reasoner模型能够理解和推理各种类型的音频,包括声音、音乐和语音。这一能力可以广泛应用于语音识别、音乐分析和情感识别等领域,为智能交互和音频内容理解提供了强大的支持。
衍生相关工作
CoTA数据集的构建不仅推动了Audio-Reasoner模型的发展,还衍生了相关的经典工作,如音频推理模型的进一步优化、多模态任务的处理方法研究以及结构化思维在语言模型中的应用策略探究。这些工作进一步扩展了CoTA数据集的应用范围和影响力。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录