CoTA|逻辑推理数据集|机器学习数据集
收藏Audio-Reasoner 数据集概述
数据集简介
- 实现了名为Audio-Reasoner的大型音频语言模型的推理缩放功能,支持深度思考和结构化链式思维(COT)推理,用于多模态理解和推理。
- 构建了CoTA数据集,包含1.2M个推理丰富的样本,采用结构化COT技术。
数据集特点
- CoTA数据集提供了跨领域的高质量字幕和问答对,用于结构化推理和增强预训练。
- 预训练模型和数据集涵盖了各种类型的音频,包括声音、音乐和语音,并在多个基准测试中取得了最先进的结果。
模型性能
- 在MMAU-mini基准测试中提高了25.42%。
- 在AIR-Bench-Chat基准测试中提高了14.57%。
数据集获取
- Audio-Reasoner-7B模型检查点已发布在HuggingFace上。
- CoTA数据集将在HuggingFace上发布(计划于2025.03)。
使用说明
- 提供了模型的安装和快速开始指南。
- 支持通过ms-swift和本地测试进行推理。
常见问题
- Audio-Reasoner能够理解声音、音乐和语音等不同类型的音频,并进行计划、字幕、推理和总结四个部分的深入思考。
- transformers库的版本对模型性能有显著影响,建议使用版本
transformers==4.49.1
。
联系方式
- 如有任何问题,可通过
zhifei001@e.ntu.edu.sg
联系。
引用
- 若模型和数据集对您的研究有帮助,请引用相关论文。

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录