fnlp/AnyInstruct
收藏Hugging Face2024-07-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/fnlp/AnyInstruct
下载链接
链接失效反馈官方服务:
资源简介:
AnyInstruct数据集包含108k条多模态指令跟随数据,整合了文本、语音、图像和音乐等多种模态。数据构建过程首先使用GPT-4生成文本对话,然后使用DALL-E 3生成图像,MusicGen生成音乐,Azure Text-to-Speech API生成语音。语音部分包含39种不同的音色,语速在一定范围内随机采样。数据集包含约205k张图像、503k条语音记录和113k首音乐。文件组织方面,数据集分为多个部分,包含所有模态的数据,并提供了数据构建过程中的中间内容。高分辨率图像可从指定链接下载。
AnyInstruct数据集包含108k条多模态指令跟随数据,整合了文本、语音、图像和音乐等多种模态。数据构建过程首先使用GPT-4生成文本对话,然后使用DALL-E 3生成图像,MusicGen生成音乐,Azure Text-to-Speech API生成语音。语音部分包含39种不同的音色,语速在一定范围内随机采样。数据集包含约205k张图像、503k条语音记录和113k首音乐。文件组织方面,数据集分为多个部分,包含所有模态的数据,并提供了数据构建过程中的中间内容。高分辨率图像可从指定链接下载。
提供机构:
fnlp
原始信息汇总
数据集概述
数据集类型
AnyInstruct 是一个包含108k多模态指令遵循数据的数据集,整合了文本、语音、图像和音乐等多种模态,以交错方式呈现。
数据构建
数据集首先使用GPT-4合成文本多模态对话,随后通过DALL-E 3生成图像,MusicGen生成音乐,Azure Text-to-Speech API生成语音。语音部分包含39种不同的音色,语速在一定范围内随机采样。
文件组织
数据集分为part1和part2,包含所有模态,总计108k高质量多模态对话,涵盖多种多模态组合。数据集包含约205k图像、503k语音记录和113k音乐曲目。中间构建过程的内容,如主题、场景、图像和语音的说明等,可在data_construction文件夹中查看。speech_conv目录包含语音对话,从现有文本指令数据集中筛选并合成了108k条语音对话。
图像分辨率
DALL-E 3生成的图像原始分辨率为1024×1024,为减少存储需求,本仓库使用224×224分辨率的图像。如需高分辨率图像,请从https://huggingface.co/datasets/fnlp/AnyInstruct-resolution-1024下载。
搜集汇总
数据集介绍

构建方式
在构建AnyInstruct数据集的过程中,研究团队采用了多阶段合成策略,以生成高质量的多模态指令遵循数据。首先,利用GPT-4模型合成文本形式的多模态对话,作为数据的基础框架。随后,通过DALL-E 3生成图像,MusicGen创作音乐,并借助Azure文本转语音API合成语音,从而将文本对话扩展为涵盖图像、音乐和语音的丰富多模态内容。语音部分特别设计了39种不同音色,语速在一定范围内随机采样,以增强多样性。整个构建过程产生的中间内容,如主题、场景及图像与语音的标注,均被系统记录在数据构建文件夹中,确保了数据的可追溯性与透明度。
特点
AnyInstruct数据集以其大规模和高度多样化的多模态整合而著称,共包含108k条高质量的多模态对话。这些数据交织了文本、语音、图像和音乐四种模态,形成了复杂的多模态组合环境。具体而言,数据集涵盖了约205k张图像、503k条语音录音和113k首音乐曲目,图像分辨率为224×224,并提供了高分辨率版本的访问途径。数据集的独特之处在于其模态的交替排列方式,为研究多模态大语言模型提供了丰富的训练与评估资源,支持对离散序列建模的深入探索。
使用方法
使用AnyInstruct数据集时,研究人员可首先从HuggingFace平台下载数据文件,其中part1和part2文件夹包含了完整的108k多模态对话。对于语音对话部分,speech_conv目录提供了经过清洗的语音合成数据,适合用于语音相关任务。若需高分辨率图像,用户可访问指定链接获取1024×1024版本。数据集适用于训练和评估统一的多模态大语言模型,如AnyGPT,支持指令遵循、多模态理解和生成等研究。在使用过程中,建议参考提供的论文和资源页面,以获取最新信息和技术支持,确保研究的准确性与前沿性。
背景与挑战
背景概述
在人工智能迈向通用智能的进程中,多模态大语言模型(MLLMs)的演进成为关键前沿。2024年,由复旦大学自然语言处理实验室(Fudan NLP)团队发布的AnyInstruct数据集,标志着多模态指令遵循数据构建的重要进展。该数据集由Jun Zhan等人主导构建,核心研究问题在于如何高效整合文本、语音、图像与音乐等多种模态,以支持模型在交错多模态场景下的复杂指令理解与生成。AnyInstruct的创建,为探索统一的多模态序列建模提供了高质量、大规模的数据基础,显著推动了如AnyGPT等模型的发展,并在跨模态交互研究领域产生了广泛影响力。
当前挑战
AnyInstruct数据集旨在解决多模态大语言模型在统一序列建模中面临的指令遵循挑战,其核心难点在于如何实现文本、语音、图像与音乐等多种模态在交错序列中的无缝对齐与语义连贯性。在构建过程中,团队需克服多模态数据合成的复杂性,包括利用GPT-4生成高质量多模态对话、通过DALL-E 3生成图像、借助MusicGen与Azure API合成音乐与语音,并确保不同模态间的时间同步与内容一致性。此外,数据规模庞大带来的存储与处理压力,以及高分辨率图像与多样化语音音色的集成,均为构建过程增添了显著的技术难度。
常用场景
经典使用场景
在人工智能多模态学习领域,AnyInstruct数据集以其涵盖文本、语音、图像与音乐的跨模态交织特性,为构建统一的多模态大语言模型提供了关键训练资源。该数据集通过合成的高质量多模态对话,典型应用于训练模型理解和生成跨模态序列,例如在对话中同时处理图像描述与语音回应,推动模型实现模态间的无缝交互与内容生成。
衍生相关工作
基于AnyInstruct数据集,衍生出了如AnyGPT等经典研究工作,这些工作专注于利用离散序列建模统一多模态大语言模型。相关研究进一步探索了跨模态指令跟随的泛化能力,推动了多模态对话系统、内容生成模型的创新,并为后续更高效的多模态融合架构提供了实验验证与理论支持。
数据集最近研究
最新研究方向
在人工智能多模态融合领域,AnyInstruct数据集以其涵盖文本、语音、图像和音乐的108k高质量多模态对话数据,为统一多模态大语言模型的研究提供了关键支撑。该数据集通过GPT-4合成文本对话,并借助DALL-E 3、MusicGen及Azure API生成对应模态内容,推动了离散序列建模在多模态理解与生成中的前沿探索。当前研究热点聚焦于如何有效整合跨模态信息,以提升模型在复杂场景下的指令跟随能力,相关成果正促进人机交互、内容创作等应用的智能化发展,对构建通用多模态智能系统具有深远意义。
以上内容由遇见数据集搜集并总结生成



