qyang1021/AIR-Bench-Dataset

Name: qyang1021/AIR-Bench-Dataset
Creator: qyang1021
Published: 2024-05-12 08:45:15
License: 暂无描述

Hugging Face2024-05-12 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/qyang1021/AIR-Bench-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

AIR-Bench数据集包含两个主要部分：基础基准和聊天基准。基础基准由19个任务组成，包含大约19,000个单选题；聊天基准则包含2,000个开放式问答数据实例。数据集的数据来源于多个其他数据集的验证集或测试集，每个来源数据集都有其特定的许可证。

提供机构：

qyang1021

原始信息汇总

数据集概述

基本信息

名称: AIR-Bench
语言: 英语
大小: 10B<n<100B
许可证: CC-BY-NC-4.0
任务类别: 问答

数据集内容

基础基准: 包含19个任务，约19,000个单选题。
聊天基准: 包含2,000个开放式问答数据实例。

数据来源

Musiccaps: 来自Hugging Face数据集，遵循CC-BY-SA-4.0许可证。
Clotho: 来自Zenodo，遵循Tampere University许可证。
Fisher: 来自Linguistic Data Consortium，遵循LDC用户协议。
SpokenWOZ: 遵循CC BY-NC 4.0许可证。
common_voice_13_0: 来自Hugging Face数据集，遵循CC0-1.0许可证。
IEMOCAP: 遵循USC提供的许可证。
CochlScene: 遵循CC BY-SA 3.0许可证。
TUT Acoustic scenes 2017: 遵循非商业性其他许可证。
Audio Grounding: 遵循MIT许可证。
MUSIC-AVQA: 遵循CC BY-NC 4.0许可证。
FMA: 遵循CC BY 4.0许可证。
MTG-Jamendo: 遵循Creative Commons许可证。
NSynth: 遵循CC BY 4.0许可证。
Clotho-AQA: 遵循CreativeCommons许可证。
MELD: 遵循未明确许可证。
SLURP: 遵循CC BY-NC 4.0许可证。
VoxCeleb1: 遵循CC BY-SA 4.0许可证。
LibriSpeech: 遵循CC BY 4.0许可证。
CoVoST 2: 遵循Creative Commons Attribution Non Commercial 4.0许可证。
Fake-or-Real: 遵循未明确许可证。
VocalSound: 遵循CC BY-SA 4.0许可证。

版权声明

版权归属: 所有原始数据集的所有者。
移除请求: 如有版权侵犯，请联系数据集提供者进行移除。

搜集汇总

数据集介绍

构建方式

AIR-Bench数据集的构建，涵盖了基础与对话两大维度的评估标准。其中，基础维度包含19个任务，约含有19,000个单选题；对话维度则包括2,000个开放式问题的问答对。该数据集的构建汇集了多个来源的数据集，如Musiccaps、Clotho、Fisher等，并在各自的许可协议下进行整合，形成了全面的评估体系。

使用方法

使用AIR-Bench数据集时，用户需参照官方GitHub页面的指南进行操作。该数据集的运行步骤包括但不限于数据下载、预处理以及后续的性能评估等。具体的使用细节和代码实现，将很快在AIR-Bench的GitHub页面上公布，以便研究者能够高效地利用该数据集进行相关研究。

背景与挑战

背景概述

AIR-Bench数据集，旨在为人工智能领域的研究提供一套全面的评估基准，其研究背景源于对现有数据集在任务覆盖广度与实际应用场景适应性方面的不足。该数据集由OFA-Sys团队创建于2023年，涵盖基础与对话两大维度的19个任务，包含约19k的单项选择题和2k的开放式问答实例。数据集的构建汇集了多个领域的数据资源，包括音乐、对话、语音识别等，其研究问题核心在于提升人工智能模型在多模态任务上的表现力与准确性。AIR-Bench数据集以其独特的构建理念与丰富的数据内容，对人工智能领域的研究与模型评估产生了显著影响。

当前挑战

在构建AIR-Bench数据集的过程中，研究团队面临了诸多挑战。首先，数据集的多元化和异质性要求研究者在整合不同来源数据时，必须确保数据的一致性和可用性。其次，版权问题的处理需要协调多个数据源的所有权与使用权，确保所有数据的使用都符合相应的许可协议。此外，数据集在实际应用中的有效性验证也是一项挑战，需要通过不断的实验与评估来验证其在不同任务上的表现。这些挑战不仅考验了数据集构建者的技术能力，也对其法律合规与伦理考量提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，AIR-Bench数据集以其独特的设计理念，被广泛用于评估和训练基础模型和聊天模型。该数据集包含大约19k的单项选择题和2k个开放式问答实例，为研究者在基础任务和对话系统构建方面提供了丰富的实验素材。

解决学术问题

AIR-Bench数据集解决了学术研究中如何全面评估模型在问答任务上的性能问题。通过覆盖不同难度和类型的问答数据，它为研究者提供了衡量模型理解、推理和生成能力的标准，从而推动了问答系统领域的学术进步。

实际应用

在实际应用中，AIR-Bench数据集的丰富性和多样性使得它成为开发智能助手和聊天机器人等应用的重要资源。这些应用能够利用该数据集进行深度学习，以提高其与用户交互的自然性和有效性。

数据集最近研究