Choral AI Dataset

Name: Choral AI Dataset
Creator: The Alan Turing Institute
Published: 2024-12-02 20:14:20
License: 暂无描述

arXiv2024-12-02 更新2024-12-06 收录

下载链接：

http://arxiv.org/abs/2412.01433v1

下载链接

链接失效反馈

官方服务：

资源简介：

Choral AI Dataset是由英国的15个社区合唱团共同创建的，旨在用于训练合唱AI模型。该数据集包含了由艺术家Holly Herndon和Mat Dryhurst创作的歌曲集的录音，通过多麦克风阵列采集高质量音频数据。数据集的创建过程涉及艺术家与研究机构IRCAM和Stability AI的合作，旨在为展览The Call提供数据支持。该数据集的应用领域主要集中在生成式AI生态系统中，旨在通过集体数据治理机制，探索艺术社区在AI模型训练中的权利和偏好，解决艺术家对作品控制权的问题。

The Choral AI Dataset was collaboratively developed by 15 community choirs based in the United Kingdom, specifically for training choral AI models. This dataset comprises high-quality audio recordings of a song repertoire created by artists Holly Herndon and Mat Dryhurst, captured using multi-microphone arrays. The development process involved collaboration between the artists and research institutions IRCAM and Stability AI, with the goal of providing data support for the exhibition *The Call*. Primarily applied within the generative AI ecosystem, this dataset aims to explore the rights and preferences of artistic communities during AI model training via collective data governance mechanisms, and address the issue of artists' control over their creative works.

提供机构：

The Alan Turing Institute

创建时间：

2024-12-02

搜集汇总

数据集介绍

构建方式

Choral AI Dataset的构建过程涉及15个英国社区合唱团的参与，每个合唱团录制了由艺术家Holly Herndon和Mat Dryhurst创作的歌曲集。录音过程中采用了多麦克风阵列，包括8个近距离麦克风用于独唱者、4个房间麦克风和一阶全向麦克风，以确保数据的高质量采集。此外，艺术家与法国音乐研究机构IRCAM和Stability AI的工程师合作，优化了录音方法，旨在为训练合唱AI模型提供专门的数据集。

特点

Choral AI Dataset的显著特点在于其集体治理的构建方式。通过调查合唱团成员对生成AI模型使用其数据的态度的调查，数据集不仅关注技术层面的数据收集和处理，还特别强调了数据治理的集体性。这种治理方式超越了传统的选择加入和退出机制，引入了可信数据中介（TDI），以促进合唱团和AI开发者之间的数据治理。

使用方法

使用Choral AI Dataset时，研究者和开发者应首先参考数据卡（Data Card），了解数据收集、处理和使用的详细技术信息。此外，数据集的治理机制要求通过可信数据中介（TDI）进行数据访问和使用，确保遵守合唱团成员的偏好和许可条款。通过这种方式，数据集不仅支持AI模型的训练，还促进了艺术社区在生成AI生态系统中的集体治理和赋权。

背景与挑战

背景概述

Choral AI Dataset，由Jennifer Ding、Eva Jäger、Victoria Ivanova和Mercedes Bunz等研究人员在2024年创建，旨在探索合唱团数据在生成性AI模型中的应用及其治理机制。该数据集的核心研究问题是如何在AI模型训练中实现合唱团数据的集体治理，超越传统的选择加入和退出机制。通过与15个英国合唱团的协作，研究团队收集了大量合唱表演数据，旨在训练出先进的合唱AI模型，并探索新的数据治理模式，如Trusted Data Intermediary (TDI)。这一研究不仅推动了艺术与AI的交叉领域发展，还为集体数据治理提供了新的实践框架。

当前挑战

Choral AI Dataset在构建过程中面临多重挑战。首先，技术层面需解决大规模数据收集和模型开发的难题，以适应数百种不同声音的整合。其次，数据治理方面需应对来自不同背景和偏好的合唱团成员的多样化需求，确保数据使用的透明度和公平性。此外，如何平衡AI开发者与艺术家的动机差异，以及如何通过创新治理机制如TDI来实现数据贡献者的集体权利和偏好，也是该数据集面临的重要挑战。这些挑战不仅涉及技术实现，还包括法律和伦理层面的复杂考量。

常用场景

经典使用场景

Choral AI Dataset的经典使用场景主要集中在训练生成性AI模型，特别是用于音乐创作和表演的AI系统。该数据集通过收集来自15个英国合唱团的录音，为AI模型提供了丰富的声乐数据，使其能够理解和生成复杂的合唱音乐。这种数据集的应用不仅限于音乐创作，还可以扩展到音乐教育、文化传承和艺术表演等多个领域，为AI在音乐领域的应用提供了坚实的基础。

衍生相关工作

Choral AI Dataset的发布和应用催生了多项相关研究和工作。例如，基于该数据集的研究论文探讨了集体数据治理的新模式，提出了Trusted Data Intermediary (TDI)的概念，并详细描述了其实施过程和效果。此外，该数据集还激发了关于数据伦理、版权保护和AI模型透明度的讨论，推动了相关法律和政策的发展。这些衍生工作不仅丰富了学术研究，也为实际应用提供了理论支持和实践指导。

数据集最近研究