RHAPSODY

Name: RHAPSODY
Creator: Yonsei University, The University of Texas at Austin, New York University
Published: 2025-05-26 10:39:34
License: 暂无描述

arXiv2025-05-26 更新2025-05-28 收录

下载链接：

https://github.com/younghanstark/rhapsody

下载链接

链接失效反馈

官方服务：

资源简介：

RHAPSODY是一个包含13,364个播客集的音频数据集，每个集都与YouTube的“最常重播”功能提取的段落级突出得分相匹配。该数据集旨在用于播客集的突出部分检测，将任务定义为段落级二分类任务。数据集涵盖了来自不同领域的播客，平均每集约30分钟长，包含约5,000个单词。数据集创建过程包括从YouTube上收集最受欢迎的播客创建者的数据，使用YouTube的“最常重播”功能来识别突出部分，并使用语音识别和文本摘要技术来生成数据。该数据集适用于播客内容理解的研究，旨在帮助听众快速定位播客集中最有兴趣的部分。

RHAPSODY is an audio dataset containing 13,364 podcast episodes, each paired with paragraph-level prominence scores extracted via YouTube's "Most Replayed" feature. This dataset is intended for highlight detection in podcast episodes, framing the task as a paragraph-level binary classification task. The dataset encompasses podcasts across diverse domains, with each episode averaging 30 minutes in duration and approximately 5,000 words. The dataset creation workflow includes collecting data from top podcast creators on YouTube, identifying highlight segments using YouTube's "Most Replayed" functionality, and generating the dataset through speech recognition and text summarization technologies. This dataset is applicable to research on podcast content understanding, aiming to help listeners quickly locate the most engaging segments within podcast episodes.

提供机构：

Yonsei University, The University of Texas at Austin, New York University

创建时间：

2025-05-26

搜集汇总

数据集介绍

构建方式

RHAPSODY数据集的构建基于YouTube平台上13,000个播客剧集的收集与分析。通过YouTube Data API v3，研究团队筛选了100个热门播客频道，并排除了非英语内容及视觉主导的视频。每个播客剧集被均分为100个时间对齐的片段，利用YouTube的‘most replayed’功能获取每个片段的回放分数。通过引入阈值τ和顶部K回放分数的组合，确定了每个剧集的高光片段，同时校正了回放图中起始片段的偏差，以确保数据的客观性和准确性。

特点

RHAPSODY数据集的特点在于其规模庞大且多样化，涵盖了娱乐、新闻、科技等多个领域的播客内容。每个剧集平均时长为30分钟，包含约5,000个单词，且被均分为100个片段，其中平均5个片段被标记为高光片段。数据集不仅提供了文本转录，还包含了音频特征如情感维度（DVA）嵌入，为多模态研究提供了丰富的数据支持。此外，通过YouTube的回放图数据，高光片段的标注具有客观性和可重复性。

使用方法

RHAPSODY数据集的使用方法主要包括三个步骤：首先，将播客音频和转录文本分割为100个均等片段；其次，利用预训练模型提取每个片段的文本摘要和音频特征；最后，通过微调的语言模型或零样本提示的大语言模型（如GPT-4o和Gemini）进行高光片段的预测。数据集支持多种输入特征，包括剧集标题、片段摘要和音频嵌入，适用于文本、音频或多模态融合的研究任务。实验表明，微调模型在结合文本和音频特征时表现最佳，但任务仍具挑战性，为未来研究提供了改进空间。

背景与挑战

背景概述

RHAPSODY数据集由Younghan Park、Anuj Diwan、David Harwath和Eunsol Choi等研究人员于2025年提出，旨在解决播客内容中高亮片段自动检测的挑战。随着播客用户数量突破五亿，如何从冗长的播客内容中快速定位关键信息成为研究热点。该数据集包含13K个播客片段，通过YouTube的‘most replayed’功能获取片段级高亮评分，为播客高亮检测任务提供了首个大规模标注资源。RHAPSODY的推出填补了长时语音媒体细粒度信息访问的空白，对信息检索和多媒体内容理解领域具有重要推动作用。

当前挑战

RHAPSODY面临的挑战主要体现在两个方面：领域问题层面，播客高亮检测需要处理内容的非结构化和长时特性，同时用户对‘高亮’的主观判断增加了标注一致性难度；数据构建层面，从YouTube回放图中提取高亮标签需解决起始段偏见校正、跨模态特征对齐（语音信号与文本转录）以及长上下文建模等问题。实验表明，即使GPT-4o等先进模型在该任务上的命中率仅为47.7%，凸显了结合语音特征与文本理解的必要性。

常用场景

经典使用场景

在播客内容分析领域，RHAPSODY数据集为研究者提供了一个独特的视角，通过YouTube的'most replayed'特征，自动识别播客中的高光片段。这一数据集广泛应用于自然语言处理和音频信号处理的交叉研究，特别是在长上下文信息提取和用户行为预测方面。研究者利用该数据集训练模型，以识别播客中最具吸引力的部分，从而优化内容推荐系统。

衍生相关工作

基于RHAPSODY数据集，研究者已开展多项衍生工作。在模型架构方面，出现了结合QLoRA适配器的轻量级微调方法；在应用扩展方面，有工作探索了高光检测与播客章节生成的结合；还有研究致力于改进多模态特征融合策略。这些工作共同推动了长格式语音媒体内容理解技术的发展，并为后续的端到端系统设计奠定了基础。

数据集最近研究