five

RHAPSODY

收藏
arXiv2025-05-26 更新2025-05-28 收录
下载链接:
https://github.com/younghanstark/rhapsody
下载链接
链接失效反馈
官方服务:
资源简介:
RHAPSODY是一个包含13,364个播客集的音频数据集,每个集都与YouTube的“最常重播”功能提取的段落级突出得分相匹配。该数据集旨在用于播客集的突出部分检测,将任务定义为段落级二分类任务。数据集涵盖了来自不同领域的播客,平均每集约30分钟长,包含约5,000个单词。数据集创建过程包括从YouTube上收集最受欢迎的播客创建者的数据,使用YouTube的“最常重播”功能来识别突出部分,并使用语音识别和文本摘要技术来生成数据。该数据集适用于播客内容理解的研究,旨在帮助听众快速定位播客集中最有兴趣的部分。

RHAPSODY is an audio dataset containing 13,364 podcast episodes, each paired with paragraph-level prominence scores extracted via YouTube's "Most Replayed" feature. This dataset is intended for highlight detection in podcast episodes, framing the task as a paragraph-level binary classification task. The dataset encompasses podcasts across diverse domains, with each episode averaging 30 minutes in duration and approximately 5,000 words. The dataset creation workflow includes collecting data from top podcast creators on YouTube, identifying highlight segments using YouTube's "Most Replayed" functionality, and generating the dataset through speech recognition and text summarization technologies. This dataset is applicable to research on podcast content understanding, aiming to help listeners quickly locate the most engaging segments within podcast episodes.
提供机构:
Yonsei University, The University of Texas at Austin, New York University
创建时间:
2025-05-26
搜集汇总
数据集介绍
main_image_url
构建方式
RHAPSODY数据集的构建基于YouTube平台上13,000个播客剧集的收集与分析。通过YouTube Data API v3,研究团队筛选了100个热门播客频道,并排除了非英语内容及视觉主导的视频。每个播客剧集被均分为100个时间对齐的片段,利用YouTube的‘most replayed’功能获取每个片段的回放分数。通过引入阈值τ和顶部K回放分数的组合,确定了每个剧集的高光片段,同时校正了回放图中起始片段的偏差,以确保数据的客观性和准确性。
特点
RHAPSODY数据集的特点在于其规模庞大且多样化,涵盖了娱乐、新闻、科技等多个领域的播客内容。每个剧集平均时长为30分钟,包含约5,000个单词,且被均分为100个片段,其中平均5个片段被标记为高光片段。数据集不仅提供了文本转录,还包含了音频特征如情感维度(DVA)嵌入,为多模态研究提供了丰富的数据支持。此外,通过YouTube的回放图数据,高光片段的标注具有客观性和可重复性。
使用方法
RHAPSODY数据集的使用方法主要包括三个步骤:首先,将播客音频和转录文本分割为100个均等片段;其次,利用预训练模型提取每个片段的文本摘要和音频特征;最后,通过微调的语言模型或零样本提示的大语言模型(如GPT-4o和Gemini)进行高光片段的预测。数据集支持多种输入特征,包括剧集标题、片段摘要和音频嵌入,适用于文本、音频或多模态融合的研究任务。实验表明,微调模型在结合文本和音频特征时表现最佳,但任务仍具挑战性,为未来研究提供了改进空间。
背景与挑战
背景概述
RHAPSODY数据集由Younghan Park、Anuj Diwan、David Harwath和Eunsol Choi等研究人员于2025年提出,旨在解决播客内容中高亮片段自动检测的挑战。随着播客用户数量突破五亿,如何从冗长的播客内容中快速定位关键信息成为研究热点。该数据集包含13K个播客片段,通过YouTube的‘most replayed’功能获取片段级高亮评分,为播客高亮检测任务提供了首个大规模标注资源。RHAPSODY的推出填补了长时语音媒体细粒度信息访问的空白,对信息检索和多媒体内容理解领域具有重要推动作用。
当前挑战
RHAPSODY面临的挑战主要体现在两个方面:领域问题层面,播客高亮检测需要处理内容的非结构化和长时特性,同时用户对‘高亮’的主观判断增加了标注一致性难度;数据构建层面,从YouTube回放图中提取高亮标签需解决起始段偏见校正、跨模态特征对齐(语音信号与文本转录)以及长上下文建模等问题。实验表明,即使GPT-4o等先进模型在该任务上的命中率仅为47.7%,凸显了结合语音特征与文本理解的必要性。
常用场景
经典使用场景
在播客内容分析领域,RHAPSODY数据集为研究者提供了一个独特的视角,通过YouTube的'most replayed'特征,自动识别播客中的高光片段。这一数据集广泛应用于自然语言处理和音频信号处理的交叉研究,特别是在长上下文信息提取和用户行为预测方面。研究者利用该数据集训练模型,以识别播客中最具吸引力的部分,从而优化内容推荐系统。
衍生相关工作
基于RHAPSODY数据集,研究者已开展多项衍生工作。在模型架构方面,出现了结合QLoRA适配器的轻量级微调方法;在应用扩展方面,有工作探索了高光检测与播客章节生成的结合;还有研究致力于改进多模态特征融合策略。这些工作共同推动了长格式语音媒体内容理解技术的发展,并为后续的端到端系统设计奠定了基础。
数据集最近研究
最新研究方向
随着播客内容的爆炸式增长,RHAPSODY数据集的提出为音频内容理解领域注入了新的研究活力。该数据集通过YouTube的'most replayed'特征构建了13K播客片段的高光标注,开创性地将语音信号特征与文本转录相结合,为多模态信息处理提供了理想的研究平台。当前前沿研究主要聚焦于三个方向:基于轻量化微调的语言模型架构设计,探索语音情感特征(如效价-支配-唤醒维度)与文本语义的协同机制,以及开发适用于长上下文处理的动态分段建模方法。值得注意的是,该数据集与当下热点的生成式AI技术紧密结合,研究者们正尝试利用LLMs的零样本能力解决高光检测任务,但实验表明微调后的专用模型性能显著优于GPT-4o等通用大模型,这一发现为领域自适应研究提供了重要启示。在应用层面,该数据集推动了个性化内容推荐、智能摘要生成等实际场景的发展,其构建方法也被扩展应用于视频会议记录分析、在线教育内容优化等新兴领域。
相关研究论文
  • 1
    Rhapsody: A Dataset for Highlight Detection in PodcastsYonsei University, The University of Texas at Austin, New York University · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作