wavepulse-radio-summarized-transcripts
收藏Hugging Face2024-12-31 更新2025-01-01 收录
下载链接:
https://huggingface.co/datasets/nyu-dice-lab/wavepulse-radio-summarized-transcripts
下载链接
链接失效反馈官方服务:
资源简介:
WavePulse Radio Summarized Transcripts是一个大规模数据集,包含来自美国396个广播电台的摘要转录,收集时间为2024年6月26日至2024年10月3日。数据集总计约485,090小时的广播内容,生成了约931,866个摘要,主要涵盖新闻、谈话节目和政治讨论。数据集支持多种NLP任务,如文本生成、摘要和文本分类。
创建时间:
2024-12-25
搜集汇总
数据集介绍

构建方式
WavePulse Radio Summarized Transcripts数据集的构建过程基于美国396个广播电台的实时流媒体数据,涵盖了2024年6月26日至10月3日期间的广播内容。数据收集通过WavePulse系统自动完成,音频转录采用WhisperX技术,文本摘要则通过Google Gemini生成。整个流程包括连续录音、音频转录、说话人分离与识别、文本摘要生成以及自动化质量控制。为确保数据质量,摘要生成过程中遵循了严格的提示指令,以保持新闻摘要的简洁性、事实性和中立性。
特点
该数据集的特点在于其规模庞大,涵盖了485,090小时的广播内容,生成了约93万条摘要。数据覆盖了美国50个州及华盛顿特区的广播电台,内容主要涉及新闻、谈话节目和政治讨论。数据集以Parquet文件格式组织,按州和月份分类,确保了数据的结构化和易用性。此外,数据集的转录错误率较低(WER为8.4% ± 4.6%),且保留了广播内容的时间序列关系,为研究提供了高质量的基础。
使用方法
WavePulse Radio Summarized Transcripts数据集的使用方法灵活多样,可通过Hugging Face的`datasets`库加载。用户可以选择加载完整数据集,或按州、日期范围和广播电台进行筛选。数据集的模式包括广播ID、电台呼号、时间戳、摘要文本和州代码等字段,便于用户进行进一步的分析和处理。该数据集适用于媒体分析、信息传播模式研究、区域新闻覆盖差异分析、政治叙事分析以及公共话语研究等多个领域。
背景与挑战
背景概述
WavePulse Radio Summarized Transcripts数据集由纽约大学DICE实验室于2024年创建,旨在通过大规模收集美国396个广播电台的实时流媒体数据,深入分析新闻、谈话节目和政治讨论的内容。该数据集涵盖了2024年6月26日至10月3日期间的485,090小时广播内容,生成了约150万条摘要。其核心研究问题聚焦于媒体分析、信息传播模式以及区域新闻覆盖差异,为政治叙事分析和公共话语研究提供了重要数据支持。该数据集的发布不仅推动了内容摘要领域的研究,还为实时新闻分析和跨区域媒体比较提供了新的视角。
当前挑战
WavePulse Radio Summarized Transcripts数据集在构建过程中面临多重挑战。首先,音频转录的准确性是关键问题,尽管使用了WhisperX技术,但在嘈杂背景下的转录错误率仍高达8.4%。其次,摘要生成过程中可能丢失部分细节内容,尤其是复杂的政治讨论和情感表达。此外,数据集仅限于具有互联网流媒体的电台,且仅涵盖英语内容,导致区域覆盖和时间段的不均衡。技术问题也导致部分电台数据存在缺失,影响了数据的完整性。这些挑战为后续研究提出了更高的要求,尤其是在提升转录精度和摘要质量方面。
常用场景
经典使用场景
WavePulse Radio Summarized Transcripts数据集在新闻媒体分析和政治话语研究中具有重要应用。研究者可以利用该数据集分析不同地区的新闻覆盖差异,追踪信息传播模式,以及研究政治叙事的演变。通过对广播内容的总结和分类,研究者能够深入理解公共话语的动态变化,揭示媒体在塑造公众舆论中的作用。
解决学术问题
该数据集解决了新闻媒体研究中的多个关键问题,特别是在信息传播和内容分析领域。通过提供大规模的广播总结文本,研究者能够量化新闻内容的传播速度和广度,分析不同地区的报道差异,以及探讨政治话语的演变。此外,数据集还为内容总结和文本生成研究提供了丰富的实验材料,推动了自然语言处理技术的发展。
衍生相关工作
基于WavePulse Radio Summarized Transcripts数据集,研究者已经开展了多项经典工作。例如,有研究利用该数据集开发了自动化的新闻总结系统,能够实时生成广播内容的摘要。此外,还有研究通过分析广播文本,探讨了政治话语的演变规律,揭示了媒体在塑造公众舆论中的关键作用。这些工作不仅推动了新闻媒体研究的发展,也为自然语言处理技术的应用提供了新的思路。
以上内容由遇见数据集搜集并总结生成



