five

OLMOASR-POOL, OLMOASR-MIX

收藏
arXiv2025-08-28 更新2025-08-30 收录
下载链接:
https://huggingface.co/datasets/allenai/OLMoASR-Pool
下载链接
链接失效反馈
官方服务:
资源简介:
OLMOASR-POOL是一个包含300万小时英语音频和1700万转录文本的大规模数据集。通过对音频文本进行语言对齐和文本启发式过滤,我们创建了一个包含100万小时高质量音频转录对的新数据集,命名为OLMOASR-MIX。这个数据集被用于训练OLMOASR系列模型,其性能与OpenAI的Whisper模型相当。我们公开了OLMOASR-POOL和OLMOASR-MIX中音频文本对的ID,以及相关的训练、过滤和评估代码,以促进对鲁棒语音识别模型的研究。

OLMOASR-POOL is a large-scale dataset encompassing 3 million hours of English audio and 17 million transcribed text samples. Through linguistic alignment of audio-text pairs and text-based heuristic filtering, we developed a new dataset named OLMOASR-MIX that contains 1 million hours of high-quality audio-transcription pairs. This dataset is used for training the OLMOASR series of models, whose performance is comparable to that of OpenAI's Whisper model. We have publicly released the IDs of the audio-transcription pairs in OLMOASR-POOL and OLMOASR-MIX, along with the relevant training, filtering, and evaluation codes, to facilitate research on robust speech recognition models.
提供机构:
艾伦人工智能研究所,华盛顿大学,斯坦福大学
创建时间:
2025-08-28
原始信息汇总

OLMoASR-Pool 数据集概述

数据集简介

OLMoASR-Pool 是从公共互联网收集的网络规模音频-文本数据集,包含约 300 万小时音频和 1700 万条转录文本。该数据集用于训练 OLMoASR 英语语音识别模型系列,展现出强大的泛化能力和鲁棒性。

数据内容

  • 数据规模:包含 18,761,823 个唯一 ID,涵盖约 340 万小时音频
  • 内容多样性:涵盖多种说话风格、口音和音频设置,包括新闻片段、播客、户外环境、人群场景、演讲、评论、访谈等
  • 语言特性:为多语言数据集,可能包含非英语音频/转录文本。如需获取纯英语数据集,需执行音频-文本语言对齐
  • 最终可用数据:下载处理后保留 300 万小时音频和 1700 万条转录文本

使用方式

  1. 从 HuggingFace 下载

    • 获取 HuggingFace 访问令牌
    • 安装 huggingface_hub[cli] 包
    • 通过 CLI 登录并粘贴访问令牌
    • 使用代码访问 ID 列表
  2. 文件下载与预处理

    • 根据 ID 信息下载音频和转录文件
    • 按照 OLMoASR 代码库说明预处理音频和转录文件

应用领域

  • 语音识别模型训练
  • 会话数据分析
  • 音频理解研究
  • 说话人分离技术
  • 语音检测应用

许可信息

本数据集采用 ODC-BY 许可协议,根据 Ai2 负责任使用指南,仅限研究和教育用途。

搜集汇总
数据集介绍
main_image_url
构建方式
在语音识别领域,数据质量对模型鲁棒性具有决定性影响。OLMOASR-POOL作为初始数据集,汇集了来自公共互联网的300万小时英语音频及1700万条转录文本。通过构建多级数据清洗流程,首先采用音频-文本语言对齐技术确保语言一致性,随后设计文本启发式过滤器识别并剔除低质量或错误转录样本,包括大写文本过滤、重复行检测及人工与机器转录对比分析。最终从原始池中提炼出100万小时高质量音频-文本对,构成精炼数据集OLMOASR-MIX。
特点
该数据集的核心特征体现在其规模与质量的平衡。OLMOASR-MIX包含100万小时精选英语语音数据,超越多数开源语音数据集的规模,且通过严格质量控制显著提升数据信噪比。其转录文本覆盖多样化场景,包括讲座、对话及长篇语音等,且经过去重和去污染处理,确保训练样本的独特性和纯净性。实验表明,基于该数据集训练的模型在零样本泛化能力上接近Whisper等前沿模型,尤其在长语音识别任务中展现优异鲁棒性。
使用方法
研究者可通过公开获取的数据标识符访问OLMOASR-POOL与OLMOASR-MIX,需严格遵循学术使用协议。数据集适用于训练基于Transformer架构的语音识别模型,建议采用Whisper式训练策略,包括贪婪解码与束搜索技术以适配短长语音任务。评估时需涵盖21个未见数据集,包括LibriSpeech、TED-LIUM3等基准,以全面检验模型零样本性能。使用前需审慎评估隐私与伦理风险,禁止直接部署于生产系统。
背景与挑战
背景概述
OLMOASR-POOL与OLMOASR-MIX数据集由艾伦人工智能研究所、华盛顿大学和斯坦福大学的研究团队于2025年联合发布,旨在解决开放语音识别领域缺乏大规模高质量训练数据的问题。该研究核心聚焦于构建一个包含300万小时原始音频的英语语料库(OLMOASR-POOL),并通过文本启发式过滤技术提炼出100万小时的高质量音频-文本配对数据(OLMOASR-MIX)。这一成果显著推动了零样本语音识别模型的发展,其训练出的OLMOASR模型系列在多项基准测试中与OpenAI的Whisper模型性能相当,为语音识别研究的透明性和可复现性设立了新标准。
当前挑战
该数据集主要应对语音识别领域的两类挑战:一是解决零样本泛化能力不足的问题,传统模型在未见过的口音、噪声环境或长音频场景下性能显著下降;二是构建过程中需克服数据质量控制的复杂性,包括从网络公开数据中筛选高保真转录对、消除机器生成文本的重复段落与大小写异常、实现音频与文本语言的精确对齐,以及通过模糊去重技术处理海量数据中的冗余与污染样本。
常用场景
经典使用场景
在语音识别领域,OLMOASR-POOL和OLMOASR-MIX数据集被广泛用于训练和评估零样本语音识别模型。这些数据集通过精心设计的文本启发式过滤流程,从海量互联网音频转录对中筛选出高质量样本,为模型提供了丰富的语音多样性覆盖,包括不同口音、语速和背景噪声条件。研究者利用这些数据训练出的OLMOASR模型系列,在短语音和长语音转录任务中展现出与Whisper模型相媲美的性能,尤其在跨领域泛化能力上表现突出。
解决学术问题
该数据集解决了语音识别研究中训练数据质量与规模不可兼得的核心矛盾。通过系统化的数据清洗流程,它有效消除了机器生成转录中的重复文本、大小写异常以及音文不对齐等问题,显著提升了模型在零样本场景下的鲁棒性。其意义在于首次以开源形式提供了与Whisper相当规模的高质量语音数据,打破了私有数据垄断,为研究社区提供了探索数据筛选机制、模型泛化能力和多模态学习的实验基础。
衍生相关工作
该数据集催生了多项语音识别领域的创新研究,包括基于数据质量分析的训练策略优化、多语言语音识别模型的跨语言迁移学习,以及语音与文本模态对齐机制的深入研究。受其启发,后续工作如OWSMs系列模型进一步探索了开源语音模型的架构改进,而DataComp-LM等项目则将其数据筛选方法论扩展至多模态领域,推动了数据中心化机器学习范式的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作