bhigy/buckeye_asr

Name: bhigy/buckeye_asr
Creator: bhigy
Published: 2022-10-24 15:32:04
License: 暂无描述

Hugging Face2022-10-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bhigy/buckeye_asr

下载链接

链接失效反馈

官方服务：

资源简介：

Buckeye Corpus数据集包含40位来自俄亥俄州哥伦布市的说话者的高质量对话录音，这些录音已经过正字法和语音标注。数据集主要用于自动语音识别任务，支持美国英语（en-US）。数据集的结构包括音频文件、文本转录、语音和单词注释、说话者ID等信息，并且数据被分为训练集、验证集和测试集，每个集合都平衡了说话者的性别和年龄。

The Buckeye Corpus dataset contains high-quality conversational audio recordings from 40 speakers residing in Columbus, Ohio, United States. All recordings have undergone orthographic and phonetic annotation. This dataset is primarily designed for automatic speech recognition tasks and supports American English (en-US). Its structure includes audio files, text transcripts, phonetic and word-level annotations, speaker IDs, and other relevant information. Additionally, the dataset is split into training, validation, and test sets, with balanced distributions of speaker gender and age across each subset.

提供机构：

bhigy

原始信息汇总

数据集概述

数据集名称

名称: Buckeye Corpus
别名: buckeye_asr

数据集描述

摘要: 该数据集包含来自俄亥俄州哥伦布市的40名说话者与采访者自由交谈的高质量录音。这些语音已被正交转录并语音标记。
语言: 美式英语 (en-US)

数据集结构

数据字段:
- file: 音频文件名，包含语音片段。
- audio: 音频文件名，包含语音片段。
- text: 语音片段的转录文本。
- phonetic_detail: 语音片段的语音标注列表，包括每个音素的起始、停止和标签。
- word_detail: 语音片段的单词标注列表，包括起始、停止、标签、宽窄转录和语法类别。
- speaker_id: 说话者标识符。
- id: 语音片段标识符。
数据分割: 数据分为训练、验证和测试集，分别包含32、4和4名说话者。各集均平衡了说话者的性别和年龄。

数据集创建

许可证: 非商业用途免费
引用信息:

@misc{pitt2007Buckeye, title = {Buckeye {Corpus} of {Conversational} {Speech} (2nd release).}, url = {www.buckeyecorpus.osu.edu}, publisher = {Columbus, OH: Department of Psychology, Ohio State University (Distributor)}, author = {Pitt, M.A. and Dilley, L. and Johnson, K. and Kiesling, S. and Raymond, W. and Hume, E. and Fosler-Lussier, E.}, year = {2007}, }

搜集汇总

数据集介绍

构建方式

在语音识别研究领域，构建高质量的数据集对于捕捉自然对话的细微差别至关重要。Buckeye Corpus的构建过程体现了严谨的科学方法，其数据来源于40位来自俄亥俄州哥伦布市的说话者，在自由对话情境下进行高质量录音。这些录音随后由专家进行细致的正字法转录和音位标注，确保了语音与文本对齐的精确性。数据集的划分遵循严格的实验设计原则，将说话者按32:4:4的比例分配至训练、验证和测试集，并在性别和年龄维度上保持了平衡，从而为模型评估提供了可靠的基础。

特点

该数据集的核心特点在于其真实性与丰富性，它收录了自然发生的美国英语对话，而非朗读式语音，这为研究口语的韵律、犹豫和连读等现象提供了宝贵资源。数据集不仅提供音频文件及其文本转录，还包含了精细的音位层面标注和词汇层面注释，如每个音素的起止时间与标签、词汇的宽窄式音标及句法类别。这种多层次、结构化的标注体系，使得Buckeye Corpus超越了基础的语音识别任务，能够支持音系学、社会语言学及发音变异等更深层次的学术探究。

使用方法

在应用层面，研究者需首先从官方网站获取数据集副本，随后可利用Hugging Face的`datasets`库便捷加载。通过指定本地存储路径，库函数将自动解析数据，提供包含音频文件路径、转录文本、音位细节、词汇细节、说话者ID及话语ID的结构化访问。这种集成方式极大简化了数据预处理流程，使研究者能迅速将精力集中于模型构建与实验分析。数据集严格划分的说话者独立子集，为评估模型在未见说话者上的泛化能力提供了标准框架，契合现代语音识别系统的评测需求。

背景与挑战

背景概述

Buckeye语料库作为口语语音研究领域的重要资源，由俄亥俄州立大学心理学系于2007年发布，主要研究人员包括Mark Pitt、Keith Johnson等学者。该数据集聚焦于自然对话语音的精细标注，旨在捕捉美式英语在日常交流中的真实语音变异现象，为语音识别、音系学及社会语言学提供了实证基础。其高质量录音与多层次标注体系，推动了口语语音处理技术从实验室环境向真实场景的演进，对语音科学及计算语言学产生了深远影响。

当前挑战

该数据集致力于解决自然对话语音识别中的核心挑战，即如何准确处理连续语音中的连读、省音及个体发音变异等问题。在构建过程中，面临语音标注的复杂性挑战，需专家对语音片段进行精细的音素与单词层级标注，确保标注的一致性与准确性。同时，数据采集需平衡说话人的性别、年龄等因素，以反映真实人口统计特征，这增加了数据收集与标准化的难度。

常用场景

经典使用场景

在语音识别研究领域，Buckeye语料库作为美国英语口语对话的珍贵资源，其经典使用场景聚焦于自动语音识别模型的训练与评估。该数据集收录了40位说话者在自然对话环境下的高质量录音，并辅以精细的语音标注，为研究者提供了真实、连续的语音样本。通过利用其包含的语音文件、文本转录及音素级标注，学者能够构建和优化端到端的语音识别系统，特别是在处理自然对话中的连读、省音等语音现象时，该数据集展现出独特的价值。

衍生相关工作

围绕Buckeye语料库，学术界已衍生出一系列经典研究工作。这些工作广泛涉及语音识别、语音合成、音变建模及社会语言学分析等多个方向。例如，许多研究利用其丰富的音素标注来改进声学模型的建模精度，或探索对话情境下的语音适应策略。该数据集也常被用作基准，用于评估新型端到端语音识别架构的性能。其提供的说话人身份信息，进一步支持了说话人自适应及语音风格转换等相关技术的探索，持续滋养着语音与语言处理领域的前沿进展。

数据集最近研究