distil-whisper/earnings22

Name: distil-whisper/earnings22
Creator: distil-whisper
Published: 2023-10-13 12:00:56
License: 暂无描述

Hugging Face2023-10-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/distil-whisper/earnings22

下载链接

链接失效反馈

官方服务：

资源简介：

Earnings-22数据集提供了一个免费使用的真实世界口音音频基准，旨在连接学术和工业研究。该数据集包含125个文件，总计约119小时的英语收益电话录音，来自全球不同国家的不同口音。数据集提供了完整的音频、转录文本以及相关的元数据，如股票代码、总部国家和定义的“语言区域”。数据集有两种形式：完整音频文件和分块音频文件，分别用于评估长音频和短音频的ASR系统。

The Earnings-22 dataset is a freely accessible real-world accented audio benchmark developed to bridge academic and industrial research communities. It consists of 125 files, totaling approximately 119 hours of English earnings call recordings featuring diverse accents from various countries worldwide. The dataset provides complete audio files, transcripts, and relevant metadata including ticker symbols, headquarters countries, and predefined "language regions". It is available in two formats: full-length audio files and chunked audio files, which are respectively utilized to assess ASR systems for long and short audio inputs.

提供机构：

distil-whisper

原始信息汇总

数据集描述

数据集摘要

Earnings-22 提供了一个免费使用的真实世界口音音频基准，旨在弥合学术和工业研究之间的差距。该数据集包含 125 个文件，总计约 119 小时的全球国家英语语言财报电话会议音频。该数据集提供了完整的音频、转录以及伴随的元数据，如股票代码、总部国家和我们定义的“语言区域”。

支持的任务和排行榜

该数据集旨在用于评估自动语音识别（ASR）模型。模型会收到一个长达数分钟到数十分钟的音频文件，并被要求将其转录为书面文本。最常见的评估指标是字错误率（WER），平均超过 125 个音频文件。

语言

音频为英语，来自七个不同的语言区域和总共 27 个独特的国家。因此，说话人和口音具有很大的多样性。

数据集结构

配置

Earnings-22 数据集有两种形式：

full：包含完整的音频记录作为单一的长音频文件。旨在用于评估长格式音频文件的 ASR 系统。
chunked：包含被分割成最多 20 秒的小音频文件的音频记录。音频记录通过使用 Wav2Vec2 模型计算每个段的开始/结束时间戳来分割标点符号。旨在用于评估短格式音频文件的 ASR 系统。

数据实例

一个典型的数据点包括音频输入（由键 audio 表示）及其转录（由 transcription 表示）。关于说话人、口音和包含转录的段落的一些额外信息作为元数据提供：

python {audio: {path: /fsx/sanchit/speech-datasets/earnings22/media/4468679.mp3, array: array([ 0.00000000e+00, -3.36748518e-09, -3.54287222e-09, ..., 4.77626486e-07, -7.80206960e-07, -8.02787653e-07]), sampling_rate: 16000}, file_id: 4468679, ticker_symbol: PAM, country_by_ticker: Argentina, un_defined: Latin America and Caribbean, major_dialect_family: Other, language_family: Spanish/Portuguese, file_length: 3300, sampling_rate: 16000, transcription: "Good morning ladies and gentlemen, and thank you for waiting. Im Margarita Chun from IR, and we would like to welcome everyone to Pampa Energias Third Quarter 2021 Results Video Conference...

数据字段

audio：包含已下载音频文件的路径、解码的音频数组和采样率的字典。注意，当访问音频列时：dataset[0]["audio"]，音频文件会自动解码并重新采样到 dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要大量时间。因此，在访问 "audio" 列之前先查询样本索引，即 dataset[0]["audio"] 应始终优先于 dataset["audio"][0]。
file_id：数据样本的唯一 ID。
ticker_symbol：从中提取财报电话会议的公司股票代码。
country_by_ticker：股票代码所属的国家（即公司注册地）。
un_defined：联合国定义的语言区域。
major_dialect_family：该国家所属的大范围（主要）方言家族。
language_family：Earnings-22 分配的语言家族。七个可能的值之一：非洲、亚洲、英语、日耳曼、其他罗曼语、斯拉夫、西班牙/葡萄牙。
file_length：音频的长度（以秒为单位）。
sampling_rate：音频数据保存时的采样率。
transcription：音频文件的目标转录。

数据分割

Earnings-22 数据集旨在仅用作测试分割，以评估 ASR 系统。因此，仅提供一个分割：测试分割。

搜集汇总

数据集介绍

背景与挑战

背景概述

earnings22数据集是一个包含119小时全球英语口音音频的基准数据集，用于评估自动语音识别（ASR）模型。数据集提供完整音频和分块音频两种形式，支持长格式和短格式音频的ASR评估，并包含丰富的元数据信息。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集