Trelis/multimed-test-filtered-v2-dropped
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/Trelis/multimed-test-filtered-v2-dropped
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
tags:
- whisper
- filtered-dropped
- speech
- speech-to-text
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
dataset_info:
features:
- name: audio
dtype:
audio:
sampling_rate: 16000
- name: text
dtype: string
- name: text_ts
dtype: string
- name: preconditioning
dtype: string
- name: start_time
dtype: string
- name: end_time
dtype: string
- name: speech_duration
dtype: float32
- name: word_timestamps
dtype: string
- name: source_file
dtype: string
- name: language
dtype: string
- name: filter_cer
dtype: float64
- name: filter_model
dtype: string
- name: filter_confidence
dtype: float64
splits:
- name: train
num_bytes: 718856722.7958573
num_examples: 2071
download_size: 721157697
dataset_size: 718856722.7958573
---
# Dropped Samples
Samples removed during filtering of [None](https://huggingface.co/datasets/None).
These had CER >= 47% against filter model fireworks/whisper-v3, indicating unreliable reference transcriptions.
## Columns
| Column | Description |
|--------|-------------|
| `audio` | Audio sample |
| `text` | Original reference transcription |
| `filter_prediction` | Filter model prediction |
| `filter_cer` | CER between filter prediction and reference |
| `filter_model` | Model used for filter CER computation |
| `filter_confidence` | Geometric mean word confidence (if available) |
## Related
- **Kept dataset:** [Trelis/multimed-test-filtered-v2](https://huggingface.co/datasets/Trelis/multimed-test-filtered-v2)
- **Source dataset:** [None](https://huggingface.co/datasets/None)
---
*Generated by [Trelis Studio](https://studio.trelis.com)*
语言:
- 英语
标签:
- Whisper
- 过滤剔除
- 语音
- 语音转文字
配置项:
- 配置名称:默认配置
数据文件:
- 划分集:训练集
路径:data/train-*
数据集信息:
特征:
- 名称:audio
数据类型:
音频:
采样率:16000Hz
- 名称:text
数据类型:字符串
- 名称:text_ts
数据类型:字符串
- 名称:preconditioning
数据类型:字符串
- 名称:start_time
数据类型:字符串
- 名称:end_time
数据类型:字符串
- 名称:speech_duration
数据类型:float32
- 名称:word_timestamps
数据类型:字符串
- 名称:source_file
数据类型:字符串
- 名称:language
数据类型:字符串
- 名称:filter_cer
数据类型:float64
- 名称:filter_model
数据类型:字符串
- 名称:filter_confidence
数据类型:float64
划分集信息:
- 划分集名称:训练集
占用字节数:718856722.7958573
样本总数:2071
下载大小:721157697字节
数据集总大小:718856722.7958573字节
# 剔除样本
本数据集为[None](https://huggingface.co/datasets/None)数据集过滤流程中被移除的样本。这些样本与过滤模型fireworks/whisper-v3的字符错误率(Character Error Rate,CER)≥47%,表明其参考转录文本不可靠。
## 字段说明
| 字段名 | 字段说明 |
|--------|-------------|
| `audio` | 音频样本 |
| `text` | 原始参考转录文本 |
| `filter_prediction` | 过滤模型的预测转录结果 |
| `filter_cer` | 过滤模型预测结果与参考转录文本间的字符错误率 |
| `filter_model` | 用于计算过滤字符错误率的模型 |
| `filter_confidence` | 单词置信度的几何平均值(若可用) |
## 相关资源
- **保留样本数据集:** [Trelis/multimed-test-filtered-v2](https://huggingface.co/datasets/Trelis/multimed-test-filtered-v2)
- **源数据集:** [None](https://huggingface.co/datasets/None)
*由[Trelis Studio](https://studio.trelis.com)生成*
提供机构:
Trelis
搜集汇总
数据集介绍

构建方式
在语音识别领域,数据质量直接影响模型性能,该数据集通过严格筛选机制构建。原始音频样本经过自动语音识别模型处理,计算字符错误率以评估参考转录的可靠性,仅保留错误率超过47%的样本,确保数据集中包含转录质量较低的实例。这一过程基于预训练的Whisper模型进行预测与比对,剔除了转录可信度较高的数据,形成了专注于低质量转录样本的子集。
使用方法
研究人员可利用该数据集探索语音识别模型在低质量转录场景下的行为模式,通过对比原始文本与过滤预测之间的差异,识别常见错误类型。在实际应用中,可将数据集作为测试基准,评估新模型对噪声转录的敏感度,或用于训练数据清洗算法的开发。结合其兄弟数据集——保留高质量样本的版本,用户能够进行对比实验,全面分析语音识别系统在不同数据质量谱系上的表现。
背景与挑战
背景概述
在语音识别领域,高质量的训练数据对于提升模型性能至关重要。multimed-test-filtered-v2-dropped数据集作为Trelis机构在2024年发布的语音数据子集,专注于筛选出参考转录不可靠的音频样本。该数据集源自multimed-test-filtered-v2,通过Whisper-v3模型进行过滤,剔除了字符错误率超过47%的样本,旨在为语音识别模型的评估与优化提供噪声数据参考,从而推动鲁棒性语音处理技术的发展。
当前挑战
该数据集的核心挑战在于解决语音识别中参考转录质量评估的难题。传统语音数据集常因人工转录误差或环境干扰导致标注不可靠,影响模型训练效果。构建过程中,研究人员需设计高效的过滤机制,利用Whisper-v3模型计算字符错误率以识别低质量样本,但面临音频多样性、语言变异以及过滤阈值设定的平衡问题,确保筛选过程既严格又不过度剔除有效数据。
常用场景
经典使用场景
在语音识别领域,数据质量直接影响模型性能,而multimed-test-filtered-v2-dropped数据集通过筛选出字符错误率较高的样本,为研究者提供了分析低质量转录数据的宝贵资源。该数据集常用于评估语音识别模型的鲁棒性,特别是在处理噪声、口音或背景干扰等复杂场景时,帮助识别模型在转录不可靠数据时的失败模式,从而优化训练策略。
解决学术问题
该数据集解决了语音识别研究中数据清洗与质量评估的关键问题。通过明确标注高错误率的样本,它使研究者能够系统探究转录错误对模型性能的影响,推动开发更有效的过滤算法和误差校正方法。这不仅提升了语音识别系统的准确性,还为构建可靠的多语言和跨领域语音处理模型奠定了数据基础,具有重要的学术意义。
实际应用
在实际应用中,multimed-test-filtered-v2-dropped数据集可用于改进自动字幕生成、语音助手和会议记录等系统的可靠性。通过分析被过滤的样本,工程师可以识别常见错误来源,如环境噪声或说话者变异,进而优化预处理流程或增强模型对边缘案例的处理能力。这有助于提升用户体验,确保语音技术在医疗、教育等关键领域的稳定部署。
数据集最近研究
最新研究方向
在语音识别领域,数据质量对模型性能具有决定性影响。multimed-test-filtered-v2-dropped数据集作为过滤过程中被剔除的样本集合,其高字符错误率特征揭示了自动语音识别系统在复杂音频环境下面临的转录可靠性挑战。当前研究聚焦于利用此类低质量数据,探索鲁棒性更强的噪声抑制与错误检测机制,特别是在多语言、多口音场景下的泛化能力提升。相关热点事件如Whisper等大规模预训练模型的广泛应用,推动了数据清洗与评估标准的前沿讨论,该数据集为分析模型失败案例、优化过滤阈值提供了关键实证基础,对构建更精准的语音技术评估体系具有重要参考意义。
以上内容由遇见数据集搜集并总结生成



