GenSEC-LLM/SLT-Task1-Post-ASR-Text-Correction

Name: GenSEC-LLM/SLT-Task1-Post-ASR-Text-Correction
Creator: GenSEC-LLM
Published: 2024-04-29 06:19:53
License: 暂无描述

Hugging Face2024-04-29 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/GenSEC-LLM/SLT-Task1-Post-ASR-Text-Correction

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于多领域自动语音识别（ASR）校正的初步版本，包含了来自不同来源的假设和校正后的转录文本。数据集分为训练集和测试集，训练集包含281,082条记录，测试集包含16,108条记录。数据集的列包括假设、校正后的转录文本、假设的串联版本、文本来源、校正任务的指令提示以及声学模型评分（部分记录有此评分）。数据集结合了来自多个来源的条目，包括train_td3、train_other_500、train_cv等训练来源，以及test_ls_other、test_ls_clean、test_lrs2等测试来源。

提供机构：

GenSEC-LLM

原始信息汇总

数据集名称：多领域ASR校正的试点数据集

描述

该数据集是用于多领域自动语音识别（ASR）校正的大型数据集的试点版本。它包含来自PeacefulData/HyPoradise-v0的配对假设和校正转录。

结构

数据分割

数据集分为训练和测试两部分：

训练数据：281,082条记录
- 转录大约有6,255,198个词
- 连接假设大约有31,211,083个词
测试数据：16,108条记录
- 转录大约有327,750个词
- 连接假设大约有1,629,093个词

列

hypothesis：来自波束搜索的N-最佳假设。
transcription：校正后的ASR转录。
hypothesis_concatenated：文本输出的替代版本。
source：文本条目的来源，指示原始数据集。
prompt：校正任务的指导提示。
score：声学模型分数（并非所有条目都有此项）。

来源数据集

数据集结合了来自多个来源的条目：

训练来源：
- train_td3：50,000条记录
- train_other_500：50,000条记录
- train_cv：47,293条记录
- train_lrs2：42,940条记录
- train_wsj_score：37,514条记录
- train_swbd：36,539条记录
- train_chime4：9,600条记录
- train_coraal：3,232条记录
测试来源：
- test_ls_other：2,939条记录
- test_ls_clean：2,620条记录
- test_lrs2：2,259条记录
- test_swbd：2,000条记录
- test_cv：2,000条记录
- test_chime4：1,320条记录
- test_td3：1,155条记录
- test_coraal：170条记录

访问

该数据集可以通过HuggingFace Datasets库访问和下载。使用以下命令加载数据集：

python from datasets import load_dataset dataset = load_dataset("PeacefulData/HyPoradise-pilot")

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是一个用于多领域自动语音识别（ASR）后处理文本校正的试点版本，包含来自多个ASR任务的假设和校正转录配对数据，用于训练和测试生成式错误校正模型。数据集分为训练集（约24.1万行）和测试集（约1.58万行），覆盖文本模态，支持ASR-LLM应用场景。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集