GenSEC-LLM/SLT-Task1-Post-ASR-Text-Correction
收藏Hugging Face2024-04-29 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/GenSEC-LLM/SLT-Task1-Post-ASR-Text-Correction
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于多领域自动语音识别(ASR)校正的初步版本,包含了来自不同来源的假设和校正后的转录文本。数据集分为训练集和测试集,训练集包含281,082条记录,测试集包含16,108条记录。数据集的列包括假设、校正后的转录文本、假设的串联版本、文本来源、校正任务的指令提示以及声学模型评分(部分记录有此评分)。数据集结合了来自多个来源的条目,包括train_td3、train_other_500、train_cv等训练来源,以及test_ls_other、test_ls_clean、test_lrs2等测试来源。
该数据集是一个用于多领域自动语音识别(ASR)校正的初步版本,包含了来自不同来源的假设和校正后的转录文本。数据集分为训练集和测试集,训练集包含281,082条记录,测试集包含16,108条记录。数据集的列包括假设、校正后的转录文本、假设的串联版本、文本来源、校正任务的指令提示以及声学模型评分(部分记录有此评分)。数据集结合了来自多个来源的条目,包括train_td3、train_other_500、train_cv等训练来源,以及test_ls_other、test_ls_clean、test_lrs2等测试来源。
提供机构:
GenSEC-LLM
原始信息汇总
数据集名称:多领域ASR校正的试点数据集
描述
该数据集是用于多领域自动语音识别(ASR)校正的大型数据集的试点版本。它包含来自PeacefulData/HyPoradise-v0的配对假设和校正转录。
结构
数据分割
数据集分为训练和测试两部分:
- 训练数据:281,082条记录
- 转录大约有6,255,198个词
- 连接假设大约有31,211,083个词
- 测试数据:16,108条记录
- 转录大约有327,750个词
- 连接假设大约有1,629,093个词
列
hypothesis:来自波束搜索的N-最佳假设。transcription:校正后的ASR转录。hypothesis_concatenated:文本输出的替代版本。source:文本条目的来源,指示原始数据集。prompt:校正任务的指导提示。score:声学模型分数(并非所有条目都有此项)。
来源数据集
数据集结合了来自多个来源的条目:
-
训练来源:
train_td3:50,000条记录train_other_500:50,000条记录train_cv:47,293条记录train_lrs2:42,940条记录train_wsj_score:37,514条记录train_swbd:36,539条记录train_chime4:9,600条记录train_coraal:3,232条记录
-
测试来源:
test_ls_other:2,939条记录test_ls_clean:2,620条记录test_lrs2:2,259条记录test_swbd:2,000条记录test_cv:2,000条记录test_chime4:1,320条记录test_td3:1,155条记录test_coraal:170条记录
访问
该数据集可以通过HuggingFace Datasets库访问和下载。使用以下命令加载数据集:
python from datasets import load_dataset dataset = load_dataset("PeacefulData/HyPoradise-pilot")
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个用于多领域自动语音识别(ASR)后处理文本校正的试点版本,包含来自多个ASR任务的假设和校正转录配对数据,用于训练和测试生成式错误校正模型。数据集分为训练集(约24.1万行)和测试集(约1.58万行),覆盖文本模态,支持ASR-LLM应用场景。
以上内容由遇见数据集搜集并总结生成



