five

GenSEC-LLM/SLT-Task1-Post-ASR-Text-Correction

收藏
Hugging Face2024-04-29 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/GenSEC-LLM/SLT-Task1-Post-ASR-Text-Correction
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于多领域自动语音识别(ASR)校正的初步版本,包含了来自不同来源的假设和校正后的转录文本。数据集分为训练集和测试集,训练集包含281,082条记录,测试集包含16,108条记录。数据集的列包括假设、校正后的转录文本、假设的串联版本、文本来源、校正任务的指令提示以及声学模型评分(部分记录有此评分)。数据集结合了来自多个来源的条目,包括train_td3、train_other_500、train_cv等训练来源,以及test_ls_other、test_ls_clean、test_lrs2等测试来源。

该数据集是一个用于多领域自动语音识别(ASR)校正的初步版本,包含了来自不同来源的假设和校正后的转录文本。数据集分为训练集和测试集,训练集包含281,082条记录,测试集包含16,108条记录。数据集的列包括假设、校正后的转录文本、假设的串联版本、文本来源、校正任务的指令提示以及声学模型评分(部分记录有此评分)。数据集结合了来自多个来源的条目,包括train_td3、train_other_500、train_cv等训练来源,以及test_ls_other、test_ls_clean、test_lrs2等测试来源。
提供机构:
GenSEC-LLM
原始信息汇总

数据集名称:多领域ASR校正的试点数据集

描述

该数据集是用于多领域自动语音识别(ASR)校正的大型数据集的试点版本。它包含来自PeacefulData/HyPoradise-v0的配对假设和校正转录。

结构

数据分割

数据集分为训练和测试两部分:

  • 训练数据:281,082条记录
    • 转录大约有6,255,198个词
    • 连接假设大约有31,211,083个词
  • 测试数据:16,108条记录
    • 转录大约有327,750个词
    • 连接假设大约有1,629,093个词

  • hypothesis:来自波束搜索的N-最佳假设。
  • transcription:校正后的ASR转录。
  • hypothesis_concatenated:文本输出的替代版本。
  • source:文本条目的来源,指示原始数据集。
  • prompt:校正任务的指导提示。
  • score:声学模型分数(并非所有条目都有此项)。

来源数据集

数据集结合了来自多个来源的条目:

  • 训练来源

    • train_td3:50,000条记录
    • train_other_500:50,000条记录
    • train_cv:47,293条记录
    • train_lrs2:42,940条记录
    • train_wsj_score:37,514条记录
    • train_swbd:36,539条记录
    • train_chime4:9,600条记录
    • train_coraal:3,232条记录
  • 测试来源

    • test_ls_other:2,939条记录
    • test_ls_clean:2,620条记录
    • test_lrs2:2,259条记录
    • test_swbd:2,000条记录
    • test_cv:2,000条记录
    • test_chime4:1,320条记录
    • test_td3:1,155条记录
    • test_coraal:170条记录

访问

该数据集可以通过HuggingFace Datasets库访问和下载。使用以下命令加载数据集:

python from datasets import load_dataset dataset = load_dataset("PeacefulData/HyPoradise-pilot")

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个用于多领域自动语音识别(ASR)后处理文本校正的试点版本,包含来自多个ASR任务的假设和校正转录配对数据,用于训练和测试生成式错误校正模型。数据集分为训练集(约24.1万行)和测试集(约1.58万行),覆盖文本模态,支持ASR-LLM应用场景。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作