PeacefulData/Robust-HyPoradise

Name: PeacefulData/Robust-HyPoradise
Creator: PeacefulData
Published: 2024-05-17 14:03:55
License: 暂无描述

Hugging Face2024-05-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/PeacefulData/Robust-HyPoradise

下载链接

链接失效反馈

官方服务：

资源简介：

Robust HyPoradise数据集是一个用于生成式错误校正和大语言模型研究的数据集，特别关注噪声鲁棒的语音识别。该数据集包含训练数据和测试数据，格式相同。由于语音特征文件较大，训练数据中未包含语音特征，但提供了脚本用于从原始语音文件（.wav）生成这些特征。数据集支持用户从自己的ASR数据集中生成训练和测试数据，并提供了必要的脚本和包。数据集的相关研究已在ICLR 2024会议上发表。

提供机构：

PeacefulData

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
语言创建者: 专家生成
任务类别: 文本生成
标签:
- 生成错误纠正
- 大型语言模型
- LLaMA
名称: Robust HyPoradise
大小类别: 100K<n<1M
语言: 英语

更新信息

更新日期 (2024年4月18日): 发布了训练数据，格式与测试数据相同。由于文件大小限制，上传的训练数据不包含语音特征。提供了一个脚本 add_speech_feats_to_train_data.py 用于从原始语音文件生成语音特征。
更新日期 (2024年4月29日): 发布了脚本 generate_robust_hp.py 支持用户从自己的ASR数据集生成训练/测试数据。同时发布了两个必要的生成包 "my_jiwer" 和 "decoding.py"。

引用信息

bib @inproceedings{hu2024large, title={Large Language Models are Efficient Learners of Noise-Robust Speech Recognition}, author={Hu, Yuchen and Chen, Chen and Yang, Chao-Han Huck and Li, Ruizhe and Zhang, Chao and Chen, Pin-Yu and Chng, Eng Siong}, booktitle={International Conference on Learning Representations}, year={2024} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集