PeacefulData/Robust-HyPoradise
收藏Hugging Face2024-05-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PeacefulData/Robust-HyPoradise
下载链接
链接失效反馈官方服务:
资源简介:
Robust HyPoradise数据集是一个用于生成式错误校正和大语言模型研究的数据集,特别关注噪声鲁棒的语音识别。该数据集包含训练数据和测试数据,格式相同。由于语音特征文件较大,训练数据中未包含语音特征,但提供了脚本用于从原始语音文件(.wav)生成这些特征。数据集支持用户从自己的ASR数据集中生成训练和测试数据,并提供了必要的脚本和包。数据集的相关研究已在ICLR 2024会议上发表。
Robust HyPoradise数据集是一个用于生成式错误校正和大语言模型研究的数据集,特别关注噪声鲁棒的语音识别。该数据集包含训练数据和测试数据,格式相同。由于语音特征文件较大,训练数据中未包含语音特征,但提供了脚本用于从原始语音文件(.wav)生成这些特征。数据集支持用户从自己的ASR数据集中生成训练和测试数据,并提供了必要的脚本和包。数据集的相关研究已在ICLR 2024会议上发表。
提供机构:
PeacefulData
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 语言创建者: 专家生成
- 任务类别: 文本生成
- 标签:
- 生成错误纠正
- 大型语言模型
- LLaMA
- 名称: Robust HyPoradise
- 大小类别: 100K<n<1M
- 语言: 英语
更新信息
- 更新日期 (2024年4月18日): 发布了训练数据,格式与测试数据相同。由于文件大小限制,上传的训练数据不包含语音特征。提供了一个脚本
add_speech_feats_to_train_data.py用于从原始语音文件生成语音特征。 - 更新日期 (2024年4月29日): 发布了脚本
generate_robust_hp.py支持用户从自己的ASR数据集生成训练/测试数据。同时发布了两个必要的生成包 "my_jiwer" 和 "decoding.py"。
引用信息
bib @inproceedings{hu2024large, title={Large Language Models are Efficient Learners of Noise-Robust Speech Recognition}, author={Hu, Yuchen and Chen, Chen and Yang, Chao-Han Huck and Li, Ruizhe and Zhang, Chao and Chen, Pin-Yu and Chng, Eng Siong}, booktitle={International Conference on Learning Representations}, year={2024} }



