five

PeacefulData/Robust-HyPoradise

收藏
Hugging Face2024-05-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PeacefulData/Robust-HyPoradise
下载链接
链接失效反馈
官方服务:
资源简介:
Robust HyPoradise数据集是一个用于生成式错误校正和大语言模型研究的数据集,特别关注噪声鲁棒的语音识别。该数据集包含训练数据和测试数据,格式相同。由于语音特征文件较大,训练数据中未包含语音特征,但提供了脚本用于从原始语音文件(.wav)生成这些特征。数据集支持用户从自己的ASR数据集中生成训练和测试数据,并提供了必要的脚本和包。数据集的相关研究已在ICLR 2024会议上发表。

Robust HyPoradise数据集是一个用于生成式错误校正和大语言模型研究的数据集,特别关注噪声鲁棒的语音识别。该数据集包含训练数据和测试数据,格式相同。由于语音特征文件较大,训练数据中未包含语音特征,但提供了脚本用于从原始语音文件(.wav)生成这些特征。数据集支持用户从自己的ASR数据集中生成训练和测试数据,并提供了必要的脚本和包。数据集的相关研究已在ICLR 2024会议上发表。
提供机构:
PeacefulData
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 语言创建者: 专家生成
  • 任务类别: 文本生成
  • 标签:
    • 生成错误纠正
    • 大型语言模型
    • LLaMA
  • 名称: Robust HyPoradise
  • 大小类别: 100K<n<1M
  • 语言: 英语

更新信息

  • 更新日期 (2024年4月18日): 发布了训练数据,格式与测试数据相同。由于文件大小限制,上传的训练数据不包含语音特征。提供了一个脚本 add_speech_feats_to_train_data.py 用于从原始语音文件生成语音特征。
  • 更新日期 (2024年4月29日): 发布了脚本 generate_robust_hp.py 支持用户从自己的ASR数据集生成训练/测试数据。同时发布了两个必要的生成包 "my_jiwer" 和 "decoding.py"。

引用信息

bib @inproceedings{hu2024large, title={Large Language Models are Efficient Learners of Noise-Robust Speech Recognition}, author={Hu, Yuchen and Chen, Chen and Yang, Chao-Han Huck and Li, Ruizhe and Zhang, Chao and Chen, Pin-Yu and Chng, Eng Siong}, booktitle={International Conference on Learning Representations}, year={2024} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作