audiollm-evals
收藏魔搭社区2025-12-05 更新2025-05-31 收录
下载链接:
https://modelscope.cn/datasets/sarvamai/audiollm-evals
下载链接
链接失效反馈官方服务:
资源简介:
This evaluation set contains ~100 questions in both text and audio format in Bengali, Gujarati, Hindi, Kannada, Malayalam, Marathi, Odia, Punjabi, Tamil, and Telugu. We use this dataset internally at Sarvam to evaluate the performance of our audio models. We open-source this data to enable the research community to replicate the results mentioned in our [Shuka blog](https://www.sarvam.ai/blogs/shuka-v1).
By deisgn, the questions are sometimes vague, and the audio has noise and other inconsistencies, to measure the robustness of models.
本评测数据集涵盖孟加拉语(Bengali)、古吉拉特语(Gujarati)、印地语(Hindi)、卡纳达语(Kannada)、马拉雅拉姆语(Malayalam)、马拉地语(Marathi)、奥里亚语(Odia)、旁遮普语(Punjabi)、泰米尔语(Tamil)与泰卢固语(Telugu)共10种语言,包含约100道兼具文本与音频格式的题目。本团队于Sarvam内部使用该数据集评估自研音频模型的性能。我们开源此数据集,以支持研究社区复现我们在[Shuka博客(https://www.sarvam.ai/blogs/shuka-v1)]中提及的研究成果。
为了评估模型的鲁棒性,本数据集在设计上刻意设置部分题目带有模糊性,且音频样本包含噪声与其他不一致性问题。
提供机构:
maas
创建时间:
2025-05-26



