five

audiollm-evals

收藏
魔搭社区2025-12-05 更新2025-05-31 收录
下载链接:
https://modelscope.cn/datasets/sarvamai/audiollm-evals
下载链接
链接失效反馈
官方服务:
资源简介:
This evaluation set contains ~100 questions in both text and audio format in Bengali, Gujarati, Hindi, Kannada, Malayalam, Marathi, Odia, Punjabi, Tamil, and Telugu. We use this dataset internally at Sarvam to evaluate the performance of our audio models. We open-source this data to enable the research community to replicate the results mentioned in our [Shuka blog](https://www.sarvam.ai/blogs/shuka-v1). By deisgn, the questions are sometimes vague, and the audio has noise and other inconsistencies, to measure the robustness of models.

本评测数据集涵盖孟加拉语(Bengali)、古吉拉特语(Gujarati)、印地语(Hindi)、卡纳达语(Kannada)、马拉雅拉姆语(Malayalam)、马拉地语(Marathi)、奥里亚语(Odia)、旁遮普语(Punjabi)、泰米尔语(Tamil)与泰卢固语(Telugu)共10种语言,包含约100道兼具文本与音频格式的题目。本团队于Sarvam内部使用该数据集评估自研音频模型的性能。我们开源此数据集,以支持研究社区复现我们在[Shuka博客(https://www.sarvam.ai/blogs/shuka-v1)]中提及的研究成果。 为了评估模型的鲁棒性,本数据集在设计上刻意设置部分题目带有模糊性,且音频样本包含噪声与其他不一致性问题。
提供机构:
maas
创建时间:
2025-05-26
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作