sarvamai/sarvam-dub-benchmark-set

Name: sarvamai/sarvam-dub-benchmark-set
Creator: sarvamai
Published: 2026-02-06 16:42:55
License: 暂无描述

Hugging Face2026-02-06 更新2026-02-07 收录

下载链接：

https://hf-mirror.com/datasets/sarvamai/sarvam-dub-benchmark-set

下载链接

链接失效反馈

官方服务：

资源简介：

Sarvam配音基准数据集是一个多语言评估数据集，用于实时配音和语音克隆的基准测试，重点关注同语言和跨语言场景下的说话人相似性保持。该数据集用于对生产配音系统进行基准测试，内部评估显示在相同的评分协议下，其说话人相似性高于ElevenLabs v3和Cartesia Sonic。数据集支持11种语言，包括英语、印地语、孟加拉语、泰米尔语、泰卢固语、卡纳达语、马拉雅拉姆语、马拉地语、古吉拉特语、奥里亚语和旁遮普语。数据集包含64个说话人，每个说话人覆盖所有11种语言，总样本数为704。每个记录包含参考音频、目标文本和目标语言代码。说话人相似性评分使用SpeechBrain ECAPA说话人嵌入模型计算。数据集仅用于评估，不用于训练。

The Sarvam Dubbing Benchmark Dataset is a multilingual evaluation dataset for real-time dubbing and voice cloning benchmarking with a focus on speaker similarity preservation across same-lingual and cross-lingual scenarios. This dataset was used to benchmark production dubbing systems, with internal evaluations showing higher speaker similarity than ElevenLabs v3 and Cartesia Sonic under an identical scoring protocol. The dataset supports 11 languages, including English, Hindi, Bengali, Tamil, Telugu, Kannada, Malayalam, Marathi, Gujarati, Odia, and Punjabi. It includes 64 speakers, each covering all 11 languages, with a total of 704 samples. Each record contains reference audio, target text, and target language code. Speaker similarity is computed using the SpeechBrain ECAPA speaker embedding model. The dataset is evaluation-only and not for training.

提供机构：

sarvamai

5,000+

优质数据集

54 个

任务类型

进入经典数据集