five

LEMAS-Project/LEMAS-Dataset-eval

收藏
Hugging Face2026-03-31 更新2026-02-07 收录
下载链接:
https://hf-mirror.com/datasets/LEMAS-Project/LEMAS-Dataset-eval
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是LEMAS-Project的一部分,包含一个大规模的训练集(超过150k小时)和一个精选的评估集(每种语言500个话语),涵盖10种语言(意大利语、葡萄牙语、西班牙语、法语、德语、越南语、印尼语、俄语、英语和中文),所有数据均带有词级对齐信息。训练集通过语言和数据集特定的约束条件过滤大规模对齐的音频-文本对构建而成,评估集则通过过滤、修剪和排名对齐的音频-文本对构建。数据集中的每个条目包含音频文件、原始转录文本和对齐信息(包括归一化文本和词级时间戳及置信度分数)。

This dataset is part of the LEMAS-Project, containing a large-scale training set (150k+ hours) and a curated evaluation set (500 utterances per language) covering 10 languages (Italian, Portuguese, Spanish, French, German, Vietnamese, Indonesian, Russian, English, and Chinese), all with word-level alignment. The training set is constructed by filtering large-scale aligned audio-text pairs with language- and dataset-specific constraints, while the evaluation set is built by filtering, trimming, and ranking aligned audio-text pairs. Each entry in the dataset includes audio files, original transcriptions, and alignment information (including normalized text and word-level timestamps with confidence scores).
提供机构:
LEMAS-Project
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作