LEMAS-Project/LEMAS-Dataset-eval

Name: LEMAS-Project/LEMAS-Dataset-eval
Creator: LEMAS-Project
Published: 2026-03-31 02:16:53
License: 暂无描述

Hugging Face2026-03-31 更新2026-02-07 收录

下载链接：

https://hf-mirror.com/datasets/LEMAS-Project/LEMAS-Dataset-eval

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是LEMAS-Project的一部分，包含一个大规模的训练集（超过150k小时）和一个精选的评估集（每种语言500个话语），涵盖10种语言（意大利语、葡萄牙语、西班牙语、法语、德语、越南语、印尼语、俄语、英语和中文），所有数据均带有词级对齐信息。训练集通过语言和数据集特定的约束条件过滤大规模对齐的音频-文本对构建而成，评估集则通过过滤、修剪和排名对齐的音频-文本对构建。数据集中的每个条目包含音频文件、原始转录文本和对齐信息（包括归一化文本和词级时间戳及置信度分数）。

This dataset is part of the LEMAS-Project, containing a large-scale training set (150k+ hours) and a curated evaluation set (500 utterances per language) covering 10 languages (Italian, Portuguese, Spanish, French, German, Vietnamese, Indonesian, Russian, English, and Chinese), all with word-level alignment. The training set is constructed by filtering large-scale aligned audio-text pairs with language- and dataset-specific constraints, while the evaluation set is built by filtering, trimming, and ranking aligned audio-text pairs. Each entry in the dataset includes audio files, original transcriptions, and alignment information (including normalized text and word-level timestamps with confidence scores).

提供机构：

LEMAS-Project

5,000+

优质数据集

54 个

任务类型

进入经典数据集