emilia-subset|文本到语音数据集|自动语音识别数据集

huggingface2024-11-27 更新2024-12-12 收录

文本到语音

自动语音识别

下载链接：

https://huggingface.co/datasets/ylacombe/emilia-subset

下载链接

链接失效反馈

资源简介：

Emilia Subset数据集是一个用于文本到语音和自动语音识别任务的英语音频数据集。它包含详细的音频特征，如音频URL、音频文件、音频质量评分、持续时间、唯一标识符、语言、说话者信息、文本内容和WAV文件。数据集分为一个名为'en'的子集，包含3,387,817个样本，总大小为246,295,697,084字节。

创建时间：

2024-11-26

原始信息汇总

Emilia Subset 数据集概述

基本信息

许可证: CC BY-NC 4.0
任务类别:
- 文本到语音
- 自动语音识别
语言: 英语 (en)
数据集名称: Emilia Subset

访问条款

使用限制: 仅用于非商业研究和教育目的。
责任声明: 使用者需对数据集的使用负全责，并同意保护数据集作者免受任何因使用数据集而产生的索赔。
访问终止: 数据集作者保留随时终止使用者访问数据集的权利。
授权代表: 如果使用者受雇于商业实体，其雇主也需遵守这些条款。

数据集结构

特征:
- __key__: 字符串
- __url__: 字符串
- mp3: 音频
- dnsmos: 浮点数 (float64)
- duration: 浮点数 (float64)
- id: 字符串
- language: 字符串
- speaker: 字符串
- text: 字符串
- wav: 字符串
分割:
- en: 包含 3,387,817 个样本，总大小为 246,295,697,084 字节。
下载大小: 245,261,998,300 字节
数据集大小: 246,295,697,084 字节

配置

配置名称: default
数据文件:
- en 分割: data/en-*

AI搜集汇总

数据集介绍

构建方式

Emilia Subset数据集的构建过程依托于Emilia-Pipe预处理流程，该流程确保了数据的高质量与一致性。数据集主要包含英语语音与文本的对应关系，涵盖了大量的语音样本及其转录文本。每个样本均经过严格的筛选与处理，确保其适用于文本到语音转换和自动语音识别任务。数据集的构建还特别注重了语音质量与文本准确性的平衡，以确保其在研究中的实用性。

特点

Emilia Subset数据集的特点在于其丰富的语音样本与高质量的文本转录。数据集包含超过300万条英语语音样本，每条样本均附带有详细的元数据，如语音质量评分（DNSMOS）、时长、说话者信息等。此外，数据集还提供了多种格式的语音文件（如MP3和WAV），以满足不同研究需求。其多样化的语音样本与精确的文本标注使其成为文本到语音转换和自动语音识别领域的理想选择。

使用方法

Emilia Subset数据集的使用需遵循严格的非商业研究协议。用户需通过HuggingFace平台提交访问申请，并同意相关使用条款。数据集下载后，用户可通过提供的语音文件与文本标注进行实验与研究。建议用户结合Emilia-Pipe预处理流程进行数据预处理，以确保数据的一致性与可用性。数据集的使用场景主要集中于文本到语音转换和自动语音识别任务，用户可根据具体需求进行定制化应用。

背景与挑战

背景概述

Emilia Subset数据集是一个专注于文本到语音转换（Text-to-Speech, TTS）和自动语音识别（Automatic Speech Recognition, ASR）任务的多功能数据集。该数据集由研究人员或机构在特定背景下创建，旨在为自然语言处理和语音技术领域提供高质量的语音数据资源。Emilia Subset包含了大量英语语音样本，涵盖了多种语音特征和文本内容，为语音合成和识别模型的训练与评估提供了丰富的数据支持。该数据集的发布不仅推动了语音技术的研究进展，还为学术界和工业界提供了重要的实验基础。

当前挑战

Emilia Subset数据集在解决语音合成和识别领域的核心问题时，面临多方面的挑战。首先，语音数据的多样性和复杂性要求数据集在采集和处理过程中保持高质量，以确保模型训练的准确性和鲁棒性。其次，数据集的构建过程中，如何平衡语音样本的覆盖范围与数据量，以及如何处理不同说话者的语音特征差异，都是需要克服的技术难题。此外，数据集的非商业使用限制和严格的访问条款，虽然保护了数据的知识产权，但也可能限制了其在更广泛研究场景中的应用。这些挑战共同构成了Emilia Subset数据集在推动语音技术发展过程中需要解决的关键问题。

常用场景

经典使用场景

Emilia Subset数据集在文本到语音转换（TTS）和自动语音识别（ASR）领域具有广泛的应用。研究人员通常利用该数据集来训练和评估语音合成模型，以生成自然流畅的语音输出。此外，该数据集还用于优化语音识别系统，提高其在多种语言环境下的准确性和鲁棒性。

解决学术问题

Emilia Subset数据集解决了语音技术研究中的多个关键问题。首先，它提供了高质量的语音样本，帮助研究人员克服了数据稀缺的挑战。其次，该数据集的多语言特性使得跨语言语音识别和合成成为可能，推动了全球化语音技术的发展。最后，通过提供详细的音频和文本配对，该数据集为语音模型的训练和评估提供了坚实的基础。

衍生相关工作

Emilia Subset数据集催生了一系列经典的研究工作。许多学者利用该数据集开发了先进的语音合成和识别算法，如基于深度学习的TTS模型和端到端的ASR系统。这些工作不仅推动了语音技术的发展，还为后续研究提供了宝贵的参考和基准。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

HotpotQA

HotpotQA 是收集在英语维基百科上的问答数据集，包含大约 113K 众包问题，这些问题的构建需要两篇维基百科文章的介绍段落才能回答。数据集中的每个问题都带有两个黄金段落，以及这些段落中的句子列表，众包工作人员认为这些句子是回答问题所必需的支持事实。 HotpotQA 提供了多种推理策略，包括涉及问题中缺失实体的问题、交叉问题（什么满足属性 A 和属性 B？）和比较问题，其中两个实体通过一个共同属性进行比较等。在少文档干扰设置中，QA 模型有 10 个段落，保证能找到黄金段落；在开放域全维基设置中，模型只给出问题和整个维基百科。模型根据其答案准确性和可解释性进行评估，其中前者被测量为具有完全匹配 (EM) 和 unigram F1 的预测答案和黄金答案之间的重叠，后者关注预测的支持事实句子与人类注释的匹配程度（Supporting Fact EM/F1)。该数据集还报告了一个联合指标，它鼓励系统同时在两项任务上表现良好。来源：通过迭代查询生成回答复杂的开放域问题

OpenDataLab 收录

EV充电数据合成集

该数据集由我们的模型生成，旨在用于训练，包含约160万次充电事件，涉及3777辆电池电动车，时间跨度为365天。

github 收录

全国 1∶200 000 数字地质图（公开版）空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录

中医舌脉诊标注数据

采用满足国家医疗器械标准的设备采集舌体图像数据、脉象波形数据。由医生对数据进行标注和分析，获取舌体特征信息、脉型判断，进而生成规范化的中医舌脉数据与特征的结构化报告，涉及以下步骤和算法规则：1、数据预处理，由医生对原始采集到的舌图像、脉诊数据进行清洗，按照纳排标准去掉不符合标准的数据，例如图片不清晰、伸舌动作不标准、脉象数据不稳定等数据需要删除。2、基于神经网络模型的特征提取：利用多标签分类网络处理舌图数据与脉象数据，获取初步的舌图健康特征与脉型信息，例如：红舌、裂纹舌、点刺舌、滑脉、涩脉等信息。3、健康特征校验：由三名取得中医执业医师资格证的医生对数据进行校准，校准规则为三名医师至少有两名对分析特征认可后，数据才可纳入数据集。4、生成结构化的数据报告：按照json的文件格式，将数据内容、数据标签存储起来，其中舌图图像数据以jpg格式文件的形式存储。文件内不涉及任何人员信息。5、质量控制：对生成的结构化报告进行质量控制，确保信息的准确性和完整性。8、持续优化和扩充数据集：根据数据集的应用反馈，持续改进数据集的数据量，单例数据包含舌脉特征数量，舌脉特征分析的准确度等信息。

天津市数据知识产权登记平台收录