Nexdata/Filipino_Speech_Data_by_Mobile_Phone

Name: Nexdata/Filipino_Speech_Data_by_Mobile_Phone
Creator: Nexdata
Published: 2024-04-16 09:42:11
License: 暂无描述

Hugging Face2024-04-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Nexdata/Filipino_Speech_Data_by_Mobile_Phone

下载链接

链接失效反馈

官方服务：

资源简介：

--- YAML tags: - copy-paste the tags obtained with the tagging app: https://github.com/huggingface/datasets-tagging --- # Dataset Card for Nexdata/Filipino_Speech_Data_by_Mobile_Phone ## Table of Contents - [Table of Contents](#table-of-contents) - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards) - [Languages](#languages) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Dataset Creation](#dataset-creation) - [Curation Rationale](#curation-rationale) - [Source Data](#source-data) - [Annotations](#annotations) - [Personal and Sensitive Information](#personal-and-sensitive-information) - [Considerations for Using the Data](#considerations-for-using-the-data) - [Social Impact of Dataset](#social-impact-of-dataset) - [Discussion of Biases](#discussion-of-biases) - [Other Known Limitations](#other-known-limitations) - [Additional Information](#additional-information) - [Dataset Curators](#dataset-curators) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) - [Contributions](#contributions) ## Dataset Description - **Homepage:** https://www.nexdata.ai/datasets/1126?source=Huggingface - **Repository:** - **Paper:** - **Leaderboard:** - **Point of Contact:** ### Dataset Summary 500 Hours - Filipino Speech Data by Mobile Phone，the data were recorded by Filipino speakers with authentic Filipino accents.The text is manually proofread with high accuracy. Match mainstream Android, Apple system phones. For more details, please refer to the link: https://www.nexdata.ai/datasets/1126?source=Huggingface ### Supported Tasks and Leaderboards automatic-speech-recognition, audio-speaker-identification: The dataset can be used to train a model for Automatic Speech Recognition (ASR). ### Languages Filipino ## Dataset Structure ### Data Instances [More Information Needed] ### Data Fields [More Information Needed] ### Data Splits [More Information Needed] ## Dataset Creation ### Curation Rationale [More Information Needed] ### Source Data #### Initial Data Collection and Normalization [More Information Needed] #### Who are the source language producers? [More Information Needed] ### Annotations #### Annotation process [More Information Needed] #### Who are the annotators? [More Information Needed] ### Personal and Sensitive Information [More Information Needed] ## Considerations for Using the Data ### Social Impact of Dataset [More Information Needed] ### Discussion of Biases [More Information Needed] ### Other Known Limitations [More Information Needed] ## Additional Information ### Dataset Curators [More Information Needed] ### Licensing Information Commerical License: https://drive.google.com/file/d/1saDCPm74D4UWfBL17VbkTsZLGfpOQj1J/view?usp=sharing ### Citation Information [More Information Needed] ### Contributions

YAML 标签： - 复制通过标签工具获取的标签：https://github.com/huggingface/datasets-tagging # 数据集卡片：Nexdata/菲律宾手机语音数据集 ## 目录 - [目录](#目录) - [数据集描述](#数据集描述) - [数据集摘要](#数据集摘要) - [支持任务与评测榜单](#支持任务与评测榜单) - [语言](#语言) - [数据集结构](#数据集结构) - [数据实例](#数据实例) - [数据字段](#数据字段) - [数据划分](#数据划分) - [数据集构建](#数据集构建) - [数据集构建依据](#数据集构建依据) - [源数据](#源数据) - [标注信息](#标注信息) - [个人与敏感信息](#个人与敏感信息) - [数据集使用注意事项](#数据集使用注意事项) - [数据集社会影响](#数据集社会影响) - [偏差讨论](#偏差讨论) - [其他已知局限性](#其他已知局限性) - [附加信息](#附加信息) - [数据集维护者](#数据集维护者) - [许可信息](#许可信息) - [引用信息](#引用信息) - [贡献](#贡献) ## 数据集描述 - **主页：** https://www.nexdata.ai/datasets/1126?source=Huggingface - **代码仓库：** - **相关论文：** - **评测榜单：** - **联系方式：** ### 数据集摘要本数据集包含500小时菲律宾语手机语音数据，由带有纯正菲律宾口音的菲律宾母语使用者录制。文本内容均经过人工校对，准确率极高，且兼容主流安卓（Android）与苹果（Apple）系统手机。如需了解更多详情，请访问链接：https://www.nexdata.ai/datasets/1126?source=Huggingface ### 支持任务与评测榜单自动语音识别（automatic-speech-recognition）、音频说话人识别（audio-speaker-identification）：本数据集可用于训练自动语音识别（Automatic Speech Recognition，简称ASR）模型。 ### 语言菲律宾语 ## 数据集结构 ### 数据实例 [需补充更多信息] ### 数据字段 [需补充更多信息] ### 数据划分 [需补充更多信息] ## 数据集构建 ### 数据集构建依据 [需补充更多信息] ### 源数据 #### 初始数据收集与标准化 [需补充更多信息] #### 母语数据提供者是谁？ [需补充更多信息] ### 标注信息 #### 标注流程 [需补充更多信息] #### 标注人员是谁？ [需补充更多信息] ### 个人与敏感信息 [需补充更多信息] ## 数据集使用注意事项 ### 数据集社会影响 [需补充更多信息] ### 偏差讨论 [需补充更多信息] ### 其他已知局限性 [需补充更多信息] ## 附加信息 ### 数据集维护者 [需补充更多信息] ### 许可信息商业许可：https://drive.google.com/file/d/1saDCPm74D4UWfBL17VbkTsZLGfpOQj1J/view?usp=sharing ### 引用信息 [需补充更多信息] ### 贡献

提供机构：

Nexdata

原始信息汇总

数据集概述

数据集名称

名称: Nexdata/Filipino_Speech_Data_by_Mobile_Phone

数据集描述

数据集总结

时长: 500小时
语言: 菲律宾语
内容: 由具有纯正菲律宾口音的讲话者通过移动电话录制的语音数据，文本经过人工校对，准确性高。适用于主流的Android和Apple系统手机。
详细信息: 请参考链接 https://www.nexdata.ai/datasets/1126?source=Huggingface

支持的任务和排行榜

任务: 自动语音识别（ASR）, 音频说话人识别

数据集结构

数据实例

信息: 待补充

数据字段

信息: 待补充

数据分割

信息: 待补充

数据集创建

来源数据

语言生产者: 待补充

注释

注释者: 待补充

个人和敏感信息

信息: 待补充

使用数据集的考虑

数据集的社会影响

信息: 待补充

数据集的偏见讨论

信息: 待补充

其他已知限制

信息: 待补充

附加信息

数据集管理者

信息: 待补充

许可信息

许可类型: 商业许可
许可详情: 请参考链接 https://drive.google.com/file/d/1saDCPm74D4UWfBL17VbkTsZLGfpOQj1J/view?usp=sharing

搜集汇总

数据集介绍

构建方式

Nexdata/Filipino_Speech_Data_by_Mobile_Phone数据集的构建，旨在收录具有真实菲律宾口音的菲语演讲数据。该数据集通过 Filipino 讲者使用主流安卓及苹果系统手机进行录音，确保数据的广泛适用性。录音内容经过人工校对，保证了高准确度的文本匹配。

特点

该数据集的特点在于其涵盖了500小时的菲语演讲数据，充分体现了真实的菲律宾口音。数据的人工校对过程确保了文本与语音的高度一致，适用于自动语音识别等任务。此外，数据集遵循商业许可，便于不同场景下的应用与分发。

使用方法

使用该数据集时，研究者可以依据数据集中的语音文件进行自动语音识别模型的训练，以及音频说话人识别等任务。数据集提供了详细的语音记录，用户需遵循相应的商业许可规定，以确保合法合规地利用这些资源。

背景与挑战

背景概述

Nexdata/Filipino_Speech_Data_by_Mobile_Phone数据集，是在现代语音识别技术迅速发展的背景下应运而生的重要资源。该数据集由Nexdata公司于21世纪初创建，旨在为自动语音识别（ASR）系统提供真实环境下的菲律宾语音数据。这些语音样本由具有地道菲律宾口音的讲者录制，文本经过人工校对，确保了高准确度。数据集适用于主流的Android和Apple手机系统，为语音识别技术在不同设备上的适配提供了宝贵的数据支持。

当前挑战

该数据集在构建过程中面临的挑战主要包括：确保录音质量在移动设备上的稳定性，以及在不同背景噪音下的语音识别准确性。此外，由于菲律宾语言环境的多样性，数据集的覆盖范围和代表性也是一个挑战。在研究领域问题方面，数据集需要解决如何提高移动设备上语音识别的准确性和实时性，以及在多语言环境下的语音识别干扰问题。

常用场景

经典使用场景

在自动语音识别研究领域，Nexdata/Filipino_Speech_Data_by_Mobile_Phone数据集被广泛用于训练和测试语音识别系统。其包含的500小时真实环境中由菲律宾口音人士录制的语音数据，为模型提供了丰富的语言变体和背景噪声，使得该数据集成为评估和提升模型在实际应用中性能的重要资源。

实际应用

在实际应用中，该数据集被应用于开发面向菲律宾市场的语音助手、语音翻译和车载语音识别系统等，显著提升了这些系统在菲律宾语言环境下的用户体验和性能。

衍生相关工作

基于此数据集，研究者们开展了一系列相关工作，如构建特定领域的语音识别模型、探索跨语种的语音识别技术，以及开发用于检测和减轻数据偏见的新方法，推动了语音识别领域的创新和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集