797-Hours-Hindi-Spontaneous-Dialogue-Smartphone-speech-dataset

github2024-04-19 更新2024-05-31 收录

下载链接：

https://github.com/Nexdata-AI/797-Hours-Hindi-Spontaneous-Dialogue-Smartphone-speech-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

印度语（印度）自发对话智能手机语音数据集，基于给定话题收集的对话，涵盖20多个领域。转录文本内容、说话人ID、性别、年龄和其他属性。我们的数据集由1002名多样化母语者收集，地理上增强模型在真实和复杂任务中的性能。由多家AI公司质量测试。我们严格遵守数据保护法规和隐私标准，确保在整个数据收集、存储和使用过程中维护用户隐私和法律权利，我们的数据集均符合GDPR、CCPA、PIPL标准。

The Hindi (India) Spontaneous Dialogue Smartphone Voice Dataset is a collection of conversations based on given topics, covering more than 20 domains. It includes transcribed text content, speaker IDs, gender, age, and other attributes. Our dataset was gathered from 1002 diverse native speakers, geographically enhancing the model's performance in real and complex tasks. It has undergone quality testing by multiple AI companies. We strictly adhere to data protection regulations and privacy standards, ensuring the maintenance of user privacy and legal rights throughout the data collection, storage, and usage processes. Our dataset complies with GDPR, CCPA, and PIPL standards.

创建时间：

2024-04-19

原始信息汇总

797-Hours-Hindi-Spontaneous-Dialogue-Smartphone-speech-dataset

数据集描述

本数据集包含来自印度的自发对话智能手机语音数据，涵盖20多个领域的话题对话。数据集由1,022名本地发言人提供，其中49%为男性，51%为女性。数据已转录，包含文本内容、发言人ID、性别、年龄等属性。所有数据均遵守GDPR、CCPA、PIPL等数据保护法规和隐私标准。

数据格式

采样率：16kHz
位深度：16 bit
格式：wav
声道：单声道

内容类别

基于给定话题的对话

录音条件

低背景噪声（室内）

录音设备

Android智能手机
iPhone

发言人信息

总数：1,022名本地发言人
性别比例：男性49%，女性51%

国家

印度（IND）

语言（地区）代码

hi-IN

语言

印地语

标注特征

转录文本
时间戳
发言人ID
性别
个人识别信息（PII）已删除

准确率

句子准确率（SAR）95%

许可信息

商业许可

搜集汇总

数据集介绍

构建方式

该数据集通过精心设计的对话主题，涵盖了20多个领域，从1,022名母语为印地语的说话者中收集了797小时的智能手机语音数据。数据采集过程中，严格遵守数据保护法规和隐私标准，确保用户隐私和法律权利得到充分保护。录音环境为低背景噪声的室内条件，使用Android智能手机和iPhone进行录制，格式为16kHz、16位、单声道wav文件。

特点

此数据集的显著特点在于其广泛的地理覆盖和多样化的说话者群体，包括49%的男性和51%的女性，从而增强了模型在复杂任务中的表现。数据集经过多家AI公司的质量测试，句子准确率（SAR）达到95%。此外，数据集的标注信息丰富，包括转录文本、时间戳、说话者ID、性别等，且所有个人身份信息（PII）均已进行脱敏处理。

使用方法

该数据集适用于语音识别、自然语言处理等领域的研究和开发，特别适合用于训练和评估印地语语音识别模型。使用时，用户可以访问16kHz、16位、单声道wav格式的音频文件，并结合提供的转录文本、时间戳、说话者ID和性别等信息进行分析。数据集的丰富标注和高质量录音条件使其成为提升模型性能的理想选择。

背景与挑战

背景概述

随着语音识别技术的快速发展，尤其是针对非英语语言的语音识别需求日益增长，印地语作为印度的重要语言，其语音数据集的构建显得尤为关键。797-Hours-Hindi-Spontaneous-Dialogue-Smartphone-speech-dataset由NexData公司主导，汇集了1,022名母语者的自然对话数据，涵盖20多个领域，旨在提升印地语语音识别模型的性能。该数据集不仅提供了高质量的语音数据，还包含了详细的转录文本、说话者ID、性别、年龄等属性信息，确保了数据的多样性和实用性。此外，该数据集严格遵守数据保护法规，符合GDPR、CCPA和PIPL等隐私标准，确保用户隐私和法律权益得到充分保护。

当前挑战

该数据集在构建过程中面临多项挑战。首先，收集自然对话数据需要确保对话的真实性和多样性，这要求数据采集过程必须覆盖广泛的地理区域和不同背景的说话者。其次，转录和标注过程需要高度精确，以确保语音与文本的准确匹配，从而提高模型的训练效果。此外，如何在保护用户隐私的前提下，确保数据的合法使用，也是该数据集面临的重要挑战。最后，由于印地语的复杂性和多样性，如何有效处理方言和口音差异，进一步提升模型的泛化能力，也是该数据集需要解决的关键问题。

常用场景

经典使用场景

797-Hours-Hindi-Spontaneous-Dialogue-Smartphone-speech-dataset 在语音识别和自然语言处理领域具有广泛的应用。该数据集通过收集来自1,022名母语者的自发对话，涵盖20多个领域，为模型训练提供了丰富的语料资源。其经典使用场景包括构建和优化针对印度语（Hindi）的语音识别系统，特别是在智能手机应用中，如语音助手、语音输入法和实时翻译服务等。

实际应用

在实际应用中，该数据集支持开发面向印度市场的智能语音产品，如语音控制的智能家居设备、车载语音系统和多语言翻译工具。这些应用不仅提升了用户体验，还促进了语音技术在印度语地区的普及和商业化。

衍生相关工作

基于此数据集，研究者们开展了多项经典工作，包括开发针对印度语的端到端语音识别模型、多任务学习框架以及跨语言迁移学习方法。这些工作不仅提升了语音识别的准确性，还为其他低资源语言的语音识别研究提供了宝贵的参考和方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集