Neyshekar

github2025-12-29 更新2026-01-05 收录

下载链接：

https://github.com/amirivojdan/neyshekar

下载链接

链接失效反馈

官方服务：

资源简介：

Neyshekar是一个开放的、社区驱动的波斯语语音数据集，通过基于网络的众包平台收集。它旨在支持文本到语音（TTS）、自动语音识别（ASR）、语音表示学习和其他波斯语语音应用的研究和开发。

Neyshekar is an open, community-driven Persian speech dataset collected via web-based crowdsourcing platforms. It aims to support research and development for Text-to-Speech (TTS), Automatic Speech Recognition (ASR), speech representation learning, and other Persian speech applications.

创建时间：

2025-12-28

原始信息汇总

Neyshekar 数据集概述

数据集简介

Neyshekar 是一个开放的、社区驱动的波斯语语音数据集，通过基于网络的众包平台收集。该数据集旨在支持文本到语音、自动语音识别、语音表示学习以及其他波斯语语音应用的研究与开发。

数据收集与构成

收集方式：通过基于网络的众包平台（https://ney.shekar.io）收集。
贡献者：由志愿者贡献者和付费配音演员共同提供，所有贡献者均为波斯语母语者。
发布原则：每个版本代表数据集的一个稳定快照，以确保研究的可重复性和基准测试的一致性。

数据集版本

v1 — 2025-12-29

下载链接：https://doi.org/10.5281/zenodo.18073632
总样本数：10,044
总时长：14.42 小时
平均片段时长：5.17 秒
总词元数：103,757
词汇量大小：15,224

许可信息

本数据集采用 CC0 1.0 Universal 许可证发布。允许出于任何目的使用、修改和重新分发，无任何限制。

搜集汇总

数据集介绍

构建方式

在波斯语语音技术蓬勃发展的背景下，Neyshekar数据集通过一个基于网络的众包平台精心构建而成。该平台吸引了众多母语为波斯语的志愿者和职业配音演员共同参与录音，确保了语音样本的多样性与真实性。数据采集过程遵循严格的规范，旨在为文本转语音、语音识别等研究领域提供高质量的语音语料。每个发布版本都代表了数据集在特定时间点的稳定快照，从而保障了科学研究的可复现性与基准测试的一致性。

特点

作为一项开放的社区驱动资源，Neyshekar数据集以其规模与质量著称。其首个版本包含了超过一万个语音样本，总时长约14.4小时，平均每个语音片段持续约5秒，涵盖了丰富的文本内容与超过一万五千个词汇。数据集采用CC0 1.0通用许可协议发布，允许用户出于任何目的自由使用、修改和再分发，极大地降低了学术与工业界的研究门槛。这种开放性与大规模特性使其成为推动波斯语语音应用发展的关键基础设施。

使用方法

研究人员和开发者可直接从指定的数据仓储下载数据集的稳定版本。该数据集主要服务于文本转语音、自动语音识别以及语音表示学习等下游任务。用户在处理时，需注意每个发布版本均为独立快照，建议在实验报告中明确标注所用版本号以确保结果的可比性。得益于其开放的许可协议，该数据集可无缝集成至各类机器学习流水线中，用于模型训练、评估与基准测试。

背景与挑战

背景概述

随着人工智能在语音处理领域的深入发展，波斯语作为全球重要语言之一，其语音资源的稀缺性日益凸显。Neyshekar数据集于2025年由社区驱动创建，通过基于网络的众包平台收集，旨在支持文本到语音合成、自动语音识别及语音表示学习等研究方向。该数据集结合志愿者与专业配音演员的贡献，以原生波斯语音频为核心，为波斯语语音技术提供了可重复研究的稳定基准，推动了相关领域的技术创新与应用拓展。

当前挑战

在波斯语语音处理领域，数据稀缺与多样性不足长期制约着模型性能的提升。Neyshekar数据集致力于解决这一核心问题，但构建过程中面临诸多挑战：如何确保音频质量的一致性与发音的准确性，如何在众包采集环境下维护数据的平衡性与代表性，以及如何设计有效的标注流程以支持复杂的下游任务，这些都需要精细的技术规划与质量控制。

常用场景

经典使用场景

在波斯语语音技术领域，Neyshekar数据集为文本到语音合成系统的开发提供了关键支持。研究者利用其高质量的录音样本，训练深度神经网络模型以生成自然流畅的波斯语语音，这些模型能够捕捉语言中的韵律和音色特征，推动个性化语音合成技术的进步。

解决学术问题

该数据集有效解决了波斯语语音资源匮乏的学术挑战，为自动语音识别研究提供了标准化的训练与测试基准。通过覆盖丰富的词汇和语音变体，它支持跨方言和口音的模型泛化能力研究，促进了低资源语言语音技术的公平发展。

衍生相关工作

基于Neyshekar数据集，学术界衍生出多项经典工作，包括端到端的波斯语语音识别模型和跨语言语音表示学习框架。这些研究不仅优化了波斯语语音处理的性能指标，还为多语言语音技术的融合创新提供了实证基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集