five

czyzi0/luna-speech-dataset

收藏
Hugging Face2024-03-26 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/czyzi0/luna-speech-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该语音数据集包含10385个短音频片段,这些片段是多个说话者用波兰语进行的对话。每个片段都有转录,部分数据集还提供了说话者的性别信息。片段的总长度接近10小时。该数据集是从LUNA数据集中创建的,该数据集涉及公共交通话题的人-人和人-机对话。后处理包括提取包含人类语音的片段及其转录。

该语音数据集包含10385个短音频片段,这些片段是多个说话者用波兰语进行的对话。每个片段都有转录,部分数据集还提供了说话者的性别信息。片段的总长度接近10小时。该数据集是从LUNA数据集中创建的,该数据集涉及公共交通话题的人-人和人-机对话。后处理包括提取包含人类语音的片段及其转录。
提供机构:
czyzi0
原始信息汇总

数据集概述

基本信息

  • 许可证: BSD-2-Clause
  • 任务类别: 自动语音识别
  • 语言: 波兰语
  • 数据集名称: LUNA
  • 大小范围: 10K<n<100K

数据集特征

  • 音频:
    • 采样率: 16000 Hz
  • 转录文本: 字符串类型
  • 性别: 字符串类型
  • ID: 字符串类型

数据集划分

  • 训练集:
    • 示例数量: 10385
    • 数据大小: 1068204279.3 字节
    • 下载大小: 1135905315 字节

数据集描述

  • 包含10385个短音频片段,内容为多人在波兰语环境下的对话。
  • 每个音频片段均附有转录文本,部分数据还提供了说话者的性别信息。
  • 总时长近10小时。

数据来源

  • 该数据集源自LUNA数据集,主要涉及公共交通主题的人机和人际对话。
  • 原始数据可通过此链接获取。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作