five

joujiboi/japanese-anime-speech

收藏
Hugging Face2024-06-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joujiboi/japanese-anime-speech
下载链接
链接失效反馈
官方服务:
资源简介:
Japanese Anime Speech Dataset是一个音频文本数据集,旨在训练自动语音识别模型。该数据集包含来自不同视觉小说的数千个音频片段及其对应的转录文本。其目标是提高自动语音识别模型(如OpenAI的Whisper)在准确转录动漫和其他类似日本媒体对话方面的准确性。该数据集经历了多个版本的更新,逐步增加了音频文本对的数量,并进行了内容清理和质量提升。数据集的主要来源是视觉小说,因此可能存在性别偏见和领域特定词汇等局限性。
提供机构:
joujiboi
原始信息汇总

数据集概述

基本信息

  • 名称: Japanese Anime Speech
  • 语言: 日语 (Japanese, 日本語, nihongo, ja, jp)
  • 许可: CC0-1.0
  • 大小: 10K<n<100K
  • 任务类别: 自动语音识别 (automatic-speech-recognition, asr)
  • 美观名称: Japanese-Anime-Speech

数据集特征

  • 音频:
    • 名称: audio
    • 数据类型: audio
  • 转录文本:
    • 名称: transcription
    • 数据类型: string

数据集拆分

  • 训练集:
    • 示例数量: 73,004
    • 字节数: 10,116,168,716.932
    • 下载大小: 8,832,932,312
    • 数据集大小: 10,116,168,716.932

数据集配置

  • 默认配置:
    • 数据文件路径: data/train-*

数据集详情

  • 音频-文本对数量: 73,004
  • 音频时长: 110小时
  • 平均音频长度: 5.4秒
  • 来源: 直接从视觉小说游戏文件中抓取的转录文本
  • 最新版本: V5 - 2024年3月22日

版本历史

  • V1: 包含16,143个音频-文本对,来自视觉小说IxSHE Tell
  • V2: 包含23,422个音频-文本对,来自三个不同的视觉小说,音频格式为mp3。
  • V3: 包含38,325个音频-文本对,来自五个不同的视觉小说,进行了彻底的清理。
  • V4: 包含47,844个音频-文本对,来自六个不同的视觉小说,进行了彻底的清理。
  • V5: 包含73,004个音频-文本对,来自八个不同的视觉小说,进行了彻底的清理。

偏差与限制

  • 主要来源: 视觉小说,可能导致性别偏差和特定领域的词汇偏差。
  • 音频特性: 专业制作,语音清晰且较慢,可能不完全反映现实世界的说话模式。

使用与致谢

  • 使用许可: 开放供商业或非商业用途使用。
  • 致谢: 使用时建议通过超链接致谢。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作