five

Galgame_Speech_ASR_16kHz|自动语音识别数据集|日语语音数据集

收藏
huggingface2024-10-10 更新2024-12-12 收录
自动语音识别
日语语音
下载链接:
https://huggingface.co/datasets/litagin/Galgame_Speech_ASR_16kHz
下载链接
链接失效反馈
资源简介:
Galgame_Speech_ASR_16kHz 数据集是一个从视觉小说(Galgames)中提取的日语语音数据集,专门用于训练自动语音识别(ASR)模型。该数据集包含3,746,321个音频-文本对,总计5,355小时,大小为100.16 GB。数据集采用WebDataset格式,音频文件为16kHz、16位、单声道OGG格式。该数据集旨在微调ASR模型,如Whisper,特别适用于日语动漫风格的语音领域,包括NSFW内容。然而,由于音频质量较低(16kHz),该数据集不适用于文本到语音(TTS)或语音转换(VC)。数据集根据GNU通用公共许可证v3.0授权,并附加了禁止商业使用的限制,除非获得数据集中列出的所有提供商的明确许可。
创建时间:
2024-10-10
原始信息汇总

Galgame_Speech_ASR_16kHz 数据集概述

基本信息

  • 语言: 日语
  • 许可证: GPL-3.0
  • 多语言性: 单语种
  • 数据集名称: Galgame_Speech_ASR_16kHz
  • 数据量: 1M<n<10M
  • 任务类别: 自动语音识别
  • 标签: 语音, 音频, 文本, 日语, 动漫, 声音, 视觉小说, 美少女游戏

数据集详情

  • 大小:
    • 3,746,321 个音频文件(均带有转录文本)
    • 总计 5,355 小时
    • 115 个 tar 文件,总计 100.16 GB,每个 tar 文件(除最后一个外)包含 32,768 个音频-文本对(OGG 和 TXT 文件),每个 tar 文件约 897 MB
  • 语言: 日语
  • 格式:
    • WebDataset 格式
    • 16kHz, 16-bit, 单声道 OGG 文件

数据集描述

  • 大小: 3,746,321 个音频-文本对,5,355 小时,100GB
  • 语言: 日语
  • 格式: 16kHz, 16-bit, 单声道 OGG

数据集来源

所有音频文件和转录文本均来自 OOPPEENN/Galgame_Dataset

修改内容

  • 将音频文件重新采样为 16kHz OGG 格式(音量调整为 x0.9 以避免剪切)
  • 使用随机 SHA-256 类似的哈希重命名所有文件
  • 排除具有多个不同转录文本的音频文件
  • 对转录文本进行归一化处理并根据结果过滤音频文件

使用场景

直接使用

  • 微调 ASR 模型,如 Whisper,用于日语动漫类语音领域
  • 训练 ASR 模型用于 NSFW 领域(如 aegi 和 chupa 声音),Whisper 和其他 ASR 模型大多无法识别

超出范围的使用

  • 不适合用于 TTS(文本到语音)和 VC(语音转换),因为音频质量较低(16kHz)

数据集结构

  • 数据集采用 WebDataset 格式
  • 包含 galgame-speech-asr-16kHz-train-{000000..000114}.tar 文件
  • 每个 tar 文件包含音频(OGG)和文本(TXT)文件,文件名相同(SHA-256 类似的哈希)

如何使用

  • 使用 🤗 Datasets 库加载数据集时,设置 streaming=True 以避免一次性下载整个数据集

数据集创建动机

  • 希望获得一个大规模的日语音频-文本对 ASR 语料库,用于动漫类语音领域,由专业声优配音,且转录文本准确率 100%
  • 个人对 Whisper 无法识别 Galgame 中的 aegi 和 chupa 声音感到沮丧,因此希望训练一个能够识别这些声音的 ASR 模型

偏见、风险和局限性

  • 数据集源自(动漫类)Galgame,因此语音与日常生活中的常规表达有很大不同
  • 数据集包含 NSFW 音频(aegi 和 chupa)和台词,不适合所有受众
  • 数据集不适合用于 TTS 和 VC,因为音频质量较低(16kHz)
  • 数据集中女性声音多于男性声音,这可能会在基于该数据集训练的模型中引入性别偏见
AI搜集汇总
数据集介绍
main_image_url
构建方式
Galgame_Speech_ASR_16kHz数据集源自日本视觉小说(Galgame)的语音数据,专为训练自动语音识别(ASR)模型而设计。该数据集基于OOPPEENN/Galgame_Dataset进行二次开发,经过一系列修改以适应ASR任务。具体修改包括将音频文件重采样为16kHz的OGG格式,使用随机SHA-256哈希重命名文件,并排除具有多个不同转录的音频文件。此外,转录文本经过规范化处理,删除了不必要的符号和重复字符,仅保留日文平假名、片假名、汉字、字母、数字及特定符号。
特点
该数据集包含3,746,131个音频-文本对,总时长达5,353.9小时,数据量约为100GB。所有音频文件均为16kHz、16位单声道OGG格式,转录文本经过严格规范化处理,确保100%的准确性。数据集以WebDataset格式存储,包含115个tar文件,每个文件约包含32,768个音频-文本对。数据集的语音内容主要来自日本视觉小说中的专业配音演员,具有浓厚的动漫风格,尤其适合训练识别动漫语音的ASR模型。
使用方法
使用该数据集时,可通过Hugging Face的Datasets库加载,设置`streaming=True`以避免一次性下载整个数据集。数据集适用于微调Whisper等ASR模型,尤其适合处理动漫风格的日语语音。此外,数据集还可用于训练识别NSFW领域(如aegi和chupa语音)的ASR模型,但需注意其音频质量较低,不适合用于文本到语音(TTS)或语音转换(VC)任务。
背景与挑战
背景概述
Galgame_Speech_ASR_16kHz数据集是一个专注于日语视觉小说(Galgame)领域的语音识别数据集,旨在为自动语音识别(ASR)模型如Whisper提供训练数据。该数据集由OOPPEENN/Galgame_Dataset衍生而来,经过重新采样和文本规范化处理,以适应ASR任务的需求。数据集创建于2024年,主要研究人员通过从原始数据集中筛选和修改音频文件,生成了3,746,131个音频-文本对,总时长达到5,353.9小时。该数据集的发布为日语语音识别领域,尤其是动漫风格语音的识别提供了重要的资源支持。
当前挑战
Galgame_Speech_ASR_16kHz数据集面临的主要挑战包括:1)领域问题的挑战,即如何准确识别动漫风格语音,尤其是NSFW(非适合工作场所)内容中的特殊语音(如aegi和chupa),这些语音在现有ASR模型中往往难以识别;2)构建过程中的挑战,包括音频文件的重新采样、文本规范化以及数据筛选,特别是处理长音频文件和多转录文本的复杂性。此外,数据集的低音频质量(16kHz)限制了其在文本到语音(TTS)和语音转换(VC)任务中的应用。
常用场景
经典使用场景
Galgame_Speech_ASR_16kHz数据集专为训练日语自动语音识别(ASR)模型而设计,尤其适用于处理日本视觉小说(Galgame)中的语音数据。该数据集包含了大量由专业声优录制的日语语音及其对应的文本转录,适用于训练如Whisper等ASR模型,特别是在处理动漫风格语音时表现出色。
实际应用
在实际应用中,Galgame_Speech_ASR_16kHz数据集可用于开发针对日本视觉小说和动漫内容的语音识别系统。这些系统可以应用于游戏开发、动漫制作以及相关娱乐产业,帮助自动生成字幕或进行语音驱动的交互设计。此外,该数据集还可用于教育领域,帮助学习者通过语音识别技术提高日语听力能力。
衍生相关工作
基于Galgame_Speech_ASR_16kHz数据集,许多相关研究工作得以展开。例如,研究人员利用该数据集训练了专门针对动漫风格语音的ASR模型,显著提升了模型在识别特定语音类型时的准确性。此外,该数据集还催生了一系列关于语音识别模型优化的研究,特别是在处理低质量音频和复杂语音模式时的技术改进。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

广东省标准地图

该数据类主要为广东省标准地图信息。标准地图依据中国和世界各国国界线画法标准编制而成。该数据包括广东省全图、区域地图、地级市地图、县(市、区)地图、专题地图、红色印迹地图等分类。

开放广东 收录

LPW

Labeled Pedestrian in the Wild (LPW) 是一个行人检测数据集,其中包含三个不同场景中的 2,731 名行人,每个带注释的身份由 2 到 4 个摄像头捕获。 LPW 具有 7,694 个轨迹的显着规模,包含超过 590,000 张图像以及轨迹的清洁度。它在三个方面区别于现有数据集:大规模清洁、自动检测边界框以及更拥挤的场景和更大的年龄跨度。该数据集提供了更现实和更具挑战性的基准,有助于进一步探索更强大的算法。

OpenDataLab 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录