Galgame_Speech_ASR_16kHz|自动语音识别数据集|日语语音数据集
收藏Galgame_Speech_ASR_16kHz 数据集概述
基本信息
- 语言: 日语
- 许可证: GPL-3.0
- 多语言性: 单语种
- 数据集名称: Galgame_Speech_ASR_16kHz
- 数据量: 1M<n<10M
- 任务类别: 自动语音识别
- 标签: 语音, 音频, 文本, 日语, 动漫, 声音, 视觉小说, 美少女游戏
数据集详情
- 大小:
- 3,746,321 个音频文件(均带有转录文本)
- 总计 5,355 小时
- 115 个 tar 文件,总计 100.16 GB,每个 tar 文件(除最后一个外)包含 32,768 个音频-文本对(OGG 和 TXT 文件),每个 tar 文件约 897 MB
- 语言: 日语
- 格式:
- WebDataset 格式
- 16kHz, 16-bit, 单声道 OGG 文件
数据集描述
- 大小: 3,746,321 个音频-文本对,5,355 小时,100GB
- 语言: 日语
- 格式: 16kHz, 16-bit, 单声道 OGG
数据集来源
所有音频文件和转录文本均来自 OOPPEENN/Galgame_Dataset。
修改内容
- 将音频文件重新采样为 16kHz OGG 格式(音量调整为 x0.9 以避免剪切)
- 使用随机 SHA-256 类似的哈希重命名所有文件
- 排除具有多个不同转录文本的音频文件
- 对转录文本进行归一化处理并根据结果过滤音频文件
使用场景
直接使用
- 微调 ASR 模型,如 Whisper,用于日语动漫类语音领域
- 训练 ASR 模型用于 NSFW 领域(如 aegi 和 chupa 声音),Whisper 和其他 ASR 模型大多无法识别
超出范围的使用
- 不适合用于 TTS(文本到语音)和 VC(语音转换),因为音频质量较低(16kHz)
数据集结构
- 数据集采用 WebDataset 格式
- 包含
galgame-speech-asr-16kHz-train-{000000..000114}.tar
文件 - 每个 tar 文件包含音频(OGG)和文本(TXT)文件,文件名相同(SHA-256 类似的哈希)
如何使用
- 使用 🤗 Datasets 库加载数据集时,设置
streaming=True
以避免一次性下载整个数据集
数据集创建动机
- 希望获得一个大规模的日语音频-文本对 ASR 语料库,用于动漫类语音领域,由专业声优配音,且转录文本准确率 100%
- 个人对 Whisper 无法识别 Galgame 中的 aegi 和 chupa 声音感到沮丧,因此希望训练一个能够识别这些声音的 ASR 模型
偏见、风险和局限性
- 数据集源自(动漫类)Galgame,因此语音与日常生活中的常规表达有很大不同
- 数据集包含 NSFW 音频(aegi 和 chupa)和台词,不适合所有受众
- 数据集不适合用于 TTS 和 VC,因为音频质量较低(16kHz)
- 数据集中女性声音多于男性声音,这可能会在基于该数据集训练的模型中引入性别偏见

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
广东省标准地图
该数据类主要为广东省标准地图信息。标准地图依据中国和世界各国国界线画法标准编制而成。该数据包括广东省全图、区域地图、地级市地图、县(市、区)地图、专题地图、红色印迹地图等分类。
开放广东 收录
LPW
Labeled Pedestrian in the Wild (LPW) 是一个行人检测数据集,其中包含三个不同场景中的 2,731 名行人,每个带注释的身份由 2 到 4 个摄像头捕获。 LPW 具有 7,694 个轨迹的显着规模,包含超过 590,000 张图像以及轨迹的清洁度。它在三个方面区别于现有数据集:大规模清洁、自动检测边界框以及更拥挤的场景和更大的年龄跨度。该数据集提供了更现实和更具挑战性的基准,有助于进一步探索更强大的算法。
OpenDataLab 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录