AICA corpus(あいかコーパス)
收藏github2026-05-10 更新2026-05-12 收录
下载链接:
https://github.com/reinehonoka/aica-corpus
下载链接
链接失效反馈官方服务:
资源简介:
AI Character Audio corpus(AI角色音频语料库)——一个专门针对AI角色、填充词、笑声和情感表达的日语TTS语料库。AICA是一个包含500个句子的日语文本语料库,主要用于语音克隆和语音合成模型的微调。与现有的公共领域日语语料库(如ITA、MANA、ROHAN)侧重于通用朗读句子不同,AICA专门设计用于再现AI助手风格角色语音所需的表现形式。语料库包括时间段的日常对话、闲聊、IT系统词汇、外来语、各种填充词、笑声、短肯定/否定回答、系统状态报告、情感表达等类别。该语料库仅包含文本,不包含人类朗读的音频。
AI Character Audio Corpus (AICA) — a Japanese TTS corpus specifically designed for AI characters, filler words, laughter, and emotional expressions. AICA is a Japanese text corpus consisting of 500 sentences, primarily utilized for fine-tuning voice cloning and speech synthesis models. In contrast to existing public-domain Japanese corpora (e.g., ITA, MANA, ROHAN) that focus on generic readout sentences, AICA is specially developed to reproduce the vocal expressions required for AI assistant-style character voices. The corpus covers categories including daily dialogues across different time periods, small talk, IT system vocabulary, loanwords, various filler words, laughter, short affirmative/negative responses, system status reports, emotional expressions, and more. This corpus exclusively contains textual content, with no human-narrated audio files included.
创建时间:
2026-05-10
原始信息汇总
AICA 语料库(あいかコーパス)
概述
AICA(AI Character Audio corpus)是一个专为语音克隆和语音合成模型微调设计的500句日语文本语料库。与已有的通用型日语语料库(ITA、MANA、ROHAN)不同,AICA 专注于再现 AI 助手类角色语音所需的表达类型。
文件构成
| 文件 | 内容 |
|---|---|
aica.txt |
纯文本(每行一句) |
aica_list.txt |
带编号列表(格式:`0001 |
语料库构成(500句)
| 编号范围 | 类别 |
|---|---|
| 0001–0040 | 按时间段划分的日常对话(早、午、晚) |
| 0041–0060 | 闲聊·生活方式 |
| 0061–0080 | IT·系统相关词汇 |
| 0081–0100 | 外来语·片假名语音覆盖 |
| 0101–0130 | 填充词「うーん」系 |
| 0131–0160 | 填充词「えー/えっと」系 |
| 0161–0190 | 填充词「あー/あっと」系 |
| 0191–0250 | 自言自语·思考动摇·不确定话语 |
| 0251–0280 | 笑声「あはは」系 |
| 0281–0310 | 笑声「うふふ」系 |
| 0311–0340 | 笑声「えへへ」系 |
| 0341–0350 | 笑声「おほほ/にひひ/くふふ」系 |
| 0351–0390 | 简短肯定·否定·拒绝回应 |
| 0391–0410 | 系统状态报告 |
| 0411–0450 | 询问·观察·独白 |
| 0451–0475 | 情感·关系线 |
| 0476–0500 | 技术指令式叙述 |
预期用途
- AI 角色语音的语音克隆转换文本
- TTS·VC 模型的微调文本
- 包含填充词和情感表达的模型学习与评估
注意:本语料库仅为文本形式,不包含人类朗读的音频。
许可协议
CC0 1.0 通用(公共领域) — 可自由用于商业和非商业用途。
与 VoiceDesignCloner 的联动
AICA 可配合 VoiceDesignCloner 的“语料库批量语音化”功能,一键批量生成 AI 角色语音的学习数据。
搜集汇总
数据集介绍

构建方式
AICA语料库(あいかコーパス)是为AI角色语音克隆与语音合成模型微调而精心设计的日语文本语料库,内含500句精心编排的句子。其构建方式有别于ITA、MANA、ROHAN等面向通用朗读文本的公共语料库,而是聚焦于再现AI助手型角色语音所必需的语言表达。语料库按功能划分为17个类别,涵盖不同时间段的日常对话、杂谈、IT系统术语、外来语音韵覆盖、多种类型的填充词(如“うーん”“えー”系列)、笑声音效(如“あはは”“うふふ”系列)、独白与思考波动、肯定否定应答、系统状态报告、情感关系表达及技术指令叙述等,每个类别分配特定数量的句子,从而系统性地覆盖角色语音的关键场景与语言现象。
特点
该语料库的核心特点在于其高度针对性与结构化的分类设计。它专门围绕AI角色语音中频繁出现的填充词、笑声音效、情感表达及非正式对话等元素进行构建,弥补了现有通用语料库在这些领域的不足。通过精细划分的17个类别,语料库能够确保语音模型在学习过程中均衡地接触到日常对话、技术术语、情绪化语言和各类副语言现象,从而生成更具表现力与自然感的角色语音。此外,所有文本均采用CC0 1.0通用公共领域许可,完全开放用于商业与非商业用途,无任何使用限制,极大降低了研究与应用的门槛。
使用方法
使用AICA语料库时,研究者可直接将其文本内容作为语音克隆或TTS模型微调的输入数据。语料库提供两种文件格式:aica.txt包含纯文本(一行一句),便于直接读取;aica_list.txt则提供带有编号的列表(格式为“0001|文本”),方便索引与批量处理。特别地,该语料库与VoiceDesignCloner工具深度整合,用户可通过该工具的“语料库一括音声化”功能,无需手动录音即可一键将全部500句文本批量转换为语音学习数据,高效生成AI角色语音克隆的训练素材。用户可根据具体模型需求,选择全部或部分类别句子进行针对性训练。
背景与挑战
背景概述
AICA corpus(あいかコーパス)发布于2023年,由研究者Reine Honoka及其团队开发,专注于日语语音克隆与文本转语音(TTS)模型的微调任务。该数据集旨在弥合现有公共日语语料库(如ITA、MANA、ROHAN)在虚拟角色语音再现中的不足,核心研究问题是如何高效生成包含拟声词、笑声、情感表达及系统指令等特征的语音训练文本。通过精心设计的500句分级结构,它覆盖了日常对话、填充词、笑声及情感交互等独特范畴,为智能助手和娱乐领域的高表现力语音合成提供了标准化资源,显著推动了日语角色语音克隆技术的发展与普及。
当前挑战
该数据集面临的挑战主要包括:1)领域问题层面,现有日语TTS系统难以自然模拟角色语音中的细微情感波动与非语言成分(如讽刺、犹豫),而AI助手场景要求模型能精准再现填充词(如“うーん”)、笑声(如“あはは”)等动态声学特征,这些在传统语料中基本缺失;2)构建过程中,需克服纯文本语料无配套音频的局限,避免语音标注的主观歧义,同时确保有限500句样本在音韵覆盖与情感多样性间取得平衡,以适配多元化的角色设计需求。
常用场景
经典使用场景
AICA语料库(あいかコーパス)作为专为AI角色语音克隆与TTS模型微调设计的日语文本语料库,其经典使用场景聚焦于生成具有拟人化特征的角色语音。该语料库包含500句精心设计的文本,涵盖时间区分下的日常对话、IT系统术语、外来语语音覆盖,以及丰富的填充词(如「うーん」「えっと」)、笑声(如「あはは」「うふふ」)和情感表达。研究者可通过此类文本训练或微调语音合成模型,精准复现AI助手类角色在自然交流中的迟疑、愉悦、确认等细微语音特征,从而突破传统泛用型语料库(如ITA·MANA·ROHAN)在角色语音个性化方面的局限。
衍生相关工作
围绕AICA语料库的衍生工作主要体现在语音合成与角色建模的交叉创新中。一方面,研究者将其与端到端TTS模型(如Tacotron、FastSpeech)结合,探索填充词注入对韵律控制的影响;另一方面,VoiceDesignCloner等配套工具的出现,催生了无需专业录音环境的低成本角色声音克隆工作流。此外,该语料库的文本分类结构启发了跨语种情感语音数据集的构建,例如扩展英语或中文中的笑声与填充词标注体系。后续研究亦利用其与心理语言学理论融合,分析不同笑声类型(如「あはは」与「うふふ」)在机器表达中的社会语义印记,推动了情感计算与人文语音学的对话。
数据集最近研究
最新研究方向
随着生成式人工智能在语音交互领域的爆发式增长,AI角色语音的个性化和情感化成为前沿热点。AICA corpus应运而生,它突破传统日语TTS语料库(如ITA·MANA·ROHAN)的通用化局限,专注于填充词(フィラー)、笑声及情感化表达的精细建模。该数据集与VoiceDesignCloner工具链深度耦合,可一键生成高质量语音克隆训练数据,显著降低了零样本TTS模型在虚拟助手、角色扮演场景中的微调门槛。这一创新不仅推动了日语情感语音合成从技术验证迈向工业级应用,也为跨模态人机交互中自然化、人格化AI角色的落地提供了关键数据基石。
以上内容由遇见数据集搜集并总结生成



