AICA corpus（あいかコーパス）

github2026-05-10 更新2026-05-12 收录

下载链接：

https://github.com/reinehonoka/aica-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

AI Character Audio corpus（AI角色音频语料库）——一个专门针对AI角色、填充词、笑声和情感表达的日语TTS语料库。AICA是一个包含500个句子的日语文本语料库，主要用于语音克隆和语音合成模型的微调。与现有的公共领域日语语料库（如ITA、MANA、ROHAN）侧重于通用朗读句子不同，AICA专门设计用于再现AI助手风格角色语音所需的表现形式。语料库包括时间段的日常对话、闲聊、IT系统词汇、外来语、各种填充词、笑声、短肯定/否定回答、系统状态报告、情感表达等类别。该语料库仅包含文本，不包含人类朗读的音频。

AI Character Audio Corpus (AICA) — a Japanese TTS corpus specifically designed for AI characters, filler words, laughter, and emotional expressions. AICA is a Japanese text corpus consisting of 500 sentences, primarily utilized for fine-tuning voice cloning and speech synthesis models. In contrast to existing public-domain Japanese corpora (e.g., ITA, MANA, ROHAN) that focus on generic readout sentences, AICA is specially developed to reproduce the vocal expressions required for AI assistant-style character voices. The corpus covers categories including daily dialogues across different time periods, small talk, IT system vocabulary, loanwords, various filler words, laughter, short affirmative/negative responses, system status reports, emotional expressions, and more. This corpus exclusively contains textual content, with no human-narrated audio files included.

创建时间：

2026-05-10

原始信息汇总

AICA 语料库（あいかコーパス）

概述

AICA（AI Character Audio corpus）是一个专为语音克隆和语音合成模型微调设计的500句日语文本语料库。与已有的通用型日语语料库（ITA、MANA、ROHAN）不同，AICA 专注于再现 AI 助手类角色语音所需的表达类型。

文件构成

文件	内容
`aica.txt`	纯文本（每行一句）
`aica_list.txt`	带编号列表（格式：`0001

语料库构成（500句）

编号范围	类别
0001–0040	按时间段划分的日常对话（早、午、晚）
0041–0060	闲聊·生活方式
0061–0080	IT·系统相关词汇
0081–0100	外来语·片假名语音覆盖
0101–0130	填充词「うーん」系
0131–0160	填充词「えー/えっと」系
0161–0190	填充词「あー/あっと」系
0191–0250	自言自语·思考动摇·不确定话语
0251–0280	笑声「あはは」系
0281–0310	笑声「うふふ」系
0311–0340	笑声「えへへ」系
0341–0350	笑声「おほほ/にひひ/くふふ」系
0351–0390	简短肯定·否定·拒绝回应
0391–0410	系统状态报告
0411–0450	询问·观察·独白
0451–0475	情感·关系线
0476–0500	技术指令式叙述

预期用途

AI 角色语音的语音克隆转换文本
TTS·VC 模型的微调文本
包含填充词和情感表达的模型学习与评估

注意：本语料库仅为文本形式，不包含人类朗读的音频。

许可协议

CC0 1.0 通用（公共领域） — 可自由用于商业和非商业用途。

与 VoiceDesignCloner 的联动

AICA 可配合 VoiceDesignCloner 的“语料库批量语音化”功能，一键批量生成 AI 角色语音的学习数据。

搜集汇总

数据集介绍

构建方式

AICA语料库（あいかコーパス）是为AI角色语音克隆与语音合成模型微调而精心设计的日语文本语料库，内含500句精心编排的句子。其构建方式有别于ITA、MANA、ROHAN等面向通用朗读文本的公共语料库，而是聚焦于再现AI助手型角色语音所必需的语言表达。语料库按功能划分为17个类别，涵盖不同时间段的日常对话、杂谈、IT系统术语、外来语音韵覆盖、多种类型的填充词（如“うーん”“えー”系列）、笑声音效（如“あはは”“うふふ”系列）、独白与思考波动、肯定否定应答、系统状态报告、情感关系表达及技术指令叙述等，每个类别分配特定数量的句子，从而系统性地覆盖角色语音的关键场景与语言现象。

特点

该语料库的核心特点在于其高度针对性与结构化的分类设计。它专门围绕AI角色语音中频繁出现的填充词、笑声音效、情感表达及非正式对话等元素进行构建，弥补了现有通用语料库在这些领域的不足。通过精细划分的17个类别，语料库能够确保语音模型在学习过程中均衡地接触到日常对话、技术术语、情绪化语言和各类副语言现象，从而生成更具表现力与自然感的角色语音。此外，所有文本均采用CC0 1.0通用公共领域许可，完全开放用于商业与非商业用途，无任何使用限制，极大降低了研究与应用的门槛。

使用方法

使用AICA语料库时，研究者可直接将其文本内容作为语音克隆或TTS模型微调的输入数据。语料库提供两种文件格式：aica.txt包含纯文本（一行一句），便于直接读取；aica_list.txt则提供带有编号的列表（格式为“0001|文本”），方便索引与批量处理。特别地，该语料库与VoiceDesignCloner工具深度整合，用户可通过该工具的“语料库一括音声化”功能，无需手动录音即可一键将全部500句文本批量转换为语音学习数据，高效生成AI角色语音克隆的训练素材。用户可根据具体模型需求，选择全部或部分类别句子进行针对性训练。

背景与挑战

背景概述

AICA corpus（あいかコーパス）发布于2023年，由研究者Reine Honoka及其团队开发，专注于日语语音克隆与文本转语音（TTS）模型的微调任务。该数据集旨在弥合现有公共日语语料库（如ITA、MANA、ROHAN）在虚拟角色语音再现中的不足，核心研究问题是如何高效生成包含拟声词、笑声、情感表达及系统指令等特征的语音训练文本。通过精心设计的500句分级结构，它覆盖了日常对话、填充词、笑声及情感交互等独特范畴，为智能助手和娱乐领域的高表现力语音合成提供了标准化资源，显著推动了日语角色语音克隆技术的发展与普及。

当前挑战

该数据集面临的挑战主要包括：1）领域问题层面，现有日语TTS系统难以自然模拟角色语音中的细微情感波动与非语言成分（如讽刺、犹豫），而AI助手场景要求模型能精准再现填充词（如“うーん”）、笑声（如“あはは”）等动态声学特征，这些在传统语料中基本缺失；2）构建过程中，需克服纯文本语料无配套音频的局限，避免语音标注的主观歧义，同时确保有限500句样本在音韵覆盖与情感多样性间取得平衡，以适配多元化的角色设计需求。

常用场景

经典使用场景

AICA语料库（あいかコーパス）作为专为AI角色语音克隆与TTS模型微调设计的日语文本语料库，其经典使用场景聚焦于生成具有拟人化特征的角色语音。该语料库包含500句精心设计的文本，涵盖时间区分下的日常对话、IT系统术语、外来语语音覆盖，以及丰富的填充词（如「うーん」「えっと」）、笑声（如「あはは」「うふふ」）和情感表达。研究者可通过此类文本训练或微调语音合成模型，精准复现AI助手类角色在自然交流中的迟疑、愉悦、确认等细微语音特征，从而突破传统泛用型语料库（如ITA·MANA·ROHAN）在角色语音个性化方面的局限。

衍生相关工作

围绕AICA语料库的衍生工作主要体现在语音合成与角色建模的交叉创新中。一方面，研究者将其与端到端TTS模型（如Tacotron、FastSpeech）结合，探索填充词注入对韵律控制的影响；另一方面，VoiceDesignCloner等配套工具的出现，催生了无需专业录音环境的低成本角色声音克隆工作流。此外，该语料库的文本分类结构启发了跨语种情感语音数据集的构建，例如扩展英语或中文中的笑声与填充词标注体系。后续研究亦利用其与心理语言学理论融合，分析不同笑声类型（如「あはは」与「うふふ」）在机器表达中的社会语义印记，推动了情感计算与人文语音学的对话。

数据集最近研究