関西弁コーパス
收藏github2024-05-04 更新2024-05-31 收录
下载链接:
https://github.com/joumonsugi/ITA_KANSAI_CORPUS
下载链接
链接失效反馈官方服务:
资源简介:
関西弁コーパス是一个以大阪府为中心的近畿方言语料库,包含了多种文本文件,如ITA_KANSAI_EMOTION.txt、ITA_KANSAI_RECITATION.txt等,这些文件是对原始ITA语料库的修改和扩展,专门用于研究和分析关西方言。
The Kansai Dialect Corpus is a corpus centered around the Kansai dialect, primarily in Osaka Prefecture. It includes various text files such as ITA_KANSAI_EMOTION.txt and ITA_KANSAI_RECITATION.txt, which are modifications and extensions of the original ITA corpus, specifically designed for the study and analysis of the Kansai dialect.
创建时间:
2024-04-13
原始信息汇总
数据集概述
数据集名称
関西弁コーパス
数据集描述
本コーパス是以大阪府为中心的近畿方言的语料库。包含以下文件:
- ITA_KANSAI_EMOTION.txt:ITA语料库emotion部分改編。
- ITA_KANSAI_RECITATION.txt:ITA语料库recitation部分改編。
- ITA_KANSAI_ONRY.txt:从ITA语料库的emotion和recitation中,仅收集改編为関西弁的部分。
- KANSAI.txt:整合了あみたろ大阪弁コーパス与新規的関西弁コーパス。
数据集内容
- 関西弁_表情差分リスト:从KANSAI.txt中选定易于情感分类的文章,分为4种情感类别:ANGER(怒り)、LAUGH(笑い)、SAD(悲しみ)、SURPRISE(驚き)。
- OREMO収録用コメントファイル:包含原文及其对应的平假名读音,以TAB分隔的txt文件。
- TTS学習向けファイル名変換(参考):提供原文与同名wav文件的英文字母文件名转换参考。
数据集使用
- 編集者發話時間:32分41秒,包括ITA_KANSAI_EMOTION、ITA_KANSAI_RECITATION和KANSAI的收录,去除了文件前后的无音部分并连接。
数据集授权
本コーパス基于MIT许可证。
授权义务补充
- 表示义务:适用于对コーパス文本进行追加、改编等二次派生作品,以及通过机器学习等方法从コーパス文本或音声中获得的派生作品。
- 无表示义务:适用于使用机器学习模型输出的派生作品。
联系方式
- 常见问题:https://github.com/joumonsugi/ITA_KANSAI_CORPUS/issues
- おふとんP的HP:http://mohumohuton.web.fc2.com/
- おふとんP的X(旧Twitter):https://twitter.com/joumonsugi
搜集汇总
数据集介绍

构建方式
関西弁コーパス的构建基于对ITAコーパス的改編,并结合了新規的関西弁素材。具体而言,ITA_KANSAI_EMOTION.txt和ITA_KANSAI_RECITATION.txt是对原ITAコーパス的情感和朗诵部分进行改編的结果,而ITA_KANSAI_ONRY.txt则是从这些改編中筛选出符合関西弁特色的内容。此外,KANSAI.txt整合了あみたろ大阪弁コーパス和新規的関西弁素材,形成了更为全面的関西弁语料库。
特点
関西弁コーパス的显著特点在于其对関西弁的细致分类和情感标注。该数据集不仅包含了多种関西弁的表达形式,还特别挑选了易于区分情感的文章,并将其分为「ANGER」、「LAUGH」、「SAD」、「SURPRISE」四类,便于情感分析和研究。此外,数据集还提供了与原文对应的ひらがな读音文件,适用于语音合成(TTS)模型的训练。
使用方法
関西弁コーパス可广泛应用于自然语言处理、语音合成及情感分析等领域。用户可以通过下载数据集,利用其中的文本和情感分类信息进行模型训练。对于语音合成任务,数据集提供了原文与ひらがな读音的对应文件,用户可根据需要进行文件名转换,以便与音频文件匹配。此外,数据集的MIT许可证允许用户在遵守相关义务的前提下进行自由使用和派生。
背景与挑战
背景概述
関西弁コーパス(Kansai-ben Corpus)是由日本研究者创建的一个专注于近畿方言的语料库,主要以大阪府为中心。该数据集的创建时间为2024年,由主要研究人员如おふとんP、あみたろの声素材工房和Nacl_E等共同开发。其核心研究问题在于收集和整理关西方言的文本和语音数据,旨在为自然语言处理和语音合成领域的研究提供丰富的资源。该数据集不仅包含了改写自ITAコーパス的文本,还结合了新收集的关西方言数据,为方言研究、情感分析以及语音合成技术的发展提供了重要的支持。
当前挑战
関西弁コーパス在构建过程中面临了多个挑战。首先,方言数据的收集和标注需要高度的语言学专业知识,以确保数据的准确性和代表性。其次,情感分类的精确性也是一个重要挑战,尤其是在处理如“怒り”、“笑い”、“悲しみ”和“驚き”等复杂情感时。此外,将文本与语音数据进行有效匹配,并为语音合成模型提供高质量的训练数据,也是该数据集需要克服的技术难题。最后,如何在保持方言特色的同时,确保数据的可扩展性和通用性,也是该数据集未来发展中需要解决的问题。
常用场景
经典使用场景
関西弁コーパス在语言学研究中具有重要地位,尤其在方言研究和文化传播领域。该数据集通过收集和整理大阪府为中心的近畿方言,为研究者提供了丰富的语言材料。其经典使用场景包括方言语音识别、情感分析以及自然语言处理中的方言模型训练。通过这些应用,研究者能够更深入地理解方言的语音特征和情感表达,从而推动方言保护和跨文化交流。
衍生相关工作
関西弁コーパス的发布激发了多项相关研究和工作。首先,基于该数据集的方言语音识别模型得到了广泛研究,推动了方言语音技术的进步。其次,情感分析领域的研究者利用该数据集开发了多种情感分类算法,提升了情感识别的准确性。此外,该数据集还为自然语言处理领域的方言模型训练提供了基础,促进了方言在技术应用中的普及和保护。这些衍生工作不仅丰富了语言学研究,也为技术应用提供了新的可能性。
数据集最近研究
最新研究方向
近年来,随着自然语言处理技术的快速发展,方言研究逐渐成为语言学和计算机科学交叉领域的热点。関西弁コーパス作为以大阪府为中心的近畿方言语料库,其在情感分析、语音合成(TTS)以及方言识别等前沿研究方向上展现出巨大的潜力。该数据集不仅为研究者提供了丰富的方言语料,还通过情感分类(如怒、笑、悲、惊)增强了情感分析的细粒度研究。此外,関西弁コーパス在语音合成领域的应用,尤其是在方言语音模型的训练与优化方面,为构建更加自然、地域化的语音合成系统提供了重要支持。这些研究不仅推动了方言保护与传承,也为跨文化交流与智能语音技术的发展提供了新的视角和工具。
以上内容由遇见数据集搜集并总结生成



