関西弁コーパス

github2024-05-04 更新2024-05-31 收录

下载链接：

https://github.com/joumonsugi/ITA_KANSAI_CORPUS

下载链接

链接失效反馈

官方服务：

资源简介：

関西弁コーパス是一个以大阪府为中心的近畿方言语料库，包含了多种文本文件，如ITA_KANSAI_EMOTION.txt、ITA_KANSAI_RECITATION.txt等，这些文件是对原始ITA语料库的修改和扩展，专门用于研究和分析关西方言。

The Kansai Dialect Corpus is a corpus centered around the Kansai dialect, primarily in Osaka Prefecture. It includes various text files such as ITA_KANSAI_EMOTION.txt and ITA_KANSAI_RECITATION.txt, which are modifications and extensions of the original ITA corpus, specifically designed for the study and analysis of the Kansai dialect.

创建时间：

2024-04-13

原始信息汇总

数据集概述

数据集名称

関西弁コーパス

数据集描述

本コーパス是以大阪府为中心的近畿方言的语料库。包含以下文件：

ITA_KANSAI_EMOTION.txt：ITA语料库emotion部分改編。
ITA_KANSAI_RECITATION.txt：ITA语料库recitation部分改編。
ITA_KANSAI_ONRY.txt：从ITA语料库的emotion和recitation中，仅收集改編为関西弁的部分。
KANSAI.txt：整合了あみたろ大阪弁コーパス与新規的関西弁コーパス。

数据集内容

関西弁_表情差分リスト：从KANSAI.txt中选定易于情感分类的文章，分为4种情感类别：ANGER（怒り）、LAUGH（笑い）、SAD（悲しみ）、SURPRISE（驚き）。
OREMO収録用コメントファイル：包含原文及其对应的平假名读音，以TAB分隔的txt文件。
TTS学習向けファイル名変換（参考）：提供原文与同名wav文件的英文字母文件名转换参考。

数据集使用

編集者發話時間：32分41秒，包括ITA_KANSAI_EMOTION、ITA_KANSAI_RECITATION和KANSAI的收录，去除了文件前后的无音部分并连接。

数据集授权

本コーパス基于MIT许可证。

授权义务补充

表示义务：适用于对コーパス文本进行追加、改编等二次派生作品，以及通过机器学习等方法从コーパス文本或音声中获得的派生作品。
无表示义务：适用于使用机器学习模型输出的派生作品。

联系方式

常见问题：https://github.com/joumonsugi/ITA_KANSAI_CORPUS/issues
おふとんP的HP：http://mohumohuton.web.fc2.com/
おふとんP的X（旧Twitter）：https://twitter.com/joumonsugi

搜集汇总

数据集介绍

构建方式

関西弁コーパス的构建基于对ITAコーパス的改編，并结合了新規的関西弁素材。具体而言，ITA_KANSAI_EMOTION.txt和ITA_KANSAI_RECITATION.txt是对原ITAコーパス的情感和朗诵部分进行改編的结果，而ITA_KANSAI_ONRY.txt则是从这些改編中筛选出符合関西弁特色的内容。此外，KANSAI.txt整合了あみたろ大阪弁コーパス和新規的関西弁素材，形成了更为全面的関西弁语料库。

特点

関西弁コーパス的显著特点在于其对関西弁的细致分类和情感标注。该数据集不仅包含了多种関西弁的表达形式，还特别挑选了易于区分情感的文章，并将其分为「ANGER」、「LAUGH」、「SAD」、「SURPRISE」四类，便于情感分析和研究。此外，数据集还提供了与原文对应的ひらがな读音文件，适用于语音合成（TTS）模型的训练。

使用方法

関西弁コーパス可广泛应用于自然语言处理、语音合成及情感分析等领域。用户可以通过下载数据集，利用其中的文本和情感分类信息进行模型训练。对于语音合成任务，数据集提供了原文与ひらがな读音的对应文件，用户可根据需要进行文件名转换，以便与音频文件匹配。此外，数据集的MIT许可证允许用户在遵守相关义务的前提下进行自由使用和派生。

背景与挑战

背景概述

関西弁コーパス（Kansai-ben Corpus）是由日本研究者创建的一个专注于近畿方言的语料库，主要以大阪府为中心。该数据集的创建时间为2024年，由主要研究人员如おふとんP、あみたろの声素材工房和Nacl_E等共同开发。其核心研究问题在于收集和整理关西方言的文本和语音数据，旨在为自然语言处理和语音合成领域的研究提供丰富的资源。该数据集不仅包含了改写自ITAコーパス的文本，还结合了新收集的关西方言数据，为方言研究、情感分析以及语音合成技术的发展提供了重要的支持。

当前挑战

関西弁コーパス在构建过程中面临了多个挑战。首先，方言数据的收集和标注需要高度的语言学专业知识，以确保数据的准确性和代表性。其次，情感分类的精确性也是一个重要挑战，尤其是在处理如“怒り”、“笑い”、“悲しみ”和“驚き”等复杂情感时。此外，将文本与语音数据进行有效匹配，并为语音合成模型提供高质量的训练数据，也是该数据集需要克服的技术难题。最后，如何在保持方言特色的同时，确保数据的可扩展性和通用性，也是该数据集未来发展中需要解决的问题。

常用场景

经典使用场景

関西弁コーパス在语言学研究中具有重要地位，尤其在方言研究和文化传播领域。该数据集通过收集和整理大阪府为中心的近畿方言，为研究者提供了丰富的语言材料。其经典使用场景包括方言语音识别、情感分析以及自然语言处理中的方言模型训练。通过这些应用，研究者能够更深入地理解方言的语音特征和情感表达，从而推动方言保护和跨文化交流。

衍生相关工作

関西弁コーパス的发布激发了多项相关研究和工作。首先，基于该数据集的方言语音识别模型得到了广泛研究，推动了方言语音技术的进步。其次，情感分析领域的研究者利用该数据集开发了多种情感分类算法，提升了情感识别的准确性。此外，该数据集还为自然语言处理领域的方言模型训练提供了基础，促进了方言在技术应用中的普及和保护。这些衍生工作不仅丰富了语言学研究，也为技术应用提供了新的可能性。

数据集最近研究