青空文庫振り仮名注釈付き音声コーパス

github2024-01-31 更新2024-05-31 收录

下载链接：

https://github.com/ndl-lab/hurigana-speech-corpus-aozora

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于青空文库和サピエ的音声デイジーデータ构建的，包含带有振り仮名注释的音声数据。数据集通过音声识别将音声数据转换为文本，并进一步在文本的汉字部分添加振り仮名。该数据集旨在支持机器学习等需要大量数据的领域。

This dataset is developed based on audio Daisy data sourced from Aozora Bunko and Sapie, and includes audio data annotated with furigana. The dataset first converts audio data into text through automatic speech recognition (ASR), then adds furigana to the kanji segments within the resulting text. This dataset is designed to support data-intensive fields such as machine learning.

创建时间：

2024-01-16

原始信息汇总

数据集概述

1. 数据集名称

名称: 青空文庫振り仮名注釈付き音声コーパス

2. 数据集内容

来源: 青空文庫的公开作品文本数据与社会福祉法人日本点字图书馆管理的音声デイジーデータ。
处理方法: 使用音声認識技术将音声デイジーデータ转换为文本，构建音声コーパス，并在文本的汉字部分添加振り仮名。
数据格式:
- 注釈コーパスデータ: タブ区切りtxt形式、UTF-8
- 音声ファイル: mp3
- メタデータ: csv形式、UTF-8
数据量: 作品数3,344点

3. 数据集特点

注釈: 对青空文庫的文字数进行注釈，收集率定义为50%以上。
音声認識模型: 使用OpenAI的Whisper模型，其中11位重要作家使用“large-v2”模型，其他作家使用“medium”模型。

4. 数据集结构

文件获取: 通过以下URL获取压缩文件：
- aozora_work_part1.zip
- aozora_work_part2.zip
文件内容: 包含作品信息、作家统计信息等，详细记录于all_works.csv及作家毎の統計情報.csv。

5. 数据集应用

应用场景: 主要用于需要大量数据的机器学习等领域。

6. 数据集注意事项

音声与文本差异: 由于音声デイジー的朗読データ不含句読点等記号，音声認識結果中可能包含Whisper推測的句読点。
振り仮名准确性: 本コーパス中的振り仮名可能不完全准确。
音素获取: 目前无法获取音素。

7. 数据集创建步骤

音声認識: 使用OpenAI的Whisper模型进行音声認識。
数据处理: 首先将音声デイジー的xml数据信息用于文単位音声データ分割及音声認識，然后与青空文庫的文本进行对应，最后使用単語の読み辞書推定読み。

8. 数据集发布背景

法律支持: 2019年制定的《視覚障害者等の読書環境の整備の推進に関する法律》推动了読みの困難な人に対するアクセシビリティ的改善。
目标: 通过构建和公开本コーパス，促进各種アプリ・サービス中的技术开发，改善視覚障害者的信息障碍。

搜集汇总

数据集介绍

构建方式

青空文庫振り仮名注釈付き音声コーパスは、青空文庫の公開作品テキストデータと視覚障害者情報総合ネットワーク「サピエ」の音声デイジーデータを基に構築されました。音声デイジーデータをOpenAIのWhisper音声認識モデルを用いてテキストに変換し、青空文庫のテキストとマッチングを行いました。さらに、漢字部分に振り仮名を付与し、音声データとテキストからなる音声コーパスを形成しました。このプロセスにより、大量のデータを必要とする機械学習などの応用に適したデータセットが構築されました。

使用方法

本コーパスは、作家ごとにzipファイルとして提供されており、特定のURLからダウンロード可能です。各zipファイルを展開すると、著者ごと作品ごとに階層構造が形成されており、音声ファイルと注釈コーパスデータが含まれています。注釈コーパスデータはタブ区切りのtxt形式で、音声認識結果と青空文庫テキストの対応が記載されています。メタデータはcsv形式で、作品の詳細情報がカンマ区切りで記述されています。このデータセットは、機械学習モデルの訓練や日本語の音声認識技術の研究に広く利用されることを想定しています。

背景与挑战

背景概述

青空文庫振り仮名注釈付き音声コーパス是由国立国会图书馆实验室主导构建的一个大规模日语语音数据集，旨在通过结合青空文库的公开文本数据与社会福祉法人日本点字图书馆提供的音声DAISY数据，为机器学习等应用提供丰富的语音与文本匹配资源。该数据集的构建始于2019年，正值日本《视覚障害者等の読書環境の整備の推進に関する法律》（读书记无障碍法）颁布之际，旨在改善视障人士的阅读体验。通过使用OpenAI的Whisper模型进行语音识别，该数据集不仅提供了语音与文本的对应关系，还进一步为文本中的汉字添加了振假名注释，以支持更精确的语音识别和文本处理。

当前挑战

青空文庫振り仮名注釈付き音声コーパス在构建过程中面临多重挑战。首先，音声DAISY数据与青空文库文本之间的表达差异导致部分数据无法完全匹配，影响了数据集的完整性。其次，音声识别技术的局限性，尤其是在处理日语中的同形异音词时，识别结果与原文存在偏差，这要求后续的文本处理技术能够有效校正这些差异。此外，数据集中的振假名注释并非总是准确，特别是在处理多音字和人名时，这增加了机器学习模型训练的复杂性。这些挑战不仅影响了数据集的构建质量，也对后续的应用开发提出了更高的技术要求。

常用场景

经典使用场景

青空文庫振り仮名注釈付き音声コーパス在自然语言处理领域中被广泛应用于语音识别和文本对齐的研究。通过将青空文庫的文本数据与サピエ的音声デイジーデータ进行匹配，该数据集为研究者提供了丰富的语音与文本对照资源，特别适用于训练和评估语音识别模型。其振り仮名注釈的加入，进一步提升了模型在日语汉字读音识别上的准确性。

解决学术问题

该数据集有效解决了日语语音识别中同形异音词的读音分类问题。通过大规模的音声与文本对齐，研究者能够更精确地训练机器学习模型，从而提高对日语汉字读音的识别能力。此外，该数据集还为研究日语语音与文本之间的对应关系提供了宝贵的数据支持，推动了相关领域的技术进步。

实际应用

在实际应用中，青空文庫振り仮名注釈付き音声コーパス被广泛用于开发面向视障人士的辅助阅读工具。通过利用该数据集，开发者能够构建更加准确的语音合成系统，帮助视障人士更好地理解和阅读汉文文本。此外，该数据集还为教育领域的日语学习软件提供了高质量的语音和文本资源，提升了学习效果。

数据集最近研究