Pansori TEDxKR Corpus

github2024-01-05 更新2024-05-31 收录

下载链接：

https://github.com/yc9701/pansori-tedxkr-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Pansori TEDxKR Corpus是一个韩国语音识别（ASR）数据集，由2010年至2014年在韩国进行的韩语TEDx演讲生成。该数据集包含约3小时的语音音频-转录对，来自41位演讲者。

The Pansori TEDxKR Corpus is a Korean speech recognition (ASR) dataset generated from TEDx talks in Korean conducted in Korea from 2010 to 2014. This dataset comprises approximately 3 hours of speech audio-transcription pairs from 41 speakers.

创建时间：

2018-12-23

原始信息汇总

Pansori TEDxKR Corpus 概述

数据集描述

名称: Pansori TEDxKR Corpus
类型: 韩语语音识别（ASR）语料库
来源: 2010至2014年间在韩国举行的韩语TEDx演讲
内容: 约3小时的语音音频与转录文本对，来自41位演讲者

数据集特点

音频格式: 16位FLAC文件，采样率为16 KHz
数据处理: 使用Pansori系统进行数据摄取和处理
质量保证:
- 仅包含社区翻译者手工转录的TEDx演讲
- 根据字幕边界分割语料片段
- 通过工具辅助的语音-文本对齐进行精细调整
- 使用Google Cloud Speech-To-Text进行最终验证

数据集内容示例

标题	演讲者	性别	地点	年份	片段数	时长
Appropriate technology	이성범	M	Seoul	2010	87	5:58
Making a village worth living in	김혜정	F	Busan	2012	191	9:14
The true owner of land	남기업	M	Busan	2012	155	6:43
Starting from where I am	황두진	M	Seoul	2010	117	6:41
Telling the new story in the old form	이자람	F	Seoul	2010	92	7:50

数据集下载

下载方式: 可单独下载或整体下载
下载链接: https://storage.googleapis.com/pansori/corpus/pansori-tedxkr-corpus-1.0.tar.gz [170MB]

搜集汇总

数据集介绍

构建方式

Pansori TEDxKR Corpus的构建基于韩国TEDx演讲视频，时间跨度为2010年至2014年。该数据集通过Pansori系统进行数据采集与处理，确保数据的高质量。具体步骤包括仅选用社区翻译者手工转录的演讲，按字幕边界进行片段分割，并通过工具辅助的语音文本对齐进行精细调整。最终，数据集通过Google Cloud Speech-To-Text进行验证，确保语音与文本的精确匹配。

使用方法

Pansori TEDxKR Corpus可通过GitHub仓库单独或整体下载，也可通过提供的链接获取单一压缩文件。数据集适用于韩语语音识别系统的训练与评估，研究人员可利用其进行模型开发与性能测试。使用该数据集时，建议结合Pansori系统的相关论文与代码库，以充分理解数据处理流程与优化方法。

背景与挑战

背景概述

Pansori TEDxKR Corpus 是一个专注于韩语语音识别（ASR）的数据集，由2010年至2014年间在韩国举办的TEDx演讲生成。该数据集包含约3小时的语音音频与文本对，涉及41位演讲者。该数据集的创建基于Pansori系统，这是一种新型的语料库数据摄取与处理系统，由Yoona Choi和Bowon Lee在2018年提出，并在IEEE首尔分会学生论文竞赛中发表。Pansori TEDxKR Corpus的构建过程中，特别注重数据质量，仅包含由社区翻译人员手动转录的TEDx演讲，并通过工具辅助的语音文本对齐和Google Cloud Speech-To-Text进行最终验证。该数据集为韩语语音识别研究提供了宝贵的资源，推动了该领域的技术发展。

当前挑战

Pansori TEDxKR Corpus在构建过程中面临多重挑战。首先，韩语作为一种形态复杂的语言，其语音识别任务本身具有较高的难度，尤其是在处理不同口音、语速和背景噪音时。其次，数据集的构建依赖于TEDx演讲的手动转录，这一过程不仅耗时，还需确保转录的准确性。此外，语音与文本的对齐过程需要精细的工具辅助和人工干预，以确保数据的高质量。尽管使用了Google Cloud Speech-To-Text进行验证，但语音识别系统在处理特定领域的术语或非标准发音时仍可能产生误差。这些挑战不仅影响了数据集的构建效率，也对后续的语音识别模型训练提出了更高的要求。

常用场景

经典使用场景

Pansori TEDxKR Corpus 在韩语语音识别（ASR）领域具有广泛的应用，尤其是在韩语自然语言处理研究中。该数据集通过从2010年至2014年韩国TEDx演讲中提取的音频-文本对，为研究者提供了一个高质量的韩语语音识别基准。其经典使用场景包括训练和评估韩语ASR模型，帮助研究者优化语音识别算法，特别是在处理韩语特有的语音特征和语法结构时。

解决学术问题

Pansori TEDxKR Corpus 解决了韩语语音识别研究中的数据稀缺问题。由于韩语语音数据的获取和标注成本较高，该数据集为研究者提供了一个经过精心处理和验证的语音-文本对资源。它不仅帮助研究者提升韩语ASR模型的准确性，还为跨语言语音识别研究提供了重要的数据支持，推动了韩语自然语言处理领域的发展。

实际应用

在实际应用中，Pansori TEDxKR Corpus 被广泛用于开发韩语语音助手、语音翻译系统和语音转文字工具。这些应用在韩国的教育、医疗、新闻媒体等领域发挥了重要作用。例如，语音助手可以帮助用户通过语音指令完成日常任务，而语音转文字工具则能够提高会议记录和采访转录的效率，极大地提升了工作效率和用户体验。

数据集最近研究