five

Bingsu/zeroth-korean

收藏
Hugging Face2022-08-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Bingsu/zeroth-korean
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - ko language_creators: - crowdsourced license: - cc-by-4.0 multilinguality: - monolingual pretty_name: zeroth-korean source_datasets: - extended|kresnik/zeroth_korean size_categories: - 10K<n<100K task_categories: - automatic-speech-recognition --- # Zeroth-Korean ## Dataset Description - **Homepage:** [OpenSLR](https://www.openslr.org/40/) - **Repository:** [goodatlas/zeroth](https://github.com/goodatlas/zeroth) - **Download Size** 2.68 GiB - **Generated Size** 2.85 GiB - **Total Size** 5.52 GiB ## Zeroth-Korean The data set contains transcriebed audio data for Korean. There are 51.6 hours transcribed Korean audio for training data (22,263 utterances, 105 people, 3000 sentences) and 1.2 hours transcribed Korean audio for testing data (457 utterances, 10 people). This corpus also contains pre-trained/designed language model, lexicon and morpheme-based segmenter(morfessor). Zeroth project introduces free Korean speech corpus and aims to make Korean speech recognition more broadly accessible to everyone. This project was developed in collaboration between Lucas Jo(@Atlas Guide Inc.) and Wonkyum Lee(@Gridspace Inc.). Contact: Lucas Jo(lucasjo@goodatlas.com), Wonkyum Lee(wonkyum@gridspace.com) ### License CC BY 4.0 ## Dataset Structure ### Data Instance ```pycon >>> from datasets import load_dataset >>> dataset = load_dataset("Bingsu/zeroth-korean") >>> dataset DatasetDict({ train: Dataset({ features: ['audio', 'text'], num_rows: 22263 }) test: Dataset({ features: ['text', 'audio'], num_rows: 457 }) }) ``` ### Data Size download: 2.68 GiB<br> generated: 2.85 GiB<br> total: 5.52 GiB ### Data Fields - audio: `audio`, sampling rate = 16000 - A dictionary containing the path to the downloaded audio file, the decoded audio array, and the sampling rate. - Note that when accessing the audio column: `dataset[0]["audio"]` the audio file is automatically decoded and resampled to `dataset.features["audio"].sampling_rate`. Decoding and resampling of a large number of audio files might take a significant amount of time. Thus it is important to first query the sample index before the "audio" column, i.e. `dataset[0]["audio"]` should always be preferred over `dataset["audio"][0]`. - text: `string` ```pycon >>> dataset["train"][0] {'audio': {'path': None, 'array': array([-3.0517578e-05, 0.0000000e+00, -3.0517578e-05, ..., 0.0000000e+00, 0.0000000e+00, -6.1035156e-05], dtype=float32), 'sampling_rate': 16000}, 'text': '인사를 결정하는 과정에서 당 지도부가 우 원내대표 및 원내지도부와 충분한 상의를 거치지 않은 채 일방적으로 인사를 했다는 불만도 원내지도부를 중심으로 흘러나왔다'} ``` ### Data Splits | | train | test | | ---------- | -------- | ----- | | # of data | 22263 | 457 |

--- 语言: - 韩语(ko) 语言创建方式: - 众包(crowdsourced) 许可协议: - CC BY 4.0 多语言属性: - 单语言(monolingual) 规范名称: - zeroth-korean 源数据集: - 扩展|kresnik/zeroth_korean 数据规模分类: - 10K < 样本量 < 100K 任务类别: - 自动语音识别(automatic-speech-recognition) --- # Zeroth-Korean ## 数据集说明 - **主页:** [OpenSLR](https://www.openslr.org/40/) - **代码仓库:** [goodatlas/zeroth](https://github.com/goodatlas/zeroth) - **下载体积** 2.68 GiB - **生成体积** 2.85 GiB - **总占用体积** 5.52 GiB ## Zeroth-Korean 本数据集包含韩语转录语音数据。训练集涵盖51.6小时的韩语转录语音数据,共计22263条语音片段,覆盖105位发音人,使用3000句基准文本;测试集则包含1.2小时的韩语转录语音数据,共计457条语音片段,覆盖10位发音人。本语料库同时附带预训练/定制语言模型、词典以及基于词素的分词器(morfessor)。 Zeroth项目旨在推出免费韩语语音语料库,推动韩语自动语音识别技术的普惠化应用。本项目由Lucas Jo(Atlas Guide有限公司)与Wonkyum Lee(Gridspace有限公司)合作开发。 联系方式:Lucas Jo(lucasjo@goodatlas.com), Wonkyum Lee(wonkyum@gridspace.com) ### 许可协议 CC BY 4.0 ## 数据集结构 ### 数据实例 pycon >>> from datasets import load_dataset >>> dataset = load_dataset("Bingsu/zeroth-korean") >>> dataset DatasetDict({ train: Dataset({ features: ['audio', 'text'], num_rows: 22263 }) test: Dataset({ features: ['text', 'audio'], num_rows: 457 }) }) ### 数据体积 download: 2.68 GiB<br> generated: 2.85 GiB<br> total: 5.52 GiB ### 数据字段 - audio: `audio`, sampling rate = 16000 - 一个包含音频文件路径、解码后音频数组以及采样率的字典。 - 注意:在访问音频列时,`dataset[0]["audio"]`会自动将音频文件解码并重采样至`dataset.features["audio"].sampling_rate`。批量解码与重采样大量音频文件可能会耗费较长时间,因此建议优先通过样本索引查询音频列,即相较于`dataset["audio"][0]`,应始终优先使用`dataset[0]["audio"]`。 - text: `string` pycon >>> dataset["train"][0] {'audio': {'path': None, 'array': array([-3.0517578e-05, 0.0000000e+00, -3.0517578e-05, ..., 0.0000000e+00, 0.0000000e+00, -6.1035156e-05], dtype=float32), 'sampling_rate': 16000}, 'text': '인사를 결정하는 과정에서 당 지도부가 우 원내대표 및 원내지도부와 충분한 상의를 거치지 않은 채 일방적으로 인사를 했다는 불만도 원내지도부를 중심으로 흘러나왔다'} ### 数据划分 | | 训练集 | 测试集 | | ---------- | -------- | ----- | | 数据量 | 22263 | 457 |
提供机构:
Bingsu
原始信息汇总

Zeroth-Korean 数据集概述

基本信息

  • 语言: 韩语(ko)
  • 语言创建者: 众包(crowdsourced)
  • 许可证: CC BY 4.0
  • 多语言性: 单语种
  • 美观名称: zeroth-korean
  • 源数据集: 扩展自 kresnik/zeroth_korean
  • 大小分类: 10K<n<100K
  • 任务分类: 自动语音识别

数据集描述

  • 下载大小: 2.68 GiB
  • 生成大小: 2.85 GiB
  • 总大小: 5.52 GiB

数据集内容

  • 包含51.6小时的韩语训练音频数据(22,263条语音,涉及105人,3000句)和1.2小时的测试音频数据(457条语音,涉及10人)。
  • 该语料库还包含预训练的语言模型、词典和基于词素的分割器(morfessor)。

数据集结构

数据实例

  • 特征: [audio, text]
  • 训练集: 22263条数据
  • 测试集: 457条数据

数据字段

  • audio: 音频,采样率为16000
    • 包含音频文件路径、解码后的音频数组和采样率。
  • text: 字符串

数据分割

训练 测试
数量 22263 457
搜集汇总
数据集介绍
main_image_url
构建方式
Bingsu/zeroth-korean数据集的构建,是在Zeroth项目框架下,依托众包方式收集的韩语语音及转录文本数据。该数据集包含了22,263条训练语音样本,共计51.6小时,来自105位不同说话者,以及457条测试语音样本,共计1.2小时,来自10位不同说话者。数据集同时提供了预训练的语言模型、词典以及基于语素的分析器。
使用方法
使用Bingsu/zeroth-korean数据集时,用户可以通过HuggingFace的datasets库方便地加载数据。数据集分为训练集和测试集,每个数据实例都包含了音频和文本字段。用户在访问音频数据时,需要注意文件的解码和重采样过程可能耗费较多时间,因此推荐先获取样本索引后再访问音频数据。
背景与挑战
背景概述
Bingsu/zeroth-korean数据集,旨在推进韩国语自动语音识别技术的发展,由Lucas Jo与Wonkyum Lee合作开发。该数据集包含了51.6小时的转录韩国语音频作为训练数据,以及1.2小时的转录音频作为测试数据。此项目不仅提供了丰富的语音资源,还包含了预训练的语言模型、词典和基于词素的分段器,致力于将韩国语语音识别技术广泛普及。自推出以来,该数据集在韩国语语音识别研究领域产生了显著影响,为研究人员和开发者提供了宝贵的资源。
当前挑战
在构建Bingsu/zeroth-korean数据集的过程中,研究人员面临了多项挑战。首先,确保音频质量和转录准确性是一项重要任务,其次,构建一个适用于不同场景和说话人的通用语言模型也颇具挑战性。此外,数据集的规模和多样性对于提高模型的泛化能力至关重要,而这在数据收集和预处理阶段尤为关键。当前,如何在保护隐私的前提下,继续扩大数据集规模,同时保持高质量的数据标准,是该数据集面临的主要挑战之一。
常用场景
经典使用场景
在自动语音识别领域,Bingsu/zeroth-korean数据集的经典使用场景在于为机器学习模型提供丰富的朝鲜语语音及其对应文本数据,以训练和评估语音识别系统的性能。该数据集包含了大量的转录音频资料,使得研究者能够构建和优化能够准确识别朝鲜语音的算法。
解决学术问题
Bingsu/zeroth-korean数据集解决了在朝鲜语自动语音识别研究中的数据稀缺问题,为学术研究提供了宝贵的资源。它有助于克服机器学习模型在处理小语种时遇到的性能瓶颈,从而推动小语种语音识别技术的发展。此外,该数据集的开放获取特性也促进了学术界的共享与合作。
实际应用
在实际应用中,Bingsu/zeroth-korean数据集可以被用于开发面向朝鲜语使用者的语音助手、实时语音翻译服务以及语音输入法等。这些应用能够极大地便利朝鲜语用户的日常生活,提高信息获取和交互的效率。
数据集最近研究
最新研究方向
在自动语音识别领域,Bingsu/zeroth-korean数据集的引入为朝鲜语语音识别研究提供了丰富的资源。该数据集包含51.6小时的转录朝鲜语音频训练数据,以及1.2小时的测试数据,为研究者在构建高效准确的朝鲜语语音识别模型方面提供了坚实基础。当前研究集中于利用此数据集进行深度学习模型的训练与优化,旨在提升语音识别的准确性和实时性,进而推动朝鲜语语音识别技术在多领域的应用,如智能助手、语音翻译等,对促进信息无障碍交流和智能技术的发展具有重要的现实意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作