SEACrowd/kheng_info

Name: SEACrowd/kheng_info
Creator: SEACrowd
Published: 2024-06-24 13:32:34
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/kheng_info

下载链接

链接失效反馈

官方服务：

资源简介：

Kheng.info语音数据集来源于高棉语词典网站kheng.info上的高棉语单词录音，由一位母语为高棉语的人录制。录音时长较短，通常在1到2秒之间。该数据集主要用于语音识别任务，支持的语言为高棉语（khm）。

提供机构：

SEACrowd

原始信息汇总

Kheng Info 数据集概述

基本信息

数据集名称: Kheng Info
语言: 高棉语 (khm)
任务类别: 语音识别 (Speech Recognition)
数据来源: 高棉语词典网站 kheng.info
录音时长: 录音时长较短，通常在1到2秒之间

数据集版本

源版本: 1.0.0
SEACrowd 版本: 2024.06.20

数据集许可证

许可证: 未知 (Unknown)

引用信息

引用格式:

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

在语音识别研究领域，构建高质量的语言资源对于低资源语言的保护与发展至关重要。Kheng Info 数据集源自高棉语在线词典网站 kheng.info 的词汇录音，由一位母语为高棉语的人士录制而成。这些录音时长普遍较短，通常介于1至2秒之间，专注于单个词汇的发音，确保了语音样本的纯净性与针对性。

使用方法

研究人员可通过 `datasets` 库或 `seacrowd` 库便捷地加载此数据集。使用 `datasets` 库时，调用 `load_dataset` 函数并指定数据集名称即可。若使用 `seacrowd` 库，则需先导入该库，随后通过 `load_dataset` 函数并指定 `seacrowd` 模式加载，或利用 `available_config_names` 查看所有可用配置后，通过具体配置名进行加载，从而灵活适配不同的研究需求与实验设置。

背景与挑战

背景概述

在语音识别技术日益普及的背景下，针对低资源语言的语音数据集构建显得尤为重要。Kheng Info语音数据集由SEACrowd团队于2024年6月发布，源自高棉语词典网站kheng.info的录音资源，旨在支持高棉语（khm）的语音识别研究。该数据集由母语者录制，每条录音时长约1至2秒，专注于单词级别的语音识别任务，为东南亚语言的多模态数据生态贡献了关键资源，推动了低资源语言在人工智能领域的应用发展。

当前挑战

Kheng Info数据集面临的挑战主要体现在两个方面：在领域问题层面，高棉语作为低资源语言，其语音识别任务受限于数据稀缺性，模型难以捕捉复杂的语音变体和语境依赖；在构建过程中，数据集源自网络词典的孤立单词录音，缺乏连续语音的韵律和上下文信息，且录音时长极短，限制了其在现实场景中的泛化能力。此外，数据集的许可证状态未知，可能影响其在学术和工业界的广泛使用。

常用场景

经典使用场景

在语音识别研究领域，特别是针对低资源语言的处理，SEACrowd/kheng_info数据集提供了一个宝贵的资源。该数据集源自高棉语词典网站kheng.info的单词录音，由母语者录制，每条录音时长约1至2秒，专注于单个词汇的语音样本。这种短时、清晰的语音数据，为构建和优化高棉语自动语音识别模型提供了标准化的训练与测试素材，尤其适用于词汇级别的语音识别任务。

解决学术问题

该数据集主要解决了高棉语作为低资源语言在语音技术研究中的数据稀缺问题。在自然语言处理领域，许多东南亚语言因缺乏大规模、高质量的标注语音数据，其相关技术发展受到制约。Kheng Info数据集通过提供纯净的单词级语音-文本对，为学术界探索低资源语言下的声学模型建模、端到端语音识别系统开发以及跨语言迁移学习等关键课题，奠定了数据基础，推动了语言技术公平性的研究进程。

实际应用

在实际应用层面，基于该数据集训练的语音识别模型，能够直接服务于高棉语地区的数字产品与信息服务。例如，可集成于智能语音助手、语音输入法或教育类应用程序中，帮助用户通过语音高效检索词典内容或进行语言学习。此外，在公共服务领域，如为视障人士或有读写障碍的人群提供语音交互的信息访问工具，该数据集支撑的技术能有效弥合数字鸿沟，提升信息可及性。

数据集最近研究