HiKE

github2025-10-05 更新2025-10-07 收录

下载链接：

https://github.com/ThetaOne-AI/HiKE

下载链接

链接失效反馈

官方服务：

资源简介：

HiKE是第一个韩英语码转换自动语音识别基准，由跨多个主题的高质量自然语码转换数据组成。该数据集使用混合错误率和兴趣点错误率来精确评估模型的语码转换语音识别能力。数据集包含单词级、短语级和句子级的语码转换标签，以及所有借词的详细标注。

HiKE is the first Korean-English code-switching automatic speech recognition benchmark, which comprises high-quality natural code-switching speech data across multiple topics. This dataset uses Mixed Error Rate (MER) and Point-of-Interest Error Rate (POIER) to accurately evaluate the code-switching speech recognition capabilities of models. The dataset includes word-level, phrase-level, and sentence-level code-switching labels, as well as detailed annotations for all loanwords.

创建时间：

2025-10-03

原始信息汇总

HiKE 数据集概述

数据集基本信息

数据集名称：HiKE (Hierarchical Evaluation Framework for Korean-English Code-Switching Speech Recognition)
研究领域：韩英语码转换语音识别
数据获取：https://huggingface.co/datasets/thetaone-ai/HiKE
论文链接：https://arxiv.org/abs/2509.24613

数据集特点

数据质量

首个韩英语码转换自动语音识别基准数据集
包含高质量、自然的语码转换数据
涵盖多种主题内容

标注体系

分层语码转换级别标注

词级别语码转换：发生在单词级别的语码转换，通常为单个名词或形容词的替换
短语级别语码转换：句子中的多词短语以另一种语言出现
句子级别语码转换：按句子交替使用不同语言

外来词标注

对外来词进行精细标注
解决韩语外来词（如버스）与英语原词（如bus）在语码转换语境中的互换问题

评估指标

混合错误率：用于精确评估模型的语码转换语音识别能力
兴趣点错误率：基于PIER指标的新型评估方法

实验发现

所有多语言ASR模型在语码转换数据上均表现出显著更高的错误率
通过微调可以提升模型的语码转换语音识别能力

技术实现

依赖环境

Python环境依赖安装
FFmpeg音频处理工具

评估流程

支持Whisper等模型的评估
提供自定义模型集成接口
评估结果保存至输出目录

引用信息

bibtex @misc{paik2025hike, title={{HiKE}: Hierarchical Evaluation Framework for Korean-English Code-Switching Speech Recognition}, author={Gio Paik and Yongbeom Kim and Soungmin Lee and Sangmin Ahn and Chanwoo Kim}, year={2025}, eprint={2509.24613}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2509.24613}, }

搜集汇总

数据集介绍

构建方式

在韩英语码转换语音识别领域，HiKE数据集通过精心设计的数据采集流程构建而成。研究团队从多样化的主题场景中收集自然对话语料，确保数据覆盖日常交流、专业讨论等真实语境。每个语音样本均经过严格的转写与标注流程，不仅标注了原始文本内容，还采用分层标注体系对码转换现象进行细粒度标记。针对韩语中大量存在的英语借词现象，数据集特别增设借词标注维度，以区分真正的语码转换与本土化外来词的使用。

特点

该数据集最显著的特征在于其首创的分层评估框架，将语码转换现象划分为词汇级、短语级和句子级三个层次。这种分层设计使研究者能够精确评估模型在不同粒度语码转换场景下的表现。数据集包含高质量的韩英语码转换语音数据，其自然度和多样性在同类资源中表现突出。特别值得关注的是引入了混合错误率与关键点错误率双重评估指标，这些创新性指标能更准确地反映模型在复杂多语言环境下的识别能力。

使用方法

使用者可通过官方提供的代码库快速部署评估环境，安装必要依赖后即可运行预设的评估脚本。数据集支持对现有预训练模型进行端到端评估，同时也允许用户自定义模型接入评估框架。通过实现统一的基类接口，研究者可将任意语音识别模型集成到评估流程中，系统会自动生成包含分层错误率分析的详细报告。这种模块化设计极大提升了数据集的易用性和扩展性，为后续研究提供了标准化比较基准。

背景与挑战

背景概述

随着全球化进程加速，多语言交流日益频繁，韩英语码转换现象在语音识别领域逐渐凸显其重要性。HiKE数据集由ThetaOne-AI研究团队于2025年提出，作为首个韩英语码转换语音识别基准，其核心在于解决多语言环境下语音识别系统对混合语言结构的理解难题。该数据集通过构建涵盖多主题的高质量自然对话语料，填补了韩英混合语音数据资源的空白，为提升跨语言语音识别模型的泛化能力提供了关键支撑。

当前挑战

韩英语码转换语音识别面临双重挑战：在领域问题层面，传统语音识别模型难以准确捕捉词级、短语级和句级转换的语义边界，且外来词与源语言词汇的音系重叠易导致识别混淆；在数据构建过程中，需克服自然对话中语码转换的稀疏性，通过人工标注实现多层次转换结构的精细划分，同时需建立针对混合错误率与关键点错误率的专项评估体系以量化模型性能。

常用场景

经典使用场景

在语音识别研究领域，HiKE数据集作为首个韩英语码转换基准，主要应用于评估多语言自动语音识别模型在自然对话场景下的跨语言识别能力。该数据集通过精细标注的词汇级、短语级和句子级语码转换样本，为研究者提供了系统分析模型对混合语言结构处理效果的实验平台，尤其在模拟真实双语交流环境方面具有重要价值。

解决学术问题

该数据集有效解决了多语言语音识别系统中长期存在的语码转换识别精度不足的学术难题。通过引入混合错误率与关键点错误率双重评估指标，显著提升了模型在跨语言边界处的语义连贯性判断能力，为突破传统单语识别框架的局限性提供了量化依据，推动了认知语言学与计算语音学的交叉研究进展。

衍生相关工作

基于该数据集衍生的经典研究包括采用层次化微调策略的端到端语音识别模型架构创新，以及结合对抗训练的语码转换检测算法。这些工作通过利用数据集的细粒度标注信息，显著提升了跨语言声学模型与语言模型的协同效率，为后续构建自适应语码转换识别系统奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集