five

georgechang8/code_switch_yodas_zh

收藏
Hugging Face2024-05-15 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/georgechang8/code_switch_yodas_zh
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从espnet/yodas数据集中提取的一个子集,专注于包含中英文代码切换现象的视频。数据集包含音频、文本、ID和会话ID等特征,并分为训练集、验证集和测试集。数据集的使用可以通过`default`和`clean`两种配置进行加载,其中`clean`配置对文本进行了清洗处理。数据集的创建过程包括从原始数据集中读取文本内容、筛选包含中文符号的视频、过滤掉拼音内容、保留包含拉丁字母的视频、保留包含标点符号的视频,并按中文字符比例排序。最终,通过手动检查和筛选,提取了176个视频的音频,并进行了数据清洗和分割。

该数据集是从espnet/yodas数据集中提取的一个子集,专注于包含中英文代码切换现象的视频。数据集包含音频、文本、ID和会话ID等特征,并分为训练集、验证集和测试集。数据集的使用可以通过`default`和`clean`两种配置进行加载,其中`clean`配置对文本进行了清洗处理。数据集的创建过程包括从原始数据集中读取文本内容、筛选包含中文符号的视频、过滤掉拼音内容、保留包含拉丁字母的视频、保留包含标点符号的视频,并按中文字符比例排序。最终,通过手动检查和筛选,提取了176个视频的音频,并进行了数据清洗和分割。
提供机构:
georgechang8
原始信息汇总

数据集概述

数据集名称

  • 名称: code-switching yodas

数据集配置

  • 配置名称: clean, default
  • 特征:
    • audio: 采样率为16000的音频数据
    • text: 文本数据,类型为string
    • id: 标识符,类型为string
    • session_id: 会话标识符,类型为string

数据集分割

  • train: 39989个样本,大小为2807175314字节
  • validation: 4161个样本,大小为256038049字节
  • test: 3813个样本,大小为253226827字节

数据集大小

  • 下载大小: 3311132741字节
  • 数据集大小: 3316440190字节(clean配置)
  • 数据集大小: 3341105554.6299996字节(default配置)

数据集来源

  • 原始数据集: espnet/yodas
  • 代码切换子集: 从zh000子集中选择包含普通话-英语代码切换现象的视频

数据集使用

  • 默认配置: 不修改任何选定样本的文本
  • clean配置: 清洗选定样本的文本

数据集描述

  • 语言: 中文, 英文
  • 许可证: CC-BY-3.0

数据集创建

  • 数据收集和处理:
    1. 从espnet/yodas读取文本内容
    2. 保留包含中文符号的视频
    3. 过滤掉包含拼音的视频
    4. 保留包含拉丁文剧本的视频
    5. 保留包含标点的视频
    6. 按中文字符比例排序
    7. 保存到csv进行手动检查
    8. 手动检查前500个视频
    9. 快速浏览501-1000个视频
    10. 提取选定视频片段的音频
    11. 发布子集

数据清洗

  • 手动清洗: 对特定视频进行手动清洗
  • 低概率过滤: 使用whisper-medium计算logprob,并根据阈值过滤
  • 清洗管道: 包括去除表情符号、特殊字符和多余空格等步骤

数据集限制

  • 过滤和手工挑选过程可能遗漏有用的视频
  • 转录未经过处理,可能需要进一步清洗

数据集联系

  • 原始数据集联系: https://huggingface.co/datasets/espnet/yodas
  • 代码切换处理联系: Chih-Chiang Chang (cc.chang0828@gmail.com)
搜集汇总
数据集介绍
main_image_url
构建方式
在语音识别与自然语言处理领域,针对中英文语码转换现象的研究需要高质量的数据支撑。本数据集基于espnet/yodas的zh000子集,通过多步骤筛选构建而成。首先,从原始数据中提取视频文本内容,保留包含中文字符且不含拼音标注的样本。随后,利用正则表达式识别同时包含拉丁字母与标点符号的片段,确保语码转换现象的存在。通过人工审查,进一步筛选出具有典型语码转换特征的视频,并剔除低质量或不符合要求的样本。最终,将选定视频的音频片段与对应文本转录整合,形成包含训练、验证与测试划分的结构化数据集。
特点
该数据集聚焦于中英文语码转换现象,为语音识别与多语言处理研究提供了珍贵资源。其核心特征在于音频与文本的精确对齐,所有音频采样率统一为16kHz,确保声学信号的一致性。数据集中每个样本均包含唯一的ID及会话标识,便于追踪与分组分析。值得注意的是,语码转换现象在视频级别而非每个话语中均有保证,这反映了真实场景中语言使用的动态性。数据集提供两种配置:default保留原始文本,clean则经过细致的文本清洗流程,移除了填充词、重复标点等噪声,提升了文本质量。
使用方法
为便利学术研究,该数据集可通过Hugging Face的datasets库直接加载。用户可通过指定配置名称选择数据版本:使用default配置可获取原始文本数据,而clean配置则提供经过清洗的文本。加载后,数据集以标准字典格式呈现,包含音频路径、波形数组、转录文本及元数据。研究人员可将其用于训练或评估语码转换检测、语音识别或多语言语音处理模型。数据已预先划分为训练、验证与测试集,支持开箱即用的实验流程,同时允许用户根据需求进一步处理或分析特定子集。
背景与挑战
背景概述
在语音识别与自然语言处理领域,语码转换现象的研究日益受到关注,尤其是在多语言社会环境中。数据集georgechang8/code_switch_yodas_zh由研究人员Chih-Chiang Chang于近年创建,基于espnet/yodas数据集的zh000子集精心构建。该数据集聚焦于汉语与英语之间的语码转换现象,旨在为语音识别模型提供包含混合语言特征的音频与文本对。其核心研究问题在于解决多语言语音识别中语码转换的建模难题,通过提供真实场景下的双语交替语料,推动跨语言语音处理技术的发展,对计算语言学与语音技术领域具有重要参考价值。
当前挑战
该数据集致力于解决语码转换语音识别中的关键挑战,包括混合语言边界检测、语言模型切换的建模复杂性,以及双语语音特征的鲁棒性提取。在构建过程中,面临多重技术障碍:首先,从大规模原始数据中筛选出高质量语码转换样本需依赖复杂的正则表达式与手动审查,过程耗时且易遗漏有效数据;其次,音频与文本的对齐与清洗涉及去除无关符号、过滤低概率转录,并需处理标点缺失等异常情况,这些步骤对数据一致性与准确性提出了较高要求。
常用场景
经典使用场景
在语音识别与自然语言处理领域,多语言混合现象的研究日益受到关注。该数据集聚焦于汉语与英语之间的语码转换现象,为语音识别模型提供了丰富的双语混合语音样本。其经典使用场景在于训练和评估端到端自动语音识别系统,特别是在处理口语化、非正式对话中的语言切换时,能够有效提升模型对跨语言边界语音片段的识别准确率。数据集中的音频片段采样率为16kHz,并附有经过清洗的文本转录,适用于构建鲁棒的多语言语音识别基准测试。
实际应用
在实际应用层面,该数据集能够直接服务于需要处理多语言混合语音的智能系统。例如,在全球化企业的视频会议转录、跨境社交媒体内容审核、以及多语言地区的智能客服系统中,经常会出现汉语与英语交替使用的场景。利用该数据集训练的模型可以更准确地理解并转录这类混合语音,提升跨语言沟通的效率和自动化服务的包容性,尤其适用于科技评论、金融市场分析等特定领域的内容处理。
衍生相关工作
基于该数据集所呈现的语码转换特性,已衍生出一系列经典研究工作。这些工作主要集中在改进端到端语音识别架构,使其能够动态处理语言标识符。例如,有研究探索了在Transformer或RNN-T模型中集成语言检测模块,以实时判断语音片段的主导语言。此外,该数据集也促进了跨语言预训练声学模型的发展,部分工作利用其进行多任务学习,同时优化单语和混合语言的识别性能,推动了语音处理技术向更灵活、更包容的方向演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作