Cantonese-Radio-Description-Instructions

Name: Cantonese-Radio-Description-Instructions
Creator: Mesolitica
Published: 2025-06-08 21:57:18
License: 暂无描述

Hugging Face2025-06-08 更新2025-06-09 收录

下载链接：

https://huggingface.co/datasets/mesolitica/Cantonese-Radio-Description-Instructions

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含问题、答案、元数据和音频文件名的 Cantonese-Radio 数据集，用于训练和测试语言模型。数据集由训练集组成，共有338813个示例，适用于粤语语音识别和文本生成任务。

This is a Cantonese-Radio dataset containing questions, answers, metadata, and audio filenames, which is designed for training and testing language models. This dataset is a training set comprising 338,813 examples, and is applicable to Cantonese speech recognition and text generation tasks.

提供机构：

Mesolitica

创建时间：

2025-06-07

搜集汇总

数据集介绍

构建方式

在粤语广播数据处理领域，该数据集源自alvanlii/cantonese-radio原始语料，通过采用Qwen2.5-72B-Instruct大模型对转录文本进行智能化描述生成。构建过程中充分保留了音频文件名与元数据的对应关系，形成了包含33万余条样本的大规模训练集，每条数据均包含问题、回答、元数据及音频文件名的完整映射体系。

使用方法

使用者可通过huggingface-cli工具直接下载数据集压缩包，配合定制Python解压脚本完成数据预处理。该数据集适用于粤语语音识别、音频描述生成及多模态指令微调任务，可加载至深度学习框架中训练端到端的语音-文本转换模型，或作为粤语对话系统的训练基底。

背景与挑战

背景概述

粤语广播描述指令数据集源于alvanlii团队构建的粤语广播语料库，由Mesolitica研究机构通过Qwen2.5-72B-Instruct大模型对原始转录文本进行智能化描述生成。该数据集聚焦于低资源方言的语义理解与生成任务，通过结合音频文件与多模态文本标注，为粤语自然语言处理研究提供了大规模高质量的指令微调数据，显著推动了方言计算语言学的发展。

当前挑战

该数据集核心解决粤语语音识别与语义解析的双重挑战，包括方言音系特征建模、口语化表达歧义消解以及跨模态对齐问题。构建过程中需克服音频转录噪声干扰、方言语法规则数字化缺失以及大模型生成内容的一致性验证等难点，同时需平衡语言真实性指令与机器学习可用性之间的张力。

常用场景

经典使用场景

在粤语语音理解与生成的研究领域中，Cantonese-Radio-Description-Instructions数据集通过结合音频转录与智能生成的描述文本，为语音到文本的跨模态学习提供了重要支撑。该数据集广泛应用于训练和评估语音识别模型，特别是在处理粤语这种方言变体时，能够有效提升模型对口语化表达和地域性语言特征的理解能力。

解决学术问题

该数据集显著解决了低资源语言处理中的标注数据稀缺问题，为粤语自然语言处理研究提供了大规模、高质量的训练样本。其意义在于推动了方言保护与人工智能技术的结合，促进了多语言模型在语音识别、语义理解等任务中的性能提升，对语言技术公平性与包容性发展具有深远影响。

实际应用

在实际应用中，该数据集可用于构建智能语音助手、粤语广播内容自动摘要系统以及方言教育工具。例如，在媒体行业，能够实现粤语节目的实时字幕生成与内容检索；在文化保护领域，可为粤语口语资料的数字化存档与检索提供技术基础，增强语言资源的可利用性。

数据集最近研究