toloka/VoxDIY-RusNews

Name: toloka/VoxDIY-RusNews
Creator: toloka
Published: 2024-09-10 12:59:20
License: 暂无描述

Hugging Face2024-09-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/toloka/VoxDIY-RusNews

下载链接

链接失效反馈

官方服务：

资源简介：

VoxDIY RusNews是第一个公开的大规模俄语众包音频转录数据集，包含3091个实例和约21K个注释。数据实例包括音频记录的URL、转录列表、执行者标识符和真实转录。数据集支持的任务包括众包转录的聚合。数据集的创建涉及使用语音合成工具获取音频记录，并在Toloka众包平台上进行注释。注释者需通过入门考试，且只有自报懂俄语的注释者才能参与。

VoxDIY RusNews is the first publicly available large-scale Russian crowdsourced audio transcription dataset, containing 3,091 instances and approximately 21,000 annotations. Each data instance includes the URL of the audio recording, a list of transcriptions, executor identifiers, and the ground-truth transcription. The tasks supported by this dataset include crowdsourced transcription aggregation. The creation of the dataset involved using speech synthesis tools to obtain audio recordings and conduct annotation work on the Toloka crowdsourcing platform. Annotators were required to pass a qualifying entrance examination, and only those who self-reported proficiency in Russian were eligible to participate.

提供机构：

toloka

原始信息汇总

数据集概述

名称: VoxDIY RusNews

语言: 俄语 (ru-RU)

许可证: CC-BY-4.0

多语言性: 单语种

数据集大小: 未知

源数据集: 原始数据

任务类别:

摘要生成
自动语音识别
文本到文本生成

标签:

条件文本生成
结构化到文本
语音识别

数据集详情

数据集总结: VoxDIY RusNews 是首个公开的大型俄语众包音频转录数据集。该数据集通过在 Toloka 众包平台上对新闻领域的俄语句子音频录音进行标注构建而成。数据集包含3091个实例，约有21,000个众包工作者提供的标注。

支持的任务:

众包转录的聚合

数据实例结构: 每个数据实例包含一个音频录音的URL、一系列转录文本及其对应的执行者标识符和真实值。每个数据实例提供七个众包转录。

数据字段:

task: 音频录音的URL
transcriptions: 众包转录的列表，以|分隔
performers: 对应的执行者标识符
gt: 真实转录文本

数据创建:

源数据: 音频录音通过语音合成工具获取，源句子来自俄语机器翻译共享任务的测试集。
标注: 在 Toloka 众包平台上进行，每个任务由7位标注者完成。只有自我报告懂俄语的标注者才能访问标注任务，并通过入口考试筛选。

引用信息:

@inproceedings{CrowdSpeech, author = {Pavlichenko, Nikita and Stelmakh, Ivan and Ustalov, Dmitry}, title = {{CrowdSpeech and Vox~DIY: Benchmark Dataset for Crowdsourced Audio Transcription}}, year = {2021}, booktitle = {Proceedings of the Neural Information Processing Systems Track on Datasets and Benchmarks}, eprint = {2107.01091}, eprinttype = {arxiv}, eprintclass = {cs.SD}, url = {https://openreview.net/forum?id=3_hgF1NAXU7}, language = {english}, pubstate = {forthcoming}, }

搜集汇总

数据集介绍

构建方式

在语音处理领域，构建高质量的标注数据集对于推动自动语音识别技术至关重要。VoxDIY RusNews数据集的构建过程体现了严谨的科学方法，其音频素材源自WMT 2013和2014机器翻译共享任务的俄语测试集句子，并借助Yandex SpeechKit语音合成工具生成对应的音频记录。随后，研究团队通过Toloka众包平台，精心设计了标注流程，每个音频任务由七名标注者独立完成转录，以确保数据的多样性和可靠性。在标注者筛选环节，平台设置了严格的准入机制，要求参与者通过俄语能力自我报告及基于词错误率的入门考试，从而保障了标注结果的专业水准。

使用方法

在应用层面，VoxDIY RusNews数据集为语音与文本处理研究提供了多功能的实验平台。研究者可将其核心用于众包转录的聚合算法开发与评估，通过比较不同标注者的转录结果与标准答案，能够深入分析标注噪声并优化聚合策略。同时，该数据集也适用于自动语音识别模型的训练与测试，尤其有助于提升模型对俄语新闻语音的识别准确率。此外，数据集支持文本摘要和条件文本生成等任务的探索，例如基于音频内容生成简洁的文本摘要。在使用时，用户可通过提供的音频链接获取原始语音数据，并利用附带的多个转录文本及标注者信息进行多角度的对比分析与模型验证。

背景与挑战

背景概述

在语音处理与自然语言生成领域，俄语资源的稀缺性长期制约着相关技术的发展。2021年，由Toloka研究团队主导构建的VoxDIY RusNews数据集应运而生，成为首个公开的大规模俄语众包音频转录数据集。该数据集基于WMT 2013与2014机器翻译共享任务的俄语测试集，通过语音合成工具生成音频，并借助Toloka众包平台邀请母语者进行标注，共包含3091个实例及约2.1万条标注。其核心研究问题聚焦于探索众包转录在俄语语音识别与文本生成任务中的可靠性与聚合方法，为俄语语音处理模型提供了宝贵的基准数据，显著推动了多语言语音技术的研究进程。

当前挑战

VoxDIY RusNews数据集旨在应对俄语语音识别与文本生成领域的两大挑战：一是俄语语音数据稀缺导致的模型训练瓶颈，二是众包转录中因发音变体、专有名词拼写差异等引入的标注噪声问题。在构建过程中，研究团队面临标注质量控制难题，需通过严格的准入考试筛选标注者，并将词错误率阈值设定为40%以确保数据可靠性；同时，数据匿名化处理与标注者身份保护亦增加了工程复杂度。这些挑战共同凸显了在资源受限语言中构建高质量语音数据集的艰巨性。

常用场景

经典使用场景

在语音识别与自然语言处理领域，VoxDIY RusNews数据集作为首个公开的大规模俄语众包音频转录数据集，其经典使用场景聚焦于评估和优化众包转录的聚合算法。该数据集通过提供多个标注者对同一音频片段的转录结果，使得研究者能够深入分析不同标注者之间的差异性与一致性，从而开发出更高效的转录整合方法，提升自动语音识别系统在俄语环境下的鲁棒性。

解决学术问题

该数据集有效解决了俄语语音识别研究中众包数据质量评估与标准化的核心学术问题。通过引入严格的标注者筛选机制与重叠标注设计，它为研究社区提供了可靠的基准数据，助力探索转录错误模式、标注者偏差分析以及众包质量控制策略。其意义在于填补了俄语领域公开众包语音数据的空白，推动了跨语言语音处理技术的均衡发展，并为后续研究提供了可复现的实验基础。

实际应用

在实际应用层面，VoxDIY RusNews数据集为俄语新闻领域的语音转文本服务提供了关键的训练与验证资源。它可应用于智能助手、实时字幕生成、媒体内容归档等场景，通过优化转录准确性来增强用户体验。此外，该数据集支持企业开发适应俄语语音变体与口音的识别系统，促进语音技术在俄语市场中的落地与普及。

数据集最近研究