VoxDIY-RusNews
收藏魔搭社区2025-12-05 更新2025-12-06 收录
下载链接:
https://modelscope.cn/datasets/toloka/VoxDIY-RusNews
下载链接
链接失效反馈官方服务:
资源简介:
# Dataset Card for VoxDIY RusNews
## Dataset Description
- **Repository:** [GitHub](https://github.com/Toloka/CrowdSpeech)
- **Paper:** [Paper](https://openreview.net/forum?id=3_hgF1NAXU7)
- **Point of Contact:** research@toloka.ai
### Dataset Summary
VoxDIY RusNews is the first publicly available large-scale dataset of crowdsourced audio transcriptions in Russian language.
The dataset was constructed by annotating audio recordings of Russian sentences from news domain on [Toloka crowdsourcing platform](https://toloka.ai).
VoxDIY RusNews consists of 3091 instances having around 21K annotations obtained from crowd workers.
### Supported Tasks and Leaderboards
Aggregation of crowd transcriptions.
### Languages
Russian
## Dataset Structure
### Data Instances
A data instance contains a url to the audio recording, a list of transcriptions along with the corresponding performers identifiers and
ground truth. For each data instance, seven crowdsourced transcriptions are provided.
```
{'task': 'https://tlk.s3.yandex.net/annotation_tasks/russian/1003.wav',
'transcriptions': 'в список так же попали мэрлин монро джон ленон и альберт эйнштейн | в список также попали мерлин монро джон ленон и альберт энштейн | в список также попали мерилин монро джон леннон и альберт энтштейн | в список также попали мэрилин монро джон леннон и альберт эпштейн | в список также попали мэрилин монро джон леннон и альберт эйнштейн | в список так же попали мерелин монро джон ленон и альберт нштейн | в список также попали мэрилин монро джон леннон и альберт эйнштейн',
'performers': '1743 | 784 | 1014 | 1572 | 744 | 2187 | 1208',
'gt': 'в список также попали мэрилин монро джон леннон и альберт эйнштейн'}
```
### Data Fields
* task: a string containing a url of the audio recording
* transcriptions: a list of the crowdsourced transcriptions separated by '|'
* performers: the corresponding performers' identifiers.
* gt: ground truth transcription
## Dataset Creation
### Source Data
The audio recordings were obtained using a [speech synthesis tool](https://cloud.yandex.com/en-ru/services/speechkit).
The source sentences come from the Russian test set of the machine translation shared task executed as a part of the
Eights and Ninth Workshops on Statistical Machine Translation ([WMT 2013](https://www.statmt.org/wmt13/) and [WMT 2014](https://www.statmt.org/wmt14/)).
### Annotations
Annotation was done on [Toloka crowdsourcing platform](https://toloka.ai) with overlap of 7 (that is, each task was performed by 7 annotators).
Only annotators who self-reported the knowledge of Russian had access to the annotation task.
Additionally, annotators had to pass *Entrance Exam*. For this, we ask all incoming eligible workers to annotate ten audio
recordings. We then compute our target metric — Word Error Rate (WER) — on these recordings and accept to the main task all workers
who achieve WER of 40% or less (the smaller the value of the metric, the higher the quality of annotation).
The Toloka crowdsourcing platform associates workers with unique identifiers and returns these identifiers to the requester.
To further protect the data, we additionally encode each identifier with an integer that is eventually reported in our released datasets.
See more details in the [paper](https://arxiv.org/pdf/2107.01091.pdf).
### Citation Information
```
@inproceedings{CrowdSpeech,
author = {Pavlichenko, Nikita and Stelmakh, Ivan and Ustalov, Dmitry},
title = {{CrowdSpeech and Vox~DIY: Benchmark Dataset for Crowdsourced Audio Transcription}},
year = {2021},
booktitle = {Proceedings of the Neural Information Processing Systems Track on Datasets and Benchmarks},
eprint = {2107.01091},
eprinttype = {arxiv},
eprintclass = {cs.SD},
url = {https://openreview.net/forum?id=3_hgF1NAXU7},
language = {english},
pubstate = {forthcoming},
}
```
# VoxDIY RusNews 数据集卡片
## 数据集说明
- **仓库地址**:[GitHub](https://github.com/Toloka/CrowdSpeech)
- **相关论文**:[论文](https://openreview.net/forum?id=3_hgF1NAXU7)
- **联系方式**:research@toloka.ai
### 数据集概述
VoxDIY RusNews是首个公开可用的大规模俄语众包音频转录数据集。该数据集通过在[Toloka众包平台(https://toloka.ai)]上对新闻领域俄语语句的音频录音进行标注构建而成。VoxDIY RusNews共包含3091条数据样本,累计拥有来自众包工作者的约2.1万条标注结果。
### 支持任务与排行榜
众包转录聚合
### 语言
俄语
## 数据集结构
### 数据样本
每条数据样本包含音频录音的URL、转录文本列表及其对应的标注者标识符与基准真值(ground truth)。每条数据样本均提供7条众包转录结果。
{'task': 'https://tlk.s3.yandex.net/annotation_tasks/russian/1003.wav',
'transcriptions': 'в список так же попали мэрлин монро джон ленон и альберт эйнштейн | в список также попали мерлин монро джон ленон и альберт энштейн | в список также попали мерилин монро джон леннон и альберт энтштейн | в список также попали мэрилин монро джон леннон и альберт эпштейн | в список также попали мэрилин монро джон леннон и альберт эйнштейн | в список так же попали мерелин монро джон ленон и альберт нштейн | в список также попали мэрилин монро джон леннон и альберт эйнштейн',
'performers': '1743 | 784 | 1014 | 1572 | 744 | 2187 | 1208',
'gt': 'в список также попали мэрилин монро джон леннон и альберт эйнштейн'}
### 数据字段说明
* `task`:包含音频录音URL的字符串
* `transcriptions`:以`|`分隔的众包转录文本列表
* `performers`:对应的标注者标识符
* `gt`:基准真值(ground truth)转录文本
## 数据集构建
### 源数据
音频录音通过[语音合成工具(speech synthesis tool)](https://cloud.yandex.com/en-ru/services/speechkit)生成。源语句源自作为第八、第九届统计机器翻译研讨会(WMT 2013与WMT 2014)子任务的机器翻译共享任务俄语测试集。
### 标注流程
标注工作在[Toloka众包平台(https://toloka.ai)]完成,标注重叠数为7(即每条任务由7名标注者完成)。仅自我报告掌握俄语的标注者可参与标注任务。此外,标注者需通过**入门测试**:我们要求所有符合资格的新入职工作者标注10条音频录音,随后计算其词错误率(Word Error Rate, WER)作为目标指标,将词错误率不超过40%的工作者纳入主任务(指标数值越小,标注质量越高)。Toloka众包平台会为工作者分配唯一标识符并将其返回给需求方。为进一步保护数据,我们会将每个标识符编码为整数,最终在发布的数据集中使用该整数形式。更多细节可参阅[相关论文](https://arxiv.org/pdf/2107.01091.pdf)。
### 引用信息
@inproceedings{CrowdSpeech,
author = {Pavlichenko, Nikita and Stelmakh, Ivan and Ustalov, Dmitry},
title = {{CrowdSpeech and Vox~DIY: Benchmark Dataset for Crowdsourced Audio Transcription}},
year = {2021},
booktitle = {Proceedings of the Neural Information Processing Systems Track on Datasets and Benchmarks},
eprint = {2107.01091},
eprinttype = {arxiv},
eprintclass = {cs.SD},
url = {https://openreview.net/forum?id=3_hgF1NAXU7},
language = {english},
pubstate = {forthcoming},
}
提供机构:
maas
创建时间:
2025-09-15



