toloka/VoxDIY-RusNews
收藏数据集概述
名称: VoxDIY RusNews
语言: 俄语 (ru-RU)
许可证: CC-BY-4.0
多语言性: 单语种
数据集大小: 未知
源数据集: 原始数据
任务类别:
- 摘要生成
- 自动语音识别
- 文本到文本生成
标签:
- 条件文本生成
- 结构化到文本
- 语音识别
数据集详情
数据集总结: VoxDIY RusNews 是首个公开的大型俄语众包音频转录数据集。该数据集通过在 Toloka 众包平台上对新闻领域的俄语句子音频录音进行标注构建而成。数据集包含3091个实例,约有21,000个众包工作者提供的标注。
支持的任务:
- 众包转录的聚合
数据实例结构: 每个数据实例包含一个音频录音的URL、一系列转录文本及其对应的执行者标识符和真实值。每个数据实例提供七个众包转录。
数据字段:
- task: 音频录音的URL
- transcriptions: 众包转录的列表,以|分隔
- performers: 对应的执行者标识符
- gt: 真实转录文本
数据创建:
- 源数据: 音频录音通过语音合成工具获取,源句子来自俄语机器翻译共享任务的测试集。
- 标注: 在 Toloka 众包平台上进行,每个任务由7位标注者完成。只有自我报告懂俄语的标注者才能访问标注任务,并通过入口考试筛选。
引用信息:
@inproceedings{CrowdSpeech, author = {Pavlichenko, Nikita and Stelmakh, Ivan and Ustalov, Dmitry}, title = {{CrowdSpeech and Vox~DIY: Benchmark Dataset for Crowdsourced Audio Transcription}}, year = {2021}, booktitle = {Proceedings of the Neural Information Processing Systems Track on Datasets and Benchmarks}, eprint = {2107.01091}, eprinttype = {arxiv}, eprintclass = {cs.SD}, url = {https://openreview.net/forum?id=3_hgF1NAXU7}, language = {english}, pubstate = {forthcoming}, }




