PeacefulData/HypoTranslate

Name: PeacefulData/HypoTranslate
Creator: PeacefulData
Published: 2024-05-18 05:37:27
License: 暂无描述

Hugging Face2024-05-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/PeacefulData/HypoTranslate

下载链接

链接失效反馈

官方服务：

资源简介：

HypoTranslate数据集是在论文《GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators》中发布的。该数据集支持多种语言（包括英语、中文、日语、法语、西班牙语、意大利语和葡萄牙语），主要用于生成式翻译任务。数据文件的命名格式为[split]_[data_source]_[src_language_code]_[tgt_language_code]_[task]_[seamlessm4t_size].pt，例如train_fleurs_en_cy_st_large.pt。数据集的目标语言包含N-best假设和真实转录文本，适用于语音翻译任务（如FLEURS、CoVoST-2、MuST-C）。

提供机构：

PeacefulData

原始信息汇总

数据集概述

基本信息

许可证: Apache 2.0
任务类别: 文本生成
语言: 英语、中文、日语、法语、西班牙语、意大利语、葡萄牙语
标签: 生成翻译、大型语言模型、LLaMA
名称: HypoTranslate
大小类别: 100K<n<1M

文件格式

文件名格式: [split]_[data_source]_[src_language_code]_[tgt_language_code]_[task]_[seamlessm4t_size].pt
示例: train_fleurs_en_cy_st_large.pt

注意事项

语言代码查询: 参考 Table 15 & 17 in https://arxiv.org/pdf/2402.06894.pdf
源/目标语言: 指翻译任务中的源语言和目标语言，N-best 假设和真实转录均在目标语言中
任务 ID: 对于语音翻译数据集（FLEURS, CoVoST-2, MuST-C），任务 ID "mt" 表示级联的 ASR+MT 系统

5,000+

优质数据集

54 个

任务类型

进入经典数据集