TEDtalk-en-ja
收藏TEDtalk-en-ja 数据集概述
数据集摘要
该数据集是从 MTTT(Multitarget TED Talks)中提取的日英双语对。MTTT 是一个基于 TED Talks 的多目标双语文本集合。数据来源于 WIT^3,该数据也被用于 IWSLT 机器翻译评估活动。
数据集信息
- 语言: 英语 (en) 和日语 (ja)
- 许可: CC BY-NC-ND 4.0
- 任务类别: 翻译
特征
- 翻译:
- en: 字符串类型
- ja: 字符串类型
数据分割
- 训练集:
- 文件大小: 35279668 字节
- 样本数量: 158535
下载和数据集大小
- 下载大小: 20322391 字节
- 数据集大小: 35279668 字节
配置
- 默认配置:
- 数据文件:
- 分割: 训练集
- 路径: data/train-*
- 数据文件:
使用方法
python from datasets import load_dataset dataset = load_dataset("Hoshikuzu/TEDtalk-en-ja")
如果数据加载时间过长,可以使用流式加载: python from datasets import load_dataset dataset = load_dataset("Hoshikuzu/TEDtalk-en-ja", streaming=True)
数据实例
json { "en": "(Applause) David Gallo: This is Bill Lange. Im Dave Gallo. ", "ja": "(拍手)、デイビッド:彼はビル・ラング、私はデイブ・ガロです。" }
数据分割
仅提供了一个 train 分割。
许可信息
该数据集在 CC BY-NC-ND 4.0 许可下发布。TED 在其网站上声明了这一许可,并要求在使用数据时承认 TED 的版权。
引用信息
plaintext @misc{duh18multitarget, author = {Kevin Duh}, title = {The Multitarget TED Talks Task}, howpublished = {url{http://www.cs.jhu.edu/~kevinduh/a/multitarget-tedtalks/}}, year = {2018}, }




