five

IWSLT/mt_eng_vietnamese

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/IWSLT/mt_eng_vietnamese
下载链接
链接失效反馈
官方服务:
资源简介:
mt_eng_vietnamese数据集是一个多语言的机器翻译数据集,包含英语和越南语之间的翻译对。该数据集来源于IWSLT15,主要用于机器翻译任务。数据集的结构包括训练集、验证集和测试集,分别包含133318、1269和1269个样本。每个样本包含一个英语句子和其对应的越南语翻译。

mt_eng_vietnamese数据集是一个多语言的机器翻译数据集,包含英语和越南语之间的翻译对。该数据集来源于IWSLT15,主要用于机器翻译任务。数据集的结构包括训练集、验证集和测试集,分别包含133318、1269和1269个样本。每个样本包含一个英语句子和其对应的越南语翻译。
提供机构:
IWSLT
原始信息汇总

数据集卡片 for mt_eng_vietnamese

数据集描述

数据集摘要

预处理的数据集来自 IWSLT15 英语-越南语机器翻译:英语-越南语。

支持的任务和排行榜

机器翻译

语言

英语, 越南语

数据集结构

数据实例

数据集中的一个示例: json { "translation": { "en": "In 4 minutes, atmospheric chemist Rachel Pike provides a glimpse of the massive scientific effort behind the bold headlines on climate change, with her team -- one of thousands who contributed -- taking a risky flight over the rainforest in pursuit of data on a key molecule.", "vi": "Trong 4 phút, chuyên gia hoá học khí quyển Rachel Pike giới thiệu sơ lược về những nỗ lực khoa học miệt mài đằng sau những tiêu đề táo bạo về biến đổi khí hậu, cùng với đoàn nghiên cứu của mình -- hàng ngàn người đã cống hiến cho dự án này -- một chuyến bay mạo hiểm qua rừng già để tìm kiếm thông tin về một phân tử then chốt." } }

数据字段

  • translation:
    • en: 英语文本
    • vi: 越南语文本

数据分割

  • train: 133318
  • validation: 1269
  • test: 1269

数据集创建

数据集信息

  • config_name: iwslt2015-vi-en

    • features:
      • name: translation dtype: translation: languages: - vi - en
    • splits:
      • name: train num_bytes: 32478282 num_examples: 133318
      • name: validation num_bytes: 323743 num_examples: 1269
      • name: test num_bytes: 323743 num_examples: 1269
    • download_size: 32323025
    • dataset_size: 33125768
  • config_name: iwslt2015-en-vi

    • features:
      • name: translation dtype: translation: languages: - en - vi
    • splits:
      • name: train num_bytes: 32478282 num_examples: 133318
      • name: validation num_bytes: 323743 num_examples: 1269
      • name: test num_bytes: 323743 num_examples: 1269
    • download_size: 32323025
    • dataset_size: 33125768
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是IWSLT'15预处理后的英语-越南语机器翻译数据集,包含约13.3万条训练数据和少量验证及测试数据,适用于机器翻译任务。数据以成对的英越文本形式呈现,支持相关自然语言处理研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作