five

lemon-mint/korean_english_parallel_wiki_augmented_v1

收藏
Hugging Face2024-07-17 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/lemon-mint/korean_english_parallel_wiki_augmented_v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从维基百科提取的大量韩英平行句子,是通过将原始的英文维基百科数据集与机器翻译的韩文句子进行增强而创建的。数据集旨在训练和评估机器翻译模型,特别是那些专注于英韩和韩英翻译的模型。数据集特征包括英文句子和其韩文翻译,数据集分割为训练集,包含503,245对平行句子。数据集的大小为下载大小569MB,磁盘上大小为923MB。数据集来源于英文维基百科,并增加了机器翻译的韩文文本。需要注意的是,该数据集是程序生成的,可能包含错误、不一致性或偏见,使用前需要仔细评估和预处理。

This dataset contains a large number of Korean-English parallel sentences extracted from Wikipedia. It was created by augmenting the original English Wikipedia dataset with machine-translated Korean sentences. The dataset is designed for training and evaluating machine translation models, especially those focusing on English-to-Korean and Korean-to-English translation. The dataset features include English sentences and their Korean translations, with the dataset split into a training set containing 503,245 parallel sentence pairs. The dataset size is 569MB for download and 923MB on disk. The dataset is derived from English Wikipedia and augmented with machine-translated Korean text. It is important to note that this dataset is programmatically generated and may contain errors, inconsistencies, or biases, requiring careful evaluation and preprocessing before use.
提供机构:
lemon-mint
原始信息汇总

Korean-English Parallel Wiki Augmented Ver 1 数据集概述

基本信息

  • 语言: 韩语 (ko), 英语 (en)
  • 许可证: CC-BY-SA-3.0
  • 任务类别: 翻译, 文本生成
  • 数据集名称: Korean-English Parallel Wiki Augmented Ver 1

数据集特征

  • 特征:
    • english: 英语句子 (string)
    • korean: 韩语翻译 (string)
    • score: 分数 (float64)

数据集分割

  • train:
    • 样本数量: 503,245
    • 字节数: 922,808,552

数据集大小

  • 下载大小: 569MB
  • 磁盘占用: 923MB

数据来源

  • 数据集源自英语维基百科,并通过机器翻译增加了韩语文本。

注意事项

  • 数据集是程序生成的,可能包含错误、不一致或偏见。使用前需仔细评估和预处理。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作