werty1248/EnKo-Translation-LongTextOnly-dedup
收藏Hugging Face2024-07-02 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/werty1248/EnKo-Translation-LongTextOnly-dedup
下载链接
链接失效反馈官方服务:
资源简介:
该数据集主要用于韩语和英语之间的翻译任务。数据筛选标准基于gemma模型的tokenizer,筛选出英文和韩文token总数超过1K的数据。数据集来源于多个公开的韩英翻译数据集,包括aihub-en-ko-translation-12m、instruction_en_ko_translation_1.4m等。数据分布通过图表展示,具体数据量如下:1K~2K token的数据有146,957条,2K~4K token的数据有11,823条,4K以上token的数据有2,229条。
This dataset is primarily used for Korean-English translation tasks, containing long text translation data extracted from multiple sources. The data is categorized based on the total number of tokens in English and Korean, specifically ranging from 1K to 2K, 2K to 4K, and above 4K tokens. The dataset does not remove cases where only one language is duplicated.
提供机构:
werty1248
原始信息汇总
数据集概述
- 任务类别: 翻译
- 语言: 韩语 (ko), 英语 (en)
数据集筛选
- 筛选标准:
- 基于 gemma 分词器,英文+韩语 总词数超过 1K 的数据。
- 数据量:
- 1K~2K: 146,957
- 2K~4K: 11,823
- 4K~: 2,229
- 去重策略: 韩语/英语 中仅有一方重复的情况未被移除。
数据来源
- 主要来源:
- 其他来源:



