noahkim/Kor_Jpn_Translation_Dataset
收藏Hugging Face2022-12-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/noahkim/Kor_Jpn_Translation_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- expert-generated
language_creators:
- other
language:
- kor
- jpn
license:
- mit
size_categories:
- 1K<n<10K
source_datasets:
- original
task_categories:
- translation
task_ids:
- language-modeling
paperswithcode_id: null
pretty_name: Kor-Jpn-Translation
---
# Dataset Card for "Kor_Jpn_Translation_Dataset"
### Dataset Summary
AI-Hub에서 제공하는 한국어-일본어 번역 말뭉치 데이터(https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=127)를 사용하기 쉽게 정제했습니다.
- 제공처 : AI-Hub(https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=127)
- 제목 : 한국어-일본어 문화 분야 이중 말뭉치
- 구축분야 : 문화재/향토/K-Food, K-POP(한류)/대중문화_공연 콘텐츠, IT/컴퓨터/모바일, 금융/증시, 사회/노동/복지, 교육, 특허/기술, 자동차
- 구축량 : 150만 문장쌍
- 응용분야 : 언어모델, 자동번역
- 언어 : 원시어-한국어, 목적어-일본어
### Supported Tasks and Leaderboards
- Translation
### Languages
- Kor
- Jpan
## Dataset Structure
features:
- name: KOR
dtype: string
- name: JPN
dtype: string
splits:
- name: train
num_bytes: 294787449
num_examples: 840000
- name: val
num_bytes: 88406929
num_examples: 252000
- name: test
num_bytes: 37964427
num_examples: 108000
download_size: 289307354
dataset_size: 421158805
### Data Splits
splits:
- name: train
num_bytes: 294787449
num_examples: 840000
- name: val
num_bytes: 88406929
num_examples: 252000
- name: test
num_bytes: 37964427
num_examples: 108000
### Contributions
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
noahkim
原始信息汇总
数据集概述
数据集名称
- 名称:Kor-Jpn-Translation
- 别名:Kor_Jpn_Translation_Dataset
数据集描述
- 来源:AI-Hub提供的数据集,经过整理以方便使用。
- 标题:한국어-일본어 문화 분야 이중 말뭉치
- 构建领域:文化遗迹/本土/K-Food, K-POP(韩流)/大众文化表演内容, IT/计算机/移动, 金融/股市, 社会/劳动/福利, 教育, 专利/技术, 汽车
- 构建量:150万对句子
- 应用领域:语言模型, 自动翻译
- 语言:源语言-韩语, 目标语言-日语
支持的任务
- 任务:翻译
语言
- 韩语 (Kor)
- 日语 (Jpn)
数据集结构
- 特征:
- KOR: 字符串类型
- JPN: 字符串类型
- 分割:
- 训练集:840000个样本,294787449字节
- 验证集:252000个样本,88406929字节
- 测试集:108000个样本,37964427字节
- 下载大小:289307354字节
- 数据集大小:421158805字节



