five

traintogpb/aihub-flores-koen-integrated-prime-small-30k

收藏
Hugging Face2024-05-23 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/traintogpb/aihub-flores-koen-integrated-prime-small-30k
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-sa-4.0 task_categories: - translation language: - en - ko pretty_name: aihub-flores-sparta size_categories: - 10K<n<100K --- ### High Quality Ko-En Translation Dataset (AIHub-FLoRes Integrated) AI Hub의 한-영 번역 데이터셋과 FLoRes 한-영 번역 데이터셋의 합본입니다. ### High Quality AIHub Dataset AI Hub의 경우 한-영 번역 관련 데이터셋을 8개 병합한 병렬 데이터 [traintogpb/aihub-koen-translation-integrated-tiny-100k](https://huggingface.co/datasets/traintogpb/aihub-koen-translation-integrated-tiny-100k)에서 고품질의 번역 레퍼런스를 가진 데이터만 추출하였습니다. 번역 레퍼런스 품질 평가 척도는 [Unbabel/XCOMET-XL](https://huggingface.co/Unbabel/XCOMET-XL) (3.5B)로 측정한 xCOMET metric입니다. 8개의 AIHub 데이터 소스 중 기존 실험을 통해 번역 성능(SacreBLEU)이 낮았던 4개의 소스에서 xCOMET 기준 상위 5,000개, 그 외 4개의 소스에서 xCOMET 기준 상위 2,500개를 추출해 총 약 3만 개의 데이터를 추출하였습니다. ### FLoRes Dataset FLoRes-200 데이터셋의 경우 997개의 dev, 1,012개의 devtest 스플릿으로 구성되어 있으나, 최대한의 학습 성능을 위해 둘을 합한 2,009개의 데이터 중 200개의 임의 test셋을 제외한 나머지 1,809개의 데이터를 AIHub 데이터와 합본시켰습니다. ### Dataset Summary | | __[AI Hub] 일상생활 및 구어체(71265)__ | __[AI Hub] 일반(126)__ | __[AI Hub] 사회과학(125)__ | __[AI Hub] 전문분야(111)__ | __[AI Hub] 기술과학1(124)__ | __[AI Hub] 기술과학2(71266)__ | __[AI Hub] 방송콘텐츠(71382)__ | __[AI Hub] 산업정보(특허)(563)__ | __[FLoRes]__ | __총합__ | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | __Tiny-100K(Train)__ | 19712 | 12780 | 10919 | 10877 | 10818 | 10733 | 4601 | 2892 | 0 | 83332 | | __Sparta-Tiny-30K(Train)__ | 2500 | 5000 | 5000 | 5000 | 2500 | 2500 | 4601 | 2500 | 1809 | 31410 | | __Mini-1M(Train)__ | 198471 | 128104 | 108894 | 107520 | 108014 | 106518 | 46831 | 28969 | 0 | 833321 | | __Sparta-Mini-300K(Train)__ | 50000 | 50000 | 50000 | 50000 | 25000 | 25000 | 35000 | 10000 | 1809 | 296809 |
提供机构:
traintogpb
原始信息汇总

数据集概述

数据集名称

  • 名称: aihub-flores-sparta

数据集类型

  • 类型: 翻译数据集

语言

  • 语言: 英语 (en), 韩语 (ko)

数据集大小

  • 大小: 10K<n<100K

数据集来源

  • 来源: AI Hub 和 FLoRes 的韩-英翻译数据集合并

数据集详细信息

AI Hub 数据集

  • 数据集合并: 8个AI Hub韩-英翻译数据集合并
  • 数据筛选: 使用xCOMET metric (Unbabel/XCOMET-XL) 筛选高质量翻译数据
  • 数据提取: 从8个数据源中提取约3万个数据

FLoRes 数据集

  • 数据集组成: FLoRes-200数据集包含997个dev和1,012个devtest数据
  • 数据合并: 合并后保留1,809个数据与AI Hub数据集合并

数据集摘要

[AI Hub] 일상생활 및 구어체(71265) [AI Hub] 일반(126) [AI Hub] 사회과학(125) [AI Hub] 전문분야(111) [AI Hub] 기술과학1(124) [AI Hub] 기술과학2(71266) [AI Hub] 방송콘텐츠(71382) [AI Hub] 산업정보(특허)(563) [FLoRes] 총합
Tiny-100K(Train) 19712 12780 10919 10877 10818 10733 4601 2892 0 83332
Sparta-Tiny-30K(Train) 2500 5000 5000 5000 2500 2500 4601 2500 1809 31410
Mini-1M(Train) 198471 128104 108894 107520 108014 106518 46831 28969 0 833321
Sparta-Mini-300K(Train) 50000 50000 50000 50000 25000 25000 35000 10000 1809 296809
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作