five

neuralfoundry-coder/multilingual-translation-fast

收藏
Hugging Face2025-12-26 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/neuralfoundry-coder/multilingual-translation-fast
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - ko - en - zh - ja - id - vi - tl license: cc-by-nc-sa-4.0 task_categories: - translation tags: - translation - multilingual - korean - instruction-tuning - balanced-dataset size_categories: - 1M<n<10M --- # 다국어 번역 데이터셋 (Balanced Fast) ## 📋 Dataset Description 다국어 번역 모델의 **빠른 학습 및 평가**를 위한 균형 잡힌 데이터셋입니다. 7개 언어쌍에서 각각 **동일한 수량**을 랜덤 추출하여 구성했습니다. ### Supported Languages | 언어쌍 | 방향 | Language Pair | |--------|------|---------------| | ko-en | 한국어 → 영어 | Korean → English | | en-ko | 영어 → 한국어 | English → Korean | | ko-zh | 한국어 → 중국어 | Korean → Chinese | | ko-ja | 한국어 → 일본어 | Korean → Japanese | | ko-id | 한국어 → 인도네시아어 | Korean → Indonesian | | ko-vi | 한국어 → 베트남어 | Korean → Vietnamese | | ko-tl | 한국어 → 타갈로그어 | Korean → Tagalog | ## ✨ Key Features - 🎯 **Balanced Data**: 모든 언어쌍이 동일한 수량 (언어 편향 방지) - ⚡ **Fast Experimentation**: 전체 데이터셋 대비 약 1/10 크기 - 🔄 **Reproducible**: 랜덤 시드 42로 고정 - 📝 **Instruction Format**: 지시 학습(Instruction Fine-tuning)에 최적화 ## 📊 Dataset Statistics ### Train Split | Language Pair | Records | File Size | |---------------|---------|-----------| | ko-en | 606,083 | 399MB | | en-ko | 606,083 | 393MB | | ko-zh | 606,083 | 399MB | | ko-ja | 606,083 | 428MB | | ko-id | 606,083 | 267MB | | ko-vi | 606,083 | 272MB | | ko-tl | 606,083 | 268MB | | **Total** | **4,242,581** | **2.4GB** | ### Test Split | Language Pair | Records | File Size | |---------------|---------|-----------| | ko-en | 151,521 | 100MB | | en-ko | 151,521 | 98MB | | ko-zh | 151,521 | 100MB | | ko-ja | 151,521 | 107MB | | ko-id | 151,521 | 67MB | | ko-vi | 151,521 | 68MB | | ko-tl | 151,521 | 67MB | | **Total** | **1,060,647** | **607MB** | ## 📁 Dataset Structure ``` ├── train/ │ ├── all_train_fast.jsonl # 전체 통합 │ ├── ko-en_train_fast.jsonl │ ├── en-ko_train_fast.jsonl │ ├── ko-zh_train_fast.jsonl │ ├── ko-ja_train_fast.jsonl │ ├── ko-id_train_fast.jsonl │ ├── ko-vi_train_fast.jsonl │ └── ko-tl_train_fast.jsonl └── test/ ├── all_test_fast.jsonl # 전체 통합 ├── ko-en_test_fast.jsonl ├── en-ko_test_fast.jsonl ├── ko-zh_test_fast.jsonl ├── ko-ja_test_fast.jsonl ├── ko-id_test_fast.jsonl ├── ko-vi_test_fast.jsonl └── ko-tl_test_fast.jsonl ``` ## 📝 Data Format 각 레코드는 JSONL 형식으로, **Instruction Fine-tuning**에 적합한 messages 구조를 따릅니다: ```json { "messages": [ { "role": "user", "content": "Translate the given sentence or word from the source language into the target language.\n\nsource language: Korean (ko)\ntarget language: English (en)\n\nGiven sentence: 안녕하세요.\nTarget sentence:" }, { "role": "assistant", "content": "Hello." } ], "metadata": { "source_language": "ko", "target_language": "en", "domain": "일상", "is_mt": false } } ``` ### Field Description | Field | Description | |-------|-------------| | `messages` | Array of conversation messages | | `messages[].role` | Role: "user" or "assistant" | | `messages[].content` | Message content | | `metadata.source_language` | Source language code | | `metadata.target_language` | Target language code | | `metadata.domain` | Data domain (optional) | | `metadata.is_mt` | Machine translation flag (true/false) | ## 🔧 Usage ### Load with Datasets Library ```python from datasets import load_dataset # 전체 데이터 로드 dataset = load_dataset("iscreammedia/multilingual-translation-fast") # Train/Test 분리 train_data = dataset['train'] test_data = dataset['test'] print(f"Train: {len(train_data):,} records") print(f"Test: {len(test_data):,} records") ``` ### Load Specific Language Pair ```python from datasets import load_dataset # 특정 언어쌍만 로드 dataset = load_dataset( "iscreammedia/multilingual-translation-fast", data_files={ "train": "train/ko-en_train_fast.jsonl", "test": "test/ko-en_test_fast.jsonl" } ) ``` ### Training Example ```python from transformers import AutoModelForCausalLM, AutoTokenizer, Trainer model = AutoModelForCausalLM.from_pretrained("your-base-model") tokenizer = AutoTokenizer.from_pretrained("your-base-model") def preprocess(example): messages = example['messages'] prompt = messages[0]['content'] response = messages[1]['content'] return tokenizer(prompt + response, truncation=True, max_length=512) train_dataset = dataset['train'].map(preprocess) # ... training code ``` ### Evaluation Example ```python from sacrebleu import corpus_bleu predictions = [] references = [] for example in dataset['test']: prompt = example['messages'][0]['content'] reference = example['messages'][1]['content'] # Generate prediction prediction = model.generate(prompt) predictions.append(prediction) references.append(reference) bleu = corpus_bleu(predictions, [references]) print(f"BLEU: {bleu.score:.2f}") ``` ## 📚 Data Sources | Source | Language Pairs | Description | |--------|----------------|-------------| | AI Hub | ko-en, en-ko, ko-zh, ko-ja | Korean government open data | | OPUS OpenSubtitles | ko-id, ko-vi, ko-tl | Movie/Drama subtitles | | OPUS WikiMatrix | ko-id, ko-vi | Wikipedia parallel corpus | ## 🎯 Recommended Use Cases 1. **Hyperparameter Tuning**: 빠른 실험으로 최적 설정 탐색 2. **Model Comparison**: 여러 모델 빠르게 벤치마킹 3. **Balanced Training**: 저자원 언어 성능 향상 4. **Prototyping**: 새로운 기법 빠르게 테스트 5. **CI/CD Pipeline**: 자동화된 모델 테스트 ## ⚠️ Limitations - 전체 데이터셋의 약 10% 샘플 - 최종 배포 모델 학습 시에는 전체 데이터셋 사용 권장 - 랜덤 샘플링으로 도메인 분포가 원본과 다를 수 있음 ## 📈 Related Datasets | Dataset | Records | Size | Use Case | |---------|---------|------|----------| | **This (Fast)** | 5.3M | 3GB | 빠른 실험 | | Full Dataset | 52.7M | 26GB | 최종 학습 | ## License This dataset is released under the **Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)** license. Under this license, you are free to: - Share (copy and redistribute) the dataset; - Adapt (remix, transform, build upon) the dataset. **Conditions:** - **Attribution:** You must give appropriate credit, provide a link to the license, and indicate if changes were made. - **NonCommercial:** You may not use the dataset for commercial purposes. - **ShareAlike:** If you remix or build upon the dataset, you must distribute your contributions under the same license as the original. **Disclaimer:** The dataset is provided *as-is* without any warranties. The authors and contributors are **not liable** for any direct or indirect damages arising from the use of this dataset. Use at your own risk. ## Citation ```bibtex @dataset{multilingual_translation_fast, title={Multilingual Translation Dataset (Balanced Fast)}, author={iscreammedia}, year={2024}, publisher={Hugging Face}, url={https://huggingface.co/datasets/brildev8/multilingual-translation-fast} } ```
提供机构:
neuralfoundry-coder
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作