skim-wmt24/parallel_corpus_2023_comet_higher_0_9.en-ja
收藏Hugging Face2024-05-26 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/skim-wmt24/parallel_corpus_2023_comet_higher_0_9.en-ja
下载链接
链接失效反馈官方服务:
资源简介:
# WMT2024に向けてお試してでen-ja翻訳にLlama2をファインチューングするために使ったデータセット
お試しで.Lllama2を翻訳タスクにファインチューングした際に使ったデータセットの一部です.
入出力のフォーマットの確認に使ってください.
学習したモデルは[こちら](https://huggingface.co/skim-wmt24/llama_wmt_dev_parallel_corpus_fintune_full_finetuning_seed_42)です.
注意点:
- 利用したTokenizerは[Lllama2-7b](https://huggingface.co/meta-llama/Llama-2-7b-hf)のものと同じです
- Traget側の末尾に,必ずtokenizer.eos_token_idを追加してください
提供机构:
skim-wmt24
原始信息汇总
数据集概述
数据集名称
WMT2024に向けてお試してでen-ja翻訳にLlama2をファインチューングするために使ったデータセット
数据集用途
用于测试和确认Llama2模型在英日翻译任务中的微调效果,以及入出力格式。
相关模型
学習したモデル可在此链接查看:こちら
注意事项
- 使用与Lllama2-7b相同的Tokenizer。
- 在Target侧末尾,必须添加tokenizer.eos_token_id。



