five

skim-wmt24/parallel_corpus_2023_comet_higher_0_9.en-ja

收藏
Hugging Face2024-05-26 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/skim-wmt24/parallel_corpus_2023_comet_higher_0_9.en-ja
下载链接
链接失效反馈
官方服务:
资源简介:
# WMT2024に向けてお試してでen-ja翻訳にLlama2をファインチューングするために使ったデータセット お試しで.Lllama2を翻訳タスクにファインチューングした際に使ったデータセットの一部です. 入出力のフォーマットの確認に使ってください. 学習したモデルは[こちら](https://huggingface.co/skim-wmt24/llama_wmt_dev_parallel_corpus_fintune_full_finetuning_seed_42)です. 注意点: - 利用したTokenizerは[Lllama2-7b](https://huggingface.co/meta-llama/Llama-2-7b-hf)のものと同じです - Traget側の末尾に,必ずtokenizer.eos_token_idを追加してください
提供机构:
skim-wmt24
原始信息汇总

数据集概述

数据集名称

WMT2024に向けてお試してでen-ja翻訳にLlama2をファインチューングするために使ったデータセット

数据集用途

用于测试和确认Llama2模型在英日翻译任务中的微调效果,以及入出力格式。

相关模型

学習したモデル可在此链接查看:こちら

注意事项

  • 使用与Lllama2-7b相同的Tokenizer。
  • 在Target侧末尾,必须添加tokenizer.eos_token_id。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作