Aratako/LimaRP-augmented-ja-karakuri

Name: Aratako/LimaRP-augmented-ja-karakuri
Creator: Aratako
Published: 2024-05-17 17:58:35
License: 暂无描述

Hugging Face2024-05-17 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Aratako/LimaRP-augmented-ja-karakuri

下载链接

链接失效反馈

官方服务：

资源简介：

LimaRP-augmented-ja-karakuri是一个基于grimulkan/LimaRP-augmented数据集，使用GENIAC-Team-Ozaki/karakuri-lm-8x7b-chat-v0.1-awq模型进行日语翻译的角色扮演学习数据集。翻译过程中使用了DeepInfra服务，并采用了3-shots prompting方法进行翻译，确保输出不超过8000个token。对于LLM特有的重复输出现象，翻译会在该现象出现时终止，并删除未完成翻译的记录。

提供机构：

Aratako

原始信息汇总

数据集概述

数据集名称

LimaRP-augmented-ja-karakuri

数据集来源

基于grimulkan/LimaRP-augmented数据集，使用GENIAC-Team-Ozaki/karakuri-lm-8x7b-chat-v0.1-awq进行日语翻译。

数据集用途

用于角色扮演学习。

数据集特点

使用3-shots prompting进行翻译。
使用mistral的tokenizer，翻译输出限制在不超过8000个token。
对于元数据集中非常长的对话，在满足上述条件的情况下，在中间的回合结束翻译。
遇到LLM特有的重复输出现象时，立即结束该记录的翻译。
删除了33件翻译后不足一回合的记录。

数据集限制

不适合所有观众。

数据集规模

小于1000条记录。

许可证

Apache-2.0

语言

日语

任务类别

文本生成