Aratako/Bluemoon_Top50MB_Sorted_Fixed_ja
收藏Hugging Face2024-05-18 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Aratako/Bluemoon_Top50MB_Sorted_Fixed_ja
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于角色扮演学习的日语翻译数据集,名为Bluemoon_Top50MB_Sorted_Fixed_ja。原始数据集通过使用GENIAC-Team-Ozaki/karakuri-lm-8x7b-chat-v0.1-awq模型进行翻译,并使用了DeepInfra服务进行LLM推理。翻译过程中采用了3-shots prompting方法,并且使用mistral的tokenizer进行翻译,直到输出超过8000个token。对于非常长的对话,翻译在达到条件时终止。此外,如果遇到LLM输出重复的情况,翻译也会在该记录处终止,并删除了157条未完成一轮翻译的记录。需要注意的是,数据集中的LENGTH、Total_TOKENS_LLAMA1和Total_TOKENS_LLAMA3列未更新,不反映实际情况。
提供机构:
Aratako
原始信息汇总
数据集概述
数据集名称
- Bluemoon_Top50MB_Sorted_Fixed_ja
数据集来源
- 原始数据集:SicariusSicariiStuff/Bluemoon_Top50MB_Sorted_Fixed
- 翻訳使用模型:GENIAC-Team-Ozaki/karakuri-lm-8x7b-chat-v0.1-awq
数据集用途
- 用于角色扮演学习
数据集语言
- 日语(ja)
数据集任务类别
- 文本生成(text-generation)
数据集标签
- 角色扮演(roleplay)
数据集大小类别
- 小于1K(n<1K)
数据集许可证
- Apache-2.0
翻訳细节
- 使用3-shots prompting进行翻訳
- 使用mistral的tokenizer,翻訳输出限制在8000个token以内
- 对于原始数据集中非常长的对话,根据上述条件在中间的回合结束翻訳
- 遇到LLM特有的重复输出现象时,该记录的翻訳在该点结束
- 因此删除了少于1回合的记录(157件)
注意事项
LENGTH、Total_TOKENS_LLAMA1、Total_TOKENS_LLAMA3列的内容未从原始数据集更新,不代表实际情况



