five

Aratako/Bluemoon_Top50MB_Sorted_Fixed_ja

收藏
Hugging Face2024-05-18 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Aratako/Bluemoon_Top50MB_Sorted_Fixed_ja
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于角色扮演学习的日语翻译数据集,名为Bluemoon_Top50MB_Sorted_Fixed_ja。原始数据集通过使用GENIAC-Team-Ozaki/karakuri-lm-8x7b-chat-v0.1-awq模型进行翻译,并使用了DeepInfra服务进行LLM推理。翻译过程中采用了3-shots prompting方法,并且使用mistral的tokenizer进行翻译,直到输出超过8000个token。对于非常长的对话,翻译在达到条件时终止。此外,如果遇到LLM输出重复的情况,翻译也会在该记录处终止,并删除了157条未完成一轮翻译的记录。需要注意的是,数据集中的LENGTH、Total_TOKENS_LLAMA1和Total_TOKENS_LLAMA3列未更新,不反映实际情况。
提供机构:
Aratako
原始信息汇总

数据集概述

数据集名称

  • Bluemoon_Top50MB_Sorted_Fixed_ja

数据集来源

数据集用途

  • 用于角色扮演学习

数据集语言

  • 日语(ja)

数据集任务类别

  • 文本生成(text-generation)

数据集标签

  • 角色扮演(roleplay)

数据集大小类别

  • 小于1K(n<1K)

数据集许可证

  • Apache-2.0

翻訳细节

  • 使用3-shots prompting进行翻訳
  • 使用mistral的tokenizer,翻訳输出限制在8000个token以内
    • 对于原始数据集中非常长的对话,根据上述条件在中间的回合结束翻訳
  • 遇到LLM特有的重复输出现象时,该记录的翻訳在该点结束
    • 因此删除了少于1回合的记录(157件)

注意事项

  • LENGTHTotal_TOKENS_LLAMA1Total_TOKENS_LLAMA3列的内容未从原始数据集更新,不代表实际情况
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作