kunishou/oasst1-89k-ja
收藏Hugging Face2024-04-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kunishou/oasst1-89k-ja
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过自动翻译OpenAssistant/oasst1数据集到日语创建的。翻译过程中可能存在失败的情况,对于翻译失败的数据,text和text_en字段包含相同的文本。数据集还包括对代码相关数据的翻译错误进行了手动修正,并提供了将数据转换为指令和输出格式的代码示例。
该数据集是通过自动翻译OpenAssistant/oasst1数据集到日语创建的。翻译过程中可能存在失败的情况,对于翻译失败的数据,text和text_en字段包含相同的文本。数据集还包括对代码相关数据的翻译错误进行了手动修正,并提供了将数据转换为指令和输出格式的代码示例。
提供机构:
kunishou
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 语言: 日语
- 配置:
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: "oasst1_89k_ja_20231027.json"
数据集描述
- 该数据集是通过自动翻译 "OpenAssistant/oasst1" 到日语创建的。
- "ng_translation" 标志表示翻译未成功,值为 "1" 表示翻译失败。因此,对于值为 "1" 的数据,"text" 和 "text_en" 包含相同的文本。
更新记录
- 2023/11/12: 发布了将 oasst1-89k-ja 转换为聊天格式的 oasst1-chat-44k-ja。
- 2023/10/21: 手动修正了约2000处自动翻译中的代码相关数据翻译错误。
数据集转换
- 提供了将数据集转换为 Instruction 和 Output 格式的代码示例,适用于微调使用。



