MLDataScientist/oasst2_uzbek_threads
收藏Hugging Face2024-05-24 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/MLDataScientist/oasst2_uzbek_threads
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Open Assistant Conversations Dataset Release 2 (OASST2)的乌兹别克语翻译版本,使用了Llama3聊天模板的线程格式。翻译过程使用了nllb-200-3.3B模型,并建议过滤掉非英语或俄语的记录,因为这些语言对的翻译质量更好。数据集包含训练集和验证集,分别有12703和535个样本。翻译工作在45小时内使用单个T4 GPU完成,并提供了用于翻译的代码库和命令。未来将发布LLAMA3 8B乌兹别克语聊天模型。
该数据集是Open Assistant Conversations Dataset Release 2 (OASST2)的乌兹别克语翻译版本,使用了Llama3聊天模板的线程格式。翻译过程使用了nllb-200-3.3B模型,并建议过滤掉非英语或俄语的记录,因为这些语言对的翻译质量更好。数据集包含训练集和验证集,分别有12703和535个样本。翻译工作在45小时内使用单个T4 GPU完成,并提供了用于翻译的代码库和命令。未来将发布LLAMA3 8B乌兹别克语聊天模型。
提供机构:
MLDataScientist
原始信息汇总
Open Assistant Conversations Dataset Release 2 (OASST2) in Uzbek language
数据集概述
- 数据集名称: Open Assistant Conversations Dataset Release 2 (OASST2) in Uzbek language
- 数据集类型: Uzbek 翻译版本
- 原始数据集: OASST2
- 翻译工具: nllb-200-3.3B
- 翻译时间: 45 小时
- 翻译设备: 单个 T4 GPU
数据集结构
- 特征:
text: 数据类型为string
- 分割:
validation: 字节数为 642375,样本数为 535train: 字节数为 15585375,样本数为 12703
- 下载大小: 7315916 字节
- 数据集大小: 16227750 字节
配置
- 默认配置:
validation: 文件路径为data/validation-*train: 文件路径为data/train-*
使用说明
- 数据格式: 线程格式,适用于 Llama3 模型微调
- 原始树格式: 如需原始树格式,请参考 translated version



