MLDataScientist/oasst2_uzbek_threads

Name: MLDataScientist/oasst2_uzbek_threads
Creator: MLDataScientist
Published: 2024-05-24 23:31:40
License: 暂无描述

Hugging Face2024-05-24 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/MLDataScientist/oasst2_uzbek_threads

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Open Assistant Conversations Dataset Release 2 (OASST2)的乌兹别克语翻译版本，使用了Llama3聊天模板的线程格式。翻译过程使用了nllb-200-3.3B模型，并建议过滤掉非英语或俄语的记录，因为这些语言对的翻译质量更好。数据集包含训练集和验证集，分别有12703和535个样本。翻译工作在45小时内使用单个T4 GPU完成，并提供了用于翻译的代码库和命令。未来将发布LLAMA3 8B乌兹别克语聊天模型。

提供机构：

MLDataScientist

原始信息汇总

Open Assistant Conversations Dataset Release 2 (OASST2) in Uzbek language

数据集概述

数据集名称: Open Assistant Conversations Dataset Release 2 (OASST2) in Uzbek language
数据集类型: Uzbek 翻译版本
原始数据集: OASST2
翻译工具: nllb-200-3.3B
翻译时间: 45 小时
翻译设备: 单个 T4 GPU

数据集结构

特征:
- text: 数据类型为 string
分割:
- validation: 字节数为 642375，样本数为 535
- train: 字节数为 15585375，样本数为 12703
下载大小: 7315916 字节
数据集大小: 16227750 字节

配置

默认配置:
- validation: 文件路径为 data/validation-*
- train: 文件路径为 data/train-*

使用说明

数据格式: 线程格式，适用于 Llama3 模型微调
原始树格式: 如需原始树格式，请参考 translated version

5,000+

优质数据集

54 个

任务类型

进入经典数据集