MLDataScientist/oasst2_uzbek

Name: MLDataScientist/oasst2_uzbek
Creator: MLDataScientist
Published: 2024-05-25 14:41:42
License: 暂无描述

Hugging Face2024-05-25 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/MLDataScientist/oasst2_uzbek

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是OASST2数据集的乌兹别克语翻译版本，包含用于问答和翻译任务的多轮对话数据。数据集的特征包括消息ID、父消息ID、用户ID、创建日期、文本内容、角色、语言、审核次数、审核结果、删除状态、排名、是否为合成数据、模型名称、毒性检测、消息树ID、树状态、表情符号和标签等。数据集分为训练集和验证集，分别包含125,181和5,123个样本。翻译过程使用了NLLB-200-3.3B模型，并在单个T4 GPU上耗时45小时完成。翻译命令和代码库也在README中提供。未来将发布基于该数据集的LLAMA3 8B乌兹别克语聊天模型。

提供机构：

MLDataScientist

原始信息汇总

Open Assistant Conversations Dataset Release 2 (OASST2) in Uzbek

数据集概述

语言: 乌兹别克语
许可证: Apache-2.0
数据集大小: 100K<n<1M
任务类别:
- 问答
- 翻译
数据集名称: Open Assistant Conversations Dataset Release 2 in Uzbek

数据集结构

特征

message_id: 字符串
parent_id: 字符串
user_id: 字符串
created_date: 字符串
text: 字符串
role: 字符串
lang: 字符串
review_count: 整数
review_result: 布尔值
deleted: 布尔值
rank: 浮点数
synthetic: 布尔值
model_name: null
detoxify: 结构体
- identity_attack: 浮点数
- insult: 浮点数
- obscene: 浮点数
- severe_toxicity: 浮点数
- sexual_explicit: 浮点数
- threat: 浮点数
- toxicity: 浮点数
message_tree_id: 字符串
tree_state: 字符串
emojis: 结构体
- count: 整数序列
- name: 字符串序列
labels: 结构体
- count: 整数序列
- name: 字符串序列
- value: 浮点数序列

数据分割

验证集:
- 字节数: 5261768
- 样本数: 5123
训练集:
- 字节数: 128642107
- 样本数: 125181

数据集大小

下载大小: 43601021
数据集大小: 133903875

配置

配置名称: default
- 数据文件:
  - 验证集: data/validation-*
  - 训练集: data/train-*