MLDataScientist/oasst2_uzbek
收藏Hugging Face2024-05-25 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/MLDataScientist/oasst2_uzbek
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是OASST2数据集的乌兹别克语翻译版本,包含用于问答和翻译任务的多轮对话数据。数据集的特征包括消息ID、父消息ID、用户ID、创建日期、文本内容、角色、语言、审核次数、审核结果、删除状态、排名、是否为合成数据、模型名称、毒性检测、消息树ID、树状态、表情符号和标签等。数据集分为训练集和验证集,分别包含125,181和5,123个样本。翻译过程使用了NLLB-200-3.3B模型,并在单个T4 GPU上耗时45小时完成。翻译命令和代码库也在README中提供。未来将发布基于该数据集的LLAMA3 8B乌兹别克语聊天模型。
该数据集是OASST2数据集的乌兹别克语翻译版本,包含用于问答和翻译任务的多轮对话数据。数据集的特征包括消息ID、父消息ID、用户ID、创建日期、文本内容、角色、语言、审核次数、审核结果、删除状态、排名、是否为合成数据、模型名称、毒性检测、消息树ID、树状态、表情符号和标签等。数据集分为训练集和验证集,分别包含125,181和5,123个样本。翻译过程使用了NLLB-200-3.3B模型,并在单个T4 GPU上耗时45小时完成。翻译命令和代码库也在README中提供。未来将发布基于该数据集的LLAMA3 8B乌兹别克语聊天模型。
提供机构:
MLDataScientist
原始信息汇总
Open Assistant Conversations Dataset Release 2 (OASST2) in Uzbek
数据集概述
- 语言: 乌兹别克语
- 许可证: Apache-2.0
- 数据集大小: 100K<n<1M
- 任务类别:
- 问答
- 翻译
- 数据集名称: Open Assistant Conversations Dataset Release 2 in Uzbek
数据集结构
特征
- message_id: 字符串
- parent_id: 字符串
- user_id: 字符串
- created_date: 字符串
- text: 字符串
- role: 字符串
- lang: 字符串
- review_count: 整数
- review_result: 布尔值
- deleted: 布尔值
- rank: 浮点数
- synthetic: 布尔值
- model_name: null
- detoxify: 结构体
- identity_attack: 浮点数
- insult: 浮点数
- obscene: 浮点数
- severe_toxicity: 浮点数
- sexual_explicit: 浮点数
- threat: 浮点数
- toxicity: 浮点数
- message_tree_id: 字符串
- tree_state: 字符串
- emojis: 结构体
- count: 整数序列
- name: 字符串序列
- labels: 结构体
- count: 整数序列
- name: 字符串序列
- value: 浮点数序列
数据分割
- 验证集:
- 字节数: 5261768
- 样本数: 5123
- 训练集:
- 字节数: 128642107
- 样本数: 125181
数据集大小
- 下载大小: 43601021
- 数据集大小: 133903875
配置
- 配置名称: default
- 数据文件:
- 验证集: data/validation-*
- 训练集: data/train-*
- 数据文件:
标签
- human-feedback



