five

MLDataScientist/oasst2_uzbek_threads

收藏
Hugging Face2024-05-24 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/MLDataScientist/oasst2_uzbek_threads
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Open Assistant Conversations Dataset Release 2 (OASST2)的乌兹别克语翻译版本,使用了Llama3聊天模板的线程格式。翻译过程使用了nllb-200-3.3B模型,并建议过滤掉非英语或俄语的记录,因为这些语言对的翻译质量更好。数据集包含训练集和验证集,分别有12703和535个样本。翻译工作在45小时内使用单个T4 GPU完成,并提供了用于翻译的代码库和命令。未来将发布LLAMA3 8B乌兹别克语聊天模型。

该数据集是Open Assistant Conversations Dataset Release 2 (OASST2)的乌兹别克语翻译版本,使用了Llama3聊天模板的线程格式。翻译过程使用了nllb-200-3.3B模型,并建议过滤掉非英语或俄语的记录,因为这些语言对的翻译质量更好。数据集包含训练集和验证集,分别有12703和535个样本。翻译工作在45小时内使用单个T4 GPU完成,并提供了用于翻译的代码库和命令。未来将发布LLAMA3 8B乌兹别克语聊天模型。
提供机构:
MLDataScientist
原始信息汇总

Open Assistant Conversations Dataset Release 2 (OASST2) in Uzbek language

数据集概述

  • 数据集名称: Open Assistant Conversations Dataset Release 2 (OASST2) in Uzbek language
  • 数据集类型: Uzbek 翻译版本
  • 原始数据集: OASST2
  • 翻译工具: nllb-200-3.3B
  • 翻译时间: 45 小时
  • 翻译设备: 单个 T4 GPU

数据集结构

  • 特征:
    • text: 数据类型为 string
  • 分割:
    • validation: 字节数为 642375,样本数为 535
    • train: 字节数为 15585375,样本数为 12703
  • 下载大小: 7315916 字节
  • 数据集大小: 16227750 字节

配置

  • 默认配置:
    • validation: 文件路径为 data/validation-*
    • train: 文件路径为 data/train-*

使用说明

  • 数据格式: 线程格式,适用于 Llama3 模型微调
  • 原始树格式: 如需原始树格式,请参考 translated version
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作