hadninede/oasst1_id
收藏Hugging Face2024-04-04 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/hadninede/oasst1_id
下载链接
链接失效反馈官方服务:
资源简介:
这是OASST1数据集的印尼语版本,完全使用HelsinkiNLP OPUS模型和llama2lang库进行翻译。数据集包含多个特征,如消息ID、父ID、用户ID、创建日期、文本、角色、语言、评论计数、评论结果、删除状态、排名、合成、模型名称、解毒分析、消息树ID、树状态、表情符号和标签等。数据集分为训练集和验证集,分别包含81291和3001个样本。
这是OASST1数据集的印尼语版本,完全使用HelsinkiNLP OPUS模型和llama2lang库进行翻译。数据集包含多个特征,如消息ID、父ID、用户ID、创建日期、文本、角色、语言、评论计数、评论结果、删除状态、排名、合成、模型名称、解毒分析、消息树ID、树状态、表情符号和标签等。数据集分为训练集和验证集,分别包含81291和3001个样本。
提供机构:
hadninede
原始信息汇总
数据集概述
数据集信息
- 许可证: Apache-2.0
特征
- message_id: 字符串
- parent_id: 字符串
- user_id: 字符串
- created_date: 字符串
- text: 字符串
- role: 字符串
- lang: 字符串
- review_count: 整数
- review_result: 布尔值
- deleted: 布尔值
- rank: 浮点数
- synthetic: 布尔值
- model_name: 空值
- detoxify: 结构体,包含多个浮点数类型的子特征
- message_tree_id: 字符串
- tree_state: 字符串
- emojis: 结构体,包含计数(整数序列)和名称(字符串序列)
- labels: 结构体,包含计数(整数序列)、名称(字符串序列)和值(浮点数序列)
数据集分割
- 训练集: 81291个样本,大小为79183032字节
- 验证集: 3001个样本,大小为2952264字节
数据集大小
- 下载大小: 25749085字节
- 数据集大小: 82135296字节
配置
- 默认配置: 包含训练集和验证集的数据文件路径
任务类别
- 文本生成
语言
- 印尼语
数据集名称
- Translated OASST1 dataset in Bahasa Indonesia using HelsinkiNLP OPUS models
大小类别
- 10K<n<100K



