hadninede/oasst2_id
收藏Hugging Face2024-04-05 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/hadninede/oasst2_id
下载链接
链接失效反馈官方服务:
资源简介:
这是OASST2数据集的印尼语版本,完全使用HelsinkiNLP OPUS模型和llama2lang库翻译。数据集包含消息ID、父ID、用户ID、创建日期、文本、角色、语言、评论计数、评论结果、删除状态、排名、合成、模型名称、毒性分析、消息树ID、树状态、表情符号和标签等特征。数据集分为训练集和验证集,分别有116732和3370个样本。任务类别为文本生成,语言为印尼语,名称为oasst2 indonesian translate,大小类别为100K<n<1M。
这是OASST2数据集的印尼语版本,完全使用HelsinkiNLP OPUS模型和llama2lang库翻译。数据集包含消息ID、父ID、用户ID、创建日期、文本、角色、语言、评论计数、评论结果、删除状态、排名、合成、模型名称、毒性分析、消息树ID、树状态、表情符号和标签等特征。数据集分为训练集和验证集,分别有116732和3370个样本。任务类别为文本生成,语言为印尼语,名称为oasst2 indonesian translate,大小类别为100K<n<1M。
提供机构:
hadninede
原始信息汇总
数据集概述
数据集信息
- 许可证: Apache-2.0
数据集特征
- message_id: 字符串
- parent_id: 字符串
- user_id: 字符串
- created_date: 字符串
- text: 字符串
- role: 字符串
- lang: 字符串
- review_count: 整数
- review_result: 布尔值
- deleted: 布尔值
- rank: 浮点数
- synthetic: 布尔值
- model_name: 空值
- detoxify: 结构体,包含以下特征:
- identity_attack: 浮点数
- insult: 浮点数
- obscene: 浮点数
- severe_toxicity: 浮点数
- sexual_explicit: 浮点数
- threat: 浮点数
- toxicity: 浮点数
- message_tree_id: 字符串
- tree_state: 字符串
- emojis: 结构体,包含以下特征:
- count: 序列,整数
- name: 序列,字符串
- labels: 结构体,包含以下特征:
- count: 序列,整数
- name: 序列,字符串
- value: 序列,浮点数
数据集分割
- 训练集:
- 字节数: 114092412
- 示例数: 116732
- 验证集:
- 字节数: 3291931
- 示例数: 3370
数据集大小
- 下载大小: 36890275
- 数据集大小: 117384343
配置
- 默认配置:
- 训练数据路径: data/train-*
- 验证数据路径: data/validation-*
任务类别
- 文本生成
语言
- 印尼语
数据集大小类别
- 100K<n<1M



