mikeriess/OpenAssistant2-DA
收藏Hugging Face2024-04-03 更新2024-04-21 收录
下载链接:
https://hf-mirror.com/datasets/mikeriess/OpenAssistant2-DA
下载链接
链接失效反馈官方服务:
资源简介:
OpenAssistant2-DK数据集是oassist2数据集的翻译版本,使用SeamlessM4T进行翻译,并过滤了包含代码的对话。数据集包含多个特征,如消息ID、父消息ID、用户ID、创建日期、原始文本、角色、原始语言、评论计数、评论结果、删除状态、排名、合成状态、模型名称、解毒状态、消息树ID、树状态、表情符号、标签、文本、是否为编程语言、语言和索引级别。数据集分为训练集和验证集,分别包含53354和2780个样本。
提供机构:
mikeriess
原始信息汇总
数据集概述
基本信息
- 语言: 丹麦语 (da)
- 许可证: Apache-2.0
- 大小分类: 10K<n<100K
配置
- 默认配置:
- 训练数据路径: data/train-*
- 验证数据路径: data/valid-*
数据集特征
- message_id: 字符串
- parent_id: 字符串
- user_id: 字符串
- created_date: 字符串
- text_original: 字符串
- role: 字符串
- lang_original: 字符串
- review_count: 整数
- review_result: 布尔值
- deleted: 布尔值
- rank: 浮点数
- synthetic: 布尔值
- model_name: 浮点数
- detoxify: 字符串
- message_tree_id: 字符串
- tree_state: 字符串
- emojis: 字符串
- labels: 字符串
- text: 字符串
- is_programming: 字符串
- lang: 字符串
- index_level_0: 整数
数据集拆分
- 训练集:
- 字节数: 105166389
- 示例数: 53354
- 验证集:
- 字节数: 5391812
- 示例数: 2780
下载与数据集大小
- 下载大小: 44992701 字节
- 数据集大小: 110558201 字节
任务类别
- 问答



