DreamingBumblebee/ultrachat-100-ko
收藏Hugging Face2024-03-26 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/DreamingBumblebee/ultrachat-100-ko
下载链接
链接失效反馈官方服务:
资源简介:
这是一个迷你翻译版本的UltraChat 200k数据集,适用于文本生成任务。数据集包含训练和测试分割,每个分割包含100个样本。数据集的每个条目包含prompt、prompt_id和messages字段,其中messages字段包含content和role两个子字段,分别表示对话内容和角色。数据集以parquet格式存储,适用于监督微调任务。
这是一个迷你翻译版本的UltraChat 200k数据集,适用于文本生成任务。数据集包含训练和测试分割,每个分割包含100个样本。数据集的每个条目包含prompt、prompt_id和messages字段,其中messages字段包含content和role两个子字段,分别表示对话内容和角色。数据集以parquet格式存储,适用于监督微调任务。
提供机构:
DreamingBumblebee
原始信息汇总
数据集概述
基本信息
- 数据集名称: ultrachat-100-ko
- 许可证: MIT
- 大小范围: 10<n<1000
- 任务类别: text-generation
配置信息
- 配置名称: default
- 数据文件:
- 训练集: data/train_sft*
- 测试集: data/test_sft*
数据集结构
- 特征:
- prompt: 字符串类型
- prompt_id: 字符串类型
- messages: 列表类型,包含:
- content: 字符串类型
- role: 字符串类型
- 分割:
- train_sft: 100个样本
- test_sft: 100个样本
存储格式
- 格式: parquet
- 架构: json { "prompt": "...", "messages": [ { "content": "...", "role": "user" }, { "content": "...", "role": "assistant" }, ... ], "prompt_id": "..." }



