Radiantloom/slimorca-dedup-chatml
收藏Hugging Face2024-02-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Radiantloom/slimorca-dedup-chatml
下载链接
链接失效反馈官方服务:
资源简介:
这是一个经过ChatML格式化的原始SlimOrca-Dedup数据集的版本,并对系统提示进行了一些修改。数据集包含prompt、response和text三个特征,数据类型均为字符串。数据集只有一个train分割,包含363,491个示例,大小为1,248,344,664字节。数据集的下载大小为644,887,960字节,总大小为1,248,344,664字节。数据集的许可证为apache-2.0,标签包括code、art、music、legal、finance、biology、chemistry、SlimOrca和ChatML。
这是一个经过ChatML格式化的原始SlimOrca-Dedup数据集的版本,并对系统提示进行了一些修改。数据集包含prompt、response和text三个特征,数据类型均为字符串。数据集只有一个train分割,包含363,491个示例,大小为1,248,344,664字节。数据集的下载大小为644,887,960字节,总大小为1,248,344,664字节。数据集的许可证为apache-2.0,标签包括code、art、music、legal、finance、biology、chemistry、SlimOrca和ChatML。
提供机构:
Radiantloom
原始信息汇总
数据集概述
数据特征
- 名称: prompt
- 数据类型: string
- 名称: response
- 数据类型: string
- 名称: text
- 数据类型: string
数据分割
- 名称: train
- 字节数: 1248344664
- 样本数: 363491
数据大小
- 下载大小: 644887960
- 数据集大小: 1248344664
配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
- 数据文件:
许可证
- 许可证: apache-2.0
标签
- 标签:
- code
- art
- music
- legal
- finance
- biology
- chemistry
- SlimOrca
- ChatML



