ShinoharaHare/Infinity-Instruct-Reformatted
收藏Hugging Face2024-07-16 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/ShinoharaHare/Infinity-Instruct-Reformatted
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含两个配置:0625和3M。每个配置包含多个特征,如id、label(包含能力的中英文描述和分类能力的中英文描述)、langdetect(语言检测)、source(来源)和messages(包含内容和角色的列表)。数据集主要用于训练,包含大量的文本数据,适用于自然语言处理任务,如语言模型训练、文本分类等。
The dataset includes two configurations: 0625 and 3M. Each configuration contains multiple features such as id, label (including descriptions of abilities in Chinese and English and categorical abilities in Chinese and English), langdetect (language detection), source, and messages (a list containing content and roles). The dataset is primarily used for training and contains a large amount of text data, suitable for natural language processing tasks such as language model training, text classification, etc.
提供机构:
ShinoharaHare
原始信息汇总
数据集概述
数据集配置
配置 0625
- 特征:
id: 类型为stringlabel: 结构化数据,包含以下字段:ability_en: 类型为string的序列ability_zh: 类型为string的序列cate_ability_zh: 类型为string的序列cate_ability_en: 类型为string的序列
langdetect: 类型为stringsource: 类型为stringmessages: 列表,包含以下字段:content: 类型为stringrole: 类型为string
- 数据分割:
train: 包含 659808 个样本,占用 2449787890 字节
- 数据文件:
train: 路径为0625/train-*
- 下载大小: 1251442996 字节
- 数据集大小: 2449787890 字节
配置 3M
- 特征:
id: 类型为int64label: 类型为stringlangdetect: 类型为stringsource: 类型为stringmessages: 列表,包含以下字段:content: 类型为stringrole: 类型为string
- 数据分割:
train: 包含 3463473 个样本,占用 7495763632 字节
- 数据文件:
train: 路径为3M/train-*
- 下载大小: 3926732573 字节
- 数据集大小: 7495763632 字节



