zh-tw-llm-dv/zh-tw-pythia-ta8000-v1-e1-tr_wiki_sg-001-c1024
收藏Hugging Face2023-05-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zh-tw-llm-dv/zh-tw-pythia-ta8000-v1-e1-tr_wiki_sg-001-c1024
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是`zh-tw-llm`项目的一部分,使用了`translations`、`wikipedia`和`sharegpt`作为数据来源。数据集包含训练集和测试集,训练集有305956行,测试集有225行。最大长度为1024。
该数据集是`zh-tw-llm`项目的一部分,使用了`translations`、`wikipedia`和`sharegpt`作为数据来源。数据集包含训练集和测试集,训练集有305956行,测试集有225行。最大长度为1024。
提供机构:
zh-tw-llm-dv
原始信息汇总
数据集概述
基本信息
- 数据集大小: 1639035396.6266758 字节
- 下载大小: 549430210 字节
特征描述
- input_ids: 序列类型为 int32
- attention_mask: 序列类型为 int8
- labels: 序列类型为 int64
- preview: 数据类型为 string
- length: 数据类型为 int64
- messages_count: 数据类型为 int64
数据分割
- 训练集:
- 样本数量: 305956
- 数据量: 1637688841.0831976 字节
- 测试集:
- 样本数量: 225
- 数据量: 1346555.543478261 字节



