zh-tw-llm-dv-dv/zh-tw-llm-dev-sample-ta8k-d40d11-only_embeddings-tr_wiki_sg_alp-c6795a-c2048
收藏Hugging Face2023-05-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zh-tw-llm-dv-dv/zh-tw-llm-dev-sample-ta8k-d40d11-only_embeddings-tr_wiki_sg_alp-c6795a-c2048
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是`zh-tw-llm-dev`项目的一部分,包含了训练集和测试集,分别有500和140个样本。数据集的特征包括`input_ids`、`attention_mask`、`labels`和`preview`。数据集构建时使用了`translations`、`wikipedia`、`sharegpt`和`alpaca`等来源,并且每个来源都有详细的配置信息。
This dataset is part of the `zh-tw-llm-dev` project, which includes a training set and a test set with 500 and 140 samples respectively. The features of this dataset are `input_ids`, `attention_mask`, `labels`, and `preview`. It was constructed using multiple data sources including `translations`, `wikipedia`, `sharegpt`, and `alpaca`, with detailed configuration information provided for each source.
提供机构:
zh-tw-llm-dv-dv
原始信息汇总
数据集概述
基本信息
- 数据集大小: 5061937.0
- 下载大小: 1510086
特征信息
- input_ids: 序列类型为
int32 - attention_mask: 序列类型为
int8 - labels: 序列类型为
int64 - preview: 数据类型为
string
数据集划分
- 训练集:
- 数据量: 3405190.0 字节
- 样本数: 500
- 测试集:
- 数据量: 1656747.0 字节
- 样本数: 140



