zh-tw-llm-dv/zh-tw-pythia-ta8000-v1-e1-tr_sg-301-c1024-sbldt2

Name: zh-tw-llm-dv/zh-tw-pythia-ta8000-v1-e1-tr_sg-301-c1024-sbldt2
Creator: zh-tw-llm-dv
Published: 2023-05-19 20:15:52
License: 暂无描述

Hugging Face2023-05-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/zh-tw-llm-dv/zh-tw-pythia-ta8000-v1-e1-tr_sg-301-c1024-sbldt2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是`zh-tw-llm`项目的一部分，使用了`zh-tw-pythia-tokenizer-a8000-v1`分词器，并基于`sharegpt`构建。数据集包含训练集和测试集，分别有6133和97个样本。最大长度为1024。数据集的构建配置包括使用`sharegpt`、预览长度为128、按长度降序排序等。翻译设置中，源数据集为`zetavg/coct-en-zh-tw-translations-twp-300k`，语言键为`en`和`ch`，模板为随机选择，行数限制为300000，测试集大小为100，测试集分割种子为42。`sharegpt`设置中，源数据集为`zetavg/ShareGPT-Processed`，训练时不使用输入，语言比例为`en`占0.4，`zh_Hant`占剩余部分，行数限制为8000，测试集大小为0.02，测试集分割种子为42，测试集行数限制为100。

提供机构：

zh-tw-llm-dv

原始信息汇总

数据集概述

基本信息

数据集大小: 53808823.79506409 字节
下载大小: 15215886 字节

特征描述

input_ids: 序列类型为 int32
attention_mask: 序列类型为 int8
labels: 序列类型为 int64
preview: 数据类型为 string
length: 数据类型为 int64

数据分割

训练集:
- 字节数: 52893234.00506409 字节
- 样本数: 6133
测试集:
- 字节数: 915589.79 字节
- 样本数: 97