five

zh-tw-llm-dv-dv/zh-tw-llm-dev-sample-ta8k-d40d11-only_embeddings-tr_wiki_sg_alp-c6795a-c2048

收藏
Hugging Face2023-05-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zh-tw-llm-dv-dv/zh-tw-llm-dev-sample-ta8k-d40d11-only_embeddings-tr_wiki_sg_alp-c6795a-c2048
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是`zh-tw-llm-dev`项目的一部分,包含了训练集和测试集,分别有500和140个样本。数据集的特征包括`input_ids`、`attention_mask`、`labels`和`preview`。数据集构建时使用了`translations`、`wikipedia`、`sharegpt`和`alpaca`等来源,并且每个来源都有详细的配置信息。

This dataset is part of the `zh-tw-llm-dev` project, which includes a training set and a test set with 500 and 140 samples respectively. The features of this dataset are `input_ids`, `attention_mask`, `labels`, and `preview`. It was constructed using multiple data sources including `translations`, `wikipedia`, `sharegpt`, and `alpaca`, with detailed configuration information provided for each source.
提供机构:
zh-tw-llm-dv-dv
原始信息汇总

数据集概述

基本信息

  • 数据集大小: 5061937.0
  • 下载大小: 1510086

特征信息

  • input_ids: 序列类型为int32
  • attention_mask: 序列类型为int8
  • labels: 序列类型为int64
  • preview: 数据类型为string

数据集划分

  • 训练集:
    • 数据量: 3405190.0 字节
    • 样本数: 500
  • 测试集:
    • 数据量: 1656747.0 字节
    • 样本数: 140
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作