pythainlp/final_training_set_v1
收藏Hugging Face2023-04-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pythainlp/final_training_set_v1
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
- name: metadata
struct:
- name: source
dtype: string
- name: nb_token
dtype: int64
splits:
- name: train
num_bytes: 337155434.9768474
num_examples: 405760
- name: test
num_bytes: 1277960.0231525812
num_examples: 1538
download_size: 191404581
dataset_size: 338433395
task_categories:
- conversational
- text-generation
language:
- en
---
# Dataset Card for "final_training_set_v1"
Finetuning datasets for [WangChanGLM](https://github.com/pythainlp/wangchanglm) sourced from [LAION OIG chip2 and infill_dbpedia](https://huggingface.co/datasets/laion/OIG) ([Apache-2.0](https://github.com/pythainlp/wangchanglm/blob/main/LICENSE)), [DataBricks Dolly v2](https://github.com/databrickslabs/dolly) ([Apache-2.0](https://github.com/pythainlp/wangchanglm/blob/main/LICENSE)), [OpenAI TL;DR](https://github.com/openai/summarize-from-feedback) ([MIT](https://opensource.org/license/mit/)), and [Hello-SimpleAI HC3](https://huggingface.co/datasets/Hello-SimpleAI/HC3) ([CC-BY SA](https://creativecommons.org/licenses/by-sa/4.0/))
提供机构:
pythainlp
原始信息汇总
数据集概述
数据集名称
final_training_set_v1
数据集特征
- text: 数据类型为字符串。
- metadata: 结构化数据,包含子特征
source,数据类型为字符串。 - nb_token: 数据类型为整数(int64)。
数据集划分
- 训练集 (train): 包含405760个样本,占用337155434.9768474字节。
- 测试集 (test): 包含1538个样本,占用1277960.0231525812字节。
数据集大小
- 下载大小: 191404581字节。
- 数据集总大小: 338433395字节。
任务类别
- 对话
- 文本生成
语言
- 英语 (en)



