ping98k/cross-1.0
收藏Hugging Face2024-05-20 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ping98k/cross-1.0
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
splits:
- name: train
num_bytes: 4869657
num_examples: 1900
- name: test
num_bytes: 284501
num_examples: 100
download_size: 2317134
dataset_size: 5154158
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
task_categories:
- text-generation
language:
- th
- en
---
# Dataset cross-1.0
## MaziyarPanahi/WizardLM_evol_instruct_V2_196k
1000 sample
```
[Task:Assistant] [Language:English] [Type:Complex]
```
## databricks/databricks-dolly-15k zip with Thaweewat/databricks-dolly-15k-th
125 sample
cross join en-en, en-th, th-en, th-th to upsample to 500 sample
```
[Task:Assistant] [Language:English] [Type:Simple]
[Task:Assistant] [Language:Thai] [Type:Simple]
```
## pythainlp/han-instruct-dataset-v2.0
500 sample
```
[Task:Assistant] [Language:Thai] [Type:Simple]
```
## total
2000 sample
train_test_split to train 1900 and test 100
提供机构:
ping98k
原始信息汇总
数据集概述
数据集信息
- 特征:
text: 数据类型为字符串。
数据分割
- 训练集:
- 名称: train
- 大小: 4869657字节
- 示例数: 1900
- 测试集:
- 名称: test
- 大小: 284501字节
- 示例数: 100
下载与数据集大小
- 下载大小: 2317134字节
- 数据集总大小: 5154158字节
配置
- 默认配置:
- 训练数据路径:
data/train-* - 测试数据路径:
data/test-*
- 训练数据路径:
任务类别
- 文本生成
语言
- 泰语 (th)
- 英语 (en)



