WangchanX-FLAN-v6.1

Name: WangchanX-FLAN-v6.1
Creator: VISTEC-depa AI Research Institute of Thailand
Published: 2024-10-04 00:21:49
License: 暂无描述

Hugging Face2024-10-04 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/airesearch/WangchanX-FLAN-v6.1

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个为自然语言处理任务设计的精选数据集集合，专注于泰语应用。这些数据集涵盖了摘要、翻译、文本生成、文本分类和问答等多种任务。每个数据集都附有其来源、大小、任务类型、领域和许可信息，便于用户识别和使用最适合其需求的数据集。

This is a curated collection of datasets designed for natural language processing (NLP) tasks, with a primary focus on Thai-language applications. These datasets cover a diverse range of tasks including summarization, translation, text generation, text classification, and question answering. Each dataset is accompanied by its source, size, task type, domain, and license information, enabling users to efficiently identify and utilize the most suitable datasets for their specific needs.

提供机构：

VISTEC-depa AI Research Institute of Thailand

创建时间：

2024-10-03

原始信息汇总

WangchanX-FLAN-v6.1 数据集概述

数据集信息

特征

messages:
- content: 字符串类型
- role: 字符串类型
prompt: 字符串类型
source: 字符串类型
task: 字符串类型
domain: 字符串类型
license: 字符串类型

数据分割

train:
- 字节数: 13,926,054,311
- 样本数: 3,619,450

数据大小

下载大小: 5,699,177,451 字节
数据集大小: 13,926,054,311 字节

配置

config_name: default
- data_files:
  - split: train
  - path: data/train-*

数据集详情

该数据集是一个为自然语言处理任务设计的精选数据集集合，专注于泰语应用。涵盖的任务包括摘要、翻译、文本生成、文本分类和问答。每个数据集都附有其来源、大小、任务和许可信息，便于用户识别和使用最适合其需求的数据集。

数据集名称	来源	数量 (行)	任务	领域	许可
WangchanThaiInstruct	airesearch/WangchanThaiInstruct_7.24	12.2k	文本生成	混合	CC BY-SA 4.0
ultrachat_200k	HuggingFaceH4/ultrachat_200k	200k	文本生成	混合	MIT License
han-instruct-dataset-v2.0	pythainlp/han-instruct-dataset-v2.0	3.2k	文本生成	混合	CC BY-SA 4.0
iapp_wiki_qa_squad	iapp/iapp_wiki_qa_squad	5.7k	问答	网页内容	MIT License
math_50k	AGI-Edgerunners/LLM-Adapters	49.6k	文本生成	混合	Apache License 2.0
commonsense_170k	AGI-Edgerunners/LLM-Adapters	166k	文本生成	混合	Apache License 2.0
wangchanglm	pythainlp/final_training_set_v1	309k	文本生成	混合	Apache License 2.0, MIT License, CC BY-SA 4.0
tiny-code	nampdn-ai/tiny-codes	364k	文本生成	混合	MIT License
flanV2	SirNeural/flan_v2	96k	文本生成	混合	Apache License 2.0
cotV2	SirNeural/flan_v2	364k	文本生成	混合	Apache License 2.0
alt	mutiyama/alt	18k	翻译	混合	CC BY 4.0
ThaiSum	thaisum	359k	摘要	新闻	MIT License
scb-mt-en-th-2020	scb_mt_enth_2020	801k	翻译	混合	CC BY-SA 4.0
xP3x	CohereForAI/xP3x	299k	其他	混合	Apache License 2.0
Open-Platypus	garage-bAInd/Open-Platypus	18.3k	其他	混合	多重许可
Wisesight Sentiment Corpus	wisesight_sentiment	21.15k	文本分类	社交媒体	CC0-1.0
Thai Food Recipe dataset v1.0	pythainlp/thai_food_v1.0	159	文本生成	书籍	CC0-1.0
thai-wiki-dataset-v3	pythainlp/thai-wiki-dataset-v3	194k	文本生成	网页内容	CC BY-SA 3.0
klongklon	pythainlp/klongklon	54k	文本生成	书籍	MIT License
Thai USembassy	pythainlp/thai_usembassy	615	翻译	新闻	CC0-1.0
Wongnai Reviews	wongnai_reviews	40k	文本分类	社交媒体	lgpl-3.0
Thai sentiment analysis dataset	thai-sentiment-analysis-dataset	341	文本分类	社交媒体	CC BY 4.0
Thai-English transliteration dictionary	thai-english-transliteration-dictionary	3860	翻译	书籍	CC BY 4.0
PRD News 30112023	pythainlp/prd_news_30112023	242k	文本生成	新闻	CC0-1.0
Aya Collection	CohereForAI/aya_collection	11.4k	文本生成	混合	Apache License 2.0

搜集汇总

数据集介绍

构建方式

WangchanX-FLAN-v6.1数据集的构建基于多个公开的自然语言处理任务数据集，涵盖了泰语文本生成、翻译、摘要、文本分类和问答等多个领域。通过整合来自不同来源的数据，如WangchanThaiInstruct、ultrachat_200k、han-instruct-dataset-v2.0等，数据集在FLAN-like框架下进行了统一处理，确保了数据格式的一致性和任务的多样性。构建过程中，每个数据集均标注了来源、任务类型、领域和许可信息，便于用户根据需求进行筛选和使用。

特点

WangchanX-FLAN-v6.1数据集的特点在于其广泛的覆盖范围和多样化的任务类型。数据集不仅包含了泰语文本生成任务，还涵盖了翻译、摘要、文本分类和问答等多种自然语言处理任务。每个数据集均标注了详细的元信息，包括来源、任务类型、领域和许可信息，便于用户快速定位所需数据。此外，数据集的规模庞大，训练集包含超过360万条样本，适用于大规模模型的训练和评估。

使用方法

使用WangchanX-FLAN-v6.1数据集时，用户可通过Hugging Face平台直接下载数据集，并利用其提供的FLAN-like框架进行模型训练和评估。数据集以标准化的格式存储，每条数据包含消息内容、角色、提示、来源、任务和领域等信息，便于用户根据具体任务进行数据预处理。此外，用户可参考数据集详情页面的README文件，了解每个子数据集的来源和许可信息，确保合规使用。

背景与挑战

背景概述

WangchanX-FLAN-v6.1数据集是由vistec-AI团队开发的一个专注于泰语自然语言处理任务的数据集集合。该数据集涵盖了多种任务，包括文本生成、翻译、摘要、文本分类和问答等。其创建旨在为泰语NLP研究提供丰富的资源，推动泰语语言模型的发展。数据集中的每个子集都标注了来源、任务类型、领域和许可信息，便于研究人员根据需求选择和使用。该数据集的构建反映了泰语NLP领域对高质量、多样化数据的需求，并为相关研究提供了重要的数据支持。

当前挑战

WangchanX-FLAN-v6.1数据集在解决泰语NLP任务时面临多重挑战。首先，泰语作为一种低资源语言，其语料库的稀缺性和多样性不足限制了模型的训练效果。其次，泰语的复杂语法结构和丰富的方言变体增加了数据标注和模型训练的难度。在数据集构建过程中，研究人员需要克服数据来源的分散性、标注一致性以及跨领域数据的整合问题。此外，确保数据集的多样性和代表性，同时遵守不同数据源的许可协议，也是构建过程中不可忽视的挑战。这些挑战共同构成了泰语NLP研究中的关键瓶颈。

常用场景

经典使用场景

WangchanX-FLAN-v6.1数据集在自然语言处理领域中被广泛应用于泰语文本生成任务。其丰富的文本数据涵盖了多种任务类型，如摘要生成、翻译、文本分类和问答系统等。研究人员和开发者可以通过该数据集训练和优化泰语语言模型，提升模型在泰语语境下的表现。

实际应用

在实际应用中，WangchanX-FLAN-v6.1数据集被广泛用于开发泰语智能助手、自动翻译系统和社交媒体情感分析工具。例如，基于该数据集训练的模型可以用于泰语新闻摘要生成，帮助用户快速获取关键信息；同时，它也被用于泰语-英语翻译系统的开发，提升了跨语言沟通的效率。

衍生相关工作

该数据集衍生了许多经典的自然语言处理研究工作，特别是在泰语语言模型领域。例如，基于WangchanX-FLAN-v6.1数据集的研究成果被应用于泰语文本生成模型的优化，推动了泰语语言模型的性能提升。此外，该数据集还为泰语情感分析和跨语言翻译任务提供了重要的数据支持，促进了相关领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集