five

WangchanX-FLAN-v6.1

收藏
Hugging Face2024-10-04 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/airesearch/WangchanX-FLAN-v6.1
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个为自然语言处理任务设计的精选数据集集合,专注于泰语应用。这些数据集涵盖了摘要、翻译、文本生成、文本分类和问答等多种任务。每个数据集都附有其来源、大小、任务类型、领域和许可信息,便于用户识别和使用最适合其需求的数据集。

This is a curated collection of datasets designed for natural language processing (NLP) tasks, with a primary focus on Thai-language applications. These datasets cover a diverse range of tasks including summarization, translation, text generation, text classification, and question answering. Each dataset is accompanied by its source, size, task type, domain, and license information, enabling users to efficiently identify and utilize the most suitable datasets for their specific needs.
提供机构:
VISTEC-depa AI Research Institute of Thailand
创建时间:
2024-10-03
原始信息汇总

WangchanX-FLAN-v6.1 数据集概述

数据集信息

特征

  • messages:
    • content: 字符串类型
    • role: 字符串类型
  • prompt: 字符串类型
  • source: 字符串类型
  • task: 字符串类型
  • domain: 字符串类型
  • license: 字符串类型

数据分割

  • train:
    • 字节数: 13,926,054,311
    • 样本数: 3,619,450

数据大小

  • 下载大小: 5,699,177,451 字节
  • 数据集大小: 13,926,054,311 字节

配置

  • config_name: default
    • data_files:
      • split: train
      • path: data/train-*

数据集详情

该数据集是一个为自然语言处理任务设计的精选数据集集合,专注于泰语应用。涵盖的任务包括摘要、翻译、文本生成、文本分类和问答。每个数据集都附有其来源、大小、任务和许可信息,便于用户识别和使用最适合其需求的数据集。

数据集名称 来源 数量 (行) 任务 领域 许可
WangchanThaiInstruct airesearch/WangchanThaiInstruct_7.24 12.2k 文本生成 混合 CC BY-SA 4.0
ultrachat_200k HuggingFaceH4/ultrachat_200k 200k 文本生成 混合 MIT License
han-instruct-dataset-v2.0 pythainlp/han-instruct-dataset-v2.0 3.2k 文本生成 混合 CC BY-SA 4.0
iapp_wiki_qa_squad iapp/iapp_wiki_qa_squad 5.7k 问答 网页内容 MIT License
math_50k AGI-Edgerunners/LLM-Adapters 49.6k 文本生成 混合 Apache License 2.0
commonsense_170k AGI-Edgerunners/LLM-Adapters 166k 文本生成 混合 Apache License 2.0
wangchanglm pythainlp/final_training_set_v1 309k 文本生成 混合 Apache License 2.0, MIT License, CC BY-SA 4.0
tiny-code nampdn-ai/tiny-codes 364k 文本生成 混合 MIT License
flanV2 SirNeural/flan_v2 96k 文本生成 混合 Apache License 2.0
cotV2 SirNeural/flan_v2 364k 文本生成 混合 Apache License 2.0
alt mutiyama/alt 18k 翻译 混合 CC BY 4.0
ThaiSum thaisum 359k 摘要 新闻 MIT License
scb-mt-en-th-2020 scb_mt_enth_2020 801k 翻译 混合 CC BY-SA 4.0
xP3x CohereForAI/xP3x 299k 其他 混合 Apache License 2.0
Open-Platypus garage-bAInd/Open-Platypus 18.3k 其他 混合 多重许可
Wisesight Sentiment Corpus wisesight_sentiment 21.15k 文本分类 社交媒体 CC0-1.0
Thai Food Recipe dataset v1.0 pythainlp/thai_food_v1.0 159 文本生成 书籍 CC0-1.0
thai-wiki-dataset-v3 pythainlp/thai-wiki-dataset-v3 194k 文本生成 网页内容 CC BY-SA 3.0
klongklon pythainlp/klongklon 54k 文本生成 书籍 MIT License
Thai USembassy pythainlp/thai_usembassy 615 翻译 新闻 CC0-1.0
Wongnai Reviews wongnai_reviews 40k 文本分类 社交媒体 lgpl-3.0
Thai sentiment analysis dataset thai-sentiment-analysis-dataset 341 文本分类 社交媒体 CC BY 4.0
Thai-English transliteration dictionary thai-english-transliteration-dictionary 3860 翻译 书籍 CC BY 4.0
PRD News 30112023 pythainlp/prd_news_30112023 242k 文本生成 新闻 CC0-1.0
Aya Collection CohereForAI/aya_collection 11.4k 文本生成 混合 Apache License 2.0
搜集汇总
数据集介绍
main_image_url
构建方式
WangchanX-FLAN-v6.1数据集的构建基于多个公开的自然语言处理任务数据集,涵盖了泰语文本生成、翻译、摘要、文本分类和问答等多个领域。通过整合来自不同来源的数据,如WangchanThaiInstruct、ultrachat_200k、han-instruct-dataset-v2.0等,数据集在FLAN-like框架下进行了统一处理,确保了数据格式的一致性和任务的多样性。构建过程中,每个数据集均标注了来源、任务类型、领域和许可信息,便于用户根据需求进行筛选和使用。
特点
WangchanX-FLAN-v6.1数据集的特点在于其广泛的覆盖范围和多样化的任务类型。数据集不仅包含了泰语文本生成任务,还涵盖了翻译、摘要、文本分类和问答等多种自然语言处理任务。每个数据集均标注了详细的元信息,包括来源、任务类型、领域和许可信息,便于用户快速定位所需数据。此外,数据集的规模庞大,训练集包含超过360万条样本,适用于大规模模型的训练和评估。
使用方法
使用WangchanX-FLAN-v6.1数据集时,用户可通过Hugging Face平台直接下载数据集,并利用其提供的FLAN-like框架进行模型训练和评估。数据集以标准化的格式存储,每条数据包含消息内容、角色、提示、来源、任务和领域等信息,便于用户根据具体任务进行数据预处理。此外,用户可参考数据集详情页面的README文件,了解每个子数据集的来源和许可信息,确保合规使用。
背景与挑战
背景概述
WangchanX-FLAN-v6.1数据集是由vistec-AI团队开发的一个专注于泰语自然语言处理任务的数据集集合。该数据集涵盖了多种任务,包括文本生成、翻译、摘要、文本分类和问答等。其创建旨在为泰语NLP研究提供丰富的资源,推动泰语语言模型的发展。数据集中的每个子集都标注了来源、任务类型、领域和许可信息,便于研究人员根据需求选择和使用。该数据集的构建反映了泰语NLP领域对高质量、多样化数据的需求,并为相关研究提供了重要的数据支持。
当前挑战
WangchanX-FLAN-v6.1数据集在解决泰语NLP任务时面临多重挑战。首先,泰语作为一种低资源语言,其语料库的稀缺性和多样性不足限制了模型的训练效果。其次,泰语的复杂语法结构和丰富的方言变体增加了数据标注和模型训练的难度。在数据集构建过程中,研究人员需要克服数据来源的分散性、标注一致性以及跨领域数据的整合问题。此外,确保数据集的多样性和代表性,同时遵守不同数据源的许可协议,也是构建过程中不可忽视的挑战。这些挑战共同构成了泰语NLP研究中的关键瓶颈。
常用场景
经典使用场景
WangchanX-FLAN-v6.1数据集在自然语言处理领域中被广泛应用于泰语文本生成任务。其丰富的文本数据涵盖了多种任务类型,如摘要生成、翻译、文本分类和问答系统等。研究人员和开发者可以通过该数据集训练和优化泰语语言模型,提升模型在泰语语境下的表现。
实际应用
在实际应用中,WangchanX-FLAN-v6.1数据集被广泛用于开发泰语智能助手、自动翻译系统和社交媒体情感分析工具。例如,基于该数据集训练的模型可以用于泰语新闻摘要生成,帮助用户快速获取关键信息;同时,它也被用于泰语-英语翻译系统的开发,提升了跨语言沟通的效率。
衍生相关工作
该数据集衍生了许多经典的自然语言处理研究工作,特别是在泰语语言模型领域。例如,基于WangchanX-FLAN-v6.1数据集的研究成果被应用于泰语文本生成模型的优化,推动了泰语语言模型的性能提升。此外,该数据集还为泰语情感分析和跨语言翻译任务提供了重要的数据支持,促进了相关领域的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作