five

SEA-Dataset

收藏
Hugging Face2025-09-05 更新2025-09-06 收录
下载链接:
https://huggingface.co/datasets/kreasof-ai/SEA-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
SEA-Dataset 是一个大规模、多语言和基于指令的数据集,由 Kreasof AI 整理。它结合了超过 27 个高质量、公开可用的数据集,特别注重增强东南亚 (SEA) 语言的表现。此数据集旨在训练和微调大型语言模型 (LLM),使其在推理、数学、编码和多语言任务等各个领域更具能力,同时也能更好地包容代表性不足的语言。
创建时间:
2025-09-03
原始信息汇总

SEA-Dataset 数据集概述

数据集基本信息

  • 数据集名称: SEA-Dataset
  • 维护机构: Kreasof AI
  • 数据集地址: https://huggingface.co/datasets/kreasof-ai/SEA-Dataset
  • 语言: 印尼语、马来语、泰语、越南语、他加禄语、巽他语、爪哇语、高棉语、英语
  • 任务类别: 文本生成
  • 规模分类: 1000万到1亿样本

数据集目标

该数据集旨在汇编多样化、高质量的开源数据用于大语言模型训练,重点解决现有数据集中的语言不平衡问题,积极纳入并筛选东南亚语言。

数据集组成

数据集整合了超过27个高质量公开数据集,重点关注增强东南亚语言的代表性。包含9个配置子集:

配置详情

  • chat: 1,728,312个样本,4,384,159,291字节
  • coding: 3,090,811个样本,22,653,595,704字节
  • finance: 518,183个样本,546,260,509字节
  • math: 1,448,793个样本,32,155,109,489字节
  • medical: 2,220,891个样本,19,358,419,790字节
  • multilingual: 41,605,657个样本,32,502,444,941字节
  • reasoning: 1,385,386个样本,27,154,586,713字节
  • science: 3,105,606个样本,32,791,025,894字节
  • translation: 33,371,863个样本,32,149,230,144字节

数据来源

推理、聊天和通用指令

  • NousResearch/Hermes-3-Dataset
  • open-thoughts/OpenThoughts3-1.2M
  • lmarena-ai/arena-human-preference-140k
  • Jackrong/gpt-oss-120B-distilled-reasoning
  • voidful/reasoning_gemini_300k
  • Jackrong/Qwen3-235B-A22B-Instruct-2507-Distilled-chat
  • Delta-Vector/Orion-Creative_Writing-Complexity
  • BAAI/Infinity-Instruct

数学

  • nvidia/Nemotron-Post-Training-Dataset-v1(数学部分)
  • nvidia/Nemotron-Post-Training-Dataset-v2(数学部分)

编程与网络安全

  • nvidia/Nemotron-Post-Training-Dataset-v2(代码部分)
  • Jackrong/qwen3-coder-480b-distill-mini
  • Trendyol/Trendyol-Cybersecurity-Instruction-Tuning-Dataset
  • nvidia/OpenCodeReasoning
  • nvidia/OpenCodeInstruct

科学

  • MegaScience/MegaScience
  • nvidia/OpenScienceReasoning-2

医疗

  • FreedomIntelligence/medical-o1-reasoning-SFT
  • Intelligent-Internet/II-Medical-Reasoning-SFT
  • Amod/mental_health_counseling_conversations
  • miriad/miriad-4.4M

金融

  • Josephgflowers/Finance-Instruct-500k

多语言与东南亚语言

  • FreedomIntelligence/evol-instruct-indonesian
  • CohereLabs/aya_dataset
  • ServiceNow-AI/M2Lingual
  • almanach/topxgen-gemma-3-27b-and-nllb-3.3b(筛选巽他语)
  • CohereLabs/xP3x(筛选东南亚语言)
  • CohereLabs/aya_collection_language_split(筛选东南亚语言)

数据结构

数据字段

  • conversations: 对话列表,包含角色(user或assistant)和内容
  • num_tokens: 对话中的总令牌数
  • json_metadata: JSON格式元数据,包含来源和许可证信息

数据格式示例

json { "conversations": [ {"role": "user", "content": "Hello, can you tell me about the capital of France?"}, {"role": "assistant", "content": "Of course! The capital of France is Paris."} ], "num_tokens": 19, "json_metadata": "{"source": "NousResearch/Hermes-3-Dataset", "license": "apache-2.0"}" }

精简版本

提供精简版本 kreasof-ai/SEA-Dataset-Lite:

  • 每个样本最多1024个令牌
  • 每个子集最多50,000个样本
  • 总共450,000个样本

使用方式

python from datasets import load_dataset dataset = load_dataset("kreasof-ai/SEA-Dataset", "math", split="train")

许可声明

每个数据点继承其原始源数据集的许可证,具体许可信息可在json_metadata列中查看。

搜集汇总
数据集介绍
main_image_url
构建方式
SEA-Dataset的构建采用了多源数据集融合策略,通过系统整合27个高质量开源数据集形成基础语料库。构建过程中特别注重东南亚语言的代表性,采用语言过滤技术从xP3x和aya_dataset等大规模多语数据集中精准提取印尼语、巽他语等东南亚语言样本。所有数据均经过标准化处理,统一转换为对话格式,并保留原始数据集的元数据信息以确保溯源透明度。
特点
该数据集最显著的特征在于其多维度领域覆盖与语言多样性。内容涵盖数学推理、编程、金融、医学、科学等九个专业领域,每个领域均构成独立子集。语言方面突破英语主导格局,包含印尼语、马来语、泰语等十种东南亚语言,特别强化了巽他语等稀缺语言的表征。数据集规模达到千万级样本量,其中multilingual子集包含4160万条多语对话,为东南亚语言NLP研究提供了前所未有的资源支撑。
使用方法
研究人员可通过Hugging Face datasets库按需加载特定领域子集,使用config_name参数指定chat、coding等九类专业配置。每个样本均以标准化对话格式呈现,包含角色标注的对话序列、词汇量统计及来源元数据。为满足不同计算需求,另提供精简版SEA-Dataset-Lite,所有样本限制在1024词汇以内且各子集上限5万条,可通过独立仓库地址调用。使用前需注意核查原始数据集许可协议。
背景与挑战
背景概述
SEA-Dataset由Kreasof AI团队于2025年构建,旨在解决大语言模型在东南亚语言表示不足的核心问题。该数据集整合了27个高质量开源数据集,覆盖数学推理、代码生成、医疗咨询等多元领域,特别强化了印尼语、巽他语等东南亚语言的语料覆盖。通过跨领域多语言数据的系统整合,该数据集显著提升了模型在低资源语言区的性能表现,为促进语言技术的全球公平性提供了重要基础设施。
当前挑战
该数据集致力于解决多语言大模型在东南亚低资源语言领域存在的性能鸿沟问题,其构建过程面临双重挑战:在领域问题层面,需克服东南亚语言语法结构多样性、文化语境差异性以及专业术语标准化缺失等语言学障碍;在技术实施层面,涉及27个异构数据源的格式统一、质量校验及版权合规性管理,同时要确保低资源语言语料在数亿级数据规模下的有效筛选与平衡分布。
常用场景
经典使用场景
在自然语言处理领域,SEA-Dataset作为多语言指令微调数据集,广泛应用于大语言模型的跨领域能力训练。其对话式数据结构和多领域划分特性,使其成为训练具备推理、数学计算、代码生成等多任务能力的语言模型的理想选择,特别是在东南亚语言资源稀缺的背景下,该数据集为提升模型在低资源语言上的表现提供了重要支撑。
解决学术问题
该数据集有效解决了自然语言处理中多语言模型训练数据不均衡的学术难题,特别是针对东南亚语言资源匮乏的问题。通过整合27个高质量开源数据集并强化东南亚语言覆盖,它为研究多语言模型的跨语言迁移能力、低资源语言理解与生成提供了标准基准,推动了语言模型在语言学公平性和文化多样性方面的研究进展。
衍生相关工作
基于SEA-Dataset衍生出了一系列重要研究成果,包括多语言指令微调框架的优化、低资源语言模型性能提升方法等。该数据集启发了对东南亚语言特性建模的深入研究,促进了如语言适应技术、跨领域知识迁移等创新方向的发展,为后续多语言大模型的研究提供了重要数据支撑和实验平台。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作