five

t5gemma2-indonesia-chat-formatted

收藏
Hugging Face2026-05-03 更新2026-05-04 收录
下载链接:
https://huggingface.co/datasets/daruokta/t5gemma2-indonesia-chat-formatted
下载链接
链接失效反馈
官方服务:
资源简介:
T5Gemma-2 印尼语聊天与问答数据集是一个高质量的印尼语多轮对话和阅读理解数据集,专门为序列到序列(Seq2Seq)模型(如 T5-Gemma / T5-Gemma-2)的指令调优而设计。数据集包含超过 15,000 个多轮对话和基于文档的问答,涵盖日常生活、技术、常识和结构化文档分析等多样化主题。数据集已预先格式化为标准的 OpenAI/ChatML 消息列表,可直接用于微调。数据集结构分为三个子集:1. `chat_seed`:包含 1,030 个手动整理的多轮对话种子数据;2. `chat_full`:包含约 10,000 个扩展的多轮非正式和正式对话;3. `indoqa_documents`:包含约 4,000 个基于印尼语文档的阅读理解和事实问答示例。每个条目包含一个名为 `messages` 的列,其中是一个消息对象列表(`role` 和 `content` 字段)。数据集总样本量约为 15,000 个,语言为印尼语(Bahasa Indonesia),格式为标准 ChatML 字典列表(`role` 和 `content`),创建于 2026 年 5 月。

The T5Gemma-2 Indonesian Chat and QA Dataset is a high-quality Indonesian-language multi-turn dialogue and reading comprehension dataset specifically designed for instruction tuning of sequence-to-sequence (Seq2Seq) models such as T5-Gemma / T5-Gemma-2. The dataset contains over 15,000 multi-turn dialogues and document-based question answering (QA) samples, covering diverse topics including daily life, technology, common sense, and structured document analysis. The dataset has been pre-formatted as standard OpenAI/ChatML message lists and can be directly used for fine-tuning. The dataset is structured into three subsets: 1. `chat_seed`: Contains 1,030 manually curated multi-turn dialogue seed data; 2. `chat_full`: Contains approximately 10,000 expanded multi-turn informal and formal dialogues; 3. `indoqa_documents`: Contains approximately 4,000 reading comprehension and factual QA examples based on Indonesian-language documents. Each entry includes a column named `messages`, which is a list of message objects with `role` and `content` fields. The dataset has a total of approximately 15,000 samples, in Bahasa Indonesia, formatted as standard ChatML dictionary lists with `role` and `content` fields, and was created in May 2026.
创建时间:
2026-04-24
原始信息汇总

数据集概述:T5Gemma-2 Indonesian Chat & QA Dataset

该数据集是一个高质量的印尼语多轮对话与阅读理解数据集,专为序列到序列(Seq2Seq)模型的指令微调而设计,例如 T5-Gemma 和 T5-Gemma-2。

数据集信息

  • 语言:印尼语(Bahasa Indonesia)
  • 许可证:MIT
  • 任务类别:文本生成、问答
  • 数据集大小:10,000 < n < 100,000
  • 总样本数:约 15,000 条
  • 创建时间:2026年5月

数据集结构

数据集分为三个不同的子集:

  1. chat_seed:原始的 1,030 条人工精心策划的多轮对话种子数据。
  2. chat_full:约 10,000 条经过增强的多轮日常及正式对话数据。
  3. indoqa_documents:约 4,000 条基于印尼语文档的阅读理解与事实性问答示例。

每条数据包含一个名为 messages 的列,该列是一个消息对象列表,包含以下字段:

  • role:说话者角色(systemuserassistant)。
  • content:对话的实际文本。

数据划分

  • chat_full:训练集(chat_full/train-*)和验证集(chat_full/validation-*
  • chat_seed:仅训练集(chat_seed/train-*
  • indoqa_documents:训练集(indoqa_documents/train-*)和验证集(indoqa_documents/validation-*

数据格式

数据采用标准的 ChatML 格式,即字典列表(rolecontent),可直接用于微调。加载示例(需使用 Hugging Face datasets 库): python from datasets import load_dataset

加载完整对话数据集

ds_chat = load_dataset("daruokta/t5gemma2-indonesia-chat-formatted", "chat_full")

加载 IndoQA 阅读理解数据集

ds_qa = load_dataset("daruokta/t5gemma2-indonesia-chat-formatted", "indoqa_documents")

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集专为印尼语序列到序列模型的指令微调而设计,基于多轮对话与文档阅读理解两大核心任务进行构建。其构建路径清晰分为三个子集:首先,精心采集了1,030条人工策划的多轮对话作为种子数据,构成chat_seed子集;随后,通过数据增强技术将种子数据扩展至约10,000条涵盖日常与正式语境的对话,形成chat_full子集;同时,从印尼语文档中提取约4,000条阅读理解与事实问答实例,构建indoqa_documents子集。所有数据均采用标准ChatML格式,以包含system、user、assistant角色的消息列表形式存储,确保即插即用的微调体验。
特点
该数据集在印尼语自然语言处理领域展现出显著特色。其三子集架构设计精巧,种子数据保证了原始对话的多样性与自然性,增强数据通过规模化扩展提升了模型的泛化能力,而文档问答子集则引入了结构化信息检索的场景,共同覆盖日常交流与技术知识等广泛主题。数据集规模超过15,000条,采用标准化的消息列表格式,可直接适配OpenAI与ChatML兼容的模型接口,极大降低了微调前的预处理成本。此外,其语言专一性聚焦于印尼巴哈萨语,为低资源语言的对话系统与阅读理解模型提供了高质量的训练资源。
使用方法
使用Hugging Face datasets库可便捷地加载该数据集的任意子集。用户通过指定配置名称,如"chat_full"用于加载扩展对话数据,或"indoqa_documents"用于加载文档问答数据,即可获取训练与验证集。每个样本的messages字段包含一个由字典组成的列表,每个字典包含role和content键,分别标示发言角色与文本内容。开发者可将此格式直接输入至T5-Gemma等序列到序列模型中进行微调,无需额外格式化。该数据集已预先划分为训练与验证折,支持标准机器学习流程,且代码示例清晰展示了加载与打印数据的方法,降低了上手门槛。
背景与挑战
背景概述
在自然语言处理领域,针对低资源语言(如印度尼西亚语)的对话与问答数据集长期匮乏,这严重制约了序列到序列模型在该语言上的指令微调效果。T5Gemma-2 Indonesian Chat & QA Dataset由研究者daruokta于2026年5月创建,核心目标是为印尼语多轮对话与文档阅读理解提供高质量训练资源。该数据集包含超过15,000条精心构建的样本,涵盖日常聊天、技术讨论、知识问答及结构化文档分析等多元主题,并采用标准ChatML格式组织,显著降低了Seq2Seq模型(如T5-Gemma)在印尼语场景下的微调门槛。其发布填补了印尼语指令微调数据集的空白,对推动东南亚语言模型的本地化发展具有重要影响力。
当前挑战
该数据集所解决的领域挑战在于印尼语对话系统的数据稀缺问题:不同于英语等资源丰富语言,印尼语缺乏大规模、高质量的多轮对话标注数据,导致模型在该语言上的语义理解与生成能力薄弱。在构建过程中,研究者面临双重挑战:一是初始种子数据(chat_seed)仅含1,030条人工对话,数量不足且覆盖主题有限,需依赖数据增强技术扩展至约10,000条(chat_full),这要求确保增强样本的语义一致性与文化适配性;二是从印尼语文档中提取问答对(indoqa_documents)时,需克服文档结构多样性与知识粒度不一致的难题,以生成符合ChatML格式的准确问答实例。
常用场景
经典使用场景
在自然语言处理与生成式人工智能的浪潮中,低资源语言的高质量指令微调数据集始终是制约模型性能提升的瓶颈。t5gemma2-indonesia-chat-formatted数据集专为印度尼西亚语的序列到序列模型设计,其最经典的使用场景在于对T5-Gemma系列模型进行指令微调。通过提供超过一万五千条精心编排的多轮对话与文档问答样本,该数据集使模型能够掌握印尼语的对话逻辑与事实性知识追溯能力,从而在文本生成与阅读理解任务上实现精准的语义对齐与流畅的上下文交互。
实际应用
在实际应用层面,该数据集为印尼语智能客服系统、教育辅导机器人、文档自动化检索助手等产品的快速落地铺平了道路。企业可以基于chat_full子集训练具备日常闲聊与技术支持能力的虚拟助理,而indoqa_documents子集则赋能法律、医疗或金融领域的文本自动答疑系统,使用户能够从冗长的印尼语专业文档中迅速提取关键事实信息,显著提升信息获取效率与服务质量。
衍生相关工作
该数据集的发布催生了多项衍生研究工作,包括基于chat_seed种子数据探索少样本学习策略对多轮对话效果的提升,以及利用indoqa_documents构建印尼语机器阅读理解评测基准。此外,研究者将其与跨语言知识蒸馏框架结合,验证了T5-Gemma架构在低资源语言上的适配性,并围绕chat_full扩展数据开展了数据增强方法对比实验,形成了关于印尼语指令微调数据规模与对话质量之间关系的一系列实证分析成果。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作